CN109598781B - 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 - Google Patents

通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 Download PDF

Info

Publication number
CN109598781B
CN109598781B CN201811156884.4A CN201811156884A CN109598781B CN 109598781 B CN109598781 B CN 109598781B CN 201811156884 A CN201811156884 A CN 201811156884A CN 109598781 B CN109598781 B CN 109598781B
Authority
CN
China
Prior art keywords
pseudo
frame
vertices
coordinates
testing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811156884.4A
Other languages
English (en)
Other versions
CN109598781A (zh
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN109598781A publication Critical patent/CN109598781A/zh
Application granted granted Critical
Publication of CN109598781B publication Critical patent/CN109598781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种用于从训练图像中的2D边界框获取伪3D框的方法。该方法包括以下步骤:(a)计算装置获取包括由2D边界框界定的对象的训练图像;(b)计算装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取伪3D框的顶点的2D坐标的过程;以及(c)计算装置通过反向传播通过参考(i)所获取的伪3D框的顶点的2D坐标与对应于伪3D框的地面真值的2D坐标之间的差异以及(ii)分类的伪3D朝向与对应于伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息来调节其参数。

Description

通过回归分析从2D边界框获取伪3D框的方法以及使用该方法 的学习装置和测试装置
技术领域
本发明涉及一种通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置。更具体地,涉及一种用于从训练图像中的2D边界框获取伪3D框的方法以及使用该方法的学习装置和测试装置,该方法包括以下步骤:(a)获取包括由2D边界框界定的对象的训练图像;(b)执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取伪3D框的顶点的2D坐标的过程;(c)通过反向传播通过参考(i)所获取的伪3D框的顶点的2D坐标与对应于伪3D框的地面真值的2D坐标之间的差异以及(ii)分类的伪3D朝向与对应于伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息来调节CNN的参数。
背景技术
自动驾驶汽车是能够在没有人的输入的情况下感测其环境并且导航的车辆。自动驾驶汽车使用诸如雷达、激光、GPS、测距和计算机视觉的各种技术来检测周围环境。
通过使用计算机视觉从二维(2D)单目图像估计三维(3D)信息是诸如自动驾驶和个人机器人的应用中的重要任务。通常,创建用于界定图像中的对象的2D框,然后从2D框构造3D模型。
为了找到用于界定对象的2D框,传统技术通常使用基于模板的方法。用于创建2D框的传统方法之一是滑动窗口(sliding windows)法。该方法以不同的范围在整个图像上重复地滑动类似窗口的框,并检测类似窗口的框内的每个对象。也就是说,由于图像中的对象可以具有非常不同的尺寸或范围,因此将图像按比例缩小若干次并且再次在图像上滑动类似窗口的框以找到不同尺寸的对象。
其他传统方法中的一种是锚箱(anchor box)法。在该方法中,各种锚箱集中在某个位置,并且通过使用回归分析确定各种锚箱中的具有最高概率(例如,与地面真值对象重叠的区域最大)的锚箱。
然后,从确定的锚箱构造3D边界框,但是,存在限制。第一,3D边界框可以具有六个表面,并且六个表面中的三个表面可能需要穷举搜索。第二,在使用单个模板来确定3D边界框的三个表面的情况下,精度可能较低,因为回归的边界条件可能随着对象的3D朝向改变而变化。第三,获取3D边界框的传统方法需要很多计算资源。例如,匹配长方体模板或体素(voxel)以找到3D边界框需要大量的计算时间。
因此,本发明提出了一种用于消除这种冗余计算并提高检测精度的新方法。
发明内容
本发明的一个目的是解决所有上述问题。
本发明的另一个目的是通过使用伪3D框来简化用于限定3D对象的3D边界框。
本发明的又一个目的是通过使用伪3D框的顶点的2D坐标来减少计算时间和资源。
根据本发明的一个方面,提供了一种用于从训练图像中的2D边界框获取伪3D框的方法,包括以下步骤:(a)学习装置获取或支持另一装置获取包括由2D边界框界定的对象的训练图像;(b)学习装置执行或支持另一装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取伪3D框的顶点的2D坐标的过程;(c)通过反向传播通过参考(i)所获取的伪3D框的顶点的2D坐标与对应于伪3D框的地面真值的2D坐标之间的差异以及(ii)分类的伪3D朝向与对应于伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数。
根据本发明的另一方面,提供了一种用于获取界定测试图像中的对象的伪3D框的方法,包括以下步骤:
(a)在以下条件下测试装置获取或支持另一装置获取测试图像,该测试图像包括由用于测试的2D边界框界定的用于测试的对象:(i)学习装置获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2D边界框界定的用于训练的对象;(ii)学习装置执行或支持另一装置执行(ii-1)通过参考与伪3D朝向的各个模式相对应的概率的信息来对用于训练的对象的伪3D朝向进行分类的过程以及(ii-2)通过使用回归分析获取用于训练的伪3D框的顶点的2D坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3D框的顶点的2D坐标与对应于用于训练的伪3D框的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的伪3D朝向与对应于用于训练的伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数;
(b)测试装置执行或支持另一装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3D框的顶点的2D坐标的过程。
根据本发明的又一方面,提供了一种用于从训练图像中的2D边界框获取伪3D框的学习装置,包括:通信部,用于获取或支持另一装置获取包括由2D边界框界定的对象的训练图像;以及处理器,用于执行或支持另一装置执行:(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对对象的伪3D朝向进行分类的过程;(ii)通过使用回归分析获取伪3D框的顶点的2D坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的伪3D框的顶点的2D坐标与对应于伪3D框的地面真值的2D坐标之间的差异以及(iii-2)分类的伪3D朝向与对应于伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息来调节其参数的过程。
根据本发明的又一方面,提供了一种用于获取界定测试图像中的对象的伪3D框的测试装置,包括:通信部,用于在以下条件下获取或支持另一装置获取包括由用于测试的2D边界框界定的用于测试的对象的测试图像:(i)学习装置获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2D边界框界定的用于训练的对象;(ii)学习装置执行或支持另一装置执行(ii-1)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于训练的对象的伪3D朝向进行分类的过程和(ii-2)通过使用回归分析获取用于训练的伪3D框的顶点的2D坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3D框的顶点的2D坐标与对应于用于训练的伪3D框的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的伪3D朝向与对应于用于训练的伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数;以及处理器,用于执行或支持另一装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3D框的顶点的2D坐标的过程。
附图说明
通过下面结合附图对优选实施例的描述,本发明的上述和其它目的和特征将变得显而易见,其中:
图1是示出根据本发明的一个示例实施例的用于从训练图像中的2D边界框获取伪3D框的学习装置的配置的图;
图2是示意性地示出根据本发明的一个示例实施例的包括能够从训练图像获取伪3D框的卷积神经网络(CNN)的学习装置的配置的图;
图3是简要示出根据本发明的一个示例实施例的学习装置从训练图像中的2D边界框获取伪3D框的流程的图;
图4是简要示出根据本发明的一个示例实施例的从2D边界框获取伪3D框的顶点的坐标的方法的图;
图5是简要示出根据本发明的一个示例实施例的从2D边界框获取伪3D框的顶点的坐标的另一种方法的图;
图6是示出根据本发明另一示例实施例的用于从测试图像中的2D边界框获取伪3D框的测试装置的配置的图;
图7是示意性地示出根据本发明的一个示例实施例的用于估计与对象的伪3D朝向的模式(pattern)对应的概率的对象(例如,车辆)的伪3D朝向的模式的图。
具体实施方式
在以下详细描述中,参考了附图,附图通过图示的方式示出了可以实践本发明的具体实施例。充分详细地描述了这些实施例,以使本领域技术人员能够实践本发明。应该理解,本发明的各种实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,在几个视图中相同的附图标记表示相同或相似的功能。
图1是示出根据本发明的用于从包括至少一个对象的训练图像中的2D边界框获取伪3D框的学习装置100的配置的图。这里,伪3D框和2D边界框可以紧密地形成对象的边界。此外,学习装置100可以被划分为若干装置以执行其功能,然而,为了方便起见,本说明书将学习装置100描述为实施为单个装置。根据本发明的学习装置100可以包括卷积层、区域候选网络(region proposal network,RPN)和全连接(FC)层等的部分。
参考图1,用于从训练图像中的2D边界框获取伪3D框的学习装置100包括通信部110和处理器120。尽管图1示出了学习装置100外部的数据库130,但学习装置100也可以包括数据库130。
通信部110可以向外部装置发送数据和从外部装置接收数据或在内部组件之间发送数据和接收数据。具体地,通信部110可以获取训练图像。
图2示出了用于获取2D边界框和伪3D框的学习装置100中包括的CNN的配置。CNN中的第一部分201被配置为获取训练图像中的2D边界框,并且CNN中的第二部分202被配置为从2D边界框获取伪3D框。
第一部分201可以包括卷积层210、RPN 220、池化层230和两个FC层240和245。这里,卷积层210可以从训练图像创建至少一个特征图。此外,FC层240和245可以分别执行对象分类和边框回归(box regression)。
第二部分202可以包括池化层250和其他两个FC层260和265。这里,FC层260和265可以分别执行朝向分类和位移回归。
作为另一示例,FC层240和245可以实现为单个FC层,并且FC层260和265也可以实现为单个FC层。实线箭头可指示向下流动,虚线箭头可指示反向传播的向上流动。
参考图2,可以将训练图像输入到卷积层210中,然后可以将从其输出的特征图输入到RPN 220中。然后,可以从RPN 220中输出关于训练图像的感兴趣区域(ROI)的信息。关于ROI的信息可以被馈送到第一部分201中的池化层230和第二部分202中的池化层250。
首先,池化层230可以执行池化,其可以是最大池化,并且可以输出可被馈送到两个FC层240和245的池化特征图。FC层240可以输出关于对象分类的信息,例如关于对象是否是车辆的信息,FC层245可以输出关于2D边界框的边框回归的信息,例如关于2D边界框的顶点的坐标的信息。
其次,可以通过参考FC层240的结果来过滤要从RPN 220馈送到池化层250的输入,然后将其馈送到池化层250。即,要从RPN 220馈送到池化层250的输入可以是关于在ROI的信息中选择的特定ROI的信息。通过参考从FC层240得到的关于类(例如,车辆)的信息来选择关于特定ROI的信息。
池化层250可以执行平均池化,并且其结果可以被馈送到两个FC层260和265。
同时,关于来自第一部分201中的FC层245的边框回归的信息可以被馈送到第二部分202中的FC层265。
因此,FC层260可以输出关于朝向分类的信息,例如,关于车辆面向哪个伪3D朝向的信息,其通过使用关于池化层250的输出的信息计算。此外,FC层265可以输出关于位移回归的信息,例如,关于伪3D框的顶点的2D坐标的信息,其通过使用关于池化层250的输出的信息和关于从FC层245获取的2D边界框的边框回归的信息计算。来自FC层260和265的这些结果可以用于构建伪3D框。
这里,视情况而定,第一部分201可以不包括在学习装置100中。也就是说,另一装置中的第一部分201可以从训练图像获取关于2D边界框的信息。然后,学习装置100可以从所述另一装置接收已经包括关于2D边界框的信息的训练图像(即,所谓的修正的训练图像)。
如果是这种情况,则第二部分202可以在池化层250之前包括卷积层(未示出),以获取要输入到池化层250的特征图。此外,输入到RPN 220的特征图可以由池化层250使用,但这不是必要条件。
图3是示出根据本发明的一个示例实施例的学习装置100从训练图像中的2D边界框获取伪3D框的流程的流程图。
作为第一过程,在步骤S310,通信部110获取或支持另一装置获取修正的训练图像,即,包括由2D边界框界定的对象的训练图像。修正的训练图像可以包括具有背景以及对象的整个图像,或者包括被裁剪为仅具有在2D边界框内的对象的部分图像。
作为第二过程,处理器120应用或支持另一装置应用卷积运算于修正的训练图像从而获取特征图,然后应用或支持另一装置应用池化运算于特征图从而获取池化特征图。此后,如上所述,将池化特征图馈送到两个FC层260和265。作为参考,第二过程未在图3中示出。
作为第三过程,在步骤S320的步骤(A),通过参考与存储在数据库130中的伪3D朝向的各个模式相对应的估计概率的信息,处理器120指示FC层260执行对对象的伪3D朝向进行分类的过程。参考图7,这些模式可以表示对象(例如,车辆)的在(A)的情况下的后面、在(B)的情况下的右后面、在(C)的情况下的右面、在(D)的情况下的右前面、在(E)的情况下的前面、在(F)的情况下的左前面、在(G)的情况下的左面以及在(H)的情况下的左后面。例如,图4中的车辆可以被分类为具有对应于右前面的朝向(orientation)的模式。此外,在步骤S320的步骤(B),处理器120通过使用回归分析指示FC层265获取关于伪3D框的顶点的2D坐标的信息。这里,对伪3D朝向的所有模式执行回归分析。此外,可以在获取伪3D框的顶点的2D坐标之前执行对伪3D朝向的分类。
作为第四过程,在步骤S330,通过反向传播通过参考(i)所获取的伪3D框的顶点的2D坐标与对应于伪3D框的地面真值的2D坐标之间的差异以及(ii)分类的伪3D朝向与对应于伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,处理器120调节或支持另一装置调节CNN的参数。这里,对应于伪3D框的地面真值的2D坐标可以是假定紧密地形成对象的边界的3D框的顶点的2D坐标。此外,反向传播的信息可以包括表示各个(i)伪3D朝向的模式的每一个和其对应的通过使用回归分析计算的2D坐标与(ii)地面真值的伪3D朝向和2D坐标之间的差异的损失。
图4是简要示出根据本发明的一个示例实施例的一种获取坐标的方法的图。图4示出了带有虚线的2D边界框,其紧密地形成对象的边界;以及带有实线的伪3D框,其具有通过回归获取坐标的顶点。
参考图4,处理器120通过使用回归分析执行或支持另一装置执行根据2D边界框的顶点计算伪3D框的顶点的各个位移的过程。这里,可以反向传播关于伪3D框的顶点与对应于伪3D框的地面真值之间的差异的信息,以调节CNN的参数。
更具体地,处理器120确定或支持另一装置确定2D边界框的顶点V1及其对角顶点V2作为伪3D框的两个顶点P1和P8。然后,处理器120使用回归分析根据P1和P8计算或支持另一装置计算两个顶点P4和P5(它们不与2D边界框的虚线所示的线段接触)的位移。这里,位移可以平行于2D边界框的线段。坐标P4和P5可以分别从P1和P8的位移直接计算,其余顶点P2、P3、P6和P7的坐标可以从P4和P5的坐标推导出。
图5是简要示出根据本发明的一个示例实施例的获取坐标的另一种方法的图。图5示出了2D边界框的中心以及对应于伪3D框的第一表面的第一目标2D框和对应于与第一表面相反的第二表面的第二目标2D框的两个可能的中心。
参考图5,处理器120执行或支持另一装置执行根据2D边界框的中心计算第一矢量以确定第一矢量的终点作为第一目标2D框的中心以及根据2D边界框的中心计算第二矢量以确定第二矢量的终点作为第二目标2D框的中心的过程。两个目标2D框的这两个中心点通过回归分析获取。第一目标2D框具有作为顶点的P5、P6、P7和P8,第二目标2D框具有作为顶点的P1、P2、P3和P4。处理器120还执行或支持另一装置执行计算第一目标2D框的宽度与2D边界框的宽度、第二目标2D框的宽度与2D边界框的宽度、第一目标2D框的高度与2D边界框的高度、第二目标2D框的高度与2D边界框的高度的比率的过程。例如,获取(i)由P7至P8的双向箭头表示的第一目标2D框的宽度与(ii)由另一个较长的双向箭头表示的2D边界框的宽度的比率。这些比率也可以通过回归分析获得。处理器120还执行或支持另一装置执行通过参考位移和比率来计算P1、P2、P3、P4、P5、P6、P7和P8的坐标的过程。这里,P1是2D边界框的顶点,P8与P1对角,也是2D边界框的顶点。此外,P4和P5不与2D边界框的线段接触。也就是说,如果已知P1、P4、P5和P8的坐标,则从中推导出其余顶点的坐标是很容易的。这里,也可以反向传播关于伪3D框的顶点与对应于伪3D框的地面真值之间的差异的信息,以调节CNN的参数。
图6示出了用于从测试图像中的2D边界框获取伪3D框的测试装置。
参考图6,测试装置600可以包括通信部610、处理器620。测试装置600还可以包括数据库630,类似于数据库130的情况。
测试装置600可以被划分为若干装置以执行其功能,然而,为了方便起见,本说明书将测试装置600描述为实施为单个装置。
根据本发明的测试装置600可以包括卷积层、RPN和FC层等的部分。
这里,形容词短语“用于训练的”描述了用于说明学习装置100的概念,并且与用于说明测试装置600的“用于测试的”相对应。为方便起见,在上述说明中省略了形容词短语“用于训练的”。
详细地,通信部610可以在以下条件下获取或支持另一装置获取包括由用于测试的2D边界框界定的用于测试的对象的测试图像:(i)学习装置100获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2D边界框界定的用于训练的对象;(ii)学习装置100执行或支持另一装置执行(ii-1)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于训练的对象的伪3D朝向进行分类的过程和(ii-2)通过使用回归分析获取用于训练的伪3D框的顶点的2D坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3D框的顶点的2D坐标与对应于用于训练的伪3D框的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的伪3D朝向与对应于用于训练的伪3D朝向的地面真值之间的差异确定的信息,学习装置100调节或支持另一装置调节其参数。
此外,处理器620可以执行或支持另一装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的对象的伪3D朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3D框的顶点的2D坐标的过程。这里,可以仅针对伪3D朝向的一个模式执行用于测试的伪3D框的顶点的2D坐标的回归分析。
其余的过程被省略,因为描述大致相同,除了通过反向传播调节参数,而这对于测试来说不是必要的。
根据本发明的一个方面,具有简化用于表示3D对象的3D模型的效果。
根据本发明的另一方面,通过最小化确定边界框的顶点的坐标所需的计算,具有减少计算时间和资源的消耗的效果。
根据本发明的另一个目的,具有如下效果:提供一种用于获取3D框的学习方法以最小化人为输入。
此外,如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如光盘的磁光介质;诸如ROM、RAM的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作,并且它们在相反的情况下可以做同样的工作。
如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明,但是,本领域技术人员将理解,在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims (18)

1.一种用于从训练图像中的2D边界框获取伪3D框的方法,其中,所述伪3D是指从二维单目图像估计的三维信息,该方法包括以下步骤:
(a)由学习装置获取包括由所述2D边界框界定的对象的所述训练图像;
(b)由所述学习装置执行(i)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对对象的伪3D朝向进行分类的过程和(ii)在所述CNN中通过使用回归分析获取所述伪3D框的顶点的2D坐标的过程;以及
(c)通过反向传播通过参考(i)所获取的所述伪3D框的顶点的2D坐标与和所述伪3D框对应的地面真值的2D坐标之间的差异以及(ii)分类的所述伪3D朝向与对应于所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,由所述学习装置调节所述CNN的参数,
其中,在所述步骤(b)中,所述学习装置执行通过使用所述回归分析根据所述2D边界框的顶点计算所述伪3D框的顶点的各个位移的过程,并且
其中,在所述步骤(b)的过程(ii)中,所述学习装置确定所述2D边界框的顶点V1及其对角顶点V2作为所述伪3D框的两个顶点P1和P8,并通过参考所述对象的所述伪3D朝向计算所述伪3D框的两个顶点P4和P5的位移,所述两个顶点P4和P5不与所述2D边界框的线段接触,其中,所述位移平行于所述2D边界框的所述线段。
2.根据权利要求1所述的方法,其中,在所述步骤(b)的过程(i)中,伪3D朝向的所述模式被存储在数据库中并被检索以估计所述概率。
3.根据权利要求1所述的方法,其中,所述学习装置执行以下过程,从而获取所述伪3D框的顶点的所述2D坐标:(i)通过使用所述CNN的至少一个卷积层获取和操纵所述训练图像以产生至少一个特征图的过程,(ii)确定与所述特征图中的所述2D边界框对应的区域的过程和通过使用所述CNN的至少一个池化层从所述区域提取特征矢量的过程,(iii)通过使用所述CNN的第一全连接层根据输入的特征矢量确定所述对象的所述伪3D朝向的过程,以及(iv)通过使用所述CNN的第二全连接层确定所述伪3D框的顶点的所述2D坐标的过程。
4.一种用于从训练图像中的2D边界框获取伪3D框的方法,其中,所述伪3D是指从二维单目图像估计的三维信息,该方法包括以下步骤:
(a)由学习装置获取包括由所述2D边界框界定的对象的所述训练图像;
(b)由所述学习装置执行(i)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对对象的伪3D朝向进行分类的过程和(ii)在所述CNN中通过使用回归分析获取所述伪3D框的顶点的2D坐标的过程;以及
(c)通过反向传播通过参考(i)所获取的所述伪3D框的顶点的2D坐标与和所述伪3D框对应的地面真值的2D坐标之间的差异以及(ii)分类的所述伪3D朝向与对应于所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,由所述学习装置调节所述CNN的参数,
其中,在所述步骤(b)的过程(ii)中,所述学习装置通过参考所述对象的所述伪3D朝向执行计算以下项的过程:(b-1)(i)第一矢量和(ii)第二矢量,根据所述2D边界框的中心计算第一矢量以确定所述第一矢量的终点作为与所述伪3D框的第一表面对应的第一目标2D框的中心,以及根据所述2D边界框的中心计算第二矢量以确定所述第二矢量的终点作为对应于所述伪3D框的与所述第一表面相反的第二表面的第二目标2D框的中心;(b-2)以下各项的比率:(i)所述第一目标2D框的宽度与所述2D边界框的宽度、(ii)所述第二目标2D框的宽度与所述2D边界框的宽度、(iii)所述第一目标2D框的高度与所述2D边界框的高度以及(iv)所述第二目标2D框的高度与所述2D边界框的高度;以及(b-3)P5、P6、P7和P8的坐标以及P1、P2、P3和P4的坐标,通过参考所述第一目标2D框的中心和所述第二目标2D框的中心从所述2D边界框的中心的位移和所述比率,计算作为所述第一目标2D框的顶点的P5、P6、P7和P8的坐标以及作为所述第二目标2D框的顶点的P1、P2、P3和P4的坐标,其中,P8是所述2D边界框的顶点,P1是所述2D边界框的与P8对角的顶点,并且其中,P4和P5不与所述2D边界框的线段接触。
5.根据权利要求4所述的方法,其中,在所述步骤(b)的过程(i)中,伪3D朝向的所述模式被存储在数据库中并被检索以估计所述概率。
6.根据权利要求4所述的方法,其中,所述学习装置执行以下过程,从而获取所述伪3D框的顶点的所述2D坐标:(i)通过使用所述CNN的至少一个卷积层获取和操纵所述训练图像以产生至少一个特征图的过程,(ii)确定与所述特征图中的所述2D边界框对应的区域的过程和通过使用所述CNN的至少一个池化层从所述区域提取特征矢量的过程,(iii)通过使用所述CNN的第一全连接层根据输入的特征矢量确定所述对象的所述伪3D朝向的过程,以及(iv)通过使用所述CNN的第二全连接层确定所述伪3D框的顶点的所述2D坐标的过程。
7.一种用于获取界定测试图像中的对象的伪3D框的方法,其中,所述伪3D是指从二维单目图像估计的三维信息,该方法包括以下步骤:
(a)在以下条件下由测试装置获取包括由用于测试的2D边界框界定的用于测试的对象的所述测试图像:(i)学习装置获取包括由用于训练的2D边界框界定的用于训练的对象的训练图像;(ii)所述学习装置执行(ii-1)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对用于训练的所述对象的伪3D朝向进行分类的过程以及(ii-2)在所述CNN中通过使用回归分析获取用于训练的所述伪3D框的顶点的2D坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的所述伪3D框的顶点的2D坐标与和用于训练的所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的所述伪3D朝向与对应于用于训练的所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,所述学习装置调节所述CNN的参数;以及
(b)所述测试装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的所述对象的伪3D朝向进行分类的过程和(ii)通过使用所述回归分析获取用于测试的所述伪3D框的顶点的2D坐标的过程,
其中,在所述步骤(b)的过程(ii)中,所述测试装置确定用于测试的所述2D边界框的顶点V1及其对角顶点V2作为用于测试的所述伪3D框的两个顶点P1和P8,并通过参考用于测试的所述对象的所述伪3D朝向计算用于测试的所述伪3D框的两个顶点P4和P5的位移,所述两个顶点P4和P5不与用于测试的所述2D边界框的线段接触,其中,所述位移平行于用于测试的所述2D边界框的所述线段。
8.一种用于获取界定测试图像中的对象的伪3D框的方法,其中,所述伪3D是指从二维单目图像估计的三维信息,该方法包括以下步骤:
(a)在以下条件下由测试装置获取包括由用于测试的2D边界框界定的用于测试的对象的所述测试图像:(i)学习装置获取包括由用于训练的2D边界框界定的用于训练的对象的训练图像;(ii)所述学习装置执行(ii-1)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对用于训练的所述对象的伪3D朝向进行分类的过程以及(ii-2)在所述CNN中通过使用回归分析获取用于训练的所述伪3D框的顶点的2D坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的所述伪3D框的顶点的2D坐标与和用于训练的所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的所述伪3D朝向与对应于用于训练的所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,所述学习装置调节所述CNN的参数;以及
(b)所述测试装置执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的所述对象的伪3D朝向进行分类的过程和(ii)通过使用所述回归分析获取用于测试的所述伪3D框的顶点的2D坐标的过程,
其中,在所述步骤(b)的过程(ii)中,所述测试装置执行计算以下项的过程:(b-1)(i)用于测试的所述2D边界框的中心与和用于测试的所述伪3D框的第一表面对应的第一目标2D框的中心之间的位移以及(ii)用于测试的所述2D边界框的中心与和用于测试的所述伪3D框的与所述第一表面相反的第二表面对应的第二目标2D框的中心之间的位移;(b-2)以下各项的比率:(i)所述第一目标2D框的宽度与用于测试的所述2D边界框的宽度、(ii)所述第二目标2D框的宽度与用于测试的所述2D边界框的宽度、(iii)所述第一目标2D框的高度与用于测试的所述2D边界框的高度以及(iv)所述第二目标2D框的高度与用于测试的所述2D边界框的高度;以及(b-3)P5、P6、P7和P8的坐标以及P1、P2、P3和P4的坐标,通过参考所述位移和所述比率,计算构成所述第一目标2D框的顶点的P5、P6、P7和P8的坐标以及构成所述第二目标2D框的顶点的P1、P2、P3和P4的坐标,其中,P8是用于测试的所述2D边界框的顶点,P1是用于测试的所述2D边界框的与P8对角的顶点,并且其中,P4和P5不与用于测试的所述2D边界框的线段接触。
9.一种用于从训练图像中的2D边界框获取伪3D框的学习装置,其中,所述伪3D是指从二维单目图像估计的三维信息,该学习装置包括:
通信部,用于获取包括由所述2D边界框界定的对象的所述训练图像;以及
处理器,用于执行:(i)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对所述对象的伪3D朝向进行分类的过程;(ii)在所述CNN中通过使用回归分析获取所述伪3D框的顶点的2D坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的所述伪3D框的顶点的2D坐标与和所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的所述伪3D朝向与对应于所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息来调节所述CNN的参数的过程,
其中,所述处理器执行通过使用所述回归分析根据所述2D边界框的顶点计算所述伪3D框的顶点的各个位移的过程,并且
其中,所述处理器确定所述2D边界框的顶点V1及其对角顶点V2作为所述伪3D框的两个顶点P1和P8,并通过使用所述回归分析通过参考所述对象的所述伪3D朝向计算所述伪3D框的两个顶点P4和P5的位移,所述两个顶点P4和P5不与所述2D边界框的线段接触,其中,所述位移平行于所述2D边界框的所述线段。
10.根据权利要求9所述的学习装置,其中,伪3D朝向的所述模式被存储在数据库中并被检索以估计所述概率。
11.根据权利要求9所述的学习装置,其中,所述处理器执行以下过程,从而获取所述伪3D框的顶点的所述2D坐标:(i)通过使用所述CNN的至少一个卷积层获取和操纵所述训练图像以产生至少一个特征图的过程,(ii)确定与所述特征图中的所述2D边界框对应的区域的过程和通过使用所述CNN的至少一个池化层从所述区域提取特征矢量的过程,(iii)通过使用所述CNN的至少一个第一全连接层根据输入的特征矢量确定所述对象的所述伪3D朝向,以及通过使用所述CNN的至少一个第二全连接层确定所述伪3D框的顶点的所述2D坐标的过程。
12.根据权利要求9所述的学习装置,其中,在获取所述伪3D框的顶点的所述2D坐标的过程之前,执行对所述对象的所述伪3D朝向进行分类的过程。
13.一种用于从训练图像中的2D边界框获取伪3D框的学习装置,其中,所述伪3D是指从二维单目图像估计的三维信息,该学习装置包括:
通信部,用于获取包括由所述2D边界框界定的对象的所述训练图像;以及
处理器,用于执行:(i)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对所述对象的伪3D朝向进行分类的过程;(ii)在所述CNN中通过使用回归分析获取所述伪3D框的顶点的2D坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的所述伪3D框的顶点的2D坐标与和所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的所述伪3D朝向与对应于所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息来调节所述CNN的参数的过程,
其中,所述处理器执行计算以下项的过程:(i)第一矢量和(ii)第二矢量,根据所述2D边界框的中心计算第一矢量以确定所述第一矢量的终点作为与所述伪3D框的第一表面对应的第一目标2D框的中心,以及根据所述2D边界框的中心计算第二矢量以通过参考所述对象的所述伪3D朝向确定所述第二矢量的终点作为与所述伪3D框的与所述第一表面相反的第二表面对应的第二目标2D框的中心;以下各项的比率:(i)所述第一目标2D框的宽度与所述2D边界框的宽度、(ii)所述第二目标2D框的宽度与所述2D边界框的宽度、(iii)所述第一目标2D框的高度与所述2D边界框的高度以及(iv)所述第二目标2D框的高度与所述2D边界框的高度;以及P5、P6、P7和P8的坐标以及P1、P2、P3和P4的坐标,通过参考所述第一目标2D框的中心和所述第二目标2D框的中心从所述2D边界框的中心的位移和所述比率,计算构成所述第一目标2D框的顶点的P5、P6、P7和P8的坐标以及构成所述第二目标2D框的顶点的P1、P2、P3和P4的坐标,其中,P8是所述2D边界框的顶点,P1是所述2D边界框的与P8对角的顶点,并且其中,P4和P5不与所述2D边界框的线段接触。
14.根据权利要求13所述的学习装置,其中,伪3D朝向的所述模式被存储在数据库中并被检索以估计所述概率。
15.根据权利要求13所述的学习装置,其中,所述处理器执行以下过程,从而获取所述伪3D框的顶点的所述2D坐标:(i)通过使用所述CNN的至少一个卷积层获取和操纵所述训练图像以产生至少一个特征图的过程,(ii)确定与所述特征图中的所述2D边界框对应的区域的过程和通过使用所述CNN的至少一个池化层从所述区域提取特征矢量的过程,(iii)通过使用所述CNN的至少一个第一全连接层根据输入的特征矢量确定所述对象的所述伪3D朝向,以及通过使用所述CNN的至少一个第二全连接层确定所述伪3D框的顶点的所述2D坐标的过程。
16.根据权利要求13所述的学习装置,其中,在获取所述伪3D框的顶点的所述2D坐标的过程之前,执行对所述对象的所述伪3D朝向进行分类的过程。
17.一种用于获取界定测试图像中的对象的伪3D框的测试装置,其中,所述伪3D是指从二维单目图像估计的三维信息,该测试装置包括:
通信部,用于在以下条件下获取包括由用于测试的2D边界框界定的用于测试的对象的所述测试图像:(i)学习装置获取包括由用于训练的2D边界框界定的用于训练的对象的训练图像;(ii)所述学习装置执行(ii-1)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对用于训练的所述对象的伪3D朝向进行分类的过程和(ii-2)在所述CNN中通过使用回归分析获取用于训练的所述伪3D框的顶点的2D坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的所述伪3D框的顶点的2D坐标与和用于训练的所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的所述伪3D朝向与对应于用于训练的所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,所述学习装置调节所述CNN的参数;以及
处理器,用于执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的所述对象的伪3D朝向进行分类的过程和(ii)通过使用所述回归分析获取用于测试的所述伪3D框的顶点的2D坐标的过程,
其中,所述处理器确定用于测试的所述2D边界框的顶点V1及其对角顶点V2作为用于测试的所述伪3D框的两个顶点P1和P8,并通过参考用于测试的所述对象的所述伪3D朝向计算用于测试的所述伪3D框的两个顶点P4和P5的位移,所述两个顶点P4和P5不与用于测试的所述2D边界框的线段接触,其中,所述位移平行于用于测试的所述2D边界框的所述线段。
18.一种用于获取界定测试图像中的对象的伪3D框的测试装置,其中,所述伪3D是指从二维单目图像估计的三维信息,该测试装置包括:
通信部,用于在以下条件下获取包括由用于测试的2D边界框界定的用于测试的对象的所述测试图像:(i)学习装置获取包括由用于训练的2D边界框界定的用于训练的对象的训练图像;(ii)所述学习装置执行(ii-1)通过卷积神经网络CNN的全连接层,通过参考与伪3D朝向的各个模式相对应的估计概率的信息对用于训练的所述对象的伪3D朝向进行分类的过程和(ii-2)在所述CNN中通过使用回归分析获取用于训练的所述伪3D框的顶点的2D坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的所述伪3D框的顶点的2D坐标与和用于训练的所述伪3D框对应的地面真值的2D坐标之间的差异以及(iii-2)分类的用于训练的所述伪3D朝向与对应于用于训练的所述伪3D朝向的地面真值之间的差异中的至少一者确定的损失信息,所述学习装置调节所述CNN的参数;以及
处理器,用于执行(i)通过参考与伪3D朝向的各个模式相对应的概率的信息对用于测试的所述对象的伪3D朝向进行分类的过程和(ii)通过使用所述回归分析获取用于测试的所述伪3D框的顶点的2D坐标的过程,
其中,所述处理器执行计算以下项的过程:(i)用于测试的所述2D边界框的中心与用于测试的所述伪3D框的第一表面对应的用于测试的第一目标2D框的中心之间的位移,以及(ii)用于测试的所述2D边界框的中心与用于测试的所述伪3D框的与所述第一表面相反的第二表面对应的用于测试的第二目标2D框的中心之间的位移;以下各项的比率:(i)用于测试的所述第一目标2D框的宽度与用于测试的所述2D边界框的宽度、(ii)用于测试的所述第二目标2D框的宽度与用于测试的所述2D边界框的宽度、(iii)用于测试的所述第一目标2D框的高度与用于测试的所述2D边界框的高度以及(iv)用于测试的所述第二目标2D框的高度与用于测试的所述2D边界框的高度;以及P5、P6、P7和P8的坐标以及P1、P2、P3和P4的坐标,通过参考所述位移和所述比率,计算作为用于测试的所述第一目标2D框的顶点的P5、P6、P7和P8的坐标以及作为用于测试的所述第二目标2D框的顶点的P1、P2、P3和P4的坐标,其中,P8是用于测试的所述2D边界框的顶点,P1是用于测试的所述2D边界框的与P8对角的顶点,并且其中,P4和P5不与用于测试的所述2D边界框的线段接触。
CN201811156884.4A 2017-10-03 2018-09-30 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 Active CN109598781B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/723,538 US10402724B2 (en) 2017-10-03 2017-10-03 Method for acquiring a pseudo-3D box from a 2D bounding box by regression analysis and learning device and testing device using the same
US15/723,538 2017-10-03

Publications (2)

Publication Number Publication Date
CN109598781A CN109598781A (zh) 2019-04-09
CN109598781B true CN109598781B (zh) 2023-06-02

Family

ID=63517805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811156884.4A Active CN109598781B (zh) 2017-10-03 2018-09-30 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置

Country Status (5)

Country Link
US (1) US10402724B2 (zh)
EP (1) EP3467708A1 (zh)
JP (1) JP6720263B2 (zh)
KR (1) KR102121764B1 (zh)
CN (1) CN109598781B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
FI20195061A1 (en) * 2019-01-30 2020-07-31 Aalto Univ Foundation Sr Method and device for estimating mechanical property of crack surface
JP7139300B2 (ja) * 2019-10-03 2022-09-20 本田技研工業株式会社 認識装置、認識方法、およびプログラム
CN111079523B (zh) * 2019-11-05 2024-05-14 北京迈格威科技有限公司 物体检测方法、装置、计算机设备和存储介质
US11004233B1 (en) * 2020-05-01 2021-05-11 Ynjiun Paul Wang Intelligent vision-based detection and ranging system and method
CN111626241B (zh) * 2020-05-29 2023-06-23 北京华捷艾米科技有限公司 一种人脸检测方法及装置
US11987236B2 (en) * 2020-08-31 2024-05-21 Nec Corporation Monocular 3D object localization from temporal aggregation
CN112509126A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 三维物体检测的方法、装置、设备及存储介质
US11710254B2 (en) * 2021-04-07 2023-07-25 Ford Global Technologies, Llc Neural network object detection
KR102325124B1 (ko) * 2021-04-27 2021-11-12 주식회사 모빌테크 기계 학습 및 모노 카메라로 물체의 위치 정보를 획득하는 차량
WO2023245635A1 (en) * 2022-06-24 2023-12-28 Intel Corporation Apparatus and method for object detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189689B2 (en) * 2013-10-30 2015-11-17 Nec Laboratories America, Inc. Robust scale estimation in real-time monocular SFM for autonomous driving
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
KR102267553B1 (ko) * 2016-11-15 2021-06-22 매직 립, 인코포레이티드 큐보이드 검출을 위한 딥 러닝 시스템
US10373369B2 (en) * 2017-03-16 2019-08-06 Qualcomm Technologies, Inc. Three-dimensional pose estimation of symmetrical objects

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
3d bounding box estimation using deep learning and geometry;Arsalan Mousavian等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20170726;第5632-5640页 *
BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth;Rad Mahdi等;《eprint arXiv:1703.10896》;20170331;第1-9页 *
Deep Cuboid Detection: Beyond 2D Bounding Boxes;Debidatta Dwibedi等;《https://doi.org/10.48550/arXiv.1611.10010》;20161130;第1-11页 *

Also Published As

Publication number Publication date
JP6720263B2 (ja) 2020-07-08
CN109598781A (zh) 2019-04-09
JP2019067402A (ja) 2019-04-25
US10402724B2 (en) 2019-09-03
KR20190039382A (ko) 2019-04-11
KR102121764B1 (ko) 2020-06-12
US20190102677A1 (en) 2019-04-04
EP3467708A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
CN109598781B (zh) 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置
US9990736B2 (en) Robust anytime tracking combining 3D shape, color, and motion with annealed dynamic histograms
US10380413B2 (en) System and method for pose-invariant face alignment
EP2671384B1 (en) Mobile camera localization using depth maps
JP2019075116A (ja) トラッキングネットワークを含むCNN(Convolutional Neural Network)を用いてイメージ上の客体に対応するバウンディングボックスを獲得するための方法及びこれを利用した装置
US10402978B1 (en) Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
Zhou et al. T-loam: truncated least squares lidar-only odometry and mapping in real time
US20150279021A1 (en) Video object tracking in traffic monitoring
EP3159126A1 (en) Device and method for recognizing location of mobile robot by means of edge-based readjustment
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
Ding et al. Vehicle pose and shape estimation through multiple monocular vision
CN114365201A (zh) 结构注释
Daraei et al. Velocity and shape from tightly-coupled LiDAR and camera
KR20210090384A (ko) 카메라 및 라이다 센서를 이용한 3d 객체 검출방법 및 장치
KR20110020720A (ko) 3차원 얼굴 캡쳐링 장치 및 방법
EP3686776B1 (en) Method for detecting pseudo-3d bounding box to be used for military purpose, smart phone or virtual driving based on cnn capable of converting modes according to conditions of objects
KR20140024206A (ko) 입술 검출 및 추적을 위한 방법 및 장치
EP2672425A1 (en) Method and apparatus with deformable model fitting using high-precision approximation
WO2023165817A1 (en) Semantic slam framework for improved object pose estimation
de Boer et al. Choosing between optical flow algorithms for UAV position change measurement
WO2020108785A1 (en) Method and device for training a neural network to specify landmarks on 2d and 3d images
Wu et al. 3d semantic vslam of dynamic environment based on yolact
CN117576665B (zh) 一种面向自动驾驶的单摄像头三维目标检测方法及系统
KR101913319B1 (ko) 깊이 영상에서 인터페이싱 영역을 검출하는 방법 및 장치
KR102538231B1 (ko) 시맨틱 세그멘테이션의 3차원 해석 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant