CN111145139A

CN111145139A - 从2d图像中检测3d对象的方法、设备和计算机程序

Info

Publication number: CN111145139A
Application number: CN201910998360.8A
Authority: CN
Inventors: 崔熙旼; 姜晓娥; 玄伦硕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-01
Filing date: 2019-10-21
Publication date: 2020-05-12
Also published as: US20200143557A1; KR20200050246A; US11080878B2

Abstract

本申请提供了从2D图像中检测3D对象的方法、设备和计算机程序。所述方法包括：接收包括对象的2D图像；从2D图像中获取对象检测区域；基于对象检测区域在3D坐标系中迭代搜索包括2D图像的对象的体积块的方向的候选；以及基于迭代搜索的结果从3D坐标系中检测体积块。

Description

从2D图像中检测3D对象的方法、设备和计算机程序

相关申请的交叉引用

于2018年11月1日在韩国知识产权局提交的名称为“从2D图像中检测3D对象的方法和设备”的韩国专利申请No.10-2018-0133044通过引用其全部合并于此。

技术领域

各实施例涉及从2D图像中检测3D对象的方法和设备。

背景技术

对象检测技术用于从图像中检测包含对象的区域。例如，可以使用对象检测技术从2D图像中检测围绕对象的二维(2D)边界框。可以通过图像中的2D边界框的位置和尺寸来限定2D边界框。可以通过基于神经网络的图像处理来执行对象检测技术。另外，三维(3D)边界框指的是围绕3D坐标系中的对象的体积块，并且可以例如由3D坐标系中的3D边界框的位置、尺寸和方向限定。需要3D边界框的应用可以包括例如驱动应用。

发明内容

根据实施例的一方面，提供了一种从2D图像中检测3D对象的方法，所述方法包括：接收包括对象的2D图像；从所述2D图像中获取对象检测区域；基于所述对象检测区域在3D坐标系中迭代地搜索包括所述对象的体积块的方向的候选；以及基于所述搜索的结果从所述3D坐标系中检测所述体积块。

根据实施例的另一方面，提供了一种从2D图像中检测3D对象的设备，所述设备包括：存储器，被配置为存储包括对象的2D图像；以及至少一个处理器，被配置为从所述2D图像中获取对象检测区域，基于所述检测区域在3D坐标系中迭代地搜索包括所述对象的体积块的方向的候选，以及基于所述搜索的结果从所述3D坐标系中检测所述体积块。

附图说明

从以下结合附图的详细描述，各特征对本领域的技术人员将变得明显，在附图中：

图1示出根据实施例的对象检测方法的示图；

图2示出根据实施例的对象检测方法的操作流程图；

图3示出根据实施例的对象检测方法的操作的详细流程图；

图4示出根据实施例的方向的示图；

图5示出根据实施例的体积块的方向的候选的示图；

图6A示出根据实施例的确定体积块的位置的方法的示图；

图6B示出根据实施例的2D边界框和3D边界框之间的对应关系的示图；

图7A和图7B示出根据实施例的计算体积块的位置的方法的示图；

图8示出根据实施例的通过迭代确定体积块的方向的候选的方法的示图；

图9示出根据实施例的从2D图像中检测3D对象的方法的操作流程图；和

图10示出根据实施例的对象检测设备的框图。

具体实施方式

本说明书中呈现的具体结构或功能描述是用于描述根据技术构思的实施例的示例描述，并且各实施例可以以各种其他形式实现，而不限于本说明书中描述的形式。

尽管术语“第一”和“第二”用于描述各种元件，但是这些术语仅用于将一个元件与另一个元件区分开。例如，第一元素可以被称为第二元素，并且类似地，第二元素可以被称为第一元素。

应当理解，当一个元件被称为“耦接”或“连接”到另一个元件时，该元件可以直接耦接或连接到另一个元件，或者可以在这两个元件之间可以存在任何其他元件。相反，可以理解，当一个元件被称为“直接耦接”或“直接连接”到另一个元件时，在这两个元件之间没有插入元件。用于描述各元件之间的关系的表达，例如“在……上”、“直接在……上”、“在……之间”、“直接在……之间”、“相邻”或“直接相邻”应该以相同的方式解释。

除非另有说明，否则单数形式的术语可包括复数形式。在本说明书中，应理解的是，诸如“包括”、“具有”或“包含”的术语旨在存在属性、固定数量、步骤、处理、元件、组件或它们的组合，但不旨在排除一个或多个其他属性、固定数量、步骤、处理、元件、组件或它们的组合。

除非另外定义，否则本文使用的所有术语(包括技术术语和科学术语)具有与本领域技术人员通常理解的含义相同的含义。诸如在通用字典中定义的那些术语可以被解释为具有与相关领域中的上下文含义相同的含义，并且除非在本文中明确定义，否则不应被解释为具有理想或过度正式的含义。

在下文中，将参考附图描述各实施例。在附图中，相同的参考标号始终表示相同的元件。

图1是示出根据实施例的对象检测方法的示图。参考图1，示出了根据实施例的2D图像和3D坐标系。2D图像包含对象。

例如，为了从2D图像中检测对象，可以通过将2D图像输入到学习神经网络来检测对象区域。对象的检测到的区域可以是围绕2D图像中的对象的2D边界框。

例如，2D图像可以是车辆正在行驶的图像。假设随时间输入第一帧110、第二帧120、第三帧130和第四帧140。在每一帧中，可以将在相邻车道中行驶的另一车辆检测为对象。可以在第一帧110中检测到第一边界框115，可以在第二帧120中检测到第二边界框125，可以在第三帧130中检测到第三边界框135，并且可以在第四帧140中检测到第四边界框145。

2D边界框可以是矩形的并且可以以各种方式限定。例如，可以使用四个角点的坐标来限定2D边界框。替代性地，2D边界框可以由位置-尺寸组合限定。位置可以由角或中心点的坐标表示，并且尺寸可以由宽度或高度表示。

根据实施例，可以基于2D图像中的对象的检测区域来检测3D坐标系中的包含对象的体积块。3D坐标系可以是世界坐标系。体积块可以是围绕3D坐标系中的对象的3D边界框。例如，可以从3D坐标系检测与第一帧110、第二帧120、第三帧130和第四帧140对应的3D边界框150。当对象随时间移动时，3D边界框150也在3D坐标系中移动。

3D边界框可以是长方体，并且可以以各种方式限定。例如，可以使用八个角点的坐标来限定3D边界框。可选地，可以使用位置和尺寸的组合来限定3D边界框。位置可以由底面上的角点的坐标或底面上的中心点的坐标表示，并且尺寸可以由宽度、长度或高度表示。方向可以由垂直于表面的线的方向矢量表示。方向矢量可以与3D边界框从3D坐标系的三个轴(例如，x轴、y轴、z轴)旋转的程度(例如，偏航、俯仰、滚转)对应。方向也可以称为方位。

由于2D图像不包括z轴方向上的深度信息，因此可以使用投影几何学从2D边界框中检测3D边界框150。投影几何学涉及2D图像中的当几何对象经历投影变换时可以不进行变化的属性。

根据一个实施例，在2D图像中，对象可以被另一个对象部分地隐藏，或者可以沿着2D图像的边界被部分地切除。在这种情况下，对象的检测区域可能不完全地包括对象。例如，参考第一帧110，在相邻车道中行驶的其他车辆的左侧沿图像的边界被切除，因此第一边界框115不包括未在图像中显示的部分，即，第一边界框115不包括其他车辆的切除部分。

如果从2D图像中检测到的对象的区域不完全地包括对象，则可能无法在3D坐标系中精确地检测对象的体积块。然而，根据实施例，即使对象在2D图像中被部分地隐藏或切除，该对象也将被表示为3D坐标系中的完整对象。下面的实施例描述了这样的技术：通过基于投影几何学迭代地搜索3D坐标系中的体积块的方向的候选来精确地检测3D坐标系中的体积块，即使对象在2D图像中被部分隐藏或切除。

图2是示出根据实施例的对象检测方法的操作流程图。

参考图2，该实施例的对象检测方法包括：接收包括对象的2D图像的操作210，从接收的2D图像获得对象检测区域的操作220，基于在操作220中获得的对象检测区域迭代地搜索3D坐标系中的体积块方向候选的操作230，以及基于在操作230中的迭代搜索的结果检测3D坐标系中的体积块的操作240。此时，在操作210中接收的2D图像中所包括的对象的至少一部分可能被另一个对象隐藏，或者可以沿着接收的2D图像的边界被部分地切除。

详细地，在操作210中，接收的2D图像可以是用相机捕获的图像。

在操作220中，从接收的2D图像中检测到的检测区域可以是2D边界框。可以从如上所述的2D边界框(例如，使用四个角点的坐标或通过位置-尺寸组合限定的2D边界框)中检测检测区域。

在操作220中，不仅检测检测区域，还可以从接收的2D图像中获取对象的方向(下文中称为局部方向)。例如，可以使用神经网络，并且神经网络可以接收2D图像并输出局部方向作为2D图像中的对象的方向。

可以基于投影几何学将2D图像中的对象的方向(下文中称为局部方向)转换为3D坐标系中的对象的方向(下文中称为全局方向)。例如，参考图4，从相机到2D图像中的对象的中心限定光线方向410。相机可以与3D坐标系的轴430(例如，x轴)对准。可以使用光线角度θ_ray(即，光线方向410和轴430之间的小于180°的角度)表示光线方向410。在2D图像中，可以使用光线方向410和对象的方向420之间的局部角度θ_L(例如，图4中的光线方向410和车辆的方向420之间的大于180°的角度)来表示局部方向。另外，可以使用与轴430平行的方向435和对象的方向420之间的全局角度θ_G来表示3D坐标系中的全局方向。可以通过将光线角度θ_ray和局部角度θ_L相加来计算全局角度θ_G。

如果2D图像中的对象检测区域完全包含对象，则可以通过从相机朝向对象检测区域的中心的方向(例如，图4中的从相机到车辆中心的方向)确定光线角度θ_ray。然而，如果对象的至少一部分被隐藏或切除，则由从相机朝向对象检测区域的中心的方向确定的光线角度θ_ray可能是不准确的。

如下所述，在操作220中，可以进一步获取3D坐标系中的体积块的尺寸。体积块可以是长方体，并且体积块的尺寸可以包括宽度、长度和高度的维度。例如，学习神经网络可以识别将要检测的对象的类别或类型。神经网络可以根据识别的类别或类型输出体积块的尺寸。为了便于描述，已经描述了在识别出对象的类别或类型之后确定体积块的尺寸。然而，在一些实施例中，神经网络可以是端到端神经网络，其接收2D图像并直接输出体积块的尺寸。

在操作220中可以使用至少一些神经网络。例如，配置为确定并输出检测区域的第一神经网络、配置为确定并输出局部方向的第二神经网络、配置为确定和输出体积块尺寸的第三神经网络等可以合并为单个神经网络。

根据实施例，在对象检测方法的操作230中，迭代地搜索与体积块的方向对应的体积块方向候选。因此，即使对象的至少一部分被隐藏或切除，也可以准确地检测或重建体积块。下面将参考图3详细描述操作230。

在操作240中，在基于操作230中的迭代搜索结果检测到体积块方向之后，包含2D图像的对象的检测到的体积块区域可以通过其在3D坐标系中的位置、尺寸和方位来限定。如上所述，限定体积块的方法可以进行各种修改，例如，可以修改为使用八个角点的坐标限定体积块的方法。

在下文中，将参考图3详细描述迭代搜索体积块方向候选的操作230。图3是根据实施例的操作230的详细流程图。

参考图3，从2D图像310检测体积块350。2D图像310是在图2的操作210中由相机捕获的图像，并且包括被至少部分地隐藏或切除的对象。

首先，当接收到2D图像310时(在操作210中)，如上面参考图2的操作220所述，基于2D图像310获得对象检测区域317和对象局部方向319。此外，如上所述，还可以获得基于在操作210中接收的2D图像的检测区域的体积块的尺寸315。以上描述可以在本文中应用，因此，将不再重复详细描述。

接下来，生成可以在3D坐标系中定向体积块350的全局方向的候选320。可以基于预定搜索范围和分辨率生成初始全局方向候选。注意，“候选”指的是可能性，因此方向的候选指的是被检查以便确定3D坐标系中的对象的实际方向的可能方向。

图5示出了在3D坐标系的x-z平面中生成的八个全局方向候选510、520、530、540、550、560、570和580。在这种情况下，搜索范围可以是x-z平面中的从-π到π，并且分辨率可以是π/4。根据实施例，由于体积块350的形状在体积块350的方向上是对称的，因此搜索范围可以被设置为从0到π。

根据实施例，由从相机朝向检测区域(例如，2D边界框)的光线方向和对象局部方向319确定的全局方向也可以包括在初始全局中方向候选中。当使用指向被至少部分地隐藏或切除的对象的检测区域的光线方向时，可以计算不准确的全局方向，但是该不准确的全局方向可以用作搜索全局方向候选的起始点。

可以基于全局方向候选320和体积块尺寸315在3D坐标系中估计体积块位置候选330。参考图6A，基于投影几何学示出了2D图像的像素和3D坐标之间的对应关系。可以通过图6A中示出的关系式将3D坐标投影到2D图像的像素上。

在图6A中，坐标(x,y,z)与3D坐标系中的3D坐标对应。假设体积块的下表面的中心点610位于3D坐标系的原点处，体积块的八个角的3D坐标可以由体积块的尺寸表示。例如，如果体积块的宽度为w，体积块的长度为l，体积块的高度为h，则体积块的下表面的四个角的3D坐标可以是(-w/2,0,-1/2)、(w/2,0,-1/2)、(w/2,0,1/2)、(-w/2,0,1/2)，并且体积块的上表面的四个角的3D坐标可以是(-w/2,-h,-1/2)、(w/2,-h,-1/2)、(w/2,-h,1/2)、(-w/2,-h,1/2)。

此外，参考图6A，T是与体积块的位置相关的运动矩阵。可以使用通过求解图6A的等式获得的T来估计体积块的位置。R是旋转矩阵，其可以由体积块的全局方向确定。可以估计体积块的位置的分别与全局方向候选对应的候选。K表示相机的固有参数，并且S表示比例因子。此外，(x_img,y_img)表示2D图像的像素坐标。

图6B示出了2D图像的对象检测区域710中包括的第一特征点和3D坐标系中的对象体积块720中包括的第二特征点之间的对应关系。第一特征点中的一些和第二特征点中的一些可以彼此匹配。例如，检测区域710中的像素(x_img_min,y_img_min)可以与对象体积块720的3D坐标(x_min,y_min,z_min)匹配。根据实施例，当确定要匹配的像素时，可以排除与隐藏或切除的部分对应的像素。

再次参考图6A，如果匹配的像素的坐标被设置为(x_img,y_img)，并且匹配的3D坐标被设置为(x,y,z)，则获得体积块的位置未知的等式。这里，3D坐标可以是当假设体积块位于3D坐标系的原点时并且可以由体积块的尺寸表示的3D坐标。

图7A和7B示出了通过将2D图像像素与3D坐标匹配来计算体积块的位置的方法。例如，在图7A的左侧2D图像中，当从车辆内部观察时，与车辆前侧的右上端相对应的像素的x坐标和y坐标是x_min和y_min。另外，与当从车辆内部观察时，与车辆前侧的左下端相对应的像素的y坐标是y_max，并且与车辆后侧的左下端相对应的像素的x坐标是x_max。

如图7A右侧的3D坐标系所示，像素与体积块的角相匹配，因此可以使用图7B所示的关系式来计算T_x，T_y和T_z。坐标(T_x,T_y,T_z)可以是与体积块的位置(例如，体积块的下表面的中心)对应的3D坐标。

当存在三对或更多对彼此匹配的像素和3D坐标时，可以明确地计算3D坐标系中的体积块的位置。根据实施例，即使在存在两对彼此匹配的像素和3D坐标时，也可以通过进一步考虑2D图像中的地平面的倾斜度来确定体积块的位置。例如，行驶图像中的对象可以是相邻车辆，并且可以假设车辆在行驶图像中平行于地平面行驶。因此，如果将体积块的倾斜度设置为与地平面的倾斜度相同，则即使仅存在两对彼此匹配的像素和3D坐标，也可以明确地确定体积块的位置。替代性地，即使在存在三对或更多对彼此匹配的像素和3D坐标时，也可以通过进一步考虑地平面的倾斜度来确定体积块的位置。

再次参考图3，可以估计与全局方向候选320对应的体积块的位置的候选330。可以将体积块位置候选330中的一个选择作为位置候选335。例如，在估计了体积块位置候选330之后，可以将与体积块位置候选330对应的体积块投影到2D图像上，然后通过将2D图像中的对象检测区域317与体积块位置候选330投影到的投影区域进行比较，来将体积块位置候选300中的一个选择作为位置候选335。

例如，在3D坐标系中，可以基于位置、尺寸和方位来限定体积块，并且可以针对全局方向候选分别确定位置候选。由于给出了体积块的尺寸，因此可以确定与位置候选对应的体积块候选。可以通过将体积块候选投影到2D图像上来获得投影区域。可以选择与检测区域317最大重叠的投影区域或具有等于或大于预定临界值的值的投影区域，并且可以选择与所选择的投影区域对应的位置候选335。

当选择了位置候选335时，使用与位置候选335对应的投影图像计算光线方向。可以通过将光线方向和局部方向319相加来确定全局方向340，如先前参考图4所描述的。

一旦在当前迭代中确定了全局方向340，就可以在下一次迭代中基于全局方向340生成下一个全局方向候选。例如，可以基于全局方向340生成具有小于先前迭代中的搜索范围的搜索范围但具有高于先前迭代中的分辨率的分辨率的全局方向候选。

参考图8，可以假设方向810在先前迭代中被确定为全局方向。在这种情况下，可以在0到π的搜索范围内以π/8的分辨率生成全局方向候选820、830、840、850、860和870。根据实施例，由于体积块的形状在体积块的方向上是对称的，因此搜索范围可以被设置为从π/4到3π/4，其小于先前迭代的搜索范围。

在通过迭代地搜索全局方向候选确定了最终全局方向之后，可以基于最终全局方向来检测或重建体积块350。在确定最终全局方向之后，因为给出了体积块的尺寸，所以可以使用图6A中所示的关系式来估计体积块350的最终位置。一旦确定了体积块350的最终全局方向、最终位置和最终尺寸，就可以检测或重建体积块350。

图9是示出根据实施例的从2D图像中检测3D对象的方法的流程图。

参考图9，在操作1中，通过量化[-π,π]的范围来选择全局方位候选(910)。全局方位候选分别与全局方向候选对应。

在操作2中，通过使用作为输入给定的3D框的尺寸并将投影几何学应用于在操作1中选择的全局方位候选来计算3D框的中心位置(920)。3D框与3D体积块对应，并且3D框的中心位置与3D体积块的位置对应。根据实施例，在操作2中，可以通过进一步考虑地平面的倾斜度来计算3D框的中心位置。

在操作3中，使用在操作2中计算并且与全局方位候选对应的3D框的中心位置中的最优值来计算光线角度(930)。可以基于2D检测区域和与全局方位候选对应的3D框的投影图像之间的重叠区域来确定最优值。

在操作4中，通过将作为输入给定的局部方位和在操作3中计算的光线角度相加在一起来计算全局方位(940)。局部方位与局部方向对应，并且全局方位与全局方向对应。

在操作5中，选择在操作4中计算的接近全局方位的全局方位候选(950)。

在操作6中，通过使用作为输入给定的3D框的尺寸并将投影几何学应用于在操作5中选择的全局方位候选来计算3D框的中心位置(960)。根据实施例，在操作6中，可以通过进一步考虑地平面的倾斜度来计算3D框的中心位置。

在操作7中，使用在操作6中计算并且与全局方位候选对应的3D框的中心位置中的最优值来计算光线角度(970)。在操作8中，通过将作为输入给定的局部方位和在操作7中计算的光线角度相加在一起来计算最终的全局方位(980)。

在操作9中，通过使用作为输入给定的3D框的尺寸并将投影几何学应用于在操作8中计算的最终全局方位来计算3D框的最终中心位置(990)。根据实施例，在操作9中，可以通过进一步考虑地平面的倾斜度来计算3D框的最终中心位置。

图10是示出根据实施例的电子系统的框图。参考图10，电子系统包括至少一个处理器1020和存储器1010。电子系统还可以包括传感器1030。处理器1020、存储器1010和传感器1030可以经由总线彼此通信。

处理器1020可以执行上面参考图1和图2描述的方法中的至少一个。存储器1010可以存储使用传感器1030捕获的图像。存储器1010可以是易失性存储器或非易失性存储器。处理器1020可以执行程序并且可以控制电子系统。可在处理器1020上执行的程序代码可以存储在存储器1010中。

电子系统可以通过输入/输出装置连接到外部装置(例如，个人计算机或网络)，并且可以与外部装置交换数据。电子系统可以包括各种电子系统，例如，服务器装置或客户端装置。

可以用硬件元件、软件元件和/或硬件元件和软件元件的组合来实现上述实施例。例如，上述实施例中描述的装置、方法和元件可以用至少一个通用或专用计算机(诸如，处理器、控制器、算术逻辑单元(ALU)、数字信号处理器、微计算机、现场可编程门阵列(FPGA)、可编程逻辑单元(PLU)、微处理器或能够执行指令和响应指令的任何其他装置)实现。处理装置可以执行操作系统(OS)和在操作系统上运行的至少一个软件应用。另外，处理装置可以响应于软件的执行来访问、存储、操纵、处理和生成数据。为了便于理解，可以描述使用单个处理装置的情况。然而，本领域普通技术人员将认识到，处理装置可以包括多个处理元件和/或多种类型的处理元件。例如，处理装置可以包括多个处理器，或处理器和控制器。诸如并行处理器的其他处理配置也是可能的。

软件可以包括计算机程序、代码、指令或它们中的至少一个的组合。另外，处理装置可以被配置为以期望的方式操作，并且可以独立地或共同地被指示。软件和/或数据可以永久地或临时地体现在特定机器、组件、物理装置、虚拟装置、计算机存储介质或装置中，或传播信号波，以便由处理装置解释或向处理装置提供指令或数据。软件可以分布在网络耦接的计算机系统上，并且可以以分布式方式存储和执行。软件和数据可以存储在至少一个计算机可读记录介质中。

实施例的方法可以实现为可以在各种计算机上执行并且然后可以存储在计算机可读记录介质中的程序指令。计算机可读记录介质可以单独地或组合地包括程序指令、数据文件、数据结构等。存储在介质中的程序指令可以是根据实施例设计和配置的或计算机软件行业中公知的程序指令。计算机可读记录介质可以包括专门配置为存储程序指令并执行程序指令的硬件，并且硬件的示例包括磁介质，例如硬盘、软盘和磁带；光学介质，诸如CD-ROM和DVD；磁光介质，诸如，软式光盘；和ROM、RAM和闪存。程序指令的示例可以包括由编译器产生的机器代码和使用解释器在计算机上可执行的高级语言代码。上述硬件装置可以被配置为经由一个或多个软件模块进行操作以执行根据实施例的操作，反之亦然。

本文已经公开了示例实施例，并且尽管采用了特定术语，但是它们仅以一般性和描述性意义来使用和解释，而不是出于限制的目的。除非另有明确指示，否则在一些情况下，如本领域普通技术人员在提交本申请时显而易见的，结合特定实施例描述的特征、特点和/或元件可以单独使用或与结合其他实施例描述的特征、特点和/或元件组合使用。因此，本领域技术人员将理解的是，在不脱离如所附权利要求阐述的本发明的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种从2D图像中检测3D对象的方法，所述方法包括：

接收包括对象的2D图像；

从所述2D图像中获取对象检测区域；

基于所述对象检测区域，在3D坐标系中迭代搜索包括所述2D图像的所述对象的体积块的方向的候选；以及

基于所述迭代搜索的结果从所述3D坐标系中检测所述体积块。

2.如权利要求1所述的方法，其中，在所述2D图像中，所述对象的至少一部分被另一对象隐藏或被沿着所述2D图像的边界切除。

3.如权利要求1所述的方法，其中，所述迭代搜索包括：

在所述3D坐标系中生成所述体积块的方向的候选；

基于生成的所述体积块的方向的候选和所述体积块的尺寸在所述3D坐标系中估计所述体积块的位置的候选；

基于所述对象检测区域和所述体积块的与估计出的所述体积块的位置的候选对应的投影区域，从估计出的所述体积块的位置的候选中选择一个体积块的位置的候选；

基于所选的所述一个体积块的位置的候选和所述对象在所述2D图像中的方向，在所述3D坐标系中确定所述体积块的方向。

4.如权利要求3所述的方法，其中，生成所述体积块的方向的候选包括：基于在先前迭代中确定的所述体积块的方向来生成所述体积块的方向的候选。

5.如权利要求3所述的方法，其中，生成所述体积块的方向的候选包括：基于比先前迭代的搜索范围更小的搜索范围和比所述先前迭代的分辨率更高的分辨率，生成所述体积块的方向的候选。

6.根据权利要求3所述的方法，其中，生成所述体积块的方向的候选包括以下项中的至少一个：

基于预定的搜索范围和预定的分辨率生成所述体积块的方向的多个候选；以及

生成与所述2D图像中的所述对象的方向和指向所述对象检测区域的中心点的光线方向对应的所述体积块的方向的候选。

7.如权利要求3所述的方法，其中，估计所述体积块的位置的候选包括：基于所述对象检测区域的特征点和所述体积块的特征点之间的对应关系，确定与所述体积块的方向的候选和所述体积块的尺寸对应的所述体积块的位置的候选。

8.如权利要求7所述的方法，其中，估计所述体积块的位置的候选还包括：从所述对象检测区域的所述特征点中排除与所述对象的切除部分或隐藏部分对应的特征点。

9.如权利要求7所述的方法，其中，确定所述体积块的位置的候选包括：通过进一步考虑所述2D图像的地平面的倾斜度，确定与所述体积块的方向的候选和所述体积块的尺寸对应的所述体积块的位置的候选。

10.如权利要求3所述的方法，其中，从估计出的所述体积块的位置的候选中选择一个体积块的位置的候选包括：

计算所述投影区域和所述对象检测区域之间的重叠区域的尺寸；

基于所述重叠区域的尺寸从所述投影区域中选择一个投影区域；

选择与所选择的投影区域对应的所述体积块的位置的候选。

11.如权利要求1所述的方法，其中，检测所述体积块包括：基于从所述2D图像中获取的所述体积块的尺寸和从所述搜索的结果中获取的所述体积块的方向，在所述3D坐标系中确定所述体积块的位置。

12.如权利要求11所述的方法，其中，确定所述体积块的位置包括：基于所述对象检测区域的特征点和所述体积块的特征点之间的对应关系，确定与所述体积块的方向和所述体积块的尺寸对应的所述体积块的位置。

13.如权利要求1所述的方法，其中，获取所述对象检测区域包括：通过使用识别所述2D图像的神经网络，获取包括所述对象的所述对象检测区域、所述2D图像中的所述对象的方向和所述3D坐标系中的所述体积块的尺寸。

14.一种计算机程序，其存储在介质上，用于执行如权利要求1所述的方法。

15.一种用于从2D图像中检测3D对象的设备，所述设备包括：

存储器，用于存储包括对象的2D图像；以及

至少一个处理器，用于从所述2D图像中获取对象检测区域，基于所述对象检测区域在3D坐标系中迭代搜索包括所述对象的体积块的方向的候选，以及基于所述搜索的结果从所述3D坐标系中检测所述体积块。

16.如权利要求15所述的设备，其中，在所述2D图像中，所述对象的至少一部分被另一对象隐藏或被沿着所述2D图像的边界切除。

17.如权利要求15所述的设备，其中，针对所述迭代搜索，所述至少一个处理器：

在所述3D坐标系中生成所述体积块的方向的候选；

基于所述体积块的方向的候选和所述体积块的尺寸在所述3D坐标系中估计所述体积块的位置的候选；

基于所述对象检测区域和所述体积块的与所述体积块的位置的候选对应的投影区域，从所述体积块的位置的候选中选择一个体积块的位置的候选；以及

18.如权利要求17所述的设备，其中，所述至少一个处理器基于在先前迭代中确定的所述体积块的方向来生成所述体积块的方向的候选。

19.如权利要求17所述的设备，其中，所述至少一个处理器基于比先前迭代的搜索范围更小的搜索范围和比所述先前迭代的分辨率更高的分辨率，生成所述体积块的方向的候选。

20.根据权利要求17所述的设备，其中，所述至少一个处理器基于预设的搜索范围和预设的分辨率生成所述体积块的方向的多个候选。

21.根据权利要求17所述的设备，其中，所述至少一个处理器生成与所述2D图像中的所述对象的方向和指向所述对象检测区域的中心点的光线方向对应的所述体积块的方向的候选。

22.如权利要求17所述的设备，其中，所述至少一个处理器基于所述对象检测区域的特征点和所述体积块的特征点之间的对应关系，确定与所述体积块的方向的候选和所述体积块的尺寸对应的所述体积块的位置的候选。

23.如权利要求22所述的设备，其中，所述至少一个处理器从所述对象检测区域的所述特征点中排除与所述对象的切除部分或隐藏部分对应的特征点。

24.如权利要求22所述的设备，其中，所述至少一个处理器通过进一步考虑所述2D图像的地平面的倾斜度，确定与所述体积块的方向的候选和所述体积块的尺寸对应的所述体积块的位置的候选。

25.如权利要求17所述的设备，其中，所述至少一个处理器通过以下方式从所述体积块的位置的候选中选择一个所述体积块的位置的候选：

选择与所选择的投影区域对应的所述体积块的位置的候选。