CN109872366A

CN109872366A - 基于深度拟合程度评估网络的物体三维位置检测方法和装置

Info

Publication number: CN109872366A
Application number: CN201910138684.4A
Authority: CN
Inventors: 鲁继文; 周杰; 刘礼杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-11
Anticipated expiration: 2039-02-25
Also published as: CN109872366B

Abstract

本发明提出一种基于深度拟合程度评估网络的物体三维位置检测方法和装置，其中，方法包括：对第一原始图片进行二维物体检测，确定图片中包含物体的检测框，将截取的各个检测框对应的图像块分别输入基于锚点的回归模型中，确定各个物体对应的朝向和三维尺寸，进而采用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并通过高斯稠密采样获取每个物体对应的至少两个候选三维长方体，并投影至图片中获取对应的至少两个投影三维长方体，将获取的至少两个投影三维长方体通过深度拟合程度评估网络，确定三维覆盖率最大值对应的投影三维长方体为每个物体对应的目标三维长方体，从而确定物体的三维空间位置，提高了物体三维空间位置确定的准确度。

Description

基于深度拟合程度评估网络的物体三维位置检测方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度拟合程度评估网络的物体三维位置检测方法和装置。

背景技术

由于我们生活在一个三维世界中，二维感知是远远无法满足我们的实际需求的，在诸如自动驾驶和基于视觉的机器人抓取问题中，我们常常需要推理三维空间中物体之间的位置关系，从而能够理解真实的三维场景并做出进一步的动作。三维物体检测是三维感知中最重要的问题之一，其中需要求解三维空间中物体的9个自由度，包括维度(长、宽、高)，朝向(横滚角、俯仰角、偏航角)和位置(X、Y、Z坐标)。

目前已经有很多基于立体图像对，彩色深度信息，或者激光点云的三维物体检测方法被提出，但是仅仅基于单张彩色图片的三维物体检测方法还处于起步阶段，其主要原因是在只有二维图像中的外观信息的情况下，无法获取真实的三维信息。在诸如网络图像，手机应用，和胃镜图片中，通常也只能得到单张图片的信息，单目问题设置是最为基本的一种输入模态，因此依靠单张图片进行三维物体检测是一个非常值得研究的问题。但在单目三维物体检测问题中由于从二维空间映射到三维空间存在多义性，仅仅通过一个图像块，是无法直接回归出物体的三维空间位置的。

相关技术中，基于紧凑性约束来求解三维空间位置是一个很普遍的做法，但是紧凑性约束高度依赖二维检测结果的精确度，二维检测结果的微小误差会导致三维空间位置检测结果的准确性大幅降低。因此，提高物体三维空间位置确定的准确度急需要解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种基于深度拟合程度评估网络的物体三维位置检测方法，通过基于高斯稠密采样确定出第一原始图片中每个物体对应的至少两个候选三维长方体，并投影至第一原始图片中得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，并通过深度拟合程度评估网络来推理投影三维长方体和物体之间的三维覆盖率，将和物体具有最大三维覆盖率的投影三维长方体作为目标三维长方体，从而根据目标三维长方体的三维位置确定物体的三维位置，提高了物体三维空间位置确定的准确度，解决了相关技术中物体的三维位置确定的精度受二维图像位置检测的精度影响较大，三维位置确定的精度较低的技术问题。

本发明提出一种基于深度拟合程度评估网络的物体三维位置检测装置。

本发明一方面实施例提出了一种基于深度拟合程度评估网络的物体三维位置检测方法，包括：

对第一原始图片进行二维物体检测，并对所述原始图片中的各个物体采用检测框进行标注，其中，每个检测框中包含一个物体；

对所述第一原始图片中的各个检测框进行截取，获取各个检测框对应的图像块，并将所述各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸；

根据所述各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体；

将每个物体对应的至少两个候选三维长方体分别投影至所述第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将所述第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体；

根据所述每个物体对应的目标三维长方体，确定每个物体的三维空间位置。

本发明又一方面实施例提出了一种基于深度拟合程度评估网络的物体三维位置检测装置，所述装置包括：

检测模块，用于对第一原始图片进行二维物体检测，并对所述第一原始图片中的各个物体采用检测框进行标注，其中，每个检测框中包含一个物体；

回归模块，用于对第一原始图片中的各个检测框进行截取，获取各个检测框对应的图像块，并将所述各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸；

采样模块，用于根据所述各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体；

第一确定模块，用于将每个物体对应的至少两个候选三维长方体分别投影至所述第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将所述第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体；

第二确定模块，用于根据所述每个物体对应的目标三维长方体，确定每个物体的三维空间位置。

本发明实施例所提供的技术方案可以包含如下的有益效果：

对第一原始图片进行二维物体检测，并对第一原始图片中的各个物体采用检测框进行标注，其中，每个检测框中包含一个物体，对第一原始图片中的各个检测框进行截取，获取各个检测框对应的图像块，并各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸，根据所述各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体，将每个物体对应的至少两个候选三维长方体分别投影至所述第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体，根据每个物体对应的目标三维长方体，确定每个物体的三维空间位置，提高了物体三维空间位置确定的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为现有技术中物体三维位置检测的示意图；

图2为本发明实施例所提供的一种基于深度拟合程度评估网络的物体三维位置检测方法的流程示意图；

图3为本发明实施例中物体三维位置检测的示意图；

图4为本发明实施例所提供的一种基于深度拟合程度评估网络的车辆三维位置检测的示意图；

图5为本发明实施例所提供的基于锚点的回归模型的训练方法的流程示意图；

图6为本发明实施例所提供的回归模型的结构示意图；

图7为本发明实施例所提供的另一种基于深度拟合程度评估网络的物体三维位置检测方法的流程示意图；

图8为本发明实施例所提供的一种深度拟合程度评估网络的训练方法的流程示意图；

图9为本发明实施例所提供的深度拟合程度评估网络的结构示意图；以及

图10为本发明实施例提供的一种基于深度拟合程度评估网络的物体三维位置检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于深度拟合程度评估网络的单目三维物体检测方法和装置。

相关技术中，一般是采用紧凑性约束来确定物体在三维空间中的位置，紧凑性约束的原理是将三维长方体放置在二维检测框中，例如，如图1所示，将车辆对应的三维长方体B紧凑的放置在二维检测框A中，从而根据二维检测框对应的位置和尺寸信息，确定三维长方体B的位置，因此，采用紧凑性约束来确定车辆的三维空间位置对图像中车辆的二维检测结果的精度则要求较高，当二维检测结果的精度哪怕存在微小的误差，也会导致车辆的三维空间位置确定的精度大大降低。

针对上述问题，本申请实施例提供了一种基于关系推理网络的物体三维位置检测方法。

图2为本发明实施例所提供的一种基于深度拟合程度评估网络的物体三维位置检测方法的流程示意图。

如图2所示，该方法包括以下步骤：

步骤101，对第一原始图片进行二维物体检测，并对原始图片中的各个物体采用检测框进行标注，其中，每个检测框中包含一个物体。

其中，第一原始图片是包含至少一种物体的二维图片。

作为一种可能的实现方式，采用多尺度的卷积神经网络Multi-scale CNN对第一原始中的物体进行检测，以确定第一原始图片中各个物体的位置和尺寸，根据检测确定的各个物体的位置和尺寸，采用检测框对第一原始图片中的每一个物体进行标注，每个检测框中包括一个物体。

步骤102，对第一原始图片中的各个检测框进行截取，获取各个检测框对应的图像块，并将各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸。

具体地，在对第一原始图片进行检测确定图片中的各个物体对应的检测框后，对第一原始图片中包含的各个物体对应的检测框进行裁剪，获取各个物体对应的图像块，将各个物体对应的图像块输入训练完成的基于锚点的回归模型中，该基于锚点的回归模型已经学习得到了图像块和图像块中物体的尺寸的对应关系，以及图像块和图像块中物体的朝向的对应关系。

其中，基于锚点的回归模型的训练方法，将在下述实施例中的详细说明。

步骤103，根据所述各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体。

本发明实施例中，确定各个物体对应的朝向和三维尺寸后，根据各个物体对应的朝向和三维尺寸，即可在三维坐标系中构建每个物体对应的三维长方体，并确定每个物体对应的三维长方体的初始位置，进而通过紧凑性约束方法将每个物体对应的三维长方体紧凑的放置到物体对应的二维检测框中，即确定每个物体对应的三维长方体对应的基准位置，将各个物体对应的三维长方体从初始位置平移至基准位置，并在基准位置处进行高斯稠密采样，确定每个物体对应的多个候选三维长方体，每个候选三维长方体包含其对应的三维位置信息。

步骤104，将每个物体对应的至少两个候选三维长方体分别投影至第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体。

具体地，为了更加准确的确定物体的三维空间位置，将每个物体对应的至少两个候选三维长方体投影至包含相应物体的第一原始图片中，得到包含各个物体对应的至少两个投影三维长方体的第二原始图片，其中，每个物体对应的每个候选三维长方体投影后得到对应的投影三维长方体，如图3所示，利用通过训练已学习到图片和图片中三维覆盖率最大值对应的候选三维长方体的对应关系的深度拟合程度评估网络，确定和物体三维空间位置具有最大三维覆盖率的候选三维长方体，作为每个物体对应的目标三维长方体。

例如，假设物M在相机坐标系下的基准位置是B＝[B_x,B_y,B_z]^T，根据相机投影关系，则有其中，其中，u_i，v_i是物体M的第i个顶点的二维投影坐标，K是相机内参数矩阵，R是由物体的朝向θ给出的旋转矩阵，x_i，y_i，z_i是物体M在世界三维坐标系中的三维坐标。

根据上面的公式，即可将物体M对应的候选三维长方体投影至包含物体M的第一原始图片中，得到对应的第二原始图片。同理，可将各个物体对应的候选三维长方体投影至包含各个物体的第一原始图片中，得到对应的第二原始图片。

步骤105，根据每个物体对应的目标三维长方体，确定每个物体的三维空间位置。

具体地，确定每个物体对应的目标三维长方体后，则目标三维长方体携带了对应的位置信息，利用相机坐标系和世界坐标系的映射关系，将目标三维长方体对应的相机坐标系中的位置信息，从相机坐标系中映射至世界坐标系中，从而确定了物体对应的三维空间位置，提高了三维空间位置确定的准确性。

为了进一步说明本实施例的方法，以自动驾驶场景下，对车辆位置进行确定的场景为例，进行进一步说明。

如图4所示，获取二维图片，对图片进行二维检测，识别出图片中包含的车辆，并对识别出的车辆采用检测框标识，每个检测框中包含一个车辆，并在识别过程中将置信度低于0.1的检测框结果过滤掉。对图片中识别出的汽车对应的检测框进行裁剪，获得包含各个车辆的图像块，将各个图像块输入训练好的基于锚点的回归模型中，回归出各个车辆对应的朝向和三维尺寸，进而，依据确定的各个车辆对应的朝向和三维尺寸，确定各个车辆的对应的三维长方体的初始位置，进而，通过紧凑性约束方法确定各个车辆对应的三维长方体的基准位置，再对各个车辆对应的三维长方体从初始位置平移至基准位置，再对基准位置的三维长方体进行高斯稠密采样，确定每个车辆对应的至少两个候选三维长方体，将每个车辆对应的至少两个候选三维长方体投影至车辆对应的图片中得到至少两个投影三维长方体，如图4中所示，中间图中所示的即为投影后得到的至少两个投影三维长方体。进而，将包含至少两个投影三维长方体的图片输入到深度拟合程度评估网络FQNet中，即可输出图片中各个车辆对应的目标三维长方体，如图3和4所示，深度拟合程度评估网络输出的目标三维长方体和物体位置的三维覆盖率较高，从而提高了二维图像中物体位置确定的准确度。

本发明实施例的基于深度拟合程度评估网络的物体三维位置检测方法中，通过对第一原始图像进行检测，确定第一原始图像中包含的物体，截图包含物体的检测框的图像块，利用高斯稠密采样确定出每个物体对应的至少两个候选三维长方体，并映射至图片的相机坐标系中，并通过深度拟合程度评估网络来推理投影三维长方体和物体之间的三维覆盖率，将和物体具有最大三维覆盖率的投影三维长方体作为目标三维长方体，从而根据目标三维长方体的三维位置确定物体的三维位置，提高了物体三维空间位置确定的准确度，解决了相关技术中物体的三维位置确定的精度受二维图像位置检测的精度影响较大，三维位置确定的精度较低的技术问题。

通过上述实施例的分析可知，在获取了包含物体的图像块后，将图像块输入训练好的基于锚点的回归模型，确定出各个物体对应的朝向和三维尺寸，本实施例中提供了一种具体的应用场景为自动驾驶场景中的障碍物识别，基于上一实施例，本实施例提供了一种基于锚点的回归模型的训练方法，图5为本发明实施例所提供的基于锚点的回归模型的训练方法的流程示意图。

如图5所示，该方法可以包括以下步骤：

步骤501，获取训练样本。

具体地，采集大量的包含待识别物体的二维图片，图片中包含物体的三维尺寸信息，即物体的长、宽和高。

步骤502，将训练样本输入基于锚点的回归模型，采用基于锚点的回归算法，对基于锚点的回归模型执行训练过程。

本实施例中的基于锚点的回归模型包含两个损失函数L_d和Lo，其中，对基于锚点的回归模型中损失函数L_d的优化以实现对物体的三维尺寸的确定，对基于锚点的回归模型中损失函数Lo的优化以实现对物体的朝向的确定。

图6为本发明实施例所提供的回归模型的结构示意图，如图6所示，该回归模型包含多个卷积层和多个全连接层，通过对该基于锚点的回归模型进行训练，确定该模型的损失函数L_d和Lo，也就是说当损失函数L_d和Lo最小时，基于锚点的回归模型训练完成，基于锚点的回归模型即学习到了图像块和图像块中物体的三维尺寸的对应关系，以及所述图像块和所述图像块中物体的朝向的对应关系。

具体地，针对物体的三维尺寸的确定，通过对基于锚点的回归模型进行训练，使得基于锚点的回归模型可以学习得到图片和图片中物体的三维尺寸的对应关系，作为一种可能的实现方式，获取样本，样本为包含物体和物体的三维尺寸的图片，采用聚类算法，例如k-means方法对训练集中的样本图片中物体的三维尺寸信息进行聚类，得到K个聚类中心，K代表聚类的类别，例如，小汽车、大卡车、公交车等，每个聚类中心对应一个锚点，对应一个三维锚点长方体，利用回归模型针对每一个三维锚点长方体执行回归过程，输出该三维锚点长方体的置信度和偏置量，因此，针对K个聚类中心，基于锚点的回归模型输出的则为一个4K维的向量，其中每一维的向量表示为[c_i，Δw_i，Δh_i，Δl_i]，i＝1,2···，K，其中，c_i代表第i个三维锚点长方体对应的置信度，其中，该置信度指示了该锚点长方体为哪一个类别的可信度，例如，小汽车的三维尺寸信息是已知的，当该锚点长方体指示为小汽车类别时，则该锚点长方体的尺寸越接近小汽车的三维尺寸，则该锚点长方体为小车辆的置信度则越高。Δw_i，Δh_i，Δl_i则分别代表第i个三维锚点长方体在x轴方向，y轴方向和z轴方向的偏置量。通过优化基于锚点的回归模型的损失函数L_d，使得基于锚点的回归模型最后回归输出的结果则为具有最高置信度的三维锚点长方体，以及该三维锚点长方体对应的偏置量。

其中，优化基于锚点的回归模型的损失函数L_d表示为：

其中，σ(·)是softmax函数：

函数IoU()用于计算两个中心对齐的三维长方体A和B之间的覆盖率，表示为：

对应本实施例中函数IoU()即计算第i个锚点长方体和物体对应的真实的长方体G之间的覆盖率，当i个锚点长方体的尺寸和物体对应的真实的长方体G之间的尺寸越接近，则第i个锚点长方体和物体对应的真实的长方体G之间的覆盖率则最大，则IoU(A_i，G)函数得到的值则越接近1，同时在置信度也最高时，对应的损失函数则最小，损失函数最小时，基于锚点的回归模型则训练完成，已学习得到图像和图像中物体的三维尺寸的对应关系，从而将获取的包含检测框的图像输入该基于锚点的回归模型，即可输出二维图像中物体对应的三维尺寸，准确度较高。

对于物体的朝向的回归，本实施例中物体的朝向范围为[-π,π]，通过对基于锚点的回归模型进行训练，使得基于锚点的回归模型可以学习得到图片和图片中物体的朝向的对应关系，作为一种可能的实现方式，获取样本图片，采用聚类算法，例如k-means方法对训练集中的样本图片中物体的朝向进行聚类，得到k'个聚类中心，每个聚类中心作为一个锚点角，回归模型的输出则为一个2k'维的向量，每一维的向量可以表示为[c_i，Δθ_i]，i＝1,2···，k'，通过优化基于锚点的回归模型的损失函数Lo，使得基于锚点的回归模型最后回归输出的结果则为具有最高置信度的三维锚点角，以及该三维锚点角对应的偏置量。则基于锚点的回归模型的优化损失函数可表示为：

其中，Θ_i代表第i个锚点角，是和物体真实朝向θ_G距离最近的一个锚点角。

该基于锚点的回归模型通过训练，当损失函数Lo最小时基于锚点的回归模型训练完成，学习得到了输入图片和图片中物体的朝向的对应关系，从而将获取的包含检测框的图像块输入该基于锚点的回归模型，即可输出二维图像块中物体对应的朝向，准确度较高。

本发明实施例中，通过预先对基于锚点的回归模型进行训练，使得基于锚点的回归模型学习得到输入的二维图像和图像中物体的三维尺寸的对应关系，以及输入的二维图像和图像中物体的朝向的对应关系，提高了二维图像中物体的三维尺寸和朝向确定的准确性。

上述实施例中描述了，可通过高斯稠密采样确定每个物体对应的至少两个候选三维长方体，从而基于确定的至少两个候选三维长方体确定物体的三维位置，以提高物体的三维位置确定的准确性，为此，本实施例提供了另一种基于深度拟合程度评估网络的单目三维物体检测方法，图7为本发明实施例所提供的另一种基于深度拟合程度评估网络的物体三维位置检测方法的流程示意图，如图7所示，步骤103，还可以包含如下子步骤：

步骤1031，根据各个物体对应的朝向和三维尺寸，确定各个物体对应的三维长方体的初始位置。

具体为：在世界坐标系中，根据确定的各个物体的三维尺寸和朝向，构建出各个物体对应的三维长方体，确定各个物体对应的三维长方体的8个角点的坐标，根据各个物体对应的三维长方体的8个角点的坐标确定各个物体对应的三维长方体的初始位置。其中，每个物体对应的三维长方体的8个角点的坐标可以表示为：

y＝[0,0,0,0,-h,-h,-h,-h]

其中，l、h和W分别为物体的三维尺寸，即长、宽和高，不同物体对应不同的三维尺寸，即对应不同的长、宽和高。

步骤1032，利用紧凑性约束算法确定各个物体对应的三维长方体的基准位置，并将各个物体对应的三维长方体从初始位置平移至基准位置。

本发明实施例中，紧凑性约束方法，是指利用图片二维检测时确定的二维检测框，其中，各个物体的二维检测框包含各个物体的二维坐标，将各个物体对应的三维长方体紧凑性的放入二维检测框内，根据二维检测框的二维坐标，确定各个物体对应的三维长方体的基准位置，将各个物体对应的三维长方体从初始位置平移至基准位置。

步骤1033，针对每个物体对应的三维长方体的基准位置，进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体。

具体地，将每个物体对应的三维长方体平移至三维基准位置后，在每个物体对应的三维长方体的基准位置的预设范围内，进行高斯稠密采样，确定世界坐标系中x方向、y方向和z方向对应的偏移量，其中，x方向、y方向和z方向的偏移量分别表示为：

Δx～N(μ_x,σ_x)

Δy～N(μ_y,σ_y)

Δz～N(μ_z,σ_z)

其中，x方向、y方向和z方向的均值和方差均是通过每个物体对应的三维长方体对应的基准位置的误差估计得到的。

从而，第i个候选三维长方体可以表示为S_i(x+Δx_i,y+Δy_i,z+Δz_i,l,h,w,θ)，其中，i的取值为[1,N]，N为大于等于2的整数，Δx_i，Δy_i，Δz_i分别表示第i个候选三维长方体在x轴方向，y轴方向和z轴方向的位移量。

本发明实施例的基于深度拟合程度评估网络的单目三维物体检测方法中，根据确定的各个物体对应的朝向和三维尺寸，利用紧凑性约束方法和高斯稠密采样，确定每个物体对应的至少两个候选三维长方体，每个候选三维长方体确定了对应的三维位置，从而可以基于至少两个候选三维长方体确定物体的三维位置，以提高物体的三维位置确定的准确性。

通过对上述实施例的分析，当通过高斯稠密采样可以确定至少两个候选三维长方体，为了更加准确的确定物体的三维空间位置，将每个物体对应的至少两个候选三维长方体投影至物体对应的图像中得到至少两个投影三维长方体，并将包含至少两个投影三维长方体的图像利用深度拟合程度评估网络评估物体对应的图像中包含的至少两个投影三维长方体与物体真实三维尺寸的拟合程度，也就评估确定的至少两个投影三维长方体与物体真实三维空间位置的覆盖率，和物体真实三维尺寸拟合程度越高的投影选三维长方体对应的位置则越能代表当前物体的三维空间位置，为此，本实施例提供了一种深度拟合程度评估网络的训练方法，图8为本发明实施例所提供的一种深度拟合程度评估网络的训练方法的流程示意图，如图8所示，该方法包含如下的步骤：

步骤801，获取经过标注的训练样本。

本发明实施例中，训练样本图像中标注了图像中的物体对应的真实三维位置，图像中还包含图像中的物体对应的投影得到的至少两个投影长方体。

需要说明的是由于训练样本中物体的对应的三维长方体的三维真实三维位置是已知的，通过增加一个已知的位置的抖动即可以获取无限多的样本，样本的数量越多，模型的训练效果则越好。

步骤802，利用训练样本对深度拟合程度评估网络进行训练。

本发明实施例中，为了保证深度拟合程度评估网络能够学习到候选三维长方体的特征，可以先对深度拟合程度评估网络进行分类任务的训练，使得深度拟合程度评估网络可以学习得到图像中人工绘制的候选三维长方体的特征，即可以识别出图像中候选三维长方体的特征。

进而，再对深度拟合程度评估网络进行训练，使得深度拟合程度评估网络可以学习得到候选三维长方体和物体对应的标注的三维长方体的三维覆盖率的对应关系，训练的目标即确定该深度拟合程度评估网络的参数，参数表示为：δ，其中，I表示物体对应的标注的三维长方体，即I的三维位置是已知的，IoU函数用于计算物体对应的标注的三维长方体I和候选三维长方体S_i之间的覆盖率，F函数用于预测物体对应的标注的三维长方体I和候选三维长方体S_i之间的覆盖率，当F函数预测得到的覆盖率和IoU函数计算得到的覆盖率最接近时，对应的参数δ即为该深度拟合程度评估网络的参数。

图9为本发明实施例所提供的深度拟合程度评估网络的结构示意图，如图9所示，该深度拟合程度评估网络的输入为包含至少两个投影三维长方体的图片，该深度拟合程度评估网络可为FQNet卷积神经网络，包含3个卷积层，每个卷积层后紧邻一个局部响应归一化层和一个池化层，最后为全连接层，该FQNet网络可以通过于预训练过程，即对应上面的分类的分支，损失函数采用交叉熵损失，使得该网络学习得到图像中投影结果的特征。进而对FQNet进行训练，即对应下方的三维覆盖率的分支，损失函数采用平滑的1范数损失，使得该网络学习得到图像中投影结果和图像中物体的三维位置的对应关系。

本发明实施例中，通过对深度拟合程度评估网络进行训练，使得该网络学习得到图像中投影结果和图像中物体的三维位置的对应关系，使得深度拟合程度评估网络可以从投影得到的多个投影三维长方体中确定出和物体真实位置最接近的目标三维长方体，从而将目标三维长方体对应的位置作为物体的三维位置，提高了物体三维位置确定的准确性。

为了实现上述实施例，本发明还提出一种基于深度拟合程度评估网络的物体三维位置检测装置。

如图10所示，该装置包括：检测模块91、回归模块92、采样模块93、第一确定模块94和第二确定模块95。

检测模块91，用于对第一原始图片进行二维物体检测，并对原始图片中的各个物体采用检测框进行标注，其中，每个检测框中包含一个物体。

回归模块92，用于对第一原始图片中的各个检测框进行截取，获取各个检测框对应的图像块，并将各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸。

采样模块93，用于根据各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体。

第一确定模块94，用于将每个物体对应的至少两个候选三维长方体分别投影至第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体。

第二确定模块95，用于根据每个物体对应的目标三维长方体，确定每个物体的三维空间位置。

进一步地，在本发明实施例的一种可能的实现方式中，该装置还包括：第一训练模块和第二训练模块。

第一训练模块，用于预先对所述基于锚点的回归模型进行训练，使得所述基于锚点的回归模型学习得到图像块和图像块中物体的三维尺寸的对应关系，以及图像块和图像块中物体的朝向的对应关系。

第二训练模块，用于获取经过标注的训练样本；利用所述训练样本，对所述深度拟合程度评估网络进行训练，其中，深度拟合程度评估网络的参数为δ，其中，I表示物体对应的标注的三维长方体，IoU函数用于计算物体对应的标注的三维长方体和投影三维长方体之间的覆盖率。

其中，训练完成的深度拟合程度评估网络学习得到了图片和图片中三维覆盖率最大值对应的投影三维长方体的对应关系。

作为一种可能的实现方式，第一训练模块，具体用于：

获取训练样本；

将所述训练样本输入所述基于锚点的回归模型，采用基于锚点的回归算法，对所述基于锚点的回归模型执行训练过程。

作为一种可能的实现方式，所述采样模块93，具体用于：

根据所述各个物体对应的朝向和三维尺寸，确定所述各个物体对应的三维长方体的初始位置；

利用紧凑性约束算法确定各个物体对应的三维长方体的基准位置，并将各个物体对应的三维长方体从初始位置平移至基准位置；

针对每个物体对应的三维长方体的基准位置，进行高斯稠密采样，确定所述每个物体对应的至少两个候选三维长方体S_i(x+Δx_i,y+Δy_i,z+Δz_i,l,h,w,θ)，其中，i表示第i个候选三维长方体，x，y，z表示物体对应的三维长方体的基准位置的三维坐标，l，h，w分别表示物体的长、宽和高，θ表示物体的朝向，Δx_i，Δy_i，Δz_i分别表示第i个候选三维长方体在x轴方向，y轴方向和z轴方向的位移量。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

本发明实施例的基于深度拟合程度评估网络的物体三维位置检测装置中，通过对第一原始图像进行检测，确定第一原始图像中包含的物体，截图包含物体的图像块，利用高斯稠密采样确定出每个物体对应的至少两个候选三维长方体，并映射至图片的相机坐标系中，并通过深度拟合程度评估网络来推理投影三维长方体和物体之间的三维覆盖率，将和物体具有最大三维覆盖率的投影三维长方体作为目标三维长方体，从而根据目标三维长方体的三维位置确定物体的三维位置，提高了物体三维空间位置确定的准确度，解决了相关技术中物体的三维位置确定的精度受二维图像位置检测的精度影响较大，三维位置确定的精度较低的技术问题。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度拟合程度评估网络的物体三维位置检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的检测方法，其特征在于，所述将所述各个检测框对应的图像块分别输入基于锚点的回归模型，确定各个物体对应的朝向和三维尺寸，包括：

预先对所述基于锚点的回归模型进行训练，使得所述基于锚点的回归模型学习得到图像块和图像块中物体的三维尺寸的对应关系，以及图像块和图像块中物体的朝向的对应关系。

3.根据权利要求2所述的检测方法，其特征在于，所述预先对所述基于锚点的回归模型进行训练，包括：

获取训练样本；

4.根据权利要求1所述的检测方法，其特征在于，所述根据所述各个物体对应的朝向和三维尺寸，在三维空间中确定各个物体对应的三维长方体，利用紧凑性约束方法确定各个物体对应的三维长方体的基准位置，并对各个物体对应的三维长方体的基准位置进行高斯稠密采样，确定每个物体对应的至少两个候选三维长方体，包括：

5.根据权利要求1-4任一所述的检测方法，其特征在于，所述将每个物体对应的至少两个候选三维长方体分别投影至所述第一原始图片中，得到包含每个物体对应的至少两个投影三维长方体的第二原始图片，将所述第二原始图片输入深度拟合程度评估网络，将三维覆盖率最大值对应的投影三维长方体作为每个物体对应的目标三维长方体之前，还包括：

获取经过标注的训练样本；

利用所述训练样本，对所述深度拟合程度评估网络进行训练，其中，深度拟合程度评估网络的参数为δ，其中，I表示物体对应的标注的三维长方体，IoU函数用于计算物体对应的标注的三维长方体和候选三维长方体之间的覆盖率。

其中，训练完成的深度拟合程度评估网络学习得到了图片和图片中三维覆盖率最大值对应的候选三维长方体的对应关系。

6.一种基于深度拟合程度评估网络的物体三维位置检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的检测装置，其特征在于，所述装置，还包括：

8.根据权利要求7所述的检测装置，其特征在于，所述第一训练模块，具体用于：

获取训练样本；

9.根据权利要求6所述的检测装置，其特征在于，所述采样模块，具体用于：

10.根据权利要求6-9任一所述的检测装置，其特征在于，所述装置，还包括：

第二训练模块，用于获取经过标注的训练样本；利用所述训练样本，对所述深度拟合程度评估网络进行训练，其中，深度拟合程度评估网络的参数为δ，其中，I表示物体对应的标注的三维长方体，IoU函数用于计算所述物体对应的标注的三维长方体和投影三维长方体之间的覆盖率。

其中，训练完成的深度拟合程度评估网络学习得到了图像和图像中三维覆盖率最大值对应的投影三维长方体的对应关系。