CN110853036A

CN110853036A - 用于训练对象检测模型的方法及设备

Info

Publication number: CN110853036A
Application number: CN201910695644.XA
Authority: CN
Inventors: 崔熙旼
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-08-21
Filing date: 2019-07-30
Publication date: 2020-02-28
Also published as: US20200066036A1; KR20200021626A; US11450063B2; KR102615196B1

Abstract

本发明提供一种对象检测训练方法及对象检测训练设备。所述对象检测训练设备基于对象检测模型依据输入图像确定对象的姿态及尺寸以及各种视点处的限界框，并且基于损失来训练所述对象检测模型。

Description

用于训练对象检测模型的方法及设备

[相关申请的交叉参考]

本申请主张2018年8月21日在韩国知识产权局提出申请的韩国专利申请第10-2018-0097170号的权利，所述韩国专利申请的全部公开内容出于所有目的并入本文供参考。

技术领域

以下说明涉及一种训练对象检测模型的技术。

背景技术

近来，为了解决将输入模式分类为预定群组的问题，正在积极地进行关于尝试将人类的有效模式识别方法应用到实际计算机的研究。所述研究包括对人工神经网络(artificial neural network，ANN)的研究，所述人工神经网络是通过由数学表达式对人类生物神经元的特性进行建模而获得的。为了解决上述问题，ANN采用模拟人类学习能力的算法。ANN使用所述算法生成输入模式与输出模式之间的映射，这表明ANN具有学习能力。此外，ANN具有基于训练结果来关于尚未用于训练的输入模式生成相对正确的输出的泛化能力。

例如，自主车辆可以使用ANN来检测自主车辆前方的对象。

发明内容

提供本概述是为了以简化形式来介绍一系列概念，以下会在具体实施方式中进一步阐述所述概念。本概述并非旨在辨识所主张的主题的关键特征或基本特征，也不旨在用于帮助确定所主张主题的范围。

在本文提供的一些实施例中，提供一种对象检测训练方法。在一些实施例中，所述方法包括：使用对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸；依据所述姿态及所述尺寸计算三维(three-dimensional，3D)限界框；通过将所述3D限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框；通过将所述3D限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框；以及基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来训练所述对象检测模型，所述训练包括对所述第一输出限界框与所述第二输出限界框的融合运算。

在所述方法的一些实施例中，确定所述第一输出限界框包括通过将所述3D限界框投影到鸟瞰图投影图像来确定与所述对象对应的鸟瞰图限界框。

在所述方法的一些实施例中，确定所述第二输出限界框包括通过将所述3D限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

在所述方法的一些实施例中，所述估计所述对象的所述姿态及所述尺寸包括从i)与从所述输入图像检测到的所述对象对应的二维(two-dimensional，2D)限界框及ii)与所述2D限界框对应的裁剪图像提取特征。

在所述方法的一些实施例中，训练所述对象检测模型包括：基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来计算损失；以及基于所述损失来训练所述对象检测模型，所述训练包括更新神经网络中的权重。

在所述方法的一些实施例中，计算所述损失包括：基于所述第一输出限界框与第一参考限界框之间的交叠程度来计算第一损失；以及基于所述第二输出限界框与第二参考限界框之间的交叠程度来计算第二损失。

在所述方法的一些实施例中，计算所述损失包括：基于指示所述对象的前面的前面框来确定目标框；以及基于所述目标框与参考框之间的交叠程度来计算透视限界框的损失。

在所述方法的一些实施例中，估计所述对象的所述姿态及所述尺寸包括：基于从所述输入图像提取的所述特征来估计位置偏移；依据所述姿态及所述尺寸来估计初始位置；通过对所估计的所述初始位置应用所述位置偏移来确定输出位置；且计算所述损失是基于所确定的所述输出位置而进行。

在所述方法的一些实施例中，估计所述姿态及所述尺寸包括基于从所述输入图像提取的所述特征来估计所估计的所述姿态及所估计的所述尺寸中的每一者的置信级。

在所述方法的一些实施例中，估计所述对象的所述尺寸包括估计所述对象的宽度、长度及高度。

还提供一种额外的对象检测训练方法，包括：使用对象检测模型基于从输入图像及深度图像提取的特征来估计对象的姿态；使用所述对象检测模型基于从所述输入图像及所述深度图像提取的所述特征来估计与所述对象对应的三维(3D)限界框；通过将所述3D限界框投影到投影图像来确定与所述对象对应的输出限界框；以及基于所述姿态、所述3D限界框及所述输出限界框来训练所述对象检测模型，所述训练包括对所述3D限界框与所述输出限界框的融合运算。

确定所述输出限界框包括通过将所述3D限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

在所述额外的对象检测方法的一些实施例中，从所述输入图像及所述深度图像提取所述特征是基于由区域建议网络(region proposal network，RPN)计算的区域而进行。

在所述额外的对象检测方法的一些实施例中，训练所述对象检测模型包括：基于所述姿态、所述3D限界框及所述输出限界框来计算损失；以及基于所述损失来训练所述对象检测模型，所述训练包括更新神经网络中的权重。

在所述额外的对象检测方法的一些实施例中，计算所述损失包括基于所述输出限界框与参考限界框之间的交叠程度来计算所述输出限界框的损失。

在所述额外的对象检测方法的一些实施例中，计算所述损失包括：依据与所述对象对应的透视限界框基于指示所述对象的前面的前面框来确定目标框；以及基于所述目标框与参考框之间的交叠程度来计算所述透视限界框的损失。

在所述额外的对象检测方法的一些实施例中，估计所述姿态及所述3D限界框包括估计至少部分地界定所述3D限界框的点的位置。

在所述额外的对象检测方法的一些实施例中，估计所述姿态及所述3D限界框是基于与鸟瞰图对应的深度图像而进行。

在所述额外的对象检测方法的一些实施例中，对所述第一输出限界框与所述第二输出限界框的所述融合运算包括通过辨识通过裁剪所述第一输出限界框而获得及通过裁剪所述第二输出限界框而获得的特征来提取特征。

本文还提供一种对象检测训练设备，包括：存储器，被配置成存储对象检测模型；以及处理器，被配置成：使用所述对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸，依据所述姿态及所述尺寸来计算三维(3D)限界框，通过将所述3D限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框，通过将所述3D限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框，以及基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框且进一步基于对所述第一输出限界框与所述第二输出限界框的融合运算来训练所述对象检测模型。

在一个一般方面中，一种对象检测训练方法包括：使用对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸，通过将依据所述姿态及所述尺寸计算的三维(3D)限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框，通过将所计算的所述3D限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框，且基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来训练所述对象检测模型。

确定所述第一输出限界框可包括通过将所计算的所述3D限界框投影到鸟瞰图投影图像来确定与所述对象对应的鸟瞰图限界框。

确定所述第二输出限界框可包括通过将所计算的所述3D限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

估计所述对象的所述姿态及所述尺寸可包括基于所述对象检测模型从与从所述输入图像检测到的所述对象对应的二维(2D)限界框及与所述2D限界框对应的裁剪图像提取特征。

训练所述对象检测模型可包括基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来计算损失，并基于所计算的所述损失来训练所述对象检测模型。

计算所述损失可包括基于所述第一输出限界框与第一参考限界框之间的交叠程度来计算所述第一输出限界框的损失，并基于所述第二输出限界框与第二参考限界框之间的交叠程度来计算所述第二输出限界框的损失。

计算所述损失可包括基于指示所述对象的前面的前面框来确定目标框，并基于所述目标框与参考框之间的交叠程度来计算所述透视限界框的损失。

估计所述对象的所述姿态及所述尺寸可包括依据所估计的所述特征来进一步估计位置偏移，并依据所述姿态及所述尺寸来估计初始位置，并且通过对所估计的所述初始位置应用所述位置偏移来确定输出位置。计算所述损失可包括进一步基于所确定的所述输出位置来计算所述损失。

估计所述对象的所述姿态及所述尺寸可包括依据所提取的所述特征来估计所估计的所述姿态及所估计的所述尺寸中的每一者的置信级。

估计所述对象的所述姿态及所述尺寸可包括估计所述对象的宽度、长度及高度作为所述尺寸。

在另一一般方面中，一种对象检测训练方法包括：使用对象检测模型基于从输入图像及深度图像提取的特征来估计对象的姿态及与所述对象对应的3D限界框，通过将所述3D限界框投影到投影图像来确定与所述对象对应的输出限界框，并基于所述姿态、所述3D限界框及所述输出限界框来训练所述对象检测模型。

确定所述输出限界框可包括通过将所述3D限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

估计所述姿态及所述3D限界框可包括基于由区域建议网络(RPN)计算的区域而从所述输入图像及所述深度图像提取特征。

训练所述对象检测模型可包括基于所述姿态、所述3D限界框及所述输出限界框来计算损失，并基于所计算的所述损失来训练所述对象检测模型。

计算所述损失可包括基于所述输出限界框与参考限界框之间的交叠程度来计算所述输出限界框的损失。

计算所述损失可包括依据与所述对象对应的透视限界框基于指示所述对象的前面的前面框及指示所述对象的后面的后面框来确定目标框，并基于所述目标框与参考框之间的交叠程度来计算所述透视限界框的损失。

估计所述姿态及所述3D限界框可包括估计界定所述3D限界框的点的位置。

估计所述姿态及所述3D限界框可包括获取与鸟瞰图对应的所述深度图像。

在另一一般方面中，一种对象检测训练设备包括：存储器，被配置成存储对象检测模型；以及处理器，被配置成：使用所述对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸，通过将依据所述姿态及所述尺寸计算的3D限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框，通过将所计算的所述3D限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框，且基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来训练所述对象检测模型。

依据以下详细说明、附图及权利要求书，其他特征及方面将显而易见。

附图说明

图1示出用于对象检测的限界框的实例。

图2是示出对象检测训练设备的实例的方框图。

图3是示出对象检测训练方法的实例的流程图。

图4示出作为对象检测模型的神经网络的实例。

图5示出对象检测训练过程的实例。

图6示出透视投影图像及鸟瞰图投影图像的实例。

图7示出交并比(intersection-over-union，IoU)的实例。

图8示出透视限界框的实例。

图9是示出对象检测训练设备的另一实例的方框图。

图10示出对象检测训练过程的另一实例。

图11是示出对象检测训练方法的另一实例的流程图。

图12示出对象检测训练设备的另一实例。

图13示出特征提取过程的实例。

图14示出对象检测训练过程的另一实例。

图15是示出对象检测训练设备的配置的实例的方框图。

图16是示出对象检测设备的配置的实例的方框图。

在整个附图及详细说明中，除非另有说明或提供，否则相同的附图参考编号将被理解为指代相同的元件、特征及结构。附图可以不按比例缩放，并且为了清楚、说明及方便起见，可以夸大附图中的元件的相对大小、比例及绘示。

具体实施方式

提供以下详细说明是为了帮助读者全面理解本文所述的方法、设备及/或系统。然而，在理解本申请的公开内容之后，本文所述的方法、设备及/或系统的各种改变、修改及等效形式将显而易见。例如，本文所述的操作序列仅仅是实例，且并非仅限于本文所述的那些操作序列，而是可如在理解本申请的公开内容之后将显而易见的那样改变，必然按某一次序发生的操作除外。此外，为了提高清晰度及简明性，可不再对所属领域中已知的特征予以赘述。

本文所述的特征可被实施为不同的形式，而不应被理解为仅限于本文所述的实例。相反，提供本文所述的实例仅仅是为了说明在理解本申请的公开内容之后将显而易见的实现本文所述方法、设备及/或系统的许多可能的方式中的一些方式。

可对以下实例进行各种修改。此处，所述实例不被解释为仅限于本发明，并且应理解为包括在本发明的构思及技术范围内的所有改变、等效形式及替换形式。

本文所使用的用语仅用于阐述特定实例，而非限制所述实例。除非上下文另有清楚指示，否则本文所使用的单数形式也旨在包括复数形式。应进一步理解，用语“包括(comprises及/或comprising)”当在本说明书中使用时，指明所述特征、整数、步骤、操作、元件、部件或其组合的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、部件及/或其群组的存在或添加。

除非本文另有定义，否则本文所使用的包括技术用语或科学用语在内的所有用语均具有与一般理解的含义相同的含义。通常使用的字典中所定义的用语应被解释为具有与相关技术中的上下文含义相匹配的含义，并且除非本文另有定义，否则不应被解释为理想的或过于形式化的含义。

在下文中，将参照附图详细阐述各实例，并且在通篇中，图中的相同参考编号指代相同的元件。

图1示出用于对象检测的限界框的实例。

对象检测设备基于对象检测模型从图像100检测对象。对象检测模型是被训练成依据图像100而输出与对象的位置、大小及姿态相关联的信息的模型，且以下将进一步加以说明。

对象检测设备使用传感器来获取图像100。所述传感器被配置成感测从位于所述对象检测设备周围(例如，所述对象检测设备的前侧)的背景或对象反射的信号(例如，光或电磁波)的强度。例如，对象检测设备使用传感器获取彩色图像、红外图像或深度图像。彩色图像包括多个彩色通道图像，且例如包括指示与可见光的红色波长对应的强度的红色图像、指示与绿色波长对应的强度的绿色图像、以及指示与蓝色波长对应的强度的蓝色图像。红外图像表示与由传感器接收的红外线对应的强度。深度图像表示到任意目标点的深度(例如，距离)。深度图像是通过例如光检测与测距(light detection and ranging，LiDAR)传感器而获取。

图1示出作为对象检测的结果的限界框。在图1中，限界框(bounding box)指示从二维(2D)图像(例如，彩色图像或黑白图像)检测到的对象。通过特征提取来实施对象检测。例如，可使用特征提取来识别例如车辆的前照灯、车轮、挡风玻璃及车门等特征，参见图1。基于所提取的特征，可检测单个车辆。限界框则是包围在图像中检测到的车辆的框。例如，可辨识并在特征向量中列出车辆的特定特征。特征向量的实例是图13所示项目1321(以下在对图13的论述中加以说明)。包含特征向量的所有元素的最小矩形棱柱(rectangularprism)是3D限界框，参见图1的项目110。3D限界框到2D平面上的投影是2D限界框，参见图1所示项目121及122。

对象检测设备依据图像100估计包含处于三维(3D)空间中的对象的限界框的大小、位置及姿态(取向)。所述3D空间是对象检测设备所存在于的物理环境。例如，当对象检测设备安装在车辆中时，3D空间是车辆周围的空间。

限界框是包含对象的框。在图1中，3D限界框110具有任意形状(例如矩形形状)，且包含3D空间中由对象占据的空间。例如，3D限界框110是最小限界框，其被定义成使得3D限界框110的大小在3D限界框110的各面中的每一者与对象的一部分接触的同时被最小化。当对象是车辆时，车辆的前侧及后侧分别与3D限界框110的前面121及后面122接触。此外，车辆的顶侧及底侧可分别与3D限界框110的顶面及底面接触。车辆的侧可与3D限界框110的侧面接触。

在实例中，对象检测设备基于对象检测模型来估计3D限界框110的顶点中的每一者在3D空间中的坐标。可使用神经网络来实现对象检测模型，参见图4。在另一实例中，对象检测设备估计3D限界框110的姿态、尺寸及参考点(例如，中心点或任意顶点)。所述尺寸例如包括对象的高度、宽度及长度。在自主驾驶或驾驶辅助的实例中，前述对象可能主要是车辆，且可主要利用从图像100检测到的3D限界框110的前面121及后面122。

对象检测设备基于经过完全训练的对象检测模型来从图像检测对象。例如，对象检测设备确定与对象对应的限界框(例如，3D限界框110)。对象检测训练设备基于训练数据来训练对象检测模型。在下文中，将阐述用于训练对象检测模型的对象检测训练设备的操作的实例。

图2是示出对象检测训练设备200的实例的方框图。

对象检测训练设备200包括特征提取器210、估计器220、第一投影计算器231、第二投影计算器232、损失计算器240及训练器250。对象检测模型270可包括特征提取器210、估计器220、第一投影计算器231及第二投影计算器232。

特征提取器210可将图像分割成网格(grid)。所述网格可由多个单元组成。在各单元内，对象可作为简单的几何形状而出现。

特征提取器210从图像提取特征。例如，特征提取器210包括神经网络的至少一个卷积层。特征提取器210从限界框及裁剪图像201提取通过将图像抽象化而获得的特征。输入限界框是2D限界框，且是通过前述的从输入图像检测对象的2D限界框的操作而获取。裁剪图像是输入图像中与所述2D限界框对应的部分图像。

估计器220基于所提取的特征来估计对象的姿态及尺寸202。例如，估计器220可将来自特征提取器210的所提取特征与候选车辆的信息进行比较。估计器220使用回归分析(regression analysis)依据所提取特征来估计姿态及尺寸202。对象的尺寸是指示对象的大小的信息，且例如包括对象的高度、宽度及长度。估计器220估计包含对象的3D限界框的高度、宽度及长度作为对象的尺寸。此外，估计器220估计包含对象的3D限界框的姿态作为对象的姿态。3D限界框的姿态是指示对象的取向的信息，且例如由从传感器朝向对象的中心部分的方向与对象的移动方向之间的角度差表示。然而，对象的姿态及尺寸并非仅限于以上说明。

在本发明中，传感器例如包括用于收集训练数据的传感器以及安装在对象检测设备中的传感器。例如，从传感器朝向对象的中心部分的上述方向是从与获取输入图像的视点对应的传感器朝向对象的中心部分的方向。在以下说明中，与传感器相关联的位置关系是对象与对应于获取输入图像或深度图像的视点(而非执行训练的视点)的传感器之间的位置关系。

第一投影计算器231依据姿态及尺寸202计算第一投影图像281。例如，第一投影计算器231通过将依据姿态及尺寸202计算的3D限界框投影到第一投影图像281来确定与对象对应的第一输出限界框。第一投影图像281是表示从第一视点观察到的对象的投影图像。第一视点例如是鸟瞰图，且第一投影图像281是鸟瞰图投影图像。以下将参照图6进一步阐述鸟瞰图投影图像。第一输出限界框是第一投影图像281中被确定为与对象对应的一部分的2D限界框。

例如，第一投影计算器231使用基于投影几何学的优化方案来估计3D限界框的位置。投影几何学指示，当对象的3D限界框被投影到2D图像时，所述3D限界框需要与2D限界框(例如，图2所示输入限界框)紧密地配合。

基于投影几何学的优化方案被解释为使用3D限界框的八个点来确定2D限界框的四条线的问题。在利用八个点确定四条线时，会获取最多“84”个组合。然而，由于车辆(即，对象)是沿着路边布置，所以假定所述对象的取向中的翻滚角、俯仰角中的翻滚角及俯仰角以及偏航角为“0”，并且可能存在最多“64”个组合。因此，当在从输入图像检测到的2D限界框中出现误差时，3D限界框中的误差会增加。

第二投影计算器232通过将对象的3D限界框投影到第二投影图像282来确定与对象对应的第二输出限界框。第二投影图像282是从第二视点观察对象时的投影图像。第二视点例如是透视图，且第二投影图像282是透视投影图像。以下将参照图6进一步阐述透视投影图像。第二输出限界框是第二投影图像282中被确定为与对象对应的一部分的2D限界框。

例如，对象检测训练设备200将第一投影计算器231及第二投影计算器232与对象检测模型270集成，并且基于结果(例如第一投影图像281及第二投影图像282)来训练对象检测模型270。因此，对象检测训练设备200将所投影对象的物理位置关系及对象的3D信息反映到对象检测模型270。因此，可将3D限界框中的误差最小化。

损失计算器240计算与姿态及尺寸202、第一投影图像281及第二投影图像282中的每一者对应的损失。例如，损失计算器240单独地计算尺寸的损失、姿态的损失、第一投影图像281的损失及第二投影图像282的损失，将所述各损失进行积分，并计算对象检测模型270的总损失。

训练器250基于所计算的损失来训练对象检测模型270。例如，训练器250更新对象检测模型270的参数，使得总损失收敛至任意值。例如，所计算损失可作为与参考数据相比所得的均方误差值来进行计算。当均方误差值降至低于目标最小值时，对象检测模型270被认为已经收敛。训练器250基于指示总损失的目标函数的设计来更新对象检测模型270的参数，以将总损失最小化，然而，各实例并非仅限于此。以下将参照图4进一步阐述对象检测模型270的训练及对象检测模型270的结构的实例。

图3是示出对象检测训练方法的实例的流程图。

参照图3，在操作310中，对象检测训练设备使用对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸。例如，对象检测训练设备基于对象检测模型从与从输入图像检测到的对象对应的2D限界框及与所述2D限界框对应的裁剪图像提取特征。

在操作320中，对象检测训练设备通过将依据姿态及尺寸计算的3D限界框投影到第一投影图像来确定与对象对应的第一输出限界框。例如，对象检测训练设备通过将所计算的3D限界框投影到鸟瞰图投影图像来确定与对象对应的鸟瞰图限界框。

在操作330中，对象检测训练设备通过将所计算的3D限界框投影到第二投影图像来确定与对象对应的第二输出限界框。例如，对象检测训练设备通过将所计算的3D限界框投影到透视投影图像来确定与对象对应的透视限界框。

在操作340中，对象检测训练设备基于姿态、尺寸、第一输出限界框及第二输出限界框来训练对象检测模型。例如，对象检测训练设备基于姿态、尺寸、第一输出限界框及第二输出限界框来计算损失。对象检测训练设备基于所计算的损失来训练对象检测模型。

图4示出作为对象检测模型的神经网络400的实例。

对象检测模型例如包括神经网络400。本发明提供了一种用于基于神经网络400来检测对象的对象检测设备，并且提供了一种用于训练对象检测模型(例如神经网络400)的方法及设备(在下文中，被称为“对象检测训练设备”)。在以下说明中，识别包括验证及辨识。验证是判断输入数据是真实还是伪造的操作，且辨识是判断输入数据指示多个标签中的哪一者的操作。

以下阐述神经网络400的结构的实例。

神经网络400包括各自包括多个节点的多个层。此外，神经网络400包括连接权重，所述连接权重将所述多个层中的一者中所包括的多个节点连接到另一层中所包括的节点。在实例中，对象检测训练设备从在存储器中所存储的内部数据库(database，DB)获取神经网络400，或者经由通信器从外部服务器接收神经网络400并获取神经网络400。

例如，神经网络400是被设计成使用经由边缘连接的大量节点来执行任意任务的模型。神经网络400例如通过硬件或软件与硬件的组合来实现。神经网络400包括节点，且所述节点经由具有连接权重的边缘彼此连接。连接权重是边缘的预定值，且被称为“突触权重”或“连接强度”。

神经网络400包括多个层。例如，神经网络400包括输入层410、隐藏层420及输出层430。输入层410接收用于执行训练或识别的输入，并将所述输入传送到隐藏层420。输出层430基于从隐藏层420接收的信号来生成神经网络400的输出。隐藏层420位于输入层410与输出层430之间，且将经由输入层410接收的训练数据的训练输入改变成可相对更容易预测的值。

输入层410、隐藏层420及输出层430中的每一者包括多个节点。输入层410中所包括的节点被称为“输入节点”，隐藏层420中所包括的节点被称为“隐藏节点”，且输出层430中所包括的节点被称为“输出节点”。

输入层410中所包括的输入节点及隐藏层420中所包括的隐藏节点经由具有连接权重的边缘彼此连接。此外，隐藏层420中所包括的隐藏节点及输出层430中所包括的输出节点经由具有连接权重的边缘彼此连接。

尽管未示出，然而神经网络包括多个隐藏层。包括多个隐藏层的神经网络被称为“深度神经网络(deep neural network，DNN)”。对DNN的训练被称为“深度学习”。例如，当假定隐藏层420包括第一隐藏层、第二隐藏层及第三隐藏层时，第一隐藏层中所包括的隐藏节点的输出连接到第二隐藏层中所包括的隐藏节点。此外，第二隐藏层中所包括的隐藏节点的输出连接到第三隐藏层中所包括的隐藏节点。

例如，对象检测训练设备经由具有连接权重的边缘将前一个隐藏层中所包括的前一些隐藏节点的输出输入到每一隐藏层，且基于激活函数(activation function)及通过对前一些隐藏节点的输出应用连接权重而获得的值来生成每一隐藏层中所包括的隐藏节点的输出。在实例中，为了将输出传输到下一个隐藏节点，激活函数的结果需要超过当前隐藏节点的阈值。在此实例中，节点在通过输入向量达到预定阈值激活强度之前不向下一个节点传输信号，且保持处于非工作状态(inactive state)。

对象检测训练设备通过监督式学习来训练神经网络400。对象检测训练设备例如通过硬件模块或软件模块与硬件模块的组合来实现。监督式学习是如下的方案：将训练数据的训练输入连同与所述训练输入对应的训练输出一起输入到神经网络400，并更新边缘的连接权重以使得与所述训练输出对应的输出数据作为输出。训练数据是包含成对的训练输入与训练输出的数据。尽管神经网络400的结构在图4中被表达为节点结构，然而各实例并非仅限于节点结构。例如，可使用各种数据结构将神经网络存储在存储器存储区中。

对象检测训练设备基于后向传播到神经网络的误差并基于神经网络中所包括的节点的输出值而通过梯度下降方案(gradient descent scheme)来确定所述节点的参数。例如，对象检测训练设备通过误差反向传播学习(error backpropagation learning)来更新节点之间的连接权重。误差反向传播学习是如下的方案：通过对给定训练数据的正向计算来估计误差，将所估计的误差从输出层后向传播到隐藏层及输入层，并更新连接权重以减小误差。神经网络400是以输入层410、隐藏层420及输出层430的次序进行处理，然而，在误差反向传播学习中，连接权重是以输出层430、隐藏层420及输入层410的次序进行更新。例如，至少一个处理器使用被配置成存储各层或一系列计算数据的缓冲存储器在所期望方向上处理神经网络。

对象检测训练设备定义用以测量当前所设定的连接权重与最优值的接近程度的目标函数，基于所述目标函数的结果继续改变连接权重，并重复地执行训练。例如，目标函数是用以基于神经网络400中训练数据的训练输入来计算待输出的预期值与实际输出值之间的损失的损失函数。对象检测训练设备通过减小损失函数的值来更新连接权重。以下参照图5阐述损失函数的实例。

图5示出对象检测训练过程的实例。

对象检测模型570可包括特征提取器510以及估计器521、522及523，且可执行第一投影计算531及第二投影计算532。

特征提取器510从输入图像提取特征。例如，特征提取器510从与在输入图像中出现的对象对应的裁剪图像及限界框提取特征。裁剪图像是以与特征提取器510的输入层对应的格式被调整大小。特征提取器510包括至少一个卷积层。

此外，特征提取器510将所提取特征提供到估计器521、522及523。特征提取器510由估计器521、522及523共享。估计器521、522及523例如是连接到特征提取器510的分支网络，且具有不同的回归目标(regression target)。

估计器521依据由特征提取器510提取的特征来估计对象的尺寸501。估计器521可包括可被称为FC层的至少一个全连接层(fully connected layer)。

估计器522依据由特征提取器510提取的特征来估计对象的姿态502。姿态502例如由与对象的取向对应的角度、正弦(sine，sin)值及余弦(cosine，cos)值表示。估计器522包括至少一个全连接层，且执行L2范数运算(L2norm operation)。

估计器523估计依据所提取特征估计的尺寸501及姿态502中的每一者的置信级503。置信级503例如是作为数值来指示由估计器521及522估计的尺寸501及姿态502中的每一者的置信度的分数。

图5将估计器521、522及523示出为特征提取器510的分支网络，然而，各实例并非仅限于此。此外，估计器521、522及523中所包括的层的数目及类型不受限制。

对象检测训练设备通过第一投影计算531从尺寸501及姿态502获取鸟瞰图投影图像581。例如，对象检测训练设备从尺寸501及姿态502获取包含对象的3D限界框，并将所获取的3D限界框投影到鸟瞰图投影图像581。对象检测训练设备确定投影到鸟瞰图投影图像581的鸟瞰图限界框的大小及位置。第一投影计算531例如是将3D坐标转换成第一投影图像上的2D坐标的矩阵运算，然而，各实例并非仅限于此。

对象检测训练设备通过第二投影计算532从尺寸501及姿态502获取透视投影图像582。例如，对象检测训练设备从尺寸501及姿态502计算3D限界框，并将所述3D限界框投影到透视投影图像582。对象检测训练设备确定投影到透视投影图像582的透视限界框的大小及位置。

鸟瞰图限界框及透视限界框中的每一者是在作为2D图像的投影图像中出现的2D限界框。例如，对象检测训练设备将3D限界框的点中的每一者的3D坐标转换成投影图像中的每一者的2D坐标，以确定鸟瞰图限界框及透视限界框。

对象检测训练设备200基于对象检测模型570依据输入图像计算尺寸501、姿态502、鸟瞰图投影图像581及透视投影图像582中的每一者的输出。当对对象检测模型570的训练未完成时，上述输出是临时输出。

对象检测训练设备基于根据对象检测模型570所计算的临时输出来计算对象检测模型570的损失。

对象检测训练设备计算L2损失作为尺寸501的损失543。例如，对象检测训练设备计算临时尺寸与参考尺寸之间的欧几里得距离(Euclidean distance)作为损失。临时尺寸是依据输入图像(即，训练输入)而计算出，且参考尺寸是训练输出。

对象检测训练设备计算余弦损失作为姿态502的损失544。例如，对象检测训练设备计算对应于临时取向与参考取向之间的角度差的余弦损失。临时取向对应于依据输入图像(即，训练输入)估计的姿态502，且参考取向是训练输出。

对象检测训练设备计算软最大化(softmax)损失作为置信级503的损失545。

对象检测训练设备计算鸟瞰图(bev)交并比(IoU)损失作为鸟瞰图投影图像581的损失541。对象检测训练设备计算透视(persp)IoU损失作为透视投影图像582的损失542。IoU损失是指示依据训练输入计算的临时限界框与对应于训练输出的参考限界框之间的相似性的损失。以下将参照图7及图8进一步阐述IoU损失的实例。

对象检测训练设备计算上述临时输出中的每一者的损失，对所述损失进行积分，并确定对象检测模型570的总损失。对象检测模型570更新特征提取器510以及估计器521、522及523的参数(例如，连接权重)，直到总损失收敛为止。

总损失已经收敛的对象检测模型570例如是经过完全训练的模型(例如，神经网络)。对象检测设备基于经过完全训练的对象检测模型570来执行对象检测。此外，即使当训练完成时，对象检测设备也另外基于新的输入图像来训练对象检测模型570。例如，对象检测设备依据输入图像确定与限界框对应的裁剪图像作为训练输入，确定与对象对应的限界框作为训练输出，且更新对象检测模型570的参数。

图6示出透视投影图像及鸟瞰图投影图像的实例。

对象检测设备安装在车辆690中。对象检测设备包括传感器691，且传感器691被配置成获取图像610，图像610表示包括对象检测设备的车辆690的前方的对象。对象检测设备生成或获取关于各种视点的信息，以估计车辆690的位置。在实例中，对象检测设备生成车辆690的前方的鸟瞰图投影图像620及透视投影图像630。在另一实例中，对象检测设备基于车辆690前方的彩色图像及鸟瞰图的深度图像来生成鸟瞰图投影图像620及透视投影图像630。

鸟瞰图投影图像620例如是与在包括传感器691的装置的高度以上的海拔处的观察视点(例如，俯视图)对应的投影图像。鸟瞰图投影图像620包含与位于包括传感器691的装置周围的对象对应的鸟瞰图限界框621。鸟瞰图限界框621在图6中被示出为单个框，然而，各实例并非仅限于此。例如，当存在多个对象时，检测多个框。

透视投影图像630例如是与在与包括传感器691的装置的高度对应的海拔处观察包括传感器691的装置的移动方向时的视点对应的投影图像。透视投影图像630包含与位于包括传感器691的装置的移动方向上的对象对应的透视限界框631。透视限界框631例如是2D限界框，且包括前面框及后面框。

对象检测训练设备基于鸟瞰图投影图像620中的鸟瞰图限界框621的损失及透视投影图像630中的透视限界框631的损失来训练对象检测模型，以生成被配置成对对象的大小及姿态进行准确估计的对象检测模型。一般来说，通过将所估计的对象姿态、尺寸及位置与参考数据进行比较来确定损失。参考数据也可被称为基准(ground truth)数据。从各种视点获得的对象检测结果被反映到对象检测模型，且因此对象检测模型的准确度得以提高。

尽管在本发明中主要说明了鸟瞰图及透视图中的投影图像及限界框，但各实例并非仅限于此。因此，基于其他视图中的投影图像及限界框的损失来训练对象检测模型。此外，基于多个视点中的投影图像及限界框的损失来训练对象检测模型。

图7示出IoU的实例。

对象检测训练设备基于IoU来计算与从对应于每个视点的投影图像检测到的对象对应的限界框的损失。被称为IoU的量度对应于交集面积对并集面积的比率，参见图7。IoU是指示输出限界框与参考限界框之间的交叠程度的指示符，且例如表示通过将两个区域之间的交集区域730的面积除以并集区域的面积而获得的值。

例如，对象检测训练设备依据输入图像相对于与任意视点对应的投影图像确定与对象对应的输出限界框710。对象检测训练设备将输出限界框710与参考限界框720进行比较。参考限界框720是与输入图像(即，训练输入)配对的训练输出，且例如是基准数据。对象检测训练设备基于通过将输出限界框710与参考限界框720之间的交集区域730的面积除以并集区域的面积而获得的值来确定IoU损失。例如，对象检测训练设备更新对象检测模型的参数，使得交集区域730的面积收敛至并集区域的面积。当IoU的值接近“1”时，输出限界框710与参考限界框720之间的相似性增大。

对象检测训练设备基于第一输出限界框与第一参考限界框之间的交叠程度来计算第一输出限界框的损失。此外，对象检测训练设备基于第二输出限界框与第二参考限界框之间的交叠程度来计算第二输出限界框的损失。然而，临时输出并非仅限于第一输出限界框及第二输出限界框，且至少一个输出限界框710用于计算损失。

图8示出透视限界框的实例。

透视限界框是2D限界框，且包括前面框810及后面框820。透视限界框例如是通过将3D限界框投影到与透视图对应的透视投影图像而获得的框。例如，透视限界框是通过将与对象对应的3D限界框的3D坐标转换成透视投影图像的2D坐标而获得的框。例如，透视限界框的前面框810是通过将与3D限界框的前面对应的四个点的3D坐标转换成透视投影图像上的2D坐标而获得的框。透视限界框的后面框820是通过将与3D限界框的后面对应的四个点的3D坐标转换成透视投影图像上的2D坐标而获得的框。

对象检测训练设备定义用于IoU计算的新参考框，以计算透视限界框的损失。例如，对象检测训练设备依据由第二投影计算器获取且与对象对应的透视限界框而基于前面框810及后面框820确定目标框830。前面框810及后面框820分别指示对象的前面及后面。对象检测训练设备确定具有最小区域且包含前面框810及后面框820的框作为目标框830。目标框830用作以上参照图7所述的输出限界框710。

因此，对象检测训练设备基于目标框830与参考框之间的交叠程度来计算透视限界框的损失。

图9是示出对象检测训练设备900的实例的方框图。

除图2所示结构之外，对象检测训练设备900进一步包括位置确定器933。因此，对象检测模型970进一步包括经配置以确定位置的分支网络。

特征提取器910从限界框及裁剪图像901提取抽象化特征。估计器920依据所提取特征来估计对象的姿态及尺寸902。第一投影计算器931依据姿态及尺寸902确定第一投影图像981。第二投影计算器932依据姿态及尺寸902确定第二投影图像982。

位置确定器933依据所提取特征以及姿态及尺寸902确定对象的位置。例如，位置确定器933确定从传感器到对象的相对距离。位置确定器933依据所提取特征来估计位置偏移。位置偏移例如是表示针对初始位置而预测的误差的偏移。位置确定器933依据尺寸及姿态来估计初始位置。位置确定器933通过对初始位置应用所述位置偏移来确定输出位置。因此，位置确定器933校正依据对象的姿态及尺寸902而估计的初始位置结果，以确定对象的更准确位置。

损失计算器940计算与姿态及尺寸902、第一投影图像981、第二投影图像982、以及输出位置中的每一者对应的损失。

训练器950基于所计算的损失来训练对象检测模型970。例如，训练器950更新对象检测模型970的参数，使得所计算的损失收敛至任意值。

图10示出对象检测训练过程的另一实例。

与图5相似，对象检测模型1070可包括特征提取器1010以及估计器1021、1022及1023，且可执行第一投影计算1031及第二投影计算1032。此外，对象检测模型1070可进一步包括位置估计器1024。

特征提取器1010从与在输入图像中出现的对象对应的限界框及裁剪图像提取特征。特征提取器1010包括至少一个卷积层。特征提取器1010连接到分支网络，例如多个估计器及位置估计器1024，并且分支网络具有不同的回归目标。

估计器1021依据由特征提取器1010提取的特征来估计对象的尺寸1001，且可包括全连接层。估计器1022依据所提取特征来估计对象的姿态1002。估计器1022可包括全连接层且执行L2范数运算。L2范数运算的实例是计算两个向量之间的距离的运算。在代数上，例如，标量d是按照d＝|(x-y)|来计算，其中x及y是向量，并且“|()|”指示范数运算。估计器1023估计尺寸1001及姿态1002中的每一者的置信级1003，且包括全连接层。一般来说，置信级可为假设是正确的概率。

对象检测训练设备通过第一投影计算1031从尺寸1001及姿态1002获取鸟瞰图投影图像1081，且通过第二投影计算1032获取透视投影图像1082。

位置估计器1024依据所提取特征来估计位置偏移1004。对象检测训练设备依据尺寸1001及姿态1002来估计初始位置，对所述初始位置应用位置偏移1004，并确定输出位置1084。

对象检测训练设备基于对象检测模型1070依据输入图像来计算尺寸1001、姿态1002、鸟瞰图投影图像1081、透视投影图像1082及输出位置1084中的每一者的临时输出。对象检测训练设备单独地计算每一临时输出的损失，对所述损失进行积分，并确定总损失。

对象检测训练设备计算鸟瞰图IoU损失作为鸟瞰图投影图像1081的损失1041，计算透视IoU损失作为透视投影图像1082的损失1042，计算L2损失作为尺寸1001的损失1043，计算余弦损失作为姿态1002的损失1044，计算软最大化损失作为置信级1003的损失1045，并计算L1损失或L2损失作为输出位置1084的损失1046。例如，对象检测训练设备计算通过将位置偏移1004加至初始位置而获得的值与基准值之间的欧几里德距离作为输出位置1084的损失1046。

对象检测训练设备更新特征提取器1010以及估计器1021、1022及1023的参数(例如，连接权重)，直到对象检测模型1070的总损失收敛为止。此外，即使在训练完成时，对象检测训练设备也响应于获取新的输入图像而计算对象检测模型1070的临时输出，并且重新更新对象检测模型1070的参数，使得临时输出的损失收敛。

因此，对象检测训练设备关于当3D对象被投影到投影图像时对象的位置、姿态及大小对投影对象的形式的复合效应来训练对象检测模型1070。此外，对象检测训练设备对作为离散值而估计的初始位置值应用位置偏移，以确定指示连续值的输出位置。

图11是示出对象检测训练方法的另一实例的流程图。

在操作1110中，对象检测训练设备使用对象检测模型基于从输入图像及深度图像提取的特征来估计对象的姿态及与对象对应的3D限界框。对象检测训练设备基于由区域建议网络(RPN)计算的区域从输入图像及深度图像提取特征。RPN是建议在与传感器的视场(field of view，FOV)对应的空间中预期存在对象的区域的网络，且以下将参照图13进一步加以说明。

在操作1120中，对象检测训练设备通过将所计算的3D限界框投影到投影图像来确定与对象对应的输出限界框。例如，对象检测训练设备通过将所计算的3D限界框投影到透视投影图像来确定与对象对应的透视限界框。

在操作1130中，对象检测训练设备基于姿态、3D限界框及输出限界框来训练特征提取器及估计器。对象检测训练设备基于姿态、3D限界框及输出限界框来计算损失。对象检测训练设备基于所计算的损失来训练对象检测模型。训练算法可使用梯度下降方法。

图12示出对象检测训练设备1200的实例。

对象检测训练设备1200包括特征提取器1210、估计器1220、投影计算器1230、损失计算器1240及训练器1250。对象检测模型1270可包括特征提取器1210、估计器1220及投影计算器1230。

特征提取器1210从输入图像及深度图像1201提取特征。输入图像例如是基于照相机传感器而获取的彩色图像。深度图像例如是表示到与基于LiDAR传感器而获取的每一像素对应的目标点的距离的图像。深度图像对应于鸟瞰图。以下将参照图13进一步阐述特征提取器1210的实例。

估计器1220依据所提取特征来估计与对象对应的姿态及3D限界框1202。例如，估计器1220基于所提取特征来估计界定3D限界框的点的位置(例如，3D坐标)。

投影计算器1230通过以任意视点投影3D限界框来确定投影图像1280。例如，投影计算器1230通过将3D限界框投影到与透视图对应的投影图像1280来确定透视限界框。投影计算器1230包括将3D限界框的每一3D点转换成投影图像1280上的2D点的矩阵运算。

损失计算器1240计算与姿态及3D限界框1202以及投影图像1280中的每一者对应的损失。

训练器1250基于所计算的损失来训练对象检测模型1270。例如，训练器1250更新对象检测模型1270的参数，使得所计算的损失收敛。

图13示出特征提取过程的实例。

图13示出对象检测模型1300的一部分，且对象检测模型1300包括特征提取器1350及与估计器1360对应的分支网络，估计器1360被配置成估计3D限界框。

特征提取器1350从输入图像1311及深度图像1312提取特征。例如，特征提取器1350包括RPN 1330，且提取与由RPN 1330建议的区域对应的特征。

例如，特征提取器1350通过卷积层依据输入图像1311计算输入特征图1321。特征提取器1350通过卷积层依据深度图像1312计算深度特征图1322。RPN 1330基于输入特征图1321、深度特征图1322及3D锚定网格1313来建议所检测对象的存在概率相对高的区域。

输入特征图1321是通过将输入图像1311的视觉特征抽象化而获得的数据。深度特征图1322是通过将深度图像1312的视觉特征抽象化而获得的数据。

3D锚定网格1313例如是指示与传感器(例如，图像传感器或LiDAR传感器)的FOV对应的空间的网格。3D锚定网格1313是具有预定分辨率(例如，0.1m)的网格。3D锚定网格1313包括被设定成检测与传感器的FOV对应的空间中的对象的锚定框(anchor box)。锚定框例如是表达在与传感器的FOV对应的空间中对象存在的概率的边界框模板。锚定框例如是3D限界框。例如，锚定框位于3D锚定网格1313的其中用户期望观察对象存在概率的区域中。锚定框的形状、大小及姿态以及锚定框的数目依据设计而变化。

RPN 1330计算从输入图像1311或深度图像1312检测到的对象包含于3D锚定网格1313中所排列的多个锚定框中的一者中的概率。RPN 1330包括卷积层、裁剪及大小调整操作、全连接层、以及非极大值抑制(non-maximum suppression，NMS)运算，如图13中所示，然而，各实例并非仅限于此。此外，RPN 1330建议3D锚定网格1313中对象存在概率相对高的锚定框。RPN 1330以对象存在概率的次序建议前“K”个锚定框1331，且K是大于或等于“1”的整数。

特征提取器1350执行裁剪及大小调整，以获得输入特征图1321的与由RPN 1330建议的前“K”个锚定框对应的一部分。此外，特征提取器1350执行裁剪及大小调整，以获得深度特征图1322的与由RPN 1330建议的前“K”个锚定框对应的一部分。特征提取器1350通过将通过裁剪输入特征图1321而获得的特征与通过裁剪深度特征图1322而获得的特征融合来提取特征。

估计器1360包括全连接层及NMS运算，且依据由特征提取器1350提取的特征来估计与对象对应的3D限界框1340的位置。对象检测训练设备训练对象检测模型1300，使得3D限界框1340的所估计位置收敛至基准框的位置。

对象检测训练设备基于鸟瞰图投影图像中所建议锚定框与基准3D框之间的交叠程度将3D锚定网格1313的各个锚定框分类为正锚定框及负锚定框。例如，对象检测训练设备基于鸟瞰图中由RPN 1330建议的锚定框与基准框之间的交叠程度来训练RPN 1330。在此实例中，当所建议锚定框与基准框之间的交叠程度大于第一阈值时，对象检测训练设备训练RPN 1330，使得锚定框输出正值(例如，“1”)。当所建议锚定框与基准框之间的交叠程度小于第二阈值时，对象检测训练设备训练RPN 1330，使得锚定框输出负值(例如，“0”)。

因此，对象检测训练设备基于鸟瞰图中基准框与所估计框之间的交叠程度以及透视图中基准框与所估计框之间的交叠程度将锚定框中的每一者分类为正锚定框及负锚定框。锚定框对应于对训练输入(例如，输入图像1311及深度图像1312)作出响应的训练输出。对象检测训练设备将RPN 1330训练成响应于输入图像1311及深度图像1312的输入而输出给定训练输出(例如，正锚定框及负锚定框的输出)。对象检测训练设备将3D锚定网格的锚定框准确地分类为正锚定框及负锚定框，且因此可减少不必要的区域建议及运算数目。

由特征提取器1350提取的特征用于计算对象的姿态或透视投影图像，以下将参照图14进一步对此进行说明。

图14示出对象检测训练过程的另一实例。

对象检测模型1470可包括特征提取器1410以及估计器1421及1422，且可执行投影计算1430。

如以上在图13中所述，特征提取器1410从输入图像及深度图像提取特征。例如，特征提取器1410从输入图像及深度图像提取与被预测包含与传感器的FOV对应的空间中的对象的锚定框(例如，被确定为正锚定框的锚定框)对应的特征。特征提取器1410连接到分支网络，例如，估计器1421及1422。

估计器1421依据由特征提取器1410提取的特征来估计3D限界框1401。例如，估计器1421递归地估计与对象对应的3D限界框1401的点(例如，顶点)中的每一者的3D坐标。估计器1421包括至少一个全连接层。

估计器1422依据由特征提取器1410提取的特征来估计角度1402。例如，估计器1422估计与对象的取向对应的角度1402。估计器1422包括至少一个全连接层。

对象检测训练设备通过投影计算1430从3D限界框1401获取透视投影图像1480。例如，对象检测训练设备确定被投影到透视投影图像1480的透视限界框的大小及位置。投影计算1430包括将3D坐标转换成透视投影图像1480上的2D坐标的矩阵运算，然而，各实例并非仅限于此。

对象检测训练设备计算3D限界框1401、角度1402及透视投影图像1480作为输出。这些计算是根据对象检测模型1470基于输入图像及深度图像而进行。

对象检测训练设备基于根据对象检测模型1470而计算的上述临时输出来计算对象检测模型1470的总损失。例如，对象检测训练设备计算L2损失作为3D限界框1401的损失1441。此外，对象检测训练设备计算L1损失作为角度1402的损失1442。对象检测训练设备计算透视IoU损失作为透视投影图像1480的损失1443。对象检测训练设备基于输出限界框与参考限界框之间的交叠程度来计算输出限界框的损失。以上已参照图7阐述了IoU损失，且因此不再对其予以赘述。

对象检测训练设备计算上述临时输出中的每一者的损失，对所述损失进行积分，并确定对象检测模型1470的总损失。对象检测模型1470更新特征提取器1410以及估计器1421及1422的参数(例如，连接权重)，使得总损失收敛。

图15是示出对象检测训练设备1500的配置的实例的方框图。

对象检测训练设备1500包括处理器1510及存储器1520。

处理器1510使用对象检测模型1521基于从输入图像提取的特征来估计对象的姿态及尺寸。处理器1510通过将依据姿态及尺寸而计算的3D限界框投影到第一投影图像来确定与对象对应的第一输出限界框。处理器1510通过将所计算的3D限界框投影到第二投影图像来确定与对象对应的第二输出限界框。处理器1510基于姿态、尺寸、第一输出限界框及第二输出限界框来训练对象检测模型1521。处理器1510的操作并非仅限于此，且处理器1510可执行以上参照图1至图14所述的操作中的至少一者。

存储器1520存储对象检测模型1521。对象检测模型1521是经过完全训练的模型，且例如包括图5所示对象检测模型570、图10所示对象检测模型1070、或者图14所示对象检测模型1470。即使在训练完成时，处理器1510也更新对象检测模型1521的参数。

存储器1520进一步包含训练数据1522。训练数据1522包括成对的训练输入与训练输出。在实例中，当训练输入是输入图像时，训练输出包括在对应图像中出现的对象的基准限界框、尺寸、位置及姿态。在另一实例中，当训练输入包括输入图像及深度图像时，训练输出包括对象的基准3D限界框及基准姿态。

图16是示出对象检测设备1600的配置的实例的方框图。

对象检测设备1600包括图像获取器1610、处理器1620及存储器1630。

图像获取器1610包括传感器。所述传感器例如包括照相机传感器及深度传感器。深度传感器例如是LiDAR传感器。当对象检测设备1600安装在车辆中时，图像传感器及LiDAR传感器分别安装在车辆的前侧及顶侧中。

处理器1620基于对象检测模型1631从输入图像及深度图像中的至少一者检测位于车辆前方的对象。例如，处理器1620基于经过完全训练的对象检测模型1631来估计与对象对应的限界框的位置及大小。对象检测模型1631例如包括图5所示对象检测模型570、图10所示对象检测模型1070、或者图14所示对象检测模型1470。此外，响应于获取新输入图像及新深度图像中的至少一者，处理器1620基于所获取的图像来重新训练对象检测模型1631。

存储器1630存储对象检测模型1631。例如，存储器1630存储经过完全训练的对象检测模型1631。

本文参照图2、图9、图12、图15及图16所述的对象检测训练设备200、900、1200及1500、对象检测设备1600、以及其他设备、单元、模块、装置及其他部件通过硬件部件实现。在适当情况下可用于执行本申请中所述的操作的硬件部件的实例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置成执行本申请中所述的操作的任何其他电子部件。在其他实例中，执行本申请中所述的操作的硬件部件中的一者或多者是通过计算硬件来实现，例如通过一个或多个处理器或计算机来实现。处理器或计算机可通过一个或多个处理元件来实现，例如通过逻辑门阵列、控制器及算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或者被配置成以所定义的方式对指令作出响应并执行指令以实现所期望结果的任何其他装置或装置的组合。在一个实例中，处理器或计算机包括或连接到一个或多个存储器，所述一个或多个存储器存储由所述处理器或计算机执行的指令或软件。由处理器或计算机实现的硬件部件可执行指令或软件(例如操作系统(operating system，OS)及在所述OS运行上的一个或多个软件应用程序)，以执行本申请中所述的操作。硬件部件还可响应于指令或软件的执行而存取、操纵、处理、创建及存储数据。为了简单起见，在阐述本申请中所述的实例时可使用单数用语“处理器”或“计算机”，但在其他实例中，可使用多个处理器或计算机，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或两者兼具。例如，单个硬件部件或者两个或更多个硬件部件可通过单个处理器、或者两个或更多个处理器、或者处理器与控制器来实现。一个或多个硬件部件可通过一个或多个处理器、或者处理器与控制器来实现，且一个或多个其他硬件部件可通过一个或多个其他处理器、或者另一处理器与另一控制器来实现。一个或多个处理器或者处理器与控制器可实现单个硬件部件或者两个或更多个硬件部件。硬件部件可具有不同的处理配置中的任何一者或多者，所述不同的处理配置的实例包括单个处理器、独立的处理器、平行处理器、单指令单数据(single-instruction single-data，SISD)多处理、单指令多数据(single-instruction multiple-data，SIMD)多处理、多指令单数据(multiple-instruction single-data，MISD)多处理、及多指令多数据(multiple-instructionmultiple-data，MIMD)多处理。

执行本申请中所述的操作的图3及图11所示方法是通过计算硬件来执行，例如通过一个或多个处理器或计算机来执行，所述计算硬件如上所述被实现成执行指令或软件以执行在本申请中所述的由方法执行的操作。例如，单个操作或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器与控制器执行。一个或多个操作可由一个或多个处理器、或者处理器与控制器执行，且一个或多个其他操作可由一个或多个其他处理器、或者另一处理器与另一控制器执行。一个或多个处理器或者处理器与控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机来如上所述实现硬件部件并执行方法的指令或软件被编写为计算机程序、代码段、指令或其任何组合，以用于单独地或集体地指示或配置所述处理器或计算机用作如上所述执行由硬件部件及方法执行的操作的机器或专用计算机。在一个实例中，指令或软件包括由处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一实例中，指令或软件包括由处理器或计算机使用解释器执行的更高级代码。所属领域中的普通技术程序员可容易地基于图中所示的方框图及流程图以及说明书中的对应说明来编写指令或软件，所述方框图及流程图以及说明书中的对应说明公开了用于执行如上所述由硬件部件及方法执行的操作的算法。

用于控制处理器或计算机如上所述实现硬件部件并执行方法的指令或软件、以及任何相关联的数据、数据文件及数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储媒体中或者一个或多个非暂时性计算机可读存储媒体上。非暂时性计算机可读存储媒体的实例包括只读存储器(read-only memory，ROM)、随机存取可编程只读存储器(programmable read only memory，PROM)、电可擦除可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、随机存取存储器(random-accessmemory，RAM)、动态随机存取存储器(dynamic random access memory，DRAM)、静态随机存取存储器(static random access memory，SRAM)、闪存存储器、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(hard disk drive，HDD)、固态驱动器(solid state drive，SSD)、卡型存储器(例如微型多媒体卡或卡(例如，安全数字(securedigital，SD)或极速数字(extreme digital，XD))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及被配置成以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件及数据结构且将所述指令或软件以及任何相关联的数据、数据文件及数据结构提供到处理器或计算机使得所述处理器或计算机可执行所述指令的任何其他装置。

虽然本发明包括具体的实例，然而对于所属领域中的普通技术人员来说将显而易见，可在不背离权利要求书及其等效内容的精神及范围的条件下在这些实例中作出形式及细节上的各种改变。本文所述的实例应被视为仅具有说明性意义而非用于限制。每一实例中的特征或方面的说明将被视为适用于其他实例中的相似特征或方面。如果以不同的次序执行所述的技术，及/或如果所述的系统、架构、装置或电路中的部件以不同的方式组合及/或由其他部件或其等效物替换或补充，则可获得合适的结果。因此，本发明的范围并非由详细说明来界定，而是由权利要求书及其等效内容界定，且处于权利要求书及其等效内容的范围内的所有变化将被解释为包含于本发明中。

Claims

1.一种对象检测训练方法，包括：

使用对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸；

依据所述姿态及所述尺寸计算三维限界框；

通过将所述三维限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框；

通过将所述三维限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框；以及

基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来训练所述对象检测模型，所述训练包括对所述第一输出限界框与所述第二输出限界框的融合运算。

2.根据权利要求1所述的对象检测训练方法，其中确定所述第一输出限界框包括通过将所述三维限界框投影到鸟瞰图投影图像来确定与所述对象对应的鸟瞰图限界框。

3.根据权利要求1所述的对象检测训练方法，其中确定所述第二输出限界框包括通过将所述三维限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

4.根据权利要求1所述的对象检测训练方法，其中估计所述对象的所述姿态及所述尺寸包括从i)与从所述输入图像检测到的所述对象对应的二维限界框及ii)与所述二维限界框对应的裁剪图像提取特征。

5.根据权利要求1所述的对象检测训练方法，其中训练所述对象检测模型包括：

基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框来计算损失；以及

基于所述损失来训练所述对象检测模型，所述训练包括更新神经网络中的权重。

6.根据权利要求5所述的对象检测训练方法，其中计算所述损失包括：

基于所述第一输出限界框与第一参考限界框之间的交叠程度来计算第一损失；以及

基于所述第二输出限界框与第二参考限界框之间的交叠程度来计算第二损失。

7.根据权利要求5所述的对象检测训练方法，其中计算所述损失包括：

基于指示所述对象的前面的前面框来确定目标框；

以及

基于所述目标框与参考框之间的交叠程度来计算透视限界框的损失。

8.根据权利要求5所述的对象检测训练方法，其中

估计所述对象的所述姿态及所述尺寸包括：

基于从所述输入图像提取的所述特征来估计位置偏移；

依据所述姿态及所述尺寸来估计初始位置；

通过对所估计的所述初始位置应用所述位置偏移来确定输出位置；且

计算所述损失是基于所确定的所述输出位置而进行。

9.根据权利要求1所述的对象检测训练方法，其中估计所述姿态及所述尺寸包括基于从所述输入图像提取的所述特征来估计所估计的所述姿态及所估计的所述尺寸中的每一者的置信级。

10.根据权利要求1所述的对象检测训练方法，其中估计所述对象的所述尺寸包括估计所述对象的宽度、长度及高度。

11.一种对象检测训练方法，包括：

使用对象检测模型基于从输入图像及深度图像提取的特征来估计对象的姿态；

使用所述对象检测模型基于从所述输入图像及所述深度图像提取的所述特征来估计与所述对象对应的三维限界框；

通过将所述三维限界框投影到投影图像来确定与所述对象对应的输出限界框；以及

基于所述姿态、所述三维限界框及所述输出限界框来训练所述对象检测模型，所述训练包括对所述三维限界框与所述输出限界框的融合运算。

12.根据权利要求11所述的对象检测训练方法，其中确定所述输出限界框包括通过将所述三维限界框投影到透视投影图像来确定与所述对象对应的透视限界框。

13.根据权利要求11所述的对象检测训练方法，其中从所述输入图像及所述深度图像提取所述特征是基于由区域建议网络计算的区域而进行。

14.根据权利要求11所述的对象检测训练方法，其中训练所述对象检测模型包括：

基于所述姿态、所述三维限界框及所述输出限界框来计算损失；以及

15.根据权利要求14所述的对象检测训练方法，其中计算所述损失包括基于所述输出限界框与参考限界框之间的交叠程度来计算所述输出限界框的损失。

16.根据权利要求14所述的对象检测训练方法，其中计算所述损失包括：

依据与所述对象对应的透视限界框基于指示所述对象的前面的前面框来确定目标框；

以及

基于所述目标框与参考框之间的交叠程度来计算所述透视限界框的损失。

17.根据权利要求11所述的对象检测训练方法，其中估计所述姿态及所述三维限界框包括估计至少部分地界定所述三维限界框的点的位置。

18.根据权利要求11所述的对象检测训练方法，其中估计所述姿态及所述三维限界框是基于与鸟瞰图对应的深度图像而进行。

19.根据权利要求1所述的方法，其中对所述第一输出限界框与所述第二输出限界框的所述融合运算包括通过辨识通过裁剪所述第一输出限界框而获得及通过裁剪所述第二输出限界框而获得的特征来提取特征。

20.一种对象检测训练设备，包括：

存储器，被配置成存储对象检测模型；以及

处理器，被配置成：

使用所述对象检测模型基于从输入图像提取的特征来估计对象的姿态及尺寸，

依据所述姿态及所述尺寸来计算三维限界框，

通过将所述三维限界框投影到第一投影图像来确定与所述对象对应的第一输出限界框，

通过将所述三维限界框投影到第二投影图像来确定与所述对象对应的第二输出限界框，以及

基于所述姿态、所述尺寸、所述第一输出限界框及所述第二输出限界框且进一步基于对所述第一输出限界框与所述第二输出限界框的融合运算来训练所述对象检测模型。