CN115719436A

CN115719436A - 模型训练方法、目标检测方法、装置、设备以及存储介质

Info

Publication number: CN115719436A
Application number: CN202211284417.6A
Authority: CN
Inventors: 邹智康; 叶晓青
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-02-28

Abstract

本公开提供了一种模型训练方法、目标检测方法、装置、设备以及存储介质，涉及计算机视觉、图像处理、增强现实、深度学习等人工智能技术领域，可应用于智能机器人、自动驾驶、元宇宙等场景。具体实现方案为：获取训练数据，训练数据包括训练图像和训练图像的二维标签；将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像的二维预测属性和三维预测属性；根据二维标签和目标检测结果，确定训练损失值；根据训练损失值，对目标检测网络的网络参数进行调整。从而，以二维标签对目标检测网络的训练进行弱监督，使海量图像可用于训练目标检测网络，提高目标检测精度。

Description

模型训练方法、目标检测方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域中的计算机视觉、图像处理、增强现实、深度学习、智能机器人、自动驾驶等技术领域，尤其涉及一种模型训练方法、目标检测方法、装置、设备以及存储介质。

背景技术

随着人工智能技术的发展，可通过传感器感知周围环境，并基于传感器的传感数据检测周围环境中的人、车辆等三维目标。

相关技术中，在单目的三维目标检测方法中，传感数据包括雷达传感器采集周围场景得到的点云数据和相机传感器采集周围场景得到的图像数据。在模型训练中，需在传感数据上进行三维标注，基于传感数据上的三维标注，进行目标检测网络的有监督训练。

然而，三维标注过程复杂，耗时长且对标注人员的专业性要求高，无法大规模数据标注，导致海量数据无法使用，进而导致目标检测精度较低。

发明内容

本公开提供了一种用于提高三维目标检测的检测精度的模型训练方法、目标检测方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种模型训练方法，包括：

获取训练数据，所述训练数据包括训练图像和所述训练图像的二维标签；

将所述训练图像输入目标检测网络，在所述目标检测网络中对所述训练图像进行目标检测，得到所述训练图像的目标检测结果，所述目标检测结果包括所述训练图像上对象的二维预测属性和所述对象的三维预测属性；

根据所述二维标签和所述目标检测结果，确定训练损失值；

根据所述训练损失值，对所述目标检测网络的网络参数进行调整。

根据本公开的第二方面，提供了一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入目标检测网络，在所述目标检测网络中对所述待检测图像进行目标检测，得到所述待检测图像的目标检测结果，所述目标检测结果包括所述待检测图像上对象的三维预测属性，其中，所述目标检测网络通过第一方面所述的模型训练方法训练得到。

根据本公开的第三方面，提供了一种模型训练装置，包括：

训练数据获取单元，用于获取训练数据，所述训练数据包括训练图像和所述训练图像的二维标签；

目标检测单元，用于将所述训练图像输入目标检测网络，在所述目标检测网络中对所述训练图像进行目标检测，得到所述训练图像的目标检测结果，所述目标检测结果包括所述训练图像上对象的二维预测属性和所述对象的三维预测属性；

损失确定单元，用于根据所述二维标签和所述目标检测结果，确定训练损失值；

参数调整单元，用于根据所述训练损失值，对所述目标检测网络的网络参数进行调整。

根据本公开的第四方面，提供了一种目标检测装置，包括：

图像获取单元，用于获取待检测图像；

目标检测单元，用于将所述待检测图像输入目标检测网络，在所述目标检测网络中对所述待检测图像进行目标检测，得到所述待检测图像的目标检测结果，所述目标检测结果包括所述待检测图像上对象的三维预测属性，其中，所述目标检测网络通过第三方面所述的模型训练装置训练得到。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的模型训练方法或者执行第二方面所述的目标检测方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的模型训练方法或者执行第二方面所述的目标检测方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的模型训练方法或者执行第二方面所述的目标检测方法。

根据本公开提供的技术方案，在用于实现三维目标检测的目标检测网络的训练过程中：将训练图像输入至目标检测网络中进行目标检测，得到目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和三维预测属性；以二维标签作为监督数据，根据二维标签和目标检测结果，确定训练损失值；基于训练损失值，调整目标检测网络的网络参数。如此，利用弱监督机制，通过训练图像上的二维标签实现对目标检测网络的训练过程的监督，无需对训练图像进行三维标注，降低了训练图像的标注难度，使得海量的弱标注图像(在本公开中弱标注图像为二维标注的图像)可以用于训练目标检测网络，有效地提高训练得到的目标检测网络的检测精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开实施例适用的一种应用场景的示意图；

图2示出了根据本公开实施例提供的模型训练方法的流程示意图一；

图3示出了根据本公开实施例提供的模型训练方法的流程示意图二；

图4示出了根据本公开实施例提供的模型训练方法的流程示意图三；

图5示出了根据本公开实施例提供的模型训练方法的流程示意图四；

图6示出了根据本公开实施例提供的目标检测网络的结构示例图；

图7示出了根据本公开实施例提供的目标检测方法的流程示意图；

图8示出了根据本公开实施例提供的模型训练装置的结构示意图一；

图9示出了根据本公开实施例提供的模型训练装置的结构示意图二；

图10示出了根据本公开实施例提供的目标检测装置的结构示意图；

图11示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，在三维目标检测场景中，采集数据包括通过雷达传感器采集得到的点云数据和通过相机传感器采集得到的图像数据，可由专业人士对采集数据进行三维标注，其中包括在点云数据标注平台上对点云数据进行三维标注；再利用三维标注后的采集数据，对目标检测网络进行训练。

然而，对采集数据进行三维标注费时费力，对标注人员的专业性要求较高，无法进行大规模数据标注，导致海量数据无法应用于目标检测网络的训练，阻碍了目标检测网络的精度的进一步提升。

为解决上述缺陷，本公开提供一种模型训练方法，应用于人工智能技术领域中的计算机视觉、图像处理、增强现实、深度学习、智能机器人、自动驾驶等技术领域。在本公开提供的模型训练方法中，训练数据包括训练图像和训练图像的二维标签，在训练过程中，根据训练图像的二维标签和将训练图像输入至目标检测网络后得到的目标检测结果，确定训练损失值，基于训练损失值调整目标检测网络的网络参数，其中，目标检测结果包括训练图像上对象的二维预测属性和三维预测属性。如此，以二维标签作为监督信息，实现对用于三维目标检测的目标检测网络的弱监督。相较于三维标注，二维标签属于二维标注，标注过程简单，可实现大规模图像的二维标注，使得海量图像可应用于目标检测网络的训练，提高目标检测网络的检测精度。

图1示出了本公开实施例适用的一种应用场景的示意图。在该应用场景中，涉及的设备包括用于训练目标检测网络的模型训练设备，模型训练设备可以为服务器或者终端，图1以模型训练设备为第一服务器101为例。在第一服务器101上，可基于包含训练图像和训练图像的二维标签的训练数据，对用于三维目标检测的目标检测网络进行训练，得到训练后的目标检测网络。

如图1所示，训练数据可预先采集并存储在数据库中。

如图1所示，应用场景涉及的设备还可包括用于通过目标检测网络对图像进行三维目标检测的目标检测设备，目标检测设备可以为服务器或者终端，图1以目标检测设备为第二服务器102为例。在第一服务器101上基于训练数据，训练得到目标检测网络后，将第一服务器101上训练的目标检测网络部署至第二服务器102上，在第二服务器102上，通过目标检测网络对图像进行三维目标检测。

如图1所示，应用场景涉及到设备还可包括终端103，终端103可将待检测的图像发送给第二服务器102，第二服务器102通过目标检测网络对图像进行目标检测后，将目标检测结果返回给终端103。

其中，服务器可以为集中式服务器，也可以为分布式服务器，还可以为云端服务器。终端可以是个人数字处理(personal digital assistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personalcomputer，简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能音箱、智能显示设备)、智能机器人等。

一示例中，目标检测网络的应用场景为自动驾驶场景，在自动驾驶场景中，通过目标检测网络对车辆上的摄像头拍摄得到的图像进行目标检测，以检测出车辆周围(尤其是车辆前方)的对象。

又一示例中，目标检测网络的应用场景为智能机器人场景，在智能机器人场景中，通过目标检测网络对智能机器人上的摄像头拍摄得到的图像进行目标检测，以检测出智能机器人周围的对象。

此外，应用场景还可以是道路监控、游戏交互等在线检测场景，还可以是对存储的图像和/或视频数据中的视频帧进行三维目标检测的离线检测场景，在此对这些应用场景不做一一描述。

下面以具体的实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

图2示出了根据本公开实施例提供的模型训练方法的流程示意图一。如图2所示，本公开实施例提供的模型训练方法包括：

S201，获取训练数据，训练数据包括训练图像和训练图像的二维标签。

其中，训练数据中包括一张或者多张图像，各个训练图像分别对应有二维标签；训练图像的二维标签是指对训练图像上的对象进行标注得到的标注数据，因此，在训练数据中，训练图像的二维标签可以呈现为与训练图像对应的文本内容，也可呈现为训练图像上的标记符号。

其中，训练图像上可包含一个或多个对象，在训练图像的二维标签中，可包括训练图像上一个或多个对象对应的标注数据。

作为示例地：训练图像为车辆图像，对象为车辆；训练图像为道路场景图像，对象为障碍物，障碍物包括道路上的物体、动物、人。

本实施例中，可从数据库中获取预先采集的训练数据，或者，可获取用户输入的训练数据，或者，可获取其他设备发送的训练数据。之后，可基于训练数据对目标检测网络进行一次或多次训练。后续S202～S204描述目标检测网络的一次训练过程，若需对目标检测网络进行多次训练，可多次执行S202～S204，对目标检测网络的网络参数进行多次调整。

S202，将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性。

其中，目标检测网络为用于三维目标检测的神经网络。

其中，对象的二维预测属性为对象在二维的训练图像上的预测属性，对象的三维预测属性为对象在三维空间中的预测属性。

本实施例中，在目标检测网络的一次训练过程中，可从训练数据中获取训练图像和训练图像的二维标签，将训练图像输入至目标检测网络中，或者，对训练图像进行图像预处理，以提高训练图像的图像质量，再将图像预处理后的训练图像输入至目标检测网络中。在目标检测网络中，可对训练图像进行特征提取，得到训练图像的图像特征，基于训练图像的图像特征对训练图像进行目标检测，得到训练图像上的对象的二维预测属性和三维预测属性。

S203，根据二维标签和目标检测结果，确定训练损失值。

本实施例中，由于二维标签中包括训练图像上一个或多个对象对应的标注数据，对象对应的标注数据为对象在训练图像上的二维真实属性，可将对象的二维真实属性、对象的二维预测属性、对象的三维预测属性进行比较，得到目标检测网络在此次训练中的训练损失值。

一种方式中，可通过将单张训练图像上对象的二维真实属性、二维预测属性、三维预测属性进行比较，得到单张训练图像对应的损失值，确定训练损失值为单张训练图像对应的损失值；又一种方式中，每次训练中采用多张训练图像，在得到多张训练图像分别对应的损失值后，可结合多张训练图像分别对应的损失值，例如进行加权求和、求平均，得到训练损失值。

S204，根据训练损失值，对目标检测网络的网络参数进行调整。

本实施例中，在得到训练损失值后，可基于模型优化算法和训练损失值，对目标检测网络的网络参数进行调整，模型优化算法例如梯度下降算法、自适应优化算法，在此对目标检测网络的网络参数优化过程不做具体限制。

本公开实施例中，在用于三维目标检测的目标检测网络的训练过程中，引入弱监督技术，利用对于三维目标检测而言为弱标注数据的二维标签，对目标检测网络的训练过程进行监督。相较于三维标注，二维标注难度低、门槛低，可实现大批量图像的二维标注，使得海量图像可用于目标检测网络的训练，有效地提高了目标检测网络的检测精度。

基于训练图像的二维标签中包括训练图像上对象的二维真实属性，图3示出了根据本公开实施例提供的模型训练方法的流程示意图二。如图3所示，本公开实施例提供的模型训练方法包括：

S301，获取训练数据，训练数据包括训练图像和训练图像的二维标签。

S302，将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性。

其中，S301～S302的实现原理和技术效果可参照前述实施例，不再赘述。

S303，从二维标签中获取对象的二维真实属性。

本实施例中，考虑到训练中的目标检测网络存在误差，目标检测网络可能无法检测出训练图像上的所有对象，在通过目标检测网络检测得到训练图像上对象的二维预测属性和三维预测属性后，从训练图像的二维标签中获取目标检测网络所检测出的对象的二维真实属性。例如，可根据目标检测网络所检测出的对象在训练图像上的位置分布情况，从训练图像的二维标签中查找与目标检测网络所检测出的对象位置相近的对象的二维真实属性。

S304，根据二维真实属性和二维预测属性，确定第一损失值。

本实施例中，由于对象的二维真实属性反映对象在训练图像上真实的二维属性，对象的二维预测属性反映经目标检测模型检测得到的对象在训练图像上的二维属性，如果目标检测模型的精度越高，则二维真实属性与二维预测属性越接近，可通过比较二维真实属性和二维预测属性，得到二维真实属性与二维预测属性之间的差异，根据二维真实属性与二维预测属性之间的差异，得到相应的损失值，为了便于区分，将该损失值称为第一损失值。

在一种可能的实现方式中，对象的二维真实属性包括对象的真实类别，对象的二维预测属性包括对象的预测类别，第一损失值包括类别预测损失，基于此，S304包括：对对象的真实类别和对象的预测类别进行比较，得到类别预测损失。从而，通过类别预测损失监督目标检测网络的训练，有效提高目标检测网络进行类别检测的准确性。

其中，类别预测损失即分类损失，类别预测损失越小则目标检测网络的类别检测准确性越高。对象的类别比如对象所属的物体类别、对象的身份类别等。例如，在车辆的自动驾驶场景中，对象为障碍物，对象的类别可为车辆、行人、动物、路灯、栅栏、墙壁等等。

本实现方式中，可通过类别损失函数(又可称为分类损失函数)对对象的真实类别和对象的预测类别进行比较，得到第一损失值。

进一步的，不同的类别可对应不同的类别值，因此，可将对象的真实类别对应的类别值和对象的预测类别对应的类别值输入至类别损失函数，在类别损失函数中计算对象的真实类别对应的类别值与对象的预测类别对应的类别值之间的差异，得到计算结果，确定第一损失值为该计算结果。

其中，类别损失函数用于确定对象的真实类别与对象的预测类别之间的差异，在此对类别损失函数的具体函数公式不做限制。

在又一种可能的实现方式中，对象的二维真实属性包括对象的真实图像位置，二维预测属性包括对象的预测图像位置，第一损失值包括图像位置预测损失，基于此，S304包括：对对象的真实图像位置和对象的预测图像位置进行比较，得到图像位置预测损失。从而，通过图像位置预测损失监督目标检测网络的训练，提高目标检测网络检测对象的图像位置的准确性，进而提高目标检测网络进行三维目标检测的检测精度。

本实现方式中，虽然目标检测网络是用于三维目标检测，即基于单目图像检测三维空间中的对象，图像位置预测损失反映目标检测网络在进行二维目标检测时的精度，但采用图像位置预测损失监督目标检测网络，可以提高目标检测网络的图像特征提取准确性，进而提高目标检测网络进行三维目标检测的检测精度。具体的，可通过位置损失函数对对象的真实图像位置和对象的预测图像位置进行比较，得到图像位置预测损失。

可选地，考虑到对象在训练图像上占据一部分图像区域，而不仅仅是一个图像位置，对象的真实图像位置包括对象的真实目标框，对象的预测图像位置包括对象的预测候选框。在S304中，可交并比(Intersection over Union，IOU)损失函数，比较对象的真实目标框与对象的预测候选框，得到图像位置预测损失，从而，通过图像区域位置比较提高图像位置预测损失的准确性。

其中，对象的真实目标框和预测候选框可表示为框体的顶点坐标和尺寸，比如表示为框体的左上角顶点的坐标、框体的长和框体的高。

其中，S304的上述两种可能的实现方式可相互结合，以从类别预测和图像位置预测两个方面提高目标检测网络的检测精度。在上述两种可能的实现方式结合的情况下，上述两种可能的实现方式可先后执行也可同时执行。

S305，根据二维真实属性和三维预测属性，确定第二损失值。

本实施例中，对象的二维真实属性反映对象在训练图像上真实的二维属性，对象的三维预测属性反映经目标检测模型检测得到对象在三维空间的属性，可见对象的二维真实属性所在的坐标系为图像坐标系，对象的三维预测属性所在的坐标系为相机坐标系。可通过将对象的二维真实属性和对象的三维预测属性统一至同一坐标系中进行比较，得到对象的二维真实属性与三维预测属性之间的差异，根据二维真实属性与三维预测属性之间的差异，得到相应的损失值，为了便于区分，将该损失值称为第二损失值。从而，通过统一至同一坐标系的方式，实现二维真实属性与三维预测属性的准确比较，提高第二损失值的准确性，进而提高目标检测网络的训练效果。

在一种可能的实现方式中，可将对象的二维真实属性和对象的三维预测属性统一至图像坐标系中进行比较；在又一种可能的实现方式中，可将对象的二维真实属性和对象的三维预测属性统一至相机坐标系中进行比较。从而，利用图像坐标系、相机坐标系可基于相机内参进行坐标系转换的特点，提高二维真实属性与三维预测属性的比较便捷性和比较准确性，实现作为弱标注信息的二维标签对目标检测网络的三维目标检测的准确监督。

S306，对第一损失值和第二损失值进行融合，得到训练损失值。

本实施例中，可通过对第一损失值和第二损失值进行相加求和、加权求和、加权求平均等方式，实现第一损失值和第二损失值的融合，得到训练损失值。如此，兼顾目标检测网络在二维目标检测和三维目标检测的误差，利用该误差监督目标检测网络的训练，有利于提高目标检测网络的检测精度。

S307，根据训练损失值，对目标检测网络的网络参数进行调整。

其中，S307的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，在用于三维目标检测的目标检测网络的训练过程中，引入弱监督技术，利用对于三维目标检测而言为弱标注数据的二维标签，对目标检测网络的二维目标检测和三维目标检测进行监督，提高在二维标签的监督下目标检测网络的训练效果，提高目标检测网络的检测精度。

在一些实施例中，三维预测属性反映对象在三维空间的位置预测情况、二维真实属性反映对象在训练图像上的真实图像位置，第二损失值包括空间位置预测损失。其中，空间预测损失根据三维预测属性和二维真实属性确定得到。基于此，图4示出了根据本公开实施例提供的模型训练方法的流程示意图三。如图4所示，本公开实施例提供的模型训练方法包括：

S401，获取训练数据，训练数据包括训练图像和训练图像的二维标签。

S402，将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性。

S403，从二维标签中获取对象的二维真实属性。

S404，根据二维真实属性和二维预测属性，确定第一损失值。

其中，S401～S404的实现原理和技术效果可参照前述实施例，不再赘述。

S405，对三维预测属性和二维真实属性进行位置比较，确定空间位置预测损失。

本实施例中，由于三维预测属性反映对象在三维空间的位置预测情况、二维真实属性反映对象在训练图像上的真实图像位置，可将三维预测属性所反映的对象在三维空间的位置预测情况和二维真实属性所反映的对象在训练图像上的真实图像位置统一至同一坐标系中进行比较，得到对象在三维空间的预测位置和对象在训练图像上的真实图像位置之间的位置差异，基于该位置差异，确定目标检测网络在此次训练中的空间位置预测损失。

在一种可能的实现方式中，可将对象在三维空间的预测位置和对象在训练图像上的真实图像位置统一至图像坐标系中进行位置比较；在又一种可能的实现方式中，可将对象在三维空间的预测位置和对象在训练图像上的真实图像位置统一至相机坐标系中进行位置比较。如此，利用图像坐标系、相机坐标系可基于相机内参进行坐标系转换的特点，提高对象在三维空间的预测位置与对象在训练图像上的真实图像位置进行比较的便捷性和准确性，实现作为弱标注信息的二维标签对目标检测网络的三维目标检测的准确监督。

在一种可能的实现方式中，对象的三维预测属性包括对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸，对象的二维真实属性包括对象的真实目标框，基于此，“将对象在三维空间的预测位置和对象在训练图像上的真实图像位置统一至图像坐标系中进行位置比较”，可包括：根据对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸，确定对象的三维预测框；将对象的三维预测框投影至训练图像上，得到对象的投影框；根据对象的投影框和对象的真实目标框，得到空间位置预测损失。

其中，对象的预测空间位置可表示为空间位置(x,y,z)，该空间位置可以为对象在三维空间中的三维顶点(例如左上角顶点)或者中心点的坐标位置对象的预测空间姿态可包括对象在三维空间(如三维的相机坐标系)中的旋转角ry，对象的预测空间尺寸可包括对象的高度、宽度和长度(h,w,l)，h表示高度，w表示宽度，l表示长度。

本实施例中，可将对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸进行组合，得到对象的三维预测框，三维预测框在三维坐标系中的旋转角度为旋转角ry、空间位置为(x,y,z)、尺寸为(h,w,l)。在得到对象的三维预测框后，可基于相机内参将对象的三维预测框投影至训练图像上，得到对象的投影框，即对对象的三维预测框进行坐标系转换，将三维预测框从相机坐标系转换至图像坐标系。其中，投影框为二维的预测框。之后，可将对象的投影框和对象的真实目标框进行比较，得到空间位置预测损失。

从而，利用相机内参，将三维预测框投影至训练图像，使得对象的预测空间位置和对象的真实图像位置可统一至图像坐标系中进行比较，提高了对象的预测空间位置和对象的真实图像位置进行比较的准确性，进而提高了空间位置预测损失的准确性，提高了目标检测网络的训练效果。

进一步地，在根据对象的投影框和对象的真实目标框，得到空间位置预测损失的过程中，可确定对象的投影框的最小包围框；通过交并比损失函数，比较最小包围框和真实目标框，得到空间位置预测损失。考虑到三维预测框有8个顶点，投影到图像上也会得到8个顶点，而得到的投影框可能并不包含所有顶点，给三维预测属性与二维真实属性的比较的准确性带来不良影响，因此，在本方式中，确定对象的投影框的最小包围框，该最小包围框可包围对象的三维预测框的所有顶点在训练图像上的投影点。之后，通过交并比损失函数，比较最小包围框和真实目标框，得到空间位置预测损失。从而，通过设置最小包围框的方式，有效地提高空间位置预测损失的准确性。

在一种可能的实现方式中，第二损失值还包括距离损失，距离损失用于指示三维预测属性反映出的对象距离相机的距离的准确性，距离损失越大，则该准确性越小。从而，在空间位置预测损失之外，还引入距离损失，以结合空间位置预测损失和距离损失，提高目标检测模型的三维目标检测准确性。

基于第二损失值还包括距离损失，S405还包括：根据对象的三维预测属性，确定对象的横坐标、对象的纵坐标以及对象的深度，对象为多个；根据对象的横坐标，在对象中筛选第一对象和第二对象，第一对象与第二对象的横坐标距离小于距离阈值；利用成像原理，基于第一对象的纵坐标、第二对象的纵坐标、第一对象的深度和第二对象的深度，确定距离损失。从而，利用同一观测点下物体距离相机越近则物体对应的图像区域越位于图像下方的成像原理，在不依赖于三维标注和二维标注的情况下，实现距离损失的确定。

其中，对象的横坐标和纵坐标是指对象在训练图像上的横坐标和纵坐标。

本实现方式中，对象的三维预测属性包括对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸，可从对象的预测空间位置中获得对象的横坐标、纵坐标以及深度。其中，对象的横坐标可反映对象所在的预测观测点，对象的纵坐标可反映对象在训练图像上的预测上下位置，对象的深度可反映对象与相机的预测距离。因此，可基于对象的横坐标，在多个对象中筛选出位于同一观测点的第一对象和第二对象，其中，第一对象和第二对象的横坐标距离(即横坐标差值的绝对值)小于距离阈值，说明第一对象与第二对象位于同一观测点；接着，可通过比较位于同一观测点的不同对象的尺寸和深度来确定距离损失，即通过比较第一对象的纵坐标与第二对象的纵坐标、比较第一对象的深度和第二对象的深度来确定距离损失。如此，利用同一观测点下物体距离相机越近则物体对应的图像区域越位于图像下方的成像原理，设置横坐标约束条件，通过比较满足横坐标约束条件的不同对象的纵坐标和比较满足横坐标约束条件的不同对象的深度，提高距离损失的准确性。

进一步地，在通过比较第一对象的纵坐标与第二对象的纵坐标、比较第一对象的深度和第二对象的深度来确定距离损失的过程中，可对第一对象的纵坐标与第二对象的纵坐标进行比较，如果第一对象的纵坐标大于第二对象的纵坐标，则可确定第一对象相较于第二对象更位于图像下方，距离相机更近，否则确定第二对象相较于第一对象更位于图像下方，距离相机更近。之后，在第一对象相较于第二对象距离相机更近的情况下，可比较第一对象的深度与第二对象的深度是否符合第一对象相较于第二对象距离相机更近，根据比较结果得到距离损失；在第二对象相较于第一对象距离相机更近的情况下，可比较第二对象的深度与第一对象的深度是否符合第二对象相较于第一对象距离相机更近，根据比较结果得到距离损失。如此，通过比较第一对象的纵坐标和第二对象的纵坐标、比较第一对象的深度和第二对象的深度，提高距离损失的准确性。

作为示例地，假设第一对象的深度为D1，第二对象的深度为D2，在第一对象相较于第二对象距离相机更近的情况下，用于确定距离损失的损失函数可表示为D2-D1-δ>0；在第二对象相较于第一对象距离相机更近的情况下，用于确定距离损失的损失函数可表示为D1-D2-δ>0。其中，δ为极小值。

S406，对第一损失值和第二损失值进行融合，得到训练损失值，第二损失值包括空间位置预测损失。

本实施例中，可将第一损失值与空间预测损失进行相加求和、加权求和、加权求平均等，得到训练损失值。

在第二损失值还包括距离损失的情况下，可将第一损失值、空间预测损失和距离损失进行相加求和、加权求和、加权求平均等，得到训练损失值。

S407，根据训练损失值，对目标检测网络的网络参数进行调整。

其中，S406～S407的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，在用于三维目标检测的目标检测网络的训练过程中，引入弱监督技术，利用对于三维目标检测而言为弱标注数据的二维标签，对目标检测网络的二维目标检测和三维目标检测进行监督，其中，包括将三维预测属性与二维标签中对象的二维真实属性进行位置比较，提高在二维标签的监督下目标检测网络的三维目标检测精度，提高目标检测网络的训练效果。

在对象的二维预测属性包括对象的预测图像位置、对象的预测类别，对象的三维预测属性包括对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸的情况下，图5示出了本公开实施例提供的模型训练方法的流程示意图四，如图5所示，本公开实施例提供的模型训练方法可包括：

S501，获取训练数据，训练数据包括训练图像和训练图像的二维标签。

S502，将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性。

S503，从二维标签中获取对象的二维真实属性。

S504，对真实类别和预测类别进行比较，得到类别预测损失。

S505，对真实图像位置和预测图像位置进行比较，得到图像位置预测损失。

S506，对三维预测属性和二维真实属性进行位置比较，确定空间位置预测损失。

S507，根据三维预测属性，确定对象的横坐标、对象的纵坐标以及对象的尺寸。

S508，根据对象的横坐标，在对象中筛选第一对象和第二对象，第一对象与第二对象的横坐标距离小于距离阈值。

S509，利用成像原理，基于第一对象的纵坐标、第二对象的纵坐标、第一对象的深度和第二对象的深度，确定距离损失。

S510，对类别预测损失、图像位置预测损失、空间位置预测损失和距离损失进行融合，得到训练损失值。

S511，根据训练损失值，对目标检测网络的网络参数进行调整。

其中，S501～S511的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，通过对于三维目标检测而言为弱标注数据的二维标签，对目标检测网络输出的二维预测属性和三维预测属性进行监督，包括监督图像位置、空间位置、类别预测以及对象与相机的距离，从该多个方面可对目标检测网络的训练进行监督，提高在二维标签的监督下进行目标检测网络的训练的训练效果，提高目标检测网络的检测精度。

在一些实施例中，基于前述任一实施例，对象的三维预测属性还可包括对象的预测类别，可参照基于二维标签中对象的真实类别与二维预测属性中对象的预测类别确定二维目标检测一侧的类别预测损失的方式，基于二维标签中对象的真实类别与三维预测属性中对象的预测类别确定三维目标检测一侧的类别预测损失，在此不再赘述。

在一些实施例中，目标检测网络可包括特征提取网络、二维预测网络和三维预测网络，其中，特征提取网络用于提取图像特征，二维预测网络用于基于特征提取网络提取的图像特征进行二维目标检测，三维预测网络用于基于特征提取的图像特征进行三维目标检测。

基于此，目标检测网络对训练图像进行目标检测过程可包括：将训练图像输入特征提取网络，在特征提取网络中对训练图像进行特征提取，得到训练图像的图像特征；将图像特征输入二维预测网络，在二维预测网络中基于图像特征进行二维属性预测，得到二维预测属性；将图像特征输入三维预测网络，在三维预测网络中基于图像特征进行三维属性预测，得到三维预测属性。如此，通过不同的网络分支进行二维目标检测和三维目标检测，提高二维预测属性和三维预测属性的准确性，进而提高三维检测网络的检测精度。

可选地，二维预测网络可包括类别预测分支和/或图像位置预测分支。类别预测分支用于预测对象类别，得到对象的预测类别；图像位置预测分支用于预测对象在训练图像上的位置，得到对象的预测图像位置；

可选地，三维预测网络可包括类别预测分支和/或空间位姿预测分支。类别预测分支用于预测对象类别，得到对象的预测类别；空间位姿预测分支用于预测对象在三维空间中的位姿，得到对象的预测空间位置、对象的预测空间姿态以及对象的预测空间尺寸。

作为示例地，图6示出了根据本公开实施例提供的目标检测网络的结构示例图。如图6所示，目标检测网络可包括特征提取网络、二维预测网络和三维预测网络。将训练图像输入至特征提取网络中，得到训练图像的图像特征；将训练图像的图像特征分别输入二维预测网络和三维预测网络，得到二维预测网络输出的二维预测属性和三维预测网络输出的三维预测属性；通过二维标签对二维预测属性和三维预测属性进行监督，分别得到L1损失、距离损失和2d-3d IOU损失，其中，L1损失包括类别预测损失、图像位置预测损失；2d-3dIOU损失表示空间位置预测损失。

图7示出了根据本公开实施例提供的目标检测方法的流程示意图。如图7所示，目标预测方法包括：

S701，获取待检测图像。

其中，待检测图像的数量可为一张或多张。待检测图像的图像类型与目标检测场景有关，在目标检测场景为自动驾驶场景的情况下，待检测图像可为道路场景图，可由车辆上的摄像头采集得到，在目标检测场景为家庭智能场景的情况下，待检测图像可为家庭场景图，可由智能机器人上的摄像头采集得到；在目标检测场景为离线检测场景的情况下，待检测图像可为预先采集并存储的图像，比如一些离线视频中的视频帧。

本实施例中，可获取采集设备发送的待检测图像，或者，可接收用户输入的待检测图像，或者，可从数据库中获取待检测图像。或者，可从视频文件中获取待检测图像，视频文件可为采集设备发送的、用户输入的或者从数据库中获取得到的。待检测图像的获取方式较多，在此不一一描述。

S702，将待检测图像输入目标检测网络，在目标检测网络中对待检测图像进行目标检测，得到待检测图像的目标检测结果，目标检测结果包括待检测图像上对象的三维预测属性。

其中，目标检测网络可采用上述任一实施例提供的模型训练方法训练得到，在此对目标检测网络的训练过程不再赘述。目标检测网络的网络结构也可参照前述实施例，在此不再赘述。

本实施例中，将待检测图像输入目标检测网络，在目标检测网络中对待检测图像进行特征提取，得到待检测图像的图像特征，基于待检测图像的图像特征对待检测图像进行目标检测，得到待检测图像上对象的三维预测属性。

其中，根据前述实施例对目标检测网络的描述，可知目标检测网络还可检测对象的二维预测属性，在三维目标检测场景中，可仅采用目标检测网络检测对象的三维预测属性，也可以在需要进行二维目标检测的情况下，采用目标检测网络检测对象的二维预测属性和三维预测属性。

本公开实施例中，在目标检测网络的训练过程中，基于二维标注的训练数据实现了目标检测网络的训练，使得海量图像可用于目标检测网络的训练，提高了目标检测网络的检测精度，因此，使用目标检测网络对待检测图像进行目标检测，可有效地提高对待检测目标进行目标检测的准确性。

图8示出了根据本公开实施例提供的模型训练装置的结构示意图一。如图8所示，模型训练装置800包括：

训练数据获取单元801，用于获取训练数据，训练数据包括训练图像和训练图像的二维标签；

目标检测单元802，用于将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性；

损失确定单元803，用于根据二维标签和目标检测结果，确定训练损失值；

参数调整单元804，用于根据训练损失值，对目标检测网络的网络参数进行调整。

图9示出了根据本公开实施例提供的模型训练装置的结构示意图二。如图9所示，模型训练装置900包括：

训练数据获取单元901，用于获取训练数据，训练数据包括训练图像和训练图像的二维标签；

目标检测单元902，用于将训练图像输入目标检测网络，在目标检测网络中对训练图像进行目标检测，得到训练图像的目标检测结果，目标检测结果包括训练图像上对象的二维预测属性和对象的三维预测属性；

损失确定单元903，用于根据二维标签和目标检测结果，确定训练损失值；

参数调整单元904，用于根据训练损失值，对目标检测网络的网络参数进行调整。

在一种可能的实现方式中，如图9所示，损失确定单元903包括：

属性获取模块9031，用于从二维标签中获取对象的二维真实属性；

第一损失确定模块9032，用于根据二维真实属性和二维预测属性，确定第一损失值；

第二损失确定模块9033，用于根据二维真实属性和三维预测属性，确定第二损失值；

损失融合模块9034，用于对第一损失值和第二损失值进行融合，得到训练损失值。

在一种可能的实现方式中，三维预测属性反映对象在三维空间的位置预测情况，二维真实属性反映对象在训练图像上的真实图像位置，第二损失值包括空间位置预测损失，第二损失确定模块9033包括：

空间损失确定子模块(图中未示出)，用于对三维预测属性和二维真实属性进行位置比较，确定空间位置预测损失。

在一种可能的实现方式中，三维预测属性包括对象的预测空间位置、对象的预测空间姿态和对象的预测空间尺寸，二维真实属性包括对象的真实目标框，空间损失确定子模块具体用于：根据预测空间位置、预测空间姿态和预测空间尺寸，确定对象的三维预测框；将三维预测框投影至训练图像上，得到对象的投影框；根据投影框和真实目标框，得到空间位置预测损失。

在一种可能的实现方式中，在根据投影框和真实目标框，得到空间位置预测损失值的过程中，空间损失确定子模块具体用于：确定投影框的最小包围框；通过交并比损失函数，比较最小包围框和真实目标框，得到空间位置预测损失。

在一种可能的实现方式中，第二损失值还包括距离损失，第二损失确定模块9033还包括：

对象信息确定子模块(图中未示出)，用于根据三维预测属性，确定对象的横坐标、对象的纵坐标以及对象的深度，对象为多个；

对象筛选子模块(图中未示出)，用于根据对象的横坐标，在对象中筛选第一对象和第二对象，第一对象与第二对象的横坐标距离小于距离阈值；

距离损失确定子模块(图中未示出)，用于利用成像原理，基于第一对象的纵坐标、第二对象的纵坐标、第一对象的深度和第二对象的深度，确定距离损失。

在一种可能的实现方式中，二维真实属性包括对象的真实类别和对象的真实图像位置，二维预测属性包括对象的预测类别和对象的预测图像位置，第一损失值包括类别预测损失和图像位置预测损失，第一损失确定模块9021包括：

类别损失确定子模块(图中未示出)，用于对真实类别和预测类别进行比较，得到类别预测损失；

图像损失确定子模块(图中未示出)，用于对真实图像位置和预测图像位置进行比较，得到图像位置预测损失。

在一种可能的实现方式中，目标检测网络包括特征提取网络、二维预测网络和三维预测网络，目标检测单元902包括：

特征提取模块(图中未示出)，用于将训练图像输入特征提取网络，在特征提取网络中对训练图像进行特征提取，得到训练图像的图像特征；

二维预测模块(图中未示出)，用于将图像特征输入二维预测网络，在二维预测网络中基于图像特征进行二维属性预测，得到二维预测属性；

三维预测模块(图中未示出)，用于将图像特征输入三维预测网络，在三维预测网络中基于图像特征进行三维属性预测，得到三维预测属性。

图10示出了根据本公开实施例提供的目标检测装置的结构示意图。如图10所示，目标检测装置1000包括：

图像获取单元1001，用于获取待检测图像；

目标检测单元1002，用于将待检测图像输入目标检测网络，在目标检测网络中对待检测图像进行目标检测，得到待检测图像的目标检测结果，目标检测结果包括待检测图像上对象的三维预测属性，其中，目标检测网络通过上述任一实施例提供的模型训练装置训练得到。

图8～10提供的模型训练装置，可以执行上述相应方法实施例，其实现原理和技术效果类似，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(Read Only Memory，ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(Random Access Memory，RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如模型训练方法。例如，在一些实施例中，模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Program Gate Array，FPGA)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、专用标准产品(Application Specific StandardParts，ASSP)、芯片上系统的系统(System On a Chip，SOC)、复杂可编程逻辑设备(ComplexProgramming Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

根据所述二维标签和所述目标检测结果，确定训练损失值；

2.根据权利要求1所述的模型训练方法，其中，所述根据所述二维标签和所述目标检测结果，确定训练损失值，包括：

从所述二维标签中获取所述对象的二维真实属性；

根据所述二维真实属性和所述二维预测属性，确定第一损失值；

根据所述二维真实属性和所述三维预测属性，确定第二损失值；

对所述第一损失值和所述第二损失值进行融合，得到所述训练损失值。

3.根据权利要求2所述的模型训练方法，其中，所述三维预测属性反映所述对象在三维空间的位置预测情况，所述二维真实属性反映所述对象在所述训练图像上的真实图像位置，所述第二损失值包括空间位置预测损失，所述根据所述二维真实属性和所述三维预测属性，确定第二损失值，包括：

对所述三维预测属性和所述二维真实属性进行位置比较，确定空间位置预测损失。

4.根据权利要求3所述的模型训练方法，其中，所述三维预测属性包括所述对象的预测空间位置、所述对象的预测空间姿态和所述对象的预测空间尺寸，所述二维真实属性包括所述对象的真实目标框，所述对所述三维预测属性和所述二维真实属性进行位置比较，确定空间位置预测损失，包括：

根据所述预测空间位置、所述预测空间姿态和所述预测空间尺寸，确定所述对象的三维预测框；

将所述三维预测框投影至所述训练图像上，得到所述对象的投影框；

根据所述投影框和所述真实目标框，得到所述空间位置预测损失。

5.根据权利要求4所述的模型训练方法，其中，所述根据所述投影框和所述真实目标框，得到所述空间位置预测损失值，包括：

确定所述投影框的最小包围框；

通过交并比损失函数，比较所述最小包围框和所述真实目标框，得到所述空间位置预测损失。

6.根据权利要求3所述的模型训练方法，其中，所述第二损失值还包括距离损失，所述根据所述二维真实属性和所述三维预测属性，确定第二损失值，还包括：

根据所述三维预测属性，确定所述对象的横坐标、所述对象的纵坐标以及所述对象的深度，所述对象为多个；

根据所述对象的横坐标，在所述对象中筛选第一对象和第二对象，所述第一对象与所述第二对象的横坐标距离小于距离阈值；

利用成像原理，基于所述第一对象的纵坐标、所述第二对象的纵坐标、所述第一对象的深度和所述第二对象的深度，确定所述距离损失。

7.根据权利要求2-6中任一项所述的模型训练方法，其中，所述二维真实属性包括所述对象的真实类别和所述对象的真实图像位置，所述二维预测属性包括所述对象的预测类别和所述对象的预测图像位置，所述第一损失值包括类别预测损失和图像位置预测损失，所述根据所述二维真实属性和所述二维预测属性，确定第一损失值，包括：

对所述真实类别和所述预测类别进行比较，得到所述类别预测损失；

对所述真实图像位置和所述预测图像位置进行比较，得到所述图像位置预测损失。

8.根据权利要求1-6中任一项所述的模型训练方法，其中，所述目标检测网络包括特征提取网络、二维预测网络和三维预测网络，所述将所述训练图像输入目标检测网络，在所述目标检测网络中对所述训练图像进行目标检测，得到所述训练图像的目标检测结果，包括：

将所述训练图像输入所述特征提取网络，在所述特征提取网络中对所述训练图像进行特征提取，得到所述训练图像的图像特征；

将所述图像特征输入所述二维预测网络，在所述二维预测网络中基于所述图像特征进行二维属性预测，得到所述二维预测属性；

将所述图像特征输入所述三维预测网络，在所述三维预测网络中基于所述图像特征进行三维属性预测，得到所述三维预测属性。

9.一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入目标检测网络，在所述目标检测网络中对所述待检测图像进行目标检测，得到所述待检测图像的目标检测结果，所述目标检测结果包括所述待检测图像上对象的三维预测属性，其中，所述目标检测网络通过权利要求1-8中任一项所述的模型训练方法训练得到。

10.一种模型训练装置，包括：

11.根据权利要求10所述的模型训练装置，其中，所述损失确定单元包括：

属性获取模块，用于从所述二维标签中获取所述对象的二维真实属性；

第一损失确定模块，用于根据所述二维真实属性和所述二维预测属性，确定第一损失值；

第二损失确定模块，用于根据所述二维真实属性和所述三维预测属性，确定第二损失值；

损失融合模块，用于对所述第一损失值和所述第二损失值进行融合，得到所述训练损失值。

12.根据权利要求11所述的模型训练装置，其中，所述三维预测属性反映所述对象在三维空间的位置预测情况，所述二维真实属性反映所述对象在所述训练图像上的真实图像位置，所述第二损失值包括空间位置预测损失，所述第二损失确定模块包括：

空间损失确定子模块，用于对所述三维预测属性和所述二维真实属性进行位置比较，确定空间位置预测损失。

13.根据权利要求12所述的模型训练装置，其中，所述三维预测属性包括所述对象的预测空间位置、所述对象的预测空间姿态和所述对象的预测空间尺寸，所述二维真实属性包括所述对象的真实目标框，所述空间损失确定子模块具体用于：

14.根据权利要求13所述的模型训练装置，其中，在根据所述投影框和所述真实目标框，得到所述空间位置预测损失值的过程中，所述空间损失确定子模块具体用于：

确定所述投影框的最小包围框；

15.根据权利要求11所述的模型训练装置，其中，所述第二损失值还包括距离损失，所述第二损失确定模块还包括：

对象信息确定子模块，用于根据所述三维预测属性，确定所述对象的横坐标、所述对象的纵坐标以及所述对象的深度，所述对象为多个；

对象筛选子模块，用于根据所述对象的横坐标，在所述对象中筛选第一对象和第二对象，所述第一对象与所述第二对象的横坐标距离小于距离阈值；

距离损失确定子模块，用于利用成像原理，基于所述第一对象的纵坐标、所述第二对象的纵坐标、所述第一对象的深度和所述第二对象的深度，确定所述距离损失。

16.根据权利要求11-15中任一项所述的模型训练装置，其中，所述二维真实属性包括所述对象的真实类别和所述对象的真实图像位置，所述二维预测属性包括所述对象的预测类别和所述对象的预测图像位置，所述第一损失值包括类别预测损失和图像位置预测损失，所述第一损失确定模块包括：

类别损失确定子模块，用于对所述真实类别和所述预测类别进行比较，得到所述类别预测损失；

图像损失确定子模块，用于对所述真实图像位置和所述预测图像位置进行比较，得到所述图像位置预测损失。

17.根据权利要求10-15中任一项所述的模型训练装置，其中，所述目标检测网络包括特征提取网络、二维预测网络和三维预测网络，所述目标检测单元包括：

特征提取模块，用于将所述训练图像输入所述特征提取网络，在所述特征提取网络中对所述训练图像进行特征提取，得到所述训练图像的图像特征；

二维预测模块，用于将所述图像特征输入所述二维预测网络，在所述二维预测网络中基于所述图像特征进行二维属性预测，得到所述二维预测属性；

三维预测模块，用于将所述图像特征输入所述三维预测网络，在所述三维预测网络中基于所述图像特征进行三维属性预测，得到所述三维预测属性。

18.一种目标检测装置，包括：

图像获取单元，用于获取待检测图像；

目标检测单元，用于将所述待检测图像输入目标检测网络，在所述目标检测网络中对所述待检测图像进行目标检测，得到所述待检测图像的目标检测结果，所述目标检测结果包括所述待检测图像上对象的三维预测属性，其中，所述目标检测网络通过权利要求10-17中任一项所述的模型训练装置训练得到。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的模型训练方法或者执行权利要求9所述的目标检测方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的模型训练方法或者执行权利要求9所述的目标检测方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的模型训练方法的步骤或者执行权利要求9所述的目标检测方法的步骤。