CN113705432A

CN113705432A - 一种模型训练、三维目标检测方法、装置、设备及介质

Info

Publication number: CN113705432A
Application number: CN202110990742.3A
Authority: CN
Inventors: 董博
Original assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Current assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26

Abstract

本发明实施例公开一种模型训练、三维目标检测方法、装置、设备及介质。该模型训练方法包括：在深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络；根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数；将单目视觉图像和单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练；在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将三维原始检测模型确定为三维目标检测模型。本发明实施例的技术方案，可以训练得到具有较高检测精度的三维目标检测模型。

Description

一种模型训练、三维目标检测方法、装置、设备及介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种模型训练、三维目标检测方法、装置、设备及介质。

背景技术

三维(3-dimensional，3D)目标检测在无人车/智能驾驶车的自动驾驶系统中占有重要地位，其可以让自动驾驶的车辆准确预判和规划自己的行为和路径，由此能够避免出现车辆碰撞、或是违规等危险状况。

在此基础上，由于单目相机具有操作便捷和价格低廉的特点，因此，基于单目相机采集到的单目视觉图像进行3D目标检测(即单目视觉三维检测)是经济型的自动驾驶系统的首要选择。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：现有的基于单目视觉图像实现的3D目标检测方案的检测精度较低。

发明内容

本发明实施例提供一种模型训练、三维目标检测方法、装置、设备及介质，以实现高检测精度的3D目标检测的效果。

第一方面，本发明实施例提供了一种模型训练方法，可以包括：

在深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对深度预测模型进行训练的第一训练样本包括在同一视角下采集到的单目视觉图像和第一深度图像；

根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，第二特征提取网络用于对单目视觉图像进行特征提取；

将单目视觉图像和单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练；

在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将该三维原始检测模型确定为三维目标检测模型，其中，三维目标检测模型用于从单目视觉图像中检测出已知三维目标。

第二方面，本发明实施例还提供了一种三维目标检测方法，可以包括：

获取基于单目视觉采集设备采集到的待检测图像、及按照本发明任意实施例所提供的方法训练得到的三维目标检测模型；

将待检测图像输入至三维目标检测模型中，根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。

第三方面，本发明实施例还提供了一种模型训练装置，可以包括：

网络获取模块，用于深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对深度预测模型进行训练的第一训练样本包括在同一视角下采集到的单目视觉图像和第一深度图像；

网络参数确定模块，用于根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，第二特征提取网络可用于对单目视觉图像进行特征提取；

模型训练模块，用于将单目视觉图像和单目视觉图像中的已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练；

模型确定模块，用于在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将三维原始检测模型确定为三维目标检测模型，其中，该三维目标检测模型用于从单目视觉图像中检测出已知三维目标。

第四方面，本发明实施例还提供了一种三维目标检测装置，可以包括：

模型获取模块，用于获取基于单目视觉采集设备采集到的待检测图像、及按照本发明任意实施例所提供的方法训练得到的三维目标检测模型；

目标检测模块，用于将待检测图像输入至三维目标检测模型中，根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。

第五方面，本发明实施例还提供了一种电子设备，可以包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的模型训练方法或是三维目标检测方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明任意实施例所提供的模型训练方法或是三维目标检测方法。

本发明实施例的技术方案，针对基于在同一视角下采集到的单目视觉图像和第一深度图像训练得到的深度预测模型，从中获取到的用于对单目视觉图像进行特征提取的第一特征提取网络是具有一定的深度感知能力，由此根据第一特征提取网络的网络参数确定的三维原始检测模型中用于对单目视觉图像进行特征提取的第二特征提取网络也是具有一定的深度感知能力，即三维原始检测模型也是具有一定的深度感知能力；进而，将单目视觉图像和单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练，由此在三维原始检测模型对应的目标损失函数满足收敛条件的情况下，根据该三维原始检测模型确定出的三维目标检测模型也是具有一定的深度感知能力，其是通过对单目视觉图像中深层次深度信息的准确提取保证了已知三维目标的检测精度。上述技术方案，在训练以单目视觉图像为输入数据的三维目标检测模型时，基于跨模态的迁移学习的思想将深度先验知识迁移到三维原始检测模型中，通过深度信息的补充提高了三维检测框的位置和朝向的检测准确度，由此达到了训练出具有较高检测精度的三维目标检测模型的效果。

附图说明

图1是本发明实施例一中的一种模型训练方法的流程图；

图2是本发明实施例二中的一种模型训练方法的流程图；

图3a是本发明实施例二中的一种模型训练方法中可选示例的第一示意图；

图3b是本发明实施例二中的一种模型训练方法中可选示例的第二示意图；

图4是本发明实施例三中的一种三维目标检测方法的流程图；

图5是本发明实施例四中的一种模型训练装置的结构框图；

图6是本发明实施例五中的一种三维目标检测装置的结构框图；

图7是本发明实施例六中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中提供的一种模型训练方法的流程图。本实施例可适用于训练得到用于实现3D目标精准检测的3D目标检测模型的情况。该方法可以由本发明实施例所提供的模型训练装置来执行，该装置可由软件和/或硬件的方式实现，该装置可以集成在电子设备上，如各种用户终端或服务器。

参见图1，本发明实施例的方法具体包括如下步骤：

S110、在深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对深度预测模型进行训练的第一训练样本包括在同一视角下采集到的单目视觉图像和第一深度图像。

其中，单目视觉图像(Monocular Vision Image)可以是利用单目视觉采集设备如单目相机、单目摄像机等采集得到的图像；第一深度图像(Depth Map)可以是与单目视觉图像在同一视觉角度(即视角)下直接采集得到的图像，也可以是根据在同一视角下采集得到的单目视觉图像和3D点云数据估计得到的图像，在此未做具体限定。在实际应用中，可选的，可以将单目视觉图像和第一深度图像作为一组第一训练样本，基于多组第一训练样本对待进行训练的深度预测模型进行训练，得到已训练完成的深度预测模型，其中，单目视觉图像和第一深度图像可以理解为多模态数据。

在此基础上，深度预测模型可以是已经训练完成的用于根据单目视觉图像预测出第一深度图像的机器学习模型，其内可以包括用于对单目视觉图像进行特征提取的第一特征提取网络，以便根据第一特征提取网络从单目视觉图像中提取出高层语义信息。由此，可以从已经训练完成的深度预测模型中获取具有一定的深度感知能力的第一特征提取网络。

S120、根据该第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，第二特征提取网络用于对单目视觉图像进行特征提取。

其中，三维原始检测模型中可以包括用于对该单目视觉图像进行特征提取的第二特征提取网络，其的网络参数可以是根据第一特征提取网络的网络参数确定的，如基于第一特征提取网络的网络参数对第二特征提取网络的网络参数进行初始化，因为该第一特征提取网络具有一定的深度感知能力，那么经由它初始化后得到的第二特征提取网络也是具有一定的深度感知能力，其可以用于提取单目视觉图像中的深层次的深度信息，这是一种迁移学习(transfer learning)的思想。

S130、将单目视觉图像和单目视觉图像中的已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练。

其中，在单目视觉图像内可以包括已知三维目标的目标标注结果，该目标标注结果可以包括已知三维目标的目标类别(class)、以及框住已知三维目标的三维检测框(3Dbounding box)的位置(location)和朝向(orientation)。将单目视觉图像和目标标注结果作为一组第二训练样本。三维原始检测模型可以是待进行训练的用于根据单目视觉图像检测出其中的已知三维目标的目标标注结果的机器学习模型，由此可以基于多组第二训练样本对该三维原始检测模型进行训练。

S140、在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将三维原始检测模型确定为三维目标检测模型，其中，三维目标检测模型用于从单目视觉图像中检测出已知三维目标。

其中，在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，即三维原始检测模型训练完成的情况下，可以将这样的三维原始检测模型作为三维目标检测模型。需要说明的是，由于第一特征提取网络是具有一定的深度感知能力，这意味着三维原始检测模型也具有一定的深度感知能力，那么由此训练得到的三维目标检测模型可以更好地检测出框住单目视觉图像中已知三维目标的三维检测框的位置(尤其是深度)和朝向，由此提高了已知三维目标的检测精度。

一种可选的技术方案，针对每组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练，可以包括：将单目视觉图像输入到三维原始检测模型，根据三维原始检测模型的输出结果，得到已知三维目标的目标检测结果；根据目标检测结果和目标标注结果，对三维原始检测模型中第二待训练网络的网络参数进行调节，其中第二待训练网络是除第二特征提取网络之外的网络。其中，目标检测结果是在对三维原始检测模型进行训练过程中，三维原始检测模型对已知三维目标的实际检测结果。由于第二特征提取网络可以理解为已经训练完成的无需再次进行训练的第一特征提取网络，因此在根据目标检测结果和目标标注结果对三维原始检测模型中的网络参数进行调节时，可以是对具有网络参数的非第二特征提取网络的第二待训练网络中的网络参数进行调节，即无需对第二特征提取网络中的网络参数进行调节，由此可以更好地保持住第二特征提取网络的深度感知能力。

实施例二

图2是本发明实施例二中提供的一种模型训练方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，针对每组第一训练样本，在在深度预测模型训练完成的情况下之前，上述模型训练方法，还可以包括：将单目视觉图像输入到第一特征提取网络中，得到第一特征图；对第一特征图进行深度预测，得到第二深度图像；根据第一深度图像和第二深度图像，对未训练完成的深度预测模型中的第一特征提取网络的网络参数进行调节。其中，与上述各实施例相同或是相应的术语的解释在此不再赘述。

参见图2，本实施例的方法具体可以包括如下步骤：

S210、获取未训练完成的深度预测模型、以及在同一视角下采集到的单目视觉图像和第一深度图像，将单目视觉图像和第一深度图像作为一组第一训练样本，其中深度预测模型包括用于对单目视觉图像进行特征提取的未训练完成的第一特征提取网络。

其中，此时的深度预测模型可以是未训练完成的用于进行深度预测的机器学习模型，相应的，此时的第一特征提取网络是该深度预测模型中的用于进行特征提取的网络。

S220、针对每组第一训练样本，将单目视觉图像输入到第一特征提取网络中，得到第一特征图，并对第一特征图进行深度预测，得到第二深度图像。

其中，第二深度图像是深度预测模型对单目视觉图像的实际预测结果。在实际应用中，可选的，在进行深度预测过程中，为了保证预测精度且降低预测复杂性，可以对第一特征图进行反卷积升维处理。

S230、根据第一深度图像和第二深度图像，对深度预测模型中的第一特征提取网络的网络参数进行调节。

其中，第一深度图像是期望输出结果，且第二深度图像是实际输出结果，因此可以根据二者对深度预测模型中的第一特征提取网络的网络参数进行调节，以使深度预测模型能够预测出尽可能接近第一深度图像的第二深度图像。

S240、在深度预测模型训练完成的情况下，获取该深度预测模型中的第一特征提取网络，并根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，第二特征提取网络用于对单目视觉图像进行特征提取。

其中，此时的深度预测模型可以是已训练完成的用于进行深度预测的机器学习模型。

S250、将单目视觉图像和单目视觉图像中的已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练。

S260、在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将三维原始检测模型确定为三维目标检测模型，其中，三维目标检测模型用于从单目视觉图像中检测出已知三维目标。

本发明实施例的技术方案，通过将单目视觉图像输入到第一特征提取网络中，得到第一特征图；对第一特征图进行深度预测，得到第二深度图像；进而，根据第一深度图像和第二深度图像对深度预测模型中第一特征提取网络的网络参数进行调节，由此达到了深度预测模型的有效训练的效果。

在此基础上，一种可选的技术方案，对第一特征图进行深度预测，得到第二深度图像，可以包括：从第一特征图中裁剪出第一感兴趣特征图，并对第一感兴趣特征图进行深度预测，得到第二感兴趣图像；根据第一深度图像和第二深度图像，对未训练完成的深度预测模型中第一特征提取网络的网络参数进行调节，可以包括：根据第一感兴趣特征图在第一特征图中的相对位置，对第一深度图像进行裁剪操作，得到第一感兴趣图像；根据第一感兴趣图像以及第二感兴趣图像，对未训练完成的深度预测模型中的第一特征提取网络的网络参数进行调节。

其中，第一感兴趣(region of interest，ROI)特征图可以是第一特征图中的特征显著(即感兴趣)的部分，其数量可以是一个、两个或是多个，在此未做具体限定。对各第一感兴趣特征图分别进行深度预测，得到可以表示出相应的第一感兴趣特征图中的深度信息的第二感兴趣图像。由于第一感兴趣特征图是第一特征图中的一部分，因此此时的深度信息可以称为局部深度信息。进一步，针对每个第一感兴趣特征图，根据该第一感兴趣特征图在第一特征图中的相对位置对第一深度图像进行裁剪操作，得到与第二感兴趣图像在平面位置上相应的第一感兴趣图像，由此可以根据该第一感兴趣图像和第二感兴趣图像对深度预测模型中的网络参数进行调节。上述技术方案，基于局部深度信息进行深度预测模型的训练过程，相较于全局深度信息(即整张第一特征图的深度信息)，模型训练过程中的计算量更小，由此提高了模型训练速度；而且因为局部深度信息多是第一特征图中已知三维目标的深度信息，相较于全局深度信息的应用，这可以提高模型训练过程中的预测精度。

在此基础上，一种可选的技术方案，三维原始检测模型还可以包括用于对单目视觉图像进行特征提取的第三特征提取网络，在此基础上，针对每组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练，可以包括：将单目视觉图像输入到第二特征提取网络中，得到第二特征图，并且将单目视觉图像输入到第三特征提取网络，得到第三特征图；从第三特征图中裁剪出第三感兴趣特征图；根据第三感兴趣特征图在第三特征图中的相对位置，对第二特征图进行裁剪操作，得到第二感兴趣特征图；根据第二感兴趣特征图以及第三感兴趣特征图，对三维原始检测模型中第一待训练网络的网络参数进行调节。

其中，相较于具有一定的深度感知能力的第二特征图，第三特征图更可以体现出单目视觉图像中的视觉特征，因此可以先从第三特征图中裁剪出ROI的第三感兴趣特征图，然后再根据第三感兴趣特征图在第三特征图中的相对位置对第二特征图进行裁剪操作，得到第二感兴趣特征图；进而，可以根据在平面位置上对应的第二感兴趣特征图以及第三感兴趣特征图，对三维原始检测模型中第一待训练网络的网络参数进行调节，其中第一待训练网络可以是三维原始检测模型中具有网络参数的待进行训练的网络，其和上文中的第二待训练网络可以相同或不同，在此未做具体限定。上述技术方案，基于局部视觉特征进行三维原始检测模型的训练过程，相较于全局视觉特征(即整张单目视觉图像的视觉特征)，模型训练过程中的计算量更小，由此提高了模型训练速度；而且，因为局部视觉特征多是第一特征图中的已知三维目标的视觉特征，相较于全局视觉特征的应用，这可以提高模型训练过程中的检测精度。除此外，具有更好的视觉特征提取能力的第三特征提取网络和因具有一定的深度感知能力而具有更好的深层次深度信息提取能力的第二特征提取网络的相互配合，有效保证了三维目标检测模型的检查精度。

在此基础上，一种可选的技术方案，在得到第一特征图后，上述模型训练方法，还可以包括：对第一特征图进行上采样，得到与单目视觉图像的尺寸相一致的第一上采样结果，并根据第一上采样结果更新第一特征图；在得到第二特征图后，上述模型训练方法，还可以包括：对第二特征图进行上采样，得到与单目视觉图像的尺寸相一致的第二上采样结果，并根据第二上采样结果更新第二特征图；在得到第三特征图后，上述模型训练方法，还可以包括：对第三特征图进行上采样，得到与单目视觉图像的尺寸相一致的第三上采样结果，并根据第三上采样结果更新第三特征图。其中，对单目视觉图像进行特征提取后得到的特征图的尺寸小于单目视觉图像的尺寸，为了保证后续损失函数的计算过程(如根据第一感兴趣图像和第二感兴趣图像、和/或根据第二感兴趣特征图和第三感兴趣特征图进行损失函数的计算等)具有针对性，可以对特征图(如第一特征图、第二特征图或是第三特征图)进行上采样来得到与单目视觉图像在尺寸上相一致的上采样结果，由此较好的保证了模型训练过程中的准确性。

为了更好地理解上述步骤的具体实现过程，下面结合具体示例对本实施例的模型训练方法进行示例性的说明。示例性的，参见图3a和图3b，其中，图3a左侧是深度预测模型(其还可以称为深度辅助网络模型)的训练流程，图3a右侧是三维原始检测模型的训练和测试流程；图3b是跨模态迁移的训练和测试的示意图。先对图3a左侧展示出的子网络预训练流程(Sub Net Pre-training Outlines)进行介绍，其训练过程中的输入数据是多模态数据(即单目视觉图像和第一感兴趣图像)。具体的，深度预测模型可以包括如下网络结构：

Backbone 1(第一特征提取网络)：特征提取过程中的主干网络，主要用于提取单目视觉图像中的高层语义信息。即，将单目视觉图像输入到Backbone 1中，得到第一特征图。

RPN&ROI pooling：RPN是区域选区网络(regional proposal network)的简称，可以用于从第一特征图中提取出第一感兴趣特征图；ROI pooling是用于尺寸变化的网络，可以对第一感兴趣特征图进行上采样，得到与单目视觉图像(也与第一深度图像)尺寸一致的第一感兴趣特征图。即，将第一特征图输入到RPN&ROI pooling中，得到第一感兴趣特征图。

Deconvolution layers：用于对第一感兴趣特征图进行反卷积升维处理以预测出与第一感兴趣特征图对应的第二感兴趣图像的网络。即，将第一感兴趣特征图输入到Deconvolution layers中，得到第二感兴趣图像。需要说明的是，由于第一感兴趣特征图的数量可以是一个、两个或多个，可选的，每个Deconvolution layer中的weights可以是相同(share weights)或是存在差异的，即对每个第一感兴趣特征图进行局部深度预测的过程可以相同或是不同，在此未做具体限定。

L2 loss:基于L2范数进行损失函数计算的网络，用于对第二感兴趣图像和ROIExtract输出的第一感兴趣图像进行损失函数的计算。即，将二者输入到L2loss中，并根据L2 loss输出的计算结果对Backbone 1中的网络参数进行调节。

Dense Depth Map:根据单目视觉图像和在同一视角下采集的3D点云数据估计出的第一深度图像。

ROI Extract:其是用于根据第一感兴趣特征图在第一特征图中的相对位置，对第一深度图像进行裁剪(crop)操作的网络。即，将第一深度图像输入到ROI Extract中，得到第一感兴趣图像。

接下来对图3a右侧展示出的主网络的训练和测试流程(Main Training&TestingOutlines)进行介绍，其训练过程中的输入数据包括单目视觉图像和目标标注结果。具体的，三维原始检测模型可以包括如下网络结构：

Backbone1(第二特征提取网络，即已经训练完成的第一特征提取网络)：基于迁移学习的思想将已经训练完成的第一特征提取网络中的网络参数初始化第二特征提取网络中的网络参数，用于提取单目视觉图像中的深层次深度信息。即，将单目视觉图像输入到Backbone1中，得到第二特征图。

Backbone2(第三特征提取网络):用于提取单目视觉图像中的视觉特征，Backbone1和Backbone2可以采用相同的网络结构。即，将单目视觉图像输入到Backbone2中，得到第三特征图。

RPN&ROI pooling：Backbone1和Backbone2可以公用一个RPN和ROI pooling的过程，以Backbone2为主，对从Backbone2输出的第三特征图中提取出的每个第三感兴趣特征图，根据其在第三特征图中的相对位置对第二特征图进行裁剪操作。即，将第二特征图和第三特征图输入到RPN&ROI pooling中，得到第三感兴趣特征图、以及与第三感兴趣特征图对应的第二感兴趣特征图。

Feature Extraction1&Feature Extraction2:对两条线路产生的感兴趣特征图进行特征提取，并对特征提取(Feature embedding)结果进行拼接(concat)，然后对拼接结果进行预测和回归，得到目标预测结果。即，将第二感兴趣特征图输入到FeatureExtraction1中进行特征提取，且将第三感兴趣特征图输入到Feature Extraction2中进行特征提取。

Back propagation:在根据目标预测结果和目标标注结果进行损失函数计算后，用于基于计算结果进行反向传播，对第二待训练网络(如Feature Extraction1、FeatureExtraction2、Backbone2等)中的网络参数进行调节，即不对backbone1中的网络参数进行调节。需要说明的，用于实现损失函数计算的损失函数计算网络可以设置在三维原始检测模型中，也可以设置在该三维原始检测模型外，在此未做具体限定。

基于上述步骤训练得到的三维目标检测模型可以是图3a右侧的已训练完成的三维原始检测模型，因此在对三维目标检测模型进行测试和应用时，可以只将单模态数据(即单目视觉图像)作为输入数据，如图3b所示。即，由于局部深度信息已经迁移到三维目标检测模型中，因此在模型的测试和应用阶段无需将深度图像作为输入数据，由此简化了数据处理流程，加快了目标检测速度。

实施例三

图4是本发明实施例三中提供的一种三维目标检测方法的流程图。本实施例可适用于从单目视觉图像中高精度检测出三维目标(即待检测三维目标)的情况。该方法可以由本发明实施例所提供的三维目标检测装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该电子设备可以是各种用户终端或服务器。

参见图4，本发明实施例的方法具体包括如下步骤：

S310、获取基于单目视觉采集设备采集到的待检测图像、以及按照本发明任意实施例所提供的方法训练得到的三维目标检测模型。

其中，待检测图像可以是待从中检测出三维目标的单目视觉图像。

S320、将待检测图像输入至三维目标检测模型中，根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。

本发明实施例的技术方案，通过获取基于单目视觉采集设备采集得到的待检测图像、以及按照本发明任意实施例所提供的方法生成的三维目标检测模型；将待检测图像输入至三维目标检测模型中，根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。上述技术方案，由于三维目标检测模型具有一定的深度感知能力，由此达到了待检测图像中待检测三维目标的高精度检测的效果。

实施例四

图5为本发明实施例四提供的模型训练装置的结构框图，该装置用于执行上述任意实施例所提供的模型训练方法。该装置与上述各实施例的模型训练方法属于同一个发明构思，在模型训练装置的实施例中未详尽描述的细节内容，可以参考上述模型训练方法的实施例。参见图5，该装置具体可包括：网络获取模块410、网络参数确定模块420、模型训练模块430和模型确定模块440。

其中，网络获取模块410，用于深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对深度预测模型进行训练的第一训练样本包括在同一视角下采集得到的单目视觉图像和第一深度图像；

网络参数确定模块420，用于根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，第二特征提取网络用于对单目视觉图像进行特征提取；

模型训练模块430，用于将单目视觉图像和单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，并基于多组第二训练样本对三维原始检测模型进行训练；

模型确定模块440，用于在三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将该三维原始检测模型确定为三维目标检测模型，其中，三维目标检测模型用于从单目视觉图像中检测出已知三维目标。

可选的，针对每组第一训练样本，上述模型训练装置，还可以包括：

第一特征图得到模块，用于在深度预测模型训练完成的情况下前，将单目视觉图像输入到第一特征提取网络中，得到第一特征图；

第二深度图像得到模块，用于对第一特征图进行深度预测，得到第二深度图像；

网络参数调节模块，用于根据第一深度图像以及第二深度图像，对未训练完成的深度预测模型中的第一特征提取网络的网络参数进行调节。

在此基础上，可选的，第二深度图像得到模块，可以包括：

第二感兴趣图像得到单元，用于从第一特征图中裁剪出第一感兴趣特征图，对第一感兴趣特征图进行深度预测，得到第二感兴趣图像；

相应的，网络参数调节模块，可以包括：

第一感兴趣图像得到单元，用于根据第一感兴趣特征图在第一特征图中的相对位置，对第一深度图像进行裁剪操作，得到第一感兴趣图像；

第一网络参数调节单元，用于根据第一感兴趣图像以及第二感兴趣图像，对未训练完成的深度预测模型中的第一特征提取网络的网络参数进行调节。

在此基础上，可选的，三维原始检测模型还包括用于对单目视觉图像进行特征提取的第三特征提取网络；

针对每组第二训练样本，模型训练模块430，可以包括：

第三特征图得到单元，用于将单目视觉图像输入到第二特征提取网络中，得到第二特征图，并且将单目视觉图像输入到第三特征提取网络中，得到第三特征图；

第三感兴趣特征图裁剪单元，用于从第三特征图中裁剪第三感兴趣特征图；

第二感兴趣特征图得到单元，用于根据第三感兴趣特征图在第三特征图中的相对位置，对第二特征图进行裁剪操作，得到第二感兴趣特征图；

第二网络参数调节单元，用于根据第二感兴趣特征图和第三感兴趣特征图，对三维原始检测模型中第一待训练网络的网络参数进行调节。

在此基础上，可选的，上述模型训练装置，还可以包括：

第一特征图更新模块，用于在得到第一特征图之后，对第一特征图进行上采样，得到与单目视觉图像的尺寸相一致的第一上采样结果，根据第一上采样结果更新第一特征图；

上述模型训练模块430，还可以包括：

第二特征图更新单元，用于在得到第二特征图之后，对第二特征图进行上采样，得到与单目视觉图像的尺寸相一致的第二上采样结果，根据第二上采样结果更新第二特征图；

第三特征图更新单元，用于在得到第三特征图之后，对第三特征图进行上采样，得到与单目视觉图像的尺寸相一致的第三上采样结果，根据第三上采样结果更新第三特征图。

可选的，针对每组第二训练样本，模型训练模块430，可以包括：

目标检测结果得到单元，用于将单目视觉图像输入到三维原始检测模型中，根据三维原始检测模型的输出结果，得到已知三维目标的目标检测结果；

第三网络参数调节单元，用于根据目标检测结果和目标标注结果，对三维原始检测模型中第二待训练网络的网络参数进行调节，其中，第二待训练网络是除第二特征提取网络之外的网络。

本发明实施例四所提供的模型训练装置，针对基于在同一视角下采集到的单目视觉图像和第一深度图像训练得到的深度预测模型，通过网络获取模块和网络参数确定模块相互配合，从中获取到的用于对单目视觉图像进行特征提取的第一特征提取网络是具有一定的深度感知能力，由此根据第一特征提取网络的网络参数确定出的三维原始检测模型中用于对单目视觉图像进行特征提取的第二特征提取网络也是具有一定的深度感知能力，即三维原始检测模型也具有一定的深度感知能力；进而，通过模型训练模块和模型确定模块相互配合，将单目视觉图像和单目视觉图像中的已知三维目标的目标标注结果作为一组第二训练样本，基于多组第二训练样本对三维原始检测模型进行训练，由此在三维原始检测模型对应的目标损失函数满足收敛条件的情况下，根据三维原始检测模型确定的三维目标检测模型也是具有一定的深度感知能力，其是通过对单目视觉图像中深层次深度信息的准确提取保证了已知三维目标的检测精度。上述装置，在训练以单目视觉图像为输入数据的三维目标检测模型时，基于跨模态的迁移学习的思想将深度先验知识迁移到三维原始检测模型中，通过深度信息的补充提高了三维检测框的位置和朝向的检测准确度，由此达到了训练出具有较高检测精度的三维目标检测模型的效果。

本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

图6为本发明实施例五提供的三维目标检测装置的结构框图，该装置用于执行上述任意实施例所提供的三维目标检测方法。该装置与上述各实施例的三维目标检测方法属于同一个发明构思，在三维目标检测装置的实施例中未详尽描述的细节内容，可以参考上述三维目标检测方法的实施例。如图6所示，该装置具体可包括：模型获取模块510和目标检测模块520。

其中，模型获取模块510，用于获取基于单目视觉采集设备采集得到的待检测图像、以及按照本发明任意实施例所提供的方法训练得到的三维目标检测模型；

目标检测模块520，用于将待检测图像输入至三维目标检测模型中，根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。

本发明实施例五所提供的三维目标检测装置，通过模型获取模块获取基于单目视觉采集设备采集得到的待检测图像、以及按照本发明任意实施例所提供的方法生成的三维目标检测模型；通过目标检测模块将待检测图像输入至三维目标检测模型中，并根据三维目标检测模型的输出结果，得到待检测图像中待检测三维目标的目标检测结果。上述装置，由于三维目标检测模型具有一定的深度感知能力，由此达到了待检测图像中待检测三维目标的高精度检测的效果。

本发明实施例所提供的三维目标检测装置可执行本发明任意实施例所提供的三维目标检测方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述三维目标检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例六

图7为本发明实施例六提供的一种电子设备的结构示意图，如图7所示，该电子设备包括存储器610、处理器620、输入装置630和输出装置640。电子设备中的处理器620的数量可以是一个或多个，图7中以一个处理器620为例；电子设备中的存储器610、处理器620、输入装置630和输出装置640可以通过总线或其它方式连接，图7中以通过总线650连接为例。

存储器610作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型训练方法对应的程序指令/模块(例如，模型训练装置中网络获取模块410、网络参数确定模块420、模型训练模块430和模型确定模块440)或是，如本发明实施例中三维目标检测方法对应的程序指令/模块(例如，三维目标检测装置中的模型获取模块510和目标检测模块520)。处理器620通过运行存储在存储器610中的软件程序、指令以及模块，从而执行电子设备的各种功能应用和数据处理，即实现上述的模型训练方法或是三维目标检测方法。

存储器610可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器610可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器610可进一步包括相对于处理器620远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例七

本发明实施例七提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法，该方法包括：

在深度预测模型训练完成的情况下，获取深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对该深度预测模型进行训练的第一训练样本包括在同一视角下采集到的单目视觉图像和第一深度图像；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的模型训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例八

本发明实施例八提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种三维目标检测方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的三维目标检测方法中的相关操作。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

在深度预测模型训练完成的情况下，获取所述深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对所述深度预测模型进行训练的第一训练样本包括在同一视角下采集到的所述单目视觉图像和第一深度图像；

根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，所述第二特征提取网络用于对所述单目视觉图像进行特征提取；

将所述单目视觉图像和所述单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，基于多组所述第二训练样本对所述三维原始检测模型进行训练；

在所述三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将所述三维原始检测模型确定为三维目标检测模型，其中，所述三维目标检测模型用于从所述单目视觉图像中检测出所述已知三维目标。

2.根据权利要求1所述的方法，其特征在于，针对每组所述第一训练样本，在所述在深度预测模型训练完成的情况下之前，所述方法还包括：

将所述单目视觉图像输入到所述第一特征提取网络中，得到第一特征图；

对所述第一特征图进行深度预测，得到第二深度图像；

根据所述第一深度图像以及所述第二深度图像，对未训练完成的所述深度预测模型中的所述第一特征提取网络的网络参数进行调节。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一特征图进行深度预测，得到第二深度图像，包括：

从所述第一特征图中裁剪出第一感兴趣特征图，对所述第一感兴趣特征图进行深度预测，得到第二感兴趣图像；

所述根据所述第一深度图像以及所述第二深度图像，对未训练完成的所述深度预测模型中的所述第一特征提取网络的网络参数进行调节，包括：

根据所述第一感兴趣特征图在所述第一特征图中的相对位置，对所述第一深度图像进行裁剪操作，得到第一感兴趣图像；

根据所述第一感兴趣图像以及所述第二感兴趣图像，对未训练完成的所述深度预测模型中的所述第一特征提取网络的网络参数进行调节。

4.根据权利要求3所述的方法，其特征在于，所述三维原始检测模型还包括用于对所述单目视觉图像进行特征提取的第三特征提取网络，针对每组所述第二训练样本，所述基于多组所述第二训练样本对所述三维原始检测模型进行训练，包括：

将所述单目视觉图像输入到所述第二特征提取网络中，得到第二特征图，并且将所述单目视觉图像输入到所述第三特征提取网络中，得到第三特征图；

从所述第三特征图中裁剪出第三感兴趣特征图；

根据所述第三感兴趣特征图在所述第三特征图中的相对位置，对所述第二特征图进行裁剪操作，得到第二感兴趣特征图；

根据所述第二感兴趣特征图以及所述第三感兴趣特征图，对所述三维原始检测模型中第一待训练网络的网络参数进行调节。

5.根据权利要求4所述的方法，其特征在于，在所述得到第一特征图之后，还包括：

对所述第一特征图进行上采样，得到与所述单目视觉图像的尺寸相一致的第一上采样结果，并根据所述第一上采样结果更新所述第一特征图；

在所述得到第二特征图之后，还包括：

对所述第二特征图进行上采样，得到与所述单目视觉图像的尺寸相一致的第二上采样结果，并根据所述第二上采样结果更新所述第二特征图；

在所述得到第三特征图之后，还包括：

对所述第三特征图进行上采样，得到与所述单目视觉图像的尺寸相一致的第三上采样结果，并根据所述第三上采样结果更新所述第三特征图。

6.根据权利要求1所述的方法，其特征在于，针对每组所述第二训练样本，所述基于多组所述第二训练样本对所述三维原始检测模型进行训练，包括：

将所述单目视觉图像输入到所述三维原始检测模型中，根据所述三维原始检测模型的输出结果，得到所述已知三维目标的目标检测结果；

根据所述目标检测结果和所述目标标注结果，对所述三维原始检测模型中第二待训练网络的网络参数进行调节，其中，所述第二待训练网络包括除所述第二特征提取网络之外的网络。

7.一种三维目标检测方法，其特征在于，包括：

获取基于单目视觉采集设备采集到的待检测图像、以及按照权利要求1-6中任一项的方法训练得到的三维目标检测模型；

将所述待检测图像输入至所述三维目标检测模型中，并根据所述三维目标检测模型的输出结果，得到所述待检测图像中待检测三维目标的目标检测结果。

8.一种模型训练装置，其特征在于，包括：

网络获取模块，用于深度预测模型训练完成的情况下，获取所述深度预测模型中用于对单目视觉图像进行特征提取的第一特征提取网络，其中，对所述深度预测模型进行训练的第一训练样本包括在同一视角下采集得到的所述单目视觉图像和第一深度图像；

网络参数确定模块，用于根据第一特征提取网络的网络参数确定三维原始检测模型中第二特征提取网络的网络参数，其中，所述第二特征提取网络用于对所述单目视觉图像进行特征提取；

模型训练模块，用于将所述单目视觉图像和所述单目视觉图像中已知三维目标的目标标注结果作为一组第二训练样本，并基于多组所述第二训练样本对所述三维原始检测模型进行训练；

模型确定模块，用于在所述三维原始检测模型所对应的目标损失函数满足收敛条件的情况下，将所述三维原始检测模型确定为三维目标检测模型，其中，所述三维目标检测模型用于从所述单目视觉图像中检测出所述已知三维目标。

9.一种三维目标检测装置，其特征在于，包括：

模型获取模块，用于获取基于单目视觉采集设备采集到的待检测图像、以及按照权利要求1-6中任一项的方法训练得到的三维目标检测模型；

目标检测模块，用于将所述待检测图像输入至所述三维目标检测模型中，并根据所述三维目标检测模型的输出结果，得到所述待检测图像中待检测三维目标的目标检测结果。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的模型训练方法，或者如权利要求7中所述的三维目标检测方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的模型训练方法，或者如权利要求7中所述的三维目标检测方法。