CN116543143A

CN116543143A - 一种目标检测模型的训练方法、目标检测方法及装置

Info

Publication number: CN116543143A
Application number: CN202310258666.6A
Authority: CN
Inventors: 张振林; 李梓赫; 袁金伟
Original assignee: China Automotive Innovation Corp
Current assignee: China Automotive Innovation Corp
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-08-04

Abstract

本发明涉及智能驾驶技术领域，本发明公开了一种目标检测模型的训练方法、目标检测方法及装置。该训练方法通过获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。从而提高了学习目标空间位置的精准度。

Description

一种目标检测模型的训练方法、目标检测方法及装置

技术领域

本申请涉及智能驾驶技术领域，特别涉及一种目标检测模型的训练方法、目标检测方法及装置。

背景技术

现有的三维目标检测算法根据传感器不同，大致可以分为视觉、激光点云和多模态融合三类。视觉方法由于其成本低、纹理特征丰富等优势，在目标检测领域中被广泛使用，并且可根据相机类型分为单目视觉和双目/深度视觉两类。单目视觉缺陷在于无法直接获取深度信息，从而导致目标在三维空间中的定位误差较大；而双目视觉不仅提供了丰富的纹理信息，还具有较为准确的深度信息，具有更高的检测精度。

但是，现有的训练方案都依赖于完整的标注信息的强监督训练，即需要标注车辆的空间坐标位置，一般通过激光雷达采集点云进行标注，在样本量较大时花费高额的成本。

发明内容

为了解决现有技术的问题，本申请实施例提供了一种目标检测模型的训练方法、装置、电子设备及存储介质。所述技术方案如下：

一方面，提供了一种目标检测模型的训练方法，其包括：

获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；

利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；

对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；

基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；

基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

在一个示例性的实施方式中，对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集，包括：

对预测三维边界框的三维坐标集进行二维投影处理，得到预测三维边界框的多个顶点的二维坐标；

基于预测三维边界框的多个顶点的二维坐标，确定预测三维边界框的多个顶点的最小外接矩形和对应的二维坐标集；

将最小外接矩形的二维坐标集确定为预测二维边界框的二维坐标集。

在一个示例性的实施方式中，标注图像的二维边界框信息包括边界框的二维坐标集；

基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数，包括：

基于标注图像的边界框的二维坐标集和预测二维边界框的二维坐标集确定边界框与预测二维边界框的重叠程度值；

基于重叠程度值确定目标损失函数。

在一个示例性的实施方式中，预测参数还包括对象的预测投影偏差值和预测深度值；基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数，包括：

基于标注图像的二维边界框信息和预测二维边界框的二维坐标集、预测投影偏差值和预测深度值构建目标损失函数。

在一个示例性的实施方式中，初始目标检测模型包括特征提取网络和多个检测器；利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数，包括：

利用特征提取网络对样本图像进行多尺度特征提取，得到多个尺度的特征图；

将多个尺度的特征图中的每个尺度特征图输入到对应的一个检测器，进行检测和分类处理，得到对象的预测参数。

于另一方面，提供了一种目标检测方法，其包括：

获取道路场景图像；

将道路场景图像输入目标检测模型，输出道路场景图像中对象的三维坐标和类别；目标检测模型是基于上述的目标检测模型训练方法训练得到的。

另一方面，提供了一种目标检测模型的训练装置，装置包括：

第一获取模块，用于获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；

第一目标检测模块，用于利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；

投影模块，用于对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；

构建模块，用于基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；

训练模块，用于基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

于另一方面，提供了一种目标检测装置，装置包括：

第二获取模块，用于获取道路场景图像；

第二目标检测模块，用于将道路场景图像输入目标检测模型，输出道路场景图像中对象的三维坐标和类别；目标检测模型是基于如权利要求1-5任一项的目标检测模型训练方法训练得到的。

另一方面，提供了一种电子设备，包括处理器和存储器，存储器中存储有至少一条指令或者至少一段程序，至少一条指令或者至少一段程序由处理器加载并执行以实现上述任一方面的目标检测模型的训练方法。

另一方面，提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令或者至少一段程序，至少一条指令或者至少一段程序由处理器加载并执行以实现如上述任一方面的目标检测模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一方面的目标检测模型的训练方法。

本申请实施例通过获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。如此，基于投影误差作为监督信息，间接的学习目标的空间位置，从而提高了学习目标空间位置的精准度，降低了获三维标注信息的成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种目标检测模型的训练方法的流程示意图；

图3是本申请实施例提供的一种初始目标检测模型的结构示意图；

图4是本申请实施例提供的一种目标物体尺寸结构示意图；

图5是本申请实施例提供的一种偏航角的示意图；

图6是本申请实施例提供的一种确定预测二维边界框的二维坐标集的流程示意图；

图7是本申请实施例提供的一种三维边界框的结构示意图；

图8是本申请实施例提供的一种最小外接矩形的结构示意图；

图9是本申请实施例提供的一种目标检测方法的流程示意图；

图10是本申请实施例提供的一种目标检测模型的训练装置的结构框图；

图11是本申请实施例提供的一种目标检测装置的结构示意图；

图12是本申请实施例提供的一种电子设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参阅图1，其所示为本申请实施例提供的一种实施环境示意图，该实施环境包括车辆10和位于车辆10上的处理单元20；处理单元20用于取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

物理世界中的车辆尺寸相对固定，但是在二维图像中的尺寸会呈现巨大差异，这是由于车辆距离摄像头的距离即深度不同。因此，通过车辆标准尺寸的标注数据进行训练，模型可以比较容易学习到车辆的二维平面位置和长宽高信息，但是深度信息不容易学习到。体现在其他的单目相机三维检测方案中车辆定位误差较大。本方案中，将模型预测的三维坐标，重投影到二维平面，通过减少重投影的矩形框和通过图像检测到的2D目标框之间的偏差，监督模型学习更加精确的空间位置信息。

可选的，该处理单元20还可以是位于其他终端或者服务器上的模块，上述目标检测模型的训练过程可以在其他终端或者服务器上进行训练，然后再将训练好的目标检测模型加载到车辆上相应的处理模块上；当然，也可以利用远程调用的方式将待检测图像发送给其他终端或者服务器，以实现目标检测。

终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

需要说明的是，本申请实施例中涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

可选的，在另一种应用环境中，该车辆上还可以设有相机，在检测过程中，可以利用相机拍摄到车辆周围的道路场景图像，可以是将其发送给处理单元，处理单元内装载有目标检测模型，从而处理单元将接受到的道路场景图像输入到目标检测模型，从而输出相应的预测参数，这些预测参数用于辅助智能驾驶。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

请参阅图2，其所示为本申请实施例提供的一种目标检测模型的训练方法的流程示意图，该方法可以应用于图1中的应用场景中。需要说明的是，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息。

在本实施例中，步骤S201中获取对象的样本图像的过程可以是利用相机采样，也可以是直接从其他数据库获取的图像；当应用场景为智能驾驶，样本图像则可以是一些道路场景图像，该样本图像上包含有的对象可以是机动车、非机动车、行人、栏杆等。标注图像可以是与样本图像对应的图像，通过对对应的样本图像进行标注，从而形成标注图像。可选的，标注数据的获取过程可以是，通过将样本图像输入到标注生成模型，从而输出对应的标注图像。

在一些可行的实施例中，该标注图像的标注数据包括对象的二维边界框信息；该二维边界框信息可以是二维边界框的二维坐标集；可选的，该二维边界框的二维坐标集至少包括二维边界框4个顶点的二维坐标；还可以包括二维边界框的尺寸。

在一些可行的实施例中，该标注图像的标注数据还包括对象的投影偏差、深度、偏航角和类别中的一种或者多种组合，具体可以根据需要设置，相应的，预测参数也可以包含上述数据。

需要说明的是，样本图像与标注图像是一一对应的关系，标注图像可以仅包括二维边界框信息、类别；相应的，训练出的目标检测模型输出三维边界框的三维坐标集和类别，即标签与输出的参数具有直接相关性，如当需要预测对象的空间坐标、偏航角、长、宽和高6个参数，则在对标注图像的标注数据也需要包括这6个参数；为了降低标注图像进行标注的成本，提高训练效率，标注图像可以仅包括部分标签数据，二维边界框信息(如二维边界框的尺寸信息，即长、宽和高)和类别，训练目标检测模型输出三维边界框的三维坐标集、投影偏差值、深度、偏航角、边界框尺寸和类别等，训练出的目标检测模型是一种基于弱监督学习的模型，即输出部分参数不与标签存在直接相关性。可选的，该初始目标检测模型可以预测出上述参数中的一个或者多个，也可以根据需要设定输出所需的参数，且输出的投影偏差值、深度和类别可以是特征图上每个点的投影偏差值、深度值、类别，还可以边界框内对象中心的投影偏差值、深度值和类别；在此不做限定。

S203：利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集。

在一个示例性的实施方式中，参阅图3，图3是本申请实施例提供的一种初始目标检测模型的结构示意图。初始目标检测模型包括特征提取网络和多个检测器；步骤S203可以包括：利用特征提取网络对样本图像进行多尺度特征提取，得到多个尺度的特征图；将多个尺度的特征图中的每个尺度特征图输入到对应的一个检测器，进行检测和分类处理，得到对象的预测参数。

在本实施例中，参阅图3，该特征提取网络可以包括特征提取网络1、特征提取网络2和特征提取网络3，当将样本图像输入到特征提取网络1后，会对其进行特征提取处理，得到特征图P1ˊ，假设样本图像的尺寸为P0，P1ˊ则为1/8P0；利用特征提取网络2进一步进行特征提取，得到特征图P2ˊ，P2ˊ为1/32P0；利用特征提取网络3进一步特征提取，得到特征图P3，P3为1/64P0；为了提取出更高层的语义信息可以对特征图P3进行连续下采样处理得到特征图P4和P5，其中，P4为1/128P0，P5为1/256P0；并将特征图P3与特征图P2ˊ进行融合，得到特征图P2，将特征图P2与特征图P1ˊ进行融合，得到特征图P1；由此，可以得到5个尺度的特征图，并将每个尺度的特征图输入到一个检测器中，进行检测、分类处理，得到预测参数。可选的，每个检测器包含多个组，每种预测参数的预测值划分成单独的组，每一组通过全连接层输出预测值。

当预测参数还包括投影偏差值、深度、偏航角、边界框尺寸和类别时，对于投影偏差值，可以是先预测特征图中每个点的投影偏差值，设每个点的坐标为(x,y)，其对应的三维点在图像中的投影坐标为(xgt,ygt)，则该模型需要预测坐标偏移delta_x,delta_y，即投影偏差值；从而后续基于训练好的检测模型，当输入一张图像，可以输出特征图中每个点的投影偏移值，进行确定出修正后的每个点的投影坐标x+delta_x,y+delta_y；再基于该点的深度值，已知相机的内参，从而可以确定该点在相机坐标系下的三维坐标；可以根据需要，还可以获取相机的外参，从而可以确定出该点在世界坐标系下的三维坐标，进一步获取车辆坐标系与相机位置的相对关系，从而可以进一步确定该点在车辆坐标系下的三维坐标。

对于深度值，由于不同摄像头的焦距有差异，且对于同一摄像头，通过调焦处理，也可以会存在不同焦距，这会导致同一空间位置的目标在图像上的成像差异，因此通过图像来预测目标空间位置时，需要消除焦距f的影响。可选的，在训练过程中，通过预测出特征图中每个点的初始预测深度值，并对其进行归一化处理，得到深度值；例如，设初始预测深度值＝d，则深度值＝d/f；其中，f是相机的焦距；需要说明的是，在实际目标检测过程中，由于输出的是归一化处理后的深度值，还需要先对其进行恢复，即乘以对应的焦距，再对其进行坐标转换处理。

对于偏航角度，参阅图4和图5，图4是本申请实施例提供的一种目标物体尺寸结构示意图，图5是本申请实施例提供的一种偏航角的示意图。可选的，对于目标物体，其尺寸参数包括长、宽和高，长是沿相机坐标系Z轴，宽是沿相机坐标系X轴，高是沿相机坐标系Y轴；偏航角决定了他车目标所占的空间，从而也会影响自车的自动驾驶规划决策。从图4的Y轴向下俯视时，车辆相对X轴的偏航角度θ。

对于类别，在目标检测模型的检测过程中，会预测特征图中每个点属于某种类别的概率，例如类别种类数为5时，可能预测得到的概率向量为[0.8,0.1,0.05,0.05,0]，最终会选取概率最高的作为预测类别。

S205：对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集。

在一个示例性的实施方式中，参阅图6，图6是本申请实施例提供的一种确定预测二维边界框的二维坐标集的流程示意图。步骤S205可以包括：

S2051：对预测三维边界框的三维坐标集进行二维投影处理，得到预测三维边界框的多个顶点的二维坐标。

在本实施例中，参阅图7，设车辆的三维边界框的8个顶点的三维坐标分别为V1，V2，V3，V4，V5，V6，V7，V8；相机内参矩阵K，则投影可得到图像中8个顶点的二维坐标，分别为C1，C2，C3，C4，C5，C6，C7和C8，满足C_i＝KV_i，i＝1，2……8。

S2053：基于预测三维边界框的多个顶点的二维坐标，确定预测三维边界框的多个顶点的最小外接矩形和对应的二维坐标集。

于一种可行的实施例中，可以采用如下方式求解最小外接矩形，可以将最小外接矩形的左上角和右下角坐标分别表示成B1(tlx,tly),B2(brx,bry)，如图8所示；其中，tlx＝min(Ci.x)，tly＝min(Ci.y),brx＝max(Ci.x),bry＝max(Ci.y)，(Ci.x)表示8个顶点的x集合；(Ci.y)表示8个顶点的y集合。可选的，还可以采取如下方式求解上述8个顶点的最小外接矩形，先剔除8个顶点中的无效点，基于最边缘的有效顶点依次连接构成凸包，从而可以演变为求解该凸包的最小外接矩形。

S2055：将最小外接矩形的二维坐标集确定为预测二维边界框的二维坐标集。

在本实施例中，该最小外接矩形的二维坐标集可以是{B1(tlx,tly),B2(brx,bry)}；

S207：基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数。

在一个示例性的实施方式中，标注图像的二维边界框信息包括边界框的二维坐标集；步骤S207可以包括：基于标注图像的边界框的二维坐标集和预测二维边界框的二维坐标集确定边界框与预测二维边界框的重叠程度值；基于重叠程度值确定目标损失函数。

在本实施例中，标注图像的边界框的二维坐标集可以表示为{B1’(tlx’,tly’),B2’(brx’,bry’)}；其中，B1’和B2’分别为边界框的左上角和右下角。后续通过求解两个矩形的交并比(Intersection over Union，IoU)；从而将投影误差＝1–IoU作为目标损失函数。

在一个示例性的实施方式中，预测参数还包括对象的预测投影偏差值和预测深度值；步骤S207可以包括：基于标注图像的二维边界框信息和预测二维边界框的二维坐标集、预测投影偏差值和预测深度值构建目标损失函数。

S209：基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

由本申请实施例的上述技术方案可见，本申请实施例充分利用平面图像信息，通过投影误差作为监督信息，间接的学习目标的空间位置，即使没有直接的空间位置标注作为监督信息，但是因为空间位置和尺寸，决定了目标三维边界框投影到图像后的二维边界框，因此本方案通过最小化投影的误差，达到了预测空间位置的目的；另外，另外本方案提出的模型在预测时将深度转化成与摄像头焦距无关的量值(d/f)，然后在推理阶段再恢复成真实的深度，消除了焦距的影响，增强了检测模型的泛化性，从而适应在不同摄像头下的三维目标检测。

于另一方面，参阅图9，图9是本申请实施例提供的一种目标检测方法的流程示意图。该目标检测方法包括：

S901：获取道路场景图像。

在本实施例中，该道路场景图像包含有的对象可以是机动车、非机动车、行人、栏杆等。

S903：将道路场景图像输入目标检测模型，输出道路场景图像中对象的三维坐标和类别；目标检测模型是基于上述的目标检测模型训练方法训练得到的。

于一种可行的实施例中，该目标检测模型输出的预测参数可以包括投影偏差值、深度值、偏航角、边界框尺寸和类别；后续基于投影偏差值和特征图上每点的像素坐标可以确定出修正后的像素坐标，基于相机的内参，将每点的像素坐标和深度值从而确定每点在相机坐标系下的三维坐标，最终可以得到对象在相机坐标系下的三维坐标、偏航角和类别。可选的，该目标检测模型可以预测出上述参数中的一个或者多个，也可以根据需要设定输出所需的参数，且输出的内容可以是特征图上每个点的投影偏差值、深度值、类别，还可以边界框内对象中心的投影偏差值、深度值和类别；在此不做限定。

与上述几种实施例提供的目标检测模型的训练方法相对应，本申请实施例还提供一种目标检测模型的训练装置，由于本申请实施例提供的目标检测模型的训练装置与上述几种实施例提供的目标检测模型的训练方法相对应，因此前述目标检测模型的训练方法的实施方式也适用于本实施例提供的目标检测模型的训练装置，在本实施例中不再详细描述。

请参阅图10，其所示为本申请实施例提供的一种目标检测模型的训练装置的结构示意图，该装置具有实现上述方法实施例中目标检测模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图10所示，该装置可以包括：

第一获取模块1001，用于获取对象的样本图像和标注图像；标注图像包括对象的二维边界框信息；

第一目标检测模块1003，用于利用初始目标检测模型对样本图像进行目标检测处理，得到对象的预测参数；预测参数包括预测三维边界框的三维坐标集；

投影模块1005，用于对预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；

构建模块1007，用于基于标注图像的二维边界框信息和预测二维边界框的二维坐标集构建目标损失函数；

训练模块1009，用于基于目标损失函数对初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

在一个示例性的实施方式中，投影模块用于对预测三维边界框的三维坐标集进行二维投影处理，得到预测三维边界框的多个顶点的二维坐标；

在一个示例性的实施方式中，标注图像的二维边界框信息包括边界框的二维坐标集；投影模块用于基于标注图像的边界框的二维坐标集和预测二维边界框的二维坐标集确定边界框与预测二维边界框的重叠程度值；

基于重叠程度值确定目标损失函数。

在一个示例性的实施方式中，预测参数还包括对象的预测投影偏差值和预测深度值；构建模块用于基于标注图像的二维边界框信息和预测二维边界框的二维坐标集、预测投影偏差值和预测深度值构建目标损失函数。

在一个示例性的实施方式中，初始目标检测模型包括特征提取网络和多个检测器；第一目标检测模块用于利用特征提取网络对样本图像进行多尺度特征提取，得到多个尺度的特征图；

请参阅图11，其所示为本申请实施例提供的一种目标检测装置的结构示意图，该装置具有实现上述方法实施例中目标检测方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图11所示，该装置可以包括：

第二获取模块1101，用于获取道路场景图像；

第二目标检测模块1103，用于将道路场景图像输入目标检测模型，输出道路场景图像中对象的三维坐标和类别；目标检测模型是基于如权利要求1-5任一项的目标检测模型训练方法训练得到的。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的任意一种目标检测模型的训练方法或者目标检测方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行，即上述电子设备可以包括计算机终端、服务器或者类似的运算装置。图xx是本申请实施例提供的运行一种目标检测模型的训练方法或者目标检测方法的电子设备的硬件结构框图，该电子设备可以是处理单元，也可以是其他终端或者服务器，其内部结构图可以如图12所示。该电子设备包括通过内部总线连接的处理器、存储器和网络接口。其中，上述处理器可以包括中央处理器(CPU)，或者特定集成电路

Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

该存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。存储器包括非易失性存储器、内存储器。该非易失性存储器存储有计算机程序。该内存储器为非易失性存储器中的计算机程序的运行提供环境。

网络接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。网络接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

内部总线包括硬件、软件或两者，将雷达设备的部件彼此耦接在一起。内部总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，内部总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述电子设备可以基于获取到的程序指令，执行本申请上述实施例中的任意一种目标检测模型的训练方法或者目标检测方法。

本申请的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现目标检测模型的训练方法或者目标检测方法相关的至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的任意一种目标检测模型的训练方法或者目标检测方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述方法实施例提供的任意一种目标检测模型的训练方法或者目标检测方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

获取对象的样本图像和标注图像；所述标注图像包括所述对象的二维边界框信息；

利用初始目标检测模型对样本图像进行目标检测处理，得到所述对象的预测参数；所述预测参数包括预测三维边界框的三维坐标集；

对所述预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；

基于所述标注图像的二维边界框信息和所述预测二维边界框的二维坐标集构建目标损失函数；

基于所述目标损失函数对所述初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

2.根据权利要求1所述的训练方法，其特征在于，所述对所述预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集，包括：

对所述预测三维边界框的三维坐标集进行二维投影处理，得到所述预测三维边界框的多个顶点的二维坐标；

基于所述预测三维边界框的多个顶点的二维坐标，确定所述预测三维边界框的多个顶点的最小外接矩形和对应的二维坐标集；

将所述最小外接矩形的二维坐标集确定为所述预测二维边界框的二维坐标集。

3.根据权利要求2所述的训练方法，其特征在于，所述标注图像的二维边界框信息包括边界框的二维坐标集；

所述基于所述标注图像的二维边界框信息和所述预测二维边界框的二维坐标集构建目标损失函数，包括：

基于所述标注图像的边界框的二维坐标集和所述预测二维边界框的二维坐标集确定所述边界框与所述预测二维边界框的重叠程度值；

基于所述重叠程度值确定所述目标损失函数。

4.根据权利要求1所述的训练方法，其特征在于，所述预测参数还包括所述对象的预测投影偏差值和预测深度值；所述基于所述标注图像的二维边界框信息和所述预测二维边界框的二维坐标集构建目标损失函数，包括：

基于所述标注图像的二维边界框信息和所述预测二维边界框的二维坐标集、所述预测投影偏差值和所述预测深度值构建目标损失函数。

5.根据权利要求1-4任一项所述的训练方法，其特征在于，所述初始目标检测模型包括特征提取网络和多个检测器；所述利用初始目标检测模型对样本图像进行目标检测处理，得到所述对象的预测参数，包括：

利用所述特征提取网络对所述样本图像进行多尺度特征提取，得到多个尺度的特征图；

将所述多个尺度的特征图中的每个尺度特征图输入到对应的一个检测器，进行检测和分类处理，得到所述对象的预测参数。

6.一种目标检测方法，其特征在于，包括：

获取道路场景图像；

将所述道路场景图像输入目标检测模型，输出所述道路场景图像中对象的三维坐标和类别；所述目标检测模型是基于如权利要求1-5任一项所述的目标检测模型训练方法训练得到的。

7.一种目标检测模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取对象的样本图像和标注图像；所述标注图像包括所述对象的二维边界框信息；

第一目标检测模块，用于利用初始目标检测模型对样本图像进行目标检测处理，得到所述对象的预测参数；所述预测参数包括预测三维边界框的三维坐标集；

投影模块，用于对所述预测三维边界框的三维坐标集进行二维投影处理，得到预测二维边界框的二维坐标集；

构建模块，用于基于所述标注图像的二维边界框信息和所述预测二维边界框的二维坐标集构建目标损失函数；

训练模块，用于基于所述目标损失函数对所述初始目标模型进行训练，直至满足预设条件结束训练，并将训练结束时的初始检测模型作为目标检测模型。

8.一种目标检测装置，其特征在于，所述装置包括：

第二获取模块，用于获取道路场景图像；

第二目标检测模块，用于将所述道路场景图像输入目标检测模型，输出所述道路场景图像中对象的三维坐标和类别；所述目标检测模型是基于如权利要求1-5任一项所述的目标检测模型训练方法训练得到的。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现如权利要求1～5中任一项所述的目标检测模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1～5任一项所述的目标检测模型的训练方法。