CN111079523B

CN111079523B - 物体检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111079523B
Application number: CN201911070990.5A
Authority: CN
Inventors: 张志强; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2024-05-14
Anticipated expiration: 2039-11-05
Also published as: CN111079523A

Abstract

本申请涉及一种物体检测方法、装置、计算机设备和存储介质，将获取的待检测物体的2D检测结果输入至预设的检测神经网络中，得到待检测物体的预测3D检测结果。该方法中，由于检测神经网络是根据至少从物体的点、线、面和角度四个维度建立的综合损失函数指导训练而成的网络，这样，从多维度考虑检测神经网络训练结果相对标准检测结果的差异，可以得到更加精确的差异结果，利用该差异对检测神经网络进行指导性训练，大大提高了检测神经网络的鲁棒性，从而使得采用该检测神经网络得到的3D检测结果的精度更高。

Description

物体检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及检测技术领域，特别是涉及一种物体检测方法、装置、计算机设备和存储介质。

背景技术

车辆3D检测是智能驾驶感知过程中的一个重要技术，常见的车辆3D检测方法为基于点云的3D检测、基于双目图像的3D检测、基于单目视频序列的3D检测，以及基于单目图像的3D检测等。

现有的基于单目图像的3D检测方法，包括直接从原始图像中检测得到3D框和将检测到的2D框映射成3D框两种。其中，将检测到的2D框映射成3D框的方法，是从原始图像中先检测出2D框，然后将2D框转换为3D框，因此这种检测方法可以看作是2D物体检测的后处理。

但是，将检测到的2D框映射成3D框的方法，存在检测结果精度较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种物体检测方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种物体检测方法，该方法包括：

获取待检测图像中的待检测物体的2D检测结果；

将2D检测结果输入至预设的检测神经网络中，得到待检测物体的3D检测结果；其中，检测神经网络为通过综合损失函数进行训练得到的网络模型；综合损失函数用于至少从物体的点、线、面和角度维度检测检测神经网络输出的3D检测结果与标准3D检测结果的差异。

在其中一个实施例中，综合损失函数至少包括点损失函数、线损失函数、面损失函数和角度损失函数。

在其中一个实施例中，综合损失函数中点损失函数的权重、线损失函数的权重、面损失函数的权重和角度损失函数的权重不同。

在其中一个实施例中，检测神经网络包括特征提取网络和维度转换网络；

特征提取网络用于从2D检测结果中提取待检测物体关键信息的目标特征层；

维度转换网络，用于将目标特征层转换为3D检测结果。

在其中一个实施例中，特征提取网络包括特征提取子网络、特征增强子网络；

特征提取子网络，用于从2D检测结果中提取待检测物体关键信息的初步特征层；

特征增强子网络，用于对初步特征层进行增强处理后得到目标特征层。

在其中一个实施例中，维度转换网络包括多个不同维度的全连接层，各全连接层的维度依次下降。

在其中一个实施例中，检测神经网络的训练过程包括：

获取多个物体的样本2D检测结果；

将各样本2D检测结果输入至初始检测神经网络的特征提取网络，得到目标特征层，并将目标特征层输入至初始检测神经网络的维度转换网络进行维度转换，得到物体的预测3D检测结果；

根据预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，根据综合损失函数的值引导初始检测神经网络进行训练，直到综合损失函数的值趋于平稳，得到检测神经网络。

在其中一个实施例中，根据物体的预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，包括：

根据物体的预测3D检测结果与物体的标准3D检测结果，获取点损失函数、线损失函数、面损失函数和角度损失函数各自的函数值与对应权重的加权和；

将加权和确定为综合损失函数的值。

在其中一个实施例中，根据物体的预测3D检测结果与物体的标准3D检测结果，获取点损失函数函数值，包括：

获取3D检测结果与标准3D检测结果中，各点的L2损失计算结果；

将各点的L2损失计算结果的平均值，确定为点损失函数的值。

在其中一个实施例中，根据物体的预测3D检测结果与物体的标准3D检测结果，获取线损失函数函数值，包括：

获取3D检测结果与标准3D检测结果中，各点之间的线段长度值的L1损失计算结果；

将线段长度值的L1损失计算结果的平均值，确定为线损失函数的值。

在其中一个实施例中，根据物体的预测3D检测结果与物体的标准3D检测结果，获取面损失函数函数值，包括：

获取3D检测结果与标准3D检测结果中，各点线构成的面的交并比IoU损失计算结果；

将面的IoU损失计算结果的平均值，确定为面损失函数的值。

在其中一个实施例中，根据物体的预测3D检测结果与物体的标准3D检测结果，获取角度损失函数函数值，包括：

获取3D检测结果与标准3D检测结果中，各点线构成的角度值的L1损失计算结果；

将角度值的L1损失计算结果的平均值，确定为角度损失函数的值。

第二方面，本申请实施例提供一种物体检测装置，该装置包括：

获取模块，用于获取待检测图像中的待检测物体的2D检测结果；

转换模块，用于将2D检测结果输入至预设的检测神经网络中，得到待检测物体的3D检测结果；其中，检测神经网络为通过综合损失函数进行训练得到的网络模型；综合损失函数用于至少从物体的点、线、面和角度维度检测检测神经网络输出的3D检测结果与标准3D检测结果的差异。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面实施例提供的任一项方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面实施例提供的任一项方法的步骤。

本申请实施例提供的一种物体检测方法、装置、计算机设备和存储介质，将获取的待检测物体的2D检测结果输入至预设的检测神经网络中，得到待检测物体的预测3D检测结果。该方法中，由于检测神经网络是根据至少从物体的点、线、面和角度四个维度建立的综合损失函数指导训练而成的网络，这样，从多维度考虑检测神经网络训练结果相对标准检测结果的差异，可以得到更加精确的差异结果，利用该差异对检测神经网络进行指导性训练，大大提高了检测神经网络的鲁棒性，从而使得采用该检测神经网络得到的3D检测结果的精度更高。

附图说明

图1为一个实施例提供的一种物体检测方法的应用环境图；

图2为一个实施例提供的一种物体检测方法的流程示意图；

图2a为一个实施例提供的一种车辆3D标注框示意图；

图3为一个实施例提供的特征提取网络的结构示意图；

图4为一个实施例提供的检测神经网络的结构示意图；

图5为一个实施例提供的一种检测神经网络训练方法的流程示意图；

图6为一个实施例提供的一种获取综合损失函数值的流程示意图；

图6a为一个实施例提供的一种交并比损失函数定义示意图；

图7为一个实施例提供的一种物体检测装置的结构框图；

图8为一个实施例提供的一种物体检测装置的结构框图；

图9为一个实施例提供的一种物体检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种物体检测方法，可以应用于如图1所示的应用环境中，该应用环境中，计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储物体检测方法的数据。该计算机设备的网络接口用于与外部的其他设备通过网络连接通信。该计算机程序被处理器执行时以实现一种物体检测方法。

现有的车辆3D检测方法中，基于点云和双目图像的方法本身直接或者间接带有深度信息，检测结果精度高，但是，这两种方法主要依赖于昂贵且精密的设备，且算法设计相对复杂，增加了成本；基于视频序列的方法本身没有深度信息，其主要依靠特定时间的像素信息模拟深度信息，但是大量的输入会导致计算量相对较大，而且算法设计也较复杂，也增加了成本；其中，基于单目图像的方法由于严重缺乏深度信息，所以精度相对较低，但是对设备的依赖很小且算法设计相对容易。

通常，上述基于单目图像的3D检测方法分为两类，一类是直接从原始图像中检测得到3D框，另一类是将检测到的2D框映射成3D框。其中直接从原始图像中得到3D框可以利用更多的上下文信息，例如3D框和消失点的对应关系，但是这种方法同样会使得计算量增加；而基于2D框映射成3D框的方法可以看作是2D物体检测的后处理，对检测本身的计算量要求不大，且算法设计相对灵活。但是将2D框经过神经网络的特征提取和全连阶层以后直接把8维(2D框对应的4个点)转变为16维(3D框对应的8个点)，这样的方式太过于简单，且完全没有考虑到物体本身的深度信息和结构信息，导致精度不高。

例如，直接通过神经网络将4个点映射成8个点会带来不稳定的情况，首先由于车辆本身具有深度信息，但是单目RGB相机无法获取，导致直接预测被遮挡的看不到的点会很不准；其次，车辆是刚体，具有严格且固定的结构信息，各点之间是具有强相关性的，如果不考虑这些因素，某一个点的预测失败就会导致整个3D框的严重变形，最终导致预测结果本身出错；再者，由于车辆本身所处位置是具有一定朝向和角度的，就算预测得到的点与点之间的相对位置和关系预测准确，角度不准，也会影响最终的3D结果，对于实际使用也是有很大影响。

基于上述现有技术存在的问题，本申请实施例提供一种物体检测方法、装置、计算机设备和存储介质，旨在解决将检测到的2D框映射成3D框的方法，存在检测结果精度较低的问题的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是，本申请提供的一种物体检测方法，图2-图6的执行主体为计算机设备，其中，其执行主体还可以是物体检测装置，其中该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

在一个实施例中，图2提供了一种物体检测方法，本实施例涉及的是计算机设备将待检测物体的2D检测结果转换为3D检测结果的具体过程，如图2所示，该方法包括：

S101，获取待检测图像中的待检测物体的2D检测结果。

本实施例中，待检测图像表示包含待检测物体的图像，例如，若待检测物体是车辆，则该待检测图像为包含车辆的图像。其中，待检测物体的2D检测结果表示待检测图像中待检测物体的2D标注结果，例如，在待检测图像中对车辆标注一个标注框，该带有标注框的车辆即为车辆的2D检测结果。

具体地，计算机设备可以先获取待检测的图像，将该待检测图像为通过预设的检测器输出车辆的2D标注框，得到车辆的2D检测结果。其中，对于检测器的类型，本实施例不做限定，常用的可以对图像中物体进行标注的检测器均可。

S102，将2D检测结果输入至预设的检测神经网络中，得到待检测物体的预测3D检测结果；其中，检测神经网络为通过综合损失函数进行训练得到的网络模型；综合损失函数用于至少从物体的点、线、面和角度维度检测检测神经网络输出的3D检测结果与标准3D检测结果的差异。

基于上述S101步骤中获取的待检测物体的2D检测结果，将该2D检测结果输入至预设的检测神经网络中，得到待检测物体的预测3D检测结果，其中，3D检测结果表示物体的3D标注框，如图2a所示，图像虚线为车辆的3D检测结果。其中，预设的检测神经网络为预先训练好的，用于将物体的2D标注框映射成3D标注框的网络，该检测神经网络在训练的时候，采用的损失函数为综合损失函数，该综合损失函数是至少基于物体的点、线、面和角度四个维度建立的函数，也就是说，该综合损失函数可以从多维度的因素上检测神经网络输出的3D检测结果与标准3D检测结果的差异，这样根据检测的差异结果，再指导检测神经网络的训练，提高了2D标注框到3D标注框转换精度的，例如，提高不同位置的点的预测精度，尤其是被遮挡看不到的点；也能更好的预测车辆本身的朝向和角度，对于车辆3D框的预测有很大的帮助，提升网络对于车辆结构信息重建的鲁棒性。

本实施例提供的物体检测方法，将获取的待检测物体的2D检测结果输入至预设的检测神经网络中，得到待检测物体的预测3D检测结果。该方法中，由于检测神经网络是根据至少从物体的点、线、面和角度四个维度建立的综合损失函数指导训练而成的网络，这样，从多维度考虑检测神经网络训练结果相对标准检测结果的差异，可以得到更加精确的差异结果，利用该差异对检测神经网络进行指导性训练，大大提高了检测神经网络的鲁棒性，从而使得采用该检测神经网络得到的3D检测结果的精度更高。

上述实施例中，综合损失函数至少包括点损失函数、线损失函数、面损失函数和角度损失函数。其中，点损失函数，用于衡量检测神经网络输出的3D检测结果与标准3D检测结果中各点信息的差异；线损失函数，用于衡量检测神经网络输出的3D检测结果与标准3D检测结果中各线段信息的差异；面损失函数，用于衡量检测神经网络输出的3D检测结果与标准3D检测结果中各面信息的差异；角度损失函数，用于衡量检测神经网络输出的3D检测结果与标准3D检测结果中各角度信息的差异。

其中，为了保证建立的损失函数可以更精确衡量检测神经网络输出的3D检测结果与标准3D检测结果的差异，在根据点损失函数、线损失函数、面损失函数和角度损失函数建立综合损失函数时，根据各损失函数的重要度设定不同的权重，则在一个实施例中，综合损失函数中点损失函数的权重、线损失函数的权重、面损失函数的权重和角度损失函数的权重不同。示例地，该综合损失函数的表达式可以表示为：Loss_all＝loss₁+αloss₂+βloss₃+γloss₄，其中，Loss_all表示综合损失函数，loss₁表示点损失函数，loss₂表示线损失函数，loss₃表示面损失函数，loss₄表示角度损失函数，α、β、γ则表示各损失函数对应的权重系数，其中，该权重的具体数值可根据各损失函数的重要度设定，本实施例对此不做限定。当然，需要说明的时，在实际应用中也存在某两个损失函数的权重相同的情况，本实施例不作限定。这样，建立综合损失函数时从多维度考虑，且对不同维度的损失函数设定不同的权重，极大地提高了综合损失函数衡量检测神经网络输出的3D检测结果与标准3D检测结果的差异。

对上述检测神经网络的结构进行说明，在一个实施例中，上述检测神经网络包括特征提取网络和维度转换网络；其中，特征提取网络用于从2D检测结果中提取待检测物体关键信息的目标特征层；维度转换网络，用于将目标特征层转换为3D检测结果。可选地，特征提取网络包括特征提取子网络、特征增强子网络；特征提取子网络，用于从2D检测结果中提取待检测物体关键信息的初步特征层；特征增强子网络用于对初步特征层进行增强处理后得到目标特征层。可选地，维度转换网络包括多个不同维度的全连接层，各全连接层的维度依次下降。

请参考图3所示的特征提取网络的结构，特征提取网络是用于从2D检测结果中提取待检测物体关键信息的目标特征层，其包括特征提取子网络和特征增强子网络，其中，特征提取子网络可以是在imagenet上面训练过的base model，例如：VGG16(视觉几何组网络)、resnet(残差神经网络)、xception14(轻量化网络)等，其中，本方案使用的是xception结构，这样可以提升检测神经网络的运行速度。其中，为了更好的提取特征，本方案使用了特征增强子网络，该特征增强子网络可以是挤压和激励子网络(Squeeze-and-ExcitationNet，SENet)SE模块，对不同特征通道进行建模，具体地，就是通过网络学习的方式来自动获取每个特征通道的重要程度，然后依据这个重要程度去提升有用的特征并抑制对当前任务作用不大的特征层，从而得到目标特征层。通过将使用Xception和SE模块构成特征提取网络，可以同时保证检测神经网络的速度和精度。

参考图4所示的检测神经网络的结构，除了包括上述特征提取网络外，还包括维度转换网络，维度转换网络用于将目标特征层转换为3D检测结果。其中，维度转换网络包括多个不同维度的全连接层，各全连接层的维度依次下降，这样可以增加网络的泛化性能，例如，图4中采用三个全连接层构成该维度转换网络，其中各全连接层的维度为128、128、16，当然各维度也可以是128、64、16，本实施例对此不作限定。

在以上实施例的基础上，本申请实施例还提供一种检测神经网络的训练过程的实施例，如图5所示，检测神经网络的训练过程包括：

S201，获取多个物体的样本2D检测结果。

本实施例为训练检测神经网络的实施例，则需要先获取训练样本数据，即计算机设备获取多个物体的样本2D检测结果，为了保证训练样本数据的多样性，尽可能获取多种物体，多种角度以及多种场景下物体的2D检测结果作为样本2D检测结果。

S202，将各样本2D检测结果输入至初始检测神经网络的特征提取网络，得到目标特征层，并将目标特征层输入至初始检测神经网络的维度转换网络进行维度转换，得到物体的预测3D检测结果。

基于上述S201步骤获取的样本2D检测结果，计算机设备将各样本2D检测结果输入至初始检测神经网络的特征提取网络，得到目标特征层，其中，特征提取层为Xception和SE模块构成的网络。然后将目标特征层输入至初始检测神经网络的维度转换网络进行维度转换，得到物体的预测3D检测结果。通过该步骤获取到所有样本2D检测结果转换的预测3D检测结果。

S203，根据预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，根据综合损失函数的值引导初始检测神经网络进行训练，直到综合损失函数的值趋于平稳，得到检测神经网络。

本步骤中，计算机设备将预测3D检测结果与物体的标准3D检测结果，代入到预先建立的综合损失函数中，得到综合损失函数的值，并根据该综合损失函数的值指导初始检测神经网络进行训练，直到综合损失函数的值趋于平稳，得到检测神经网络。可以理解的是，根据综合损失函数的值，可以确定出检测神经网络训练的方向，以使初始检测神经网络输出的预测3D检测结果与物体的标准3D检测结果更加接近，直到综合损失函数的值不再变化，即趋于平稳，表示预测3D检测结果与物体的标准3D检测结果几乎相同，则认为初始检测神经网络收敛，得到最终的检测神经网络。其中，综合损失函数的值趋于平稳表示综合损失函数的值上下浮动的变化量一直处于很小的一个阈值，该阈值可以是0，也可以是大于0的数值，本实施例对此不作限定。

本实施例提供的检测神经网络的训练方法，通过多种样本数据对初始检测神经网络进行训练，并建立的综合损失函数指导初始检测网络训练的方向，极大地提高了检测神经网络的鲁棒性，保证了物体3D检测结果的较高精确度。

下面对计算机设备获取综合损失函数的值的过程，通过下面实施例进行说明。

则在一个实施例中，如图6所示，上述S203步骤包括：

S301，根据物体的预测3D检测结果与物体的标准3D检测结果，获取点损失函数、线损失函数、面损失函数和角度损失函数各自的函数值与对应权重的加权和。

S302，将加权和确定为综合损失函数的值。

本实施例中，计算机设备获取各损失函数的值和对应的权重，其中各损失函数的值可以是将物体的预测3D检测结果和物体的标准3D检测结果中对应的数据代入预先建立的公式中，得到具体的函数值。其中，各函数对应的权重为预先设定好的数值，可根据各函数的重要度不同对定义对应的比重系数。

可选地，S301步骤中获取点损失函数函数值包括：获取预测3D检测结果与标准3D检测结果中，各点的L2损失计算结果；将各点的L2损失计算结果的平均值，确定为点损失函数的值。

示例地，以图2a中的车辆为例，包括8个点、12条边、两个角度、两个表面，则点损失函数为8个点分别与标准3D检测结果中8各点进行L2loss计算，再求平均值。具体地，公式为其中，loss₁表示点损失函数，xi′,yi′表示预测3D检测结果中8各点各自的XY坐标，xi,yi表示标准3D检测结果中8各点各自的XY坐标。

可选地，S301步骤中获取线损失函数函数值包括：获取预测3D检测结果与标准3D检测结果中，各点之间的线段长度值的L1损失计算结果；将线段长度值的L1损失计算结果的平均值，确定为线损失函数的值。

同样，以图2a中车辆为例，3D检测结果中8个点可以定义12条线段，分别对12条线段的长度进行L1loss计算，再求平均值。具体地，公式为其中，loss₂表示线损失函数，θi'表示预测3D检测结果中12条线段各自的长度，θi表示标准3D检测结果中12条线段各自的长度。

可选地，S301步骤中获取面损失函数函数值包括：获取预测3D检测结果与标准3D检测结果中，各点线构成的面的交并比IoU损失计算结果；将面的IoU损失计算结果的平均值，确定为面损失函数的值。

同样，以图2a中车辆为例，预测出来的3D检测结果有上下两个面，可以对其分别与标准3D检测结果的两个面进行交并比(Intersection-over-Union,IoU)loss计算，再求平均值。具体地，公式为其中loss₄表示面损失函数，loss_IOU表示交并比损失函数，可表示为IoU loss，其中IoU loss定义如图6a所示，图中k1表示标准3D检测结果：/>k2表示预测3D检测结果：x＝(x_t,x_b,x_l,x_r)，其中，则/>

可选地，S301步骤中获取角度损失函数函数值包括：获取预测3D检测结果与标准3D检测结果中，各点线构成的角度值的L1损失计算结果；将角度值的L1损失计算结果的平均值，确定为角度损失函数的值。

同样，以图2a中车辆为例，通过预测出来的3D检测结果的8点定义车辆在X轴和Y轴上的角度，得到各角度的值，然后再分别预测3D检测结果和标准3D检测结果中对应角度计算L1loss，再求平均值。具体地，计算公式为其中，loss₃为角度损失函数，θix',θiy'表示预测3D检测结果中车辆在X轴和Y轴上的角度，θix,θiy表示标准3D检测结果中车辆在X轴和Y轴上的角度。

基于上述计算各损失函数的公式，求取出点损失函数、线损失函数、面损失函数和角度损失函数的值后，获取点损失函数的函数值和对应的权重值的第一乘积、线损失函数的函数值和对应的权重值的第二乘积、面损失函数的函数值和对应的权重值的第三乘积、角度损失函数的函数值和对应的权重值的第四乘积，并将第一乘积、第二乘积、第三乘积和第四乘积的累加和确定为加权和，该加权和综合损失函数的值。

本实施例中，预先定义了点、线、面和角度的损失函数的公式和对应权重，将预测3D检测结果和标准3D检测结果中的各点、线、面和角度的数值代入公式中，得到损失函数的值，再将各损失函数的值与对应权重的加权和确定为最终的综合损失函数的值，这样，综合损失函数的值更加精确的反应了预测3D检测结果和标准3D检测结果之间的差异。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种物体检测装置，该装置包括：获取模块10、转换模块11，其中，

获取模块10，用于获取待检测图像中的待检测物体的2D检测结果；

转换模块11，用于将2D检测结果输入至预设的检测神经网络中，得到待检测物体的3D检测结果；其中，检测神经网络为通过综合损失函数进行训练得到的网络模型；综合损失函数用于至少从物体的点、线、面和角度维度检测检测神经网络输出的3D检测结果与标准3D检测结果的差异。

上述实施例提供的一种物体检测装置，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，综合损失函数至少包括点损失函数、线损失函数、面损失函数和角度损失函数。

在一个实施例中，综合损失函数中点损失函数的权重、线损失函数的权重、面损失函数的权重和角度损失函数的权重不同。

在一个实施例中，检测神经网络包括特征提取网络和维度转换网络；

特征提取网络用于从2D检测结果中提取待检测物体关键信息的目标特征层；维度转换网络，用于将目标特征层转换为3D检测结果。

在一个实施例中，特征提取网络包括特征提取子网络、特征增强子网络；特征提取子网络，用于从2D检测结果中提取待检测物体关键信息的初步特征层；特征增强子网络用于对初步特征层进行增强处理后得到目标特征层。

在一个实施例中，维度转换网络包括多个不同维度的全连接层，各全连接层的维度依次下降。

在一个实施例中，如图8所示，提供了一种物体检测装置，该装置还包括样本模块12、训练模块13和指导模块14，其中，

样本模块12，用于获取多个物体的样本2D检测结果；

训练模块13，用于将各样本2D检测结果输入至初始检测神经网络的特征提取网络，得到目标特征层，并将目标特征层输入至初始检测神经网络的维度转换网络进行维度转换，得到物体的预测3D检测结果；

指导模块14，用于根据预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，根据综合损失函数的值引导初始检测神经网络进行训练，直到综合损失函数的值趋于平稳，得到检测神经网络。

在一个实施例中，如图9所示，提供了一种物体检测装置，上述指导模块14包括：获取单元141和确定单元142，其中，

获取单元141，用于根据物体的预测3D检测结果与物体的标准3D检测结果，获取点损失函数、线损失函数、面损失函数和角度损失函数各自的函数值与对应权重的加权和；

确定单元142，用于将加权和确定为综合损失函数的值。

在一个实施例中，上述获取单元141包括：

点函数单元，用于获取3D检测结果与标准3D检测结果中，各点的L2损失计算结果；将各点的L2损失计算结果的平均值，确定为点损失函数的值。

线函数单元，用于获取3D检测结果与标准3D检测结果中，各点之间的线段长度值的L1损失计算结果；将线段长度值的L1损失计算结果的平均值，确定为线损失函数的值。

面函数单元，用于获取3D检测结果与标准3D检测结果中，各点线构成的面的交并比IoU损失计算结果；将面的IoU损失计算结果的平均值，确定为面损失函数的值。

角度函数单元，用于获取3D检测结果与标准3D检测结果中，各点线构成的角度值的L1损失计算结果；将角度值的L1损失计算结果的平均值，确定为角度损失函数的值。

关于物体检测装置的具体限定可以参见上文中对于物体检测方法的限定，在此不再赘述。上述物体检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如上述图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物体检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测图像中的待检测物体的2D检测结果；

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待检测图像中的待检测物体的2D检测结果；

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种物体检测方法，其特征在于，所述方法包括：

获取待检测图像中的待检测物体的2D检测结果，所述2D检测结果表示所述待检测物体的2D标注框；

将所述2D检测结果输入至预设的检测神经网络中，得到所述待检测物体的3D检测结果；其中，所述检测神经网络为通过综合损失函数进行训练得到的网络模型；所述综合损失函数用于至少从物体的点、线、面和角度维度检测所述检测神经网络输出的3D检测结果与标准3D检测结果的差异，所述3D检测结果表示所述待检测物体的3D标注框；

所述检测神经网络包括特征提取网络和维度转换网络；所述特征提取网络用于从所述2D检测结果中提取所述待检测物体关键信息的目标特征层；所述维度转换网络，用于将所述目标特征层转换为所述3D检测结果；所述维度转换网络包括多个不同维度的全连接层，所述各全连接层的维度依次下降。

2.根据权利要求1所述的方法，其特征在于，所述综合损失函数至少包括点损失函数、线损失函数、面损失函数和角度损失函数。

3.根据权利要求2所述的方法，其特征在于，所述综合损失函数中所述点损失函数的权重、线损失函数的权重、面损失函数的权重和角度损失函数的权重不同。

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括特征提取子网络、特征增强子网络；

所述特征提取子网络，用于从所述2D检测结果中提取所述待检测物体关键信息的初步特征层；

所述特征增强子网络，用于对所述初步特征层进行增强处理后得到所述目标特征层。

5.根据权利要求2所述的方法，其特征在于，所述检测神经网络的训练过程包括：

获取多个物体的样本2D检测结果；

将各所述样本2D检测结果输入至初始检测神经网络的特征提取网络，得到目标特征层，并将所述目标特征层输入至所述初始检测神经网络的维度转换网络进行维度转换，得到所述物体的预测3D检测结果；

根据所述预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，根据所述综合损失函数的值引导所述初始检测神经网络进行训练，直到所述综合损失函数的值趋于平稳，得到所述检测神经网络。

6.根据权利要求5所述的方法，其特征在于，所述根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取预先建立的综合损失函数的值，包括：

根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取所述点损失函数、线损失函数、面损失函数和角度损失函数各自的函数值与对应权重的加权和；

将所述加权和确定为所述综合损失函数的值。

7.根据权利要求6所述的方法，其特征在于，所述根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取所述点损失函数函数值，包括：

获取所述3D检测结果与标准3D检测结果中，各点的L2损失计算结果；

将所述各点的L2损失计算结果的平均值，确定为所述点损失函数的值。

8.根据权利要求6所述的方法，其特征在于，所述根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取所述线损失函数函数值，包括：

获取所述3D检测结果与标准3D检测结果中，各点之间的线段长度值的L1 损失计算结果；

将所述线段长度值的L1损失计算结果的平均值，确定为所述线损失函数的值。

9.根据权利要求6所述的方法，其特征在于，所述根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取所述面损失函数函数值，包括：

获取所述3D检测结果与标准3D检测结果中，各点线构成的面的交并比IoU 损失计算结果；

将所述面的IoU损失计算结果的平均值，确定为所述面损失函数的值。

10.根据权利要求6所述的方法，其特征在于，所述根据所述物体的预测3D检测结果与物体的标准3D检测结果，获取所述角度损失函数函数值，包括：

获取所述3D检测结果与标准3D检测结果中，各点线构成的角度值的L1损失计算结果；

将所述角度值的L1 损失计算结果的平均值，确定为所述角度损失函数的值。

11.一种物体检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像中的待检测物体的2D检测结果，所述2D检测结果表示所述待检测物体的2D标注框；

转换模块，用于将所述2D检测结果输入至预设的检测神经网络中，得到所述待检测物体的3D检测结果；其中，所述检测神经网络为通过综合损失函数进行训练得到的网络模型；所述综合损失函数用于至少从物体的点、线、面和角度维度检测所述检测神经网络输出的3D检测结果与标准3D检测结果的差异，所述3D检测结果表示所述待检测物体的3D标注框；

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。