CN113011364A

CN113011364A - 神经网络训练、目标对象检测、行驶控制方法及装置

Info

Publication number: CN113011364A
Application number: CN202110340471.7A
Authority: CN
Inventors: 马新柱; 张胤民; 周东展; 伊帅; 欧阳万里
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-22
Anticipated expiration: 2041-03-30
Also published as: CN113011364B; WO2022205663A1

Abstract

本公开提供了一种神经网络训练方法、目标对象检测方法、行驶控制方法、装置、电子设备及存储介质，该方法包括：获取包含待检测对象对应的三维标注数据的图像样本；将所述图像样本输入至待训练神经网络中，生成所述图像样本中每个所述待检测对象的三维预测数据；基于所述图像样本中每个所述待检测对象的所述三维标注数据指示的深度信息，确定所述待检测对象的权重；基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络。

Description

神经网络训练、目标对象检测、行驶控制方法及装置

技术领域

本公开涉及深度学习技术领域，具体而言，涉及一种神经网络训练方法、目标对象检测方法、行驶控制方法、装置、电子设备及存储介质。

背景技术

随着深度学习技术的发展，越来越多的车辆上设置有自动驾驶系统或辅助驾驶系统等驾驶系统，该驾驶系统通过感知车辆周围的目标对象的三维检测信息，对车辆提供行驶意见，比如，可以为车辆规划行驶路线、可以为车辆提供规避策略，避免车辆与目标对象发生碰撞。

一般的，可以通过单目图像较快速的实现对目标对象的三维目标检测，但是，由于单目图像中缺少深度信息，导致基于单目图像确定的目标对象的检测结果的准确度较低，此问题是目前制约基于单目图像的三维目标检测性能的主要瓶颈。

发明内容

有鉴于此，本公开至少提供一种神经网络训练方法、目标对象检测方法、行驶控制方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种神经网络训练方法，包括：

获取包含待检测对象对应的三维标注数据的图像样本；

将所述图像样本输入至待训练神经网络中，生成所述图像样本中每个所述待检测对象的三维预测数据；

基于所述图像样本中每个所述待检测对象的所述三维标注数据指示的深度信息，确定所述待检测对象的权重；

基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络。

考虑到在待检测对象的深度值较大时，该待检测对象距离图像采集装置的距离较远，而距离越远的待检测对象的三维标注数据和/或三维预测数据的准确度较低，故可以通过根据待检测对象的三维标注数据指示的深度信息，确定待检测对象的权重，再可以基于每个待检测对象对应的权重、三维预测数据、和三维标注数据，较准确的对待训练神经网络进行训练，提高训练后的神经网络的性能。

一种可能的实施方式中，所述基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重，包括：

根据所述待检测对象的所述三维标注数据指示的深度信息与设置的第一深度阈值之间的比较结果，确定所述待检测对象的权重；

其中，所述待检测对象在所述深度信息小于或等于设置的第一深度阈值的情况下的权重，大于在所述深度信息大于设置的所述第一深度阈值的情况下的权重。

确定所述图像样本中每个待检测对象的三维标注数据指示的深度信息与设置的第二深度阈值之间的深度差值；

基于每个所述待检测对象对应的所述深度差值，确定所述待检测对象的所述权重，其中所述待检测对象对应的深度差值与所述权重呈反比关系。

这里，可以通过设置多种方式，基于图像样本中每个待检测对象的三维标注数据指示的深度信息，确定待检测对象的权重，使得确定待检测对象的权重的方式较为多样和灵活。

一种可能的实施方式中，所述基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络，包括：

基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值；

利用每个所述待检测对象对应的所述权重，对所述待检测对象的损失值进行调整，生成调整后的损失值；

基于各个所述待检测对象分别对应的所述调整后的损失值，训练所述待训练神经网络。

采用上述方法，通过使用待检测对象对应的权重，对待检测对象的损失值进行调整，生成调整后的损失值，使得调整后的损失值能够较为准确的表征待训练神经网络的当前性能，进而基于各个待检测对象分别对应的调整后的损失值，可以对待训练神经网络进行较为精准的训练。

一种可能的实施方式中，在所述三维预测数据中包括待检测对象的三维预测框的尺寸数据的情况下，所述尺寸数据包括长度、宽度和高度，所述基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值，包括：

确定所述三维预测框的预测长度与所述三维标注数据指示的真实长度之间的长度差值、预测宽度与所述三维标注数据指示的真实宽度之间的宽度差值、和预测高度与所述三维标注数据指示的真实高度之间的高度差值；

利用确定的所述三维预测框对应的长度权重、宽度权重和高度权重，对所述长度差值、所述宽度差值和所述高度差值进行重分配，生成重分配后的长度差值、重分配后的宽度差值和重分配后的高度差值；其中，重分配前的所述长度差值、所述宽度差值和所述高度差值之间的总和，与所述重分配后的长度差值、所述重分配后的宽度差值和所述重分配后的高度差值之间的总和相同；

基于所述重分配后的长度差值、所述重分配后的宽度差值和所述重分配后的高度差值，确定所述图像样本中每个所述待检测对象对应的尺寸损失值。

考虑到三维标注框的长度指标、宽度指标、和高度指标对交并比的贡献率不一致，为了使得长度指标、宽度指标、和高度指标对交并比的贡献率一致，可以通过确定的长度权重、宽度权重、和高度权重，对长度差值、宽度差值和高度差值进行重分配，生成重分配后的长度差值、重分配后的宽度差值和重分配后的高度差值；进而在确定了图像样本中每个待检测对象对应的尺寸损失值后，使用尺寸损失值对待训练神经网络训练时，可以使得训练后的神经网络的性能较好。

一种可能的实施方式中，根据下述步骤确定的所述长度权重、所述宽度权重和所述高度权重：

将所述三维预测框的预测长度的倒数确定为所述长度权重；

将所述三维预测框的预测宽度的倒数确定为所述宽度权重；

将所述三维预测框的预测高度的倒数确定为所述高度权重。

经研究发现长度(l)指标、宽度(w)指标、和高度(h)指标对交并比的贡献率可以近似为1/l:1/w:1/h，故可以将预测长度的倒数确定为长度权重、将预测宽度的倒数确定为宽度权重、将预测高度的倒数确定为高度权重。

一种可能的实施方式中，所述待检测对象对应的三维标注数据包括以下至少一种：

所述待检测对象对应的三维标注框的尺寸数据、所述三维标注框的三维中心点在所述图像样本上的投影点的二维坐标、所述投影点的深度信息、所述待检测对象对应的所述三维标注框的朝向信息。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第二方面，本公开提供了一种目标对象检测方法，包括：

获取待检测数据；

基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用第一方面任一项所述的神经网络训练方法训练得到的。

第三方面，本公开提供了一种行驶控制方法，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用基于第一方面任一项所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

基于所述道路图像中包括的目标对象的三维检测数据，控制所述行驶装置。

第四方面，本公开提供了一种神经网络训练装置，包括：

第一获取模块，用于获取包含待检测对象对应的三维标注数据的图像样本；

第一生成模块，用于将所述图像样本输入至待训练神经网络中，生成所述图像样本中每个所述待检测对象的三维预测数据；

第一确定模块，用于基于所述图像样本中每个所述待检测对象的所述三维标注数据指示的深度信息，确定所述待检测对象的权重；

训练模块，用于基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络。

一种可能的实施方式中，所述第一确定模块，在基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重时，用于：

一种可能的实施方式中，所述训练模块，在基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络时，用于：

一种可能的实施方式中，在所述三维预测数据中包括待检测对象的三维预测框的尺寸数据的情况下，所述尺寸数据包括长度、宽度和高度，所述训练模块，在基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值时，用于：

一种可能的实施方式中，所述训练模块，用于根据下述步骤确定的所述长度权重、所述宽度权重和所述高度权重：

将所述三维预测框的预测长度的倒数确定为所述长度权重；

将所述三维预测框的预测宽度的倒数确定为所述宽度权重；

将所述三维预测框的预测高度的倒数确定为所述高度权重。

第五方面，本公开提供了一种目标对象检测装置，包括：

第二获取模块，用于获取待检测数据；

第二确定模块，用于基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用第一方面任一项所述的神经网络训练方法训练得到的。

第六方面，本公开提供了一种行驶控制装置，包括：

第三获取模块，用于获取行驶装置在行驶过程中采集的道路图像；

第二生成模块，用于利用基于第一方面任一项所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

控制模块，用于基于所述道路图像中包括的目标对象的三维检测数据，控制所述行驶装置。

第七方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的神经网络训练方法的步骤；或执行如上述第二方面所述的目标对象检测方法的步骤；或执行如上述第三方面所述的行驶控制方法的步骤。

第八方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的神经网络训练方法的步骤；或执行如上述第二方面所述的目标对象检测方法的步骤；或执行如上述第三方面所述的行驶控制方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种神经网络训练方法的流程示意图；

图2示出了本公开实施例所提供的一种神经网络训练方法中，三维标注框和待检测对象的朝向的示意图；

图3示出了本公开实施例所提供的一种目标对象检测方法的流程示意图；

图4示出了本公开实施例所提供的一种行驶控制方法的流程示意图；

图5示出了本公开实施例所提供的一种神经网络训练装置的架构示意图；

图6示出了本公开实施例所提供的一种目标对象检测装置的架构示意图；

图7示出了本公开实施例所提供的一种行驶控制装置的架构示意图；

图8示出了本公开实施例所提供的一种电子设备的结构示意图；

图9示出了本公开实施例所提供的另一种电子设备的结构示意图；

图10示出了本公开实施例所提供的另一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种神经网络训练方法、目标对象检测方法、行驶控制方法进行详细介绍。本公开实施例所提供的神经网络训练方法、目标对象检测方法、行驶控制方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该神经网络训练方法、目标对象检测方法、行驶控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例所提供的神经网络训练方法的流程示意图，该方法包括S101-S104，其中：

S101，获取包含待检测对象对应的三维标注数据的图像样本；

S102，将所述图像样本输入至待训练神经网络中，生成所述图像样本中每个所述待检测对象的三维预测数据；

S103，基于所述图像样本中每个所述待检测对象的所述三维标注数据指示的深度信息，确定所述待检测对象的权重；

S104，基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络。

下述分别对S101-S104进行具体说明。

针对S101以及S102：

待检测对象可以为现实场景中的任一对象，比如，待检测对象可以为行人、机动车辆、非机动车辆、动物等。

图像样本中包括多个训练图像，每个训练图像中包括一个或多个待检测对象，每个待检测对象对应一个三维标志数据。其中，所述待检测对象对应的三维标注数据包括以下至少一种：所述待检测对象对应的三维标注框的尺寸数据、所述三维标注框的三维中心点在所述图像样本上的投影点的二维坐标、所述投影点的深度信息、所述待检测对象对应的所述三维标注框的朝向信息。

考虑到待检测对象的三维标注框的三维中心点与待检测对象对应的二维标注框的二维中心点之间存在偏差，若使用二维标注框的二维中心点表征三维标注框的三维中心点时，会存在一定的误差，为了消除上述误差，本公开实施方式中，使用三维标注框的三维中心点在图像样本上的投影点，表征三维中心点，以提高待训练神经网络的训练准确度。

待检测对象的三维标注框的尺寸数据包括三维标注框的长度、宽度、和高度。

可以根据下述公式(1)确定三维标注框的三维中心点在图像样本上的投影点的二维坐标：

其中，K为相机内参，(x,y,z)为三维标注框的三维中心点的三维坐标信息，z即为投影点的深度信息，c(u,v)为三维标注框的三维中心点在所述图像样本上的投影点的二维坐标。

相机内参K为：

待检测对象对应的三维标注框的朝向信息可以为表征待检测对象的朝向的角度信息。参见图2所示的一种神经网络训练方法中，三维标注框和待检测对象的朝向的示意图。图2中包括三维检测框21，该三维检测框21中包括中心点211，该三维检测框21的尺寸信息为高度h、长度l和宽度w。图2中还包括待检测对象22，该待检测对象22的朝向信息可以为角度α，或者，该待检测对象22的朝向信息也可以为角度γ；以及该待检测对象对应的深度为z。其中，角度θ为相机与待检测对象22的中心点的连线、与竖直方向之间的偏差角度。

待训练神经网络用于对待检测对象进行三维检测，确定待检测对象对应的三维预测数据，待训练神经网络的网络结构可以根据需要进行确定。即将图像样本输入至待训练神经网络中，生成图像样本中每个待检测对象对应的三维预测数据，其中，三维预测数据的数据类型与三维标注数据一致。

比如，在三维标注数据包括：待检测对象对应的三维标注框的尺寸数据、三维标注框的三维中心点在图像样本上的投影点的二维坐标、投影点的深度信息、待检测对象对应的三维标注框的朝向信息时，三维预测数据包括：待检测对象对应的三维预测框的预测尺寸数据(包括预测长度、预测宽度、预测高度)、三维预测框的三维中心点在图像样本上的投影点的预测二维坐标(预测横坐标和预测纵坐标)、投影点的预测深度信息、待检测对象对应的三维预测框的预测朝向信息。

针对S103：

可以根据每个待检测对象的三维标注数据指示的深度信息，确定待检测对象的权重，其中，该深度信息即为三维标注框的中心点的深度信息。一般的，待检测对象的深度信息越大，表征待检测对象与图像采集装置之间的距离较远，待检测对象的三维标注数据、和/或三维预测数据的准确度较低，则可以将待检测对象的权重设置的较低；反之，待检测对象的深度信息越小，表征待检测对象与图像采集装置之间的距离较近，待检测对象的三维标注数据、和/或三维预测数据的准确度较高，则可以将待检测对象的权重设置的较高。

其中，S102和S103之间的顺序可以为同时进行，也可以先执行S102再执行S103，或者，也可以先执行S103再执行S102。

一种可选实施方式中，S103中，基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重，可以包括下述两种方式：

方式一，根据所述待检测对象的所述三维标注数据指示的深度信息与设置的第一深度阈值之间的比较结果，确定所述待检测对象的权重；其中，所述待检测对象在所述深度信息小于或等于设置的第一深度阈值的情况下的权重，大于在所述深度信息大于设置的所述第一深度阈值的情况下的权重。

方式二、确定所述图像样本中每个待检测对象的三维标注数据指示的深度信息与设置的第二深度阈值之间的深度差值；基于每个所述待检测对象对应的所述深度差值，确定所述待检测对象的所述权重，其中所述待检测对象对应的深度差值与权重之间呈反比关系。

在方式一中，可以设置第一深度阈值，在待检测对象的三维标注数据指示的深度信息大于设置的第一深度阈值时，则确定待检测对象的权重为第一权重；反之，在待检测对象的三维标注数据指示的深度信息小于或等于设置的第一深度阈值时，则确定待检测对象的权重为第二权重；其中，第一权重小于第二权重。

其中，第一深度阈值、第一权重、第二权重可以根据先验经验进行确定，比如，第一深度阈值可以为60m，第一权重值可以为0、第二权重值可以为1；或者，第一深度阈值可以为70m，第一权重值可以为0.01、第二权重值可以为0.95等。

在方式二中，可以根据下述公式(2)确定待检测对象的权重w_i：

其中，d_i为待检测对象的三维标注数据指示的深度信息；c为设置的第二深度阈值，T为预设的参数。

第一深度阈值与第二深度阈值可以相同，也可以不同。

针对S104：

一种可选实施方式中，S104中，基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络，包括：

S1041，基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值；

S1042，利用每个所述待检测对象对应的所述权重，对所述待检测对象的损失值进行调整，生成调整后的损失值；

S1043，基于各个所述待检测对象分别对应的所述调整后的损失值，训练所述待训练神经网络。

在步骤S1041中，可以基于每个待检测对象对应的三维预测数据和三维标注数据，确定三维预测数据中每种类型数据对应的损失值，将各种类型数据对象的损失值求和，得到待检测对象对应的损失值。比如，可以计算尺寸数据对应的损失值、投影点的二维坐标对应的损失值、投影点的深度信息对应的损失值、朝向信息对应的损失值等。其中，确定每种数据类型对应的损失值的方式可以根据需要进行设置，比如可以使用L1范式计算每种数据类型对应的损失值。

一种可选实施方式中，在所述三维预测数据中包括待检测对象的三维预测框的尺寸数据的情况下，所述尺寸数据包括长度、宽度和高度，S1041中基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值，包括：

步骤一、确定所述三维预测框的预测长度与所述三维标注数据指示的真实长度之间的长度差值、预测宽度与所述三维标注数据指示的真实宽度之间的宽度差值、和预测高度与所述三维标注数据指示的真实高度之间的高度差值；

步骤二、利用确定的所述三维预测框对应的长度权重、宽度权重和高度权重，对所述长度差值、所述宽度差值和所述高度差值进行重分配，生成重分配后的长度差值、重分配后的宽度差值和重分配后的高度差值；其中，重分配前的所述长度差值、所述宽度差值和所述高度差值之间的总和，与所述重分配后的长度差值、所述重分配后的宽度差值和所述重分配后的高度差值之间的总和相同；

步骤三、基于所述重分配后的长度差值、所述重分配后的宽度差值和所述重分配后的高度差值，确定所述图像样本中每个所述待检测对象对应的尺寸损失值。

其中，可以根据下述步骤确定的所述长度权重、宽度权重和高度权重：

将所述三维预测框的预测长度的倒数确定为所述长度权重；

将所述三维预测框的预测宽度的倒数确定为所述宽度权重；

将所述三维预测框的预测高度的倒数确定为所述高度权重。

经研究发现，标准损失函数(比如L1损失函数)中的高度h、宽度w、长度l，这三项指标对与交并比(Intersection over Union，IOU)的贡献率的比值可以近似为1/h：1/w：1/l，即满足下述公式(3)：

为了使得高度h、宽度w、和长度l对IOU的贡献率一致，故可以将确定的长度差值与长度权重相乘、将确定的宽度差值与宽度权重相乘、将确定的高度差值与高度权重相乘，或者，将长度差值除以预测长度、将宽度差值除以预测宽度、将高度差值除以预测高度。

故可以使用确定的长度权重、宽度权重、和高度权重，对长度差值、宽度差值和高度差值进行重分配，生成重分配后的长度差值、重分配后的宽度差值和重分配后的高度差值；其中，重分配前的长度差值、宽度差值和高度差值之间的总和，与重分配后的长度差值、重分配后的宽度差值和重分配后的高度差值之间的总和相同，即重分配权重不会对尺寸数据的损失值产生影响。

示例性的，可以使用下述公式(4)确定待检测对象对应的尺寸损失值L_size：

其中，s为三维预测框的预测高度、预测宽度、预测长度构成的预测尺寸向量，即s＝[h,w,l]；s^*为三维标注框的真实高度、真实宽度、真实长度构成的真实尺寸向量，即s＝[h*,w*,l*]；

其中，β＝L_std/L_size，L_std＝‖s-s^*‖₁，

在S1042和S1043中，可以将每个待检测对象对应的权重、与该待检测对象的损失值相乘，得到调整后的损失值。进而可以基于各个待检测对象分别对应的调整后的损失值，训练待训练神经网络，直至神经网络满足要求，比如，直至训练后的神经网络的准确度大于设置的准确度阈值；或者，直至训练后的神经网络的损失值小于设置的损失阈值等。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，参见图3所示，本公开实施例还提供了一种目标对象检测方法，该方法包括S301-S302，其中：

S301，获取待检测数据；

S302，基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用上述实施例所述的神经网络训练方法训练得到的。

这里，待检测数据可以为获取的任一帧图像，将该待检测数据输入至用于进行对象检测的第一目标神经网络中，确定待检测数据中包括的每个目标对象的三维检测数据。其中，第一目标神经网络为利用上述实施例所述的神经网络训练方法训练得到的。

其中，目标对象可以根据需要进行设置，比如，目标对象可以为行人、车辆、动物等。目标对象的三维检测数据可以包括目标对象的三维检测框的位置信息、尺寸信息、和朝向信息。

上述方法中，通过利用上述实施例提出的神经网络训练方法训练得到第一目标神经网络，可以使得训练后的第一目标神经网络的准确度较高，进而在利用该第一目标神经网络可以较准确的确定待检测数据中包括的目标对象的三维检测数据。

基于相同的构思，参见图4所示，本公开实施例还提供了一种行驶控制方法，该方法包括S401-S403，其中：

S401，获取行驶装置在行驶过程中采集的道路图像；

S402，利用基于上述实施例所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

S403，基于所述道路图像中包括的目标对象的三维检测数据，控制所述行驶装置。

示例性的，行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(AdvancedDriving Assistance System，ADAS)的车辆、或者机器人等。道路图像可以为行驶装置在行驶过程中实时采集到的图像。目标对象可以为道路中可以出现的任一对象，比如，目标对象可以为出现在道路上的动物、行人、机动车辆、非机动车辆等。

具体实施，可以将获取的道路图像输入至第二目标神经网络中，确定道路数据中包括的目标对象，即确定道路数据中包括的目标对象的三维检测数据，该目标对象的三维检测数据可以包括三维检测框的尺寸信息、位置信息、朝向信息、类别信息等。

进而，基于道路数据中包括的目标对象的三维检测数据，控制行驶装置。其中，在控制行驶装置时，可以控制行驶装置加速、减速、转向、制动等，或者可以播放语音提示信息，以提示驾驶员控制行驶装置加速、减速、转向、制动等。

上述方法中，通过利用本公开实施例提出的神经网络训练方法训练得到第二目标神经网络，可以使得第二目标神经网络的准确度较高，进而在利用该第二目标神经网络可以较准确的确定道路图像中包括的目标对象的三维检测数据，并较准确的控制行驶装置。

基于相同的构思，本公开实施例还提供了一种神经网络训练装置，参见图5所示，为本公开实施例提供的神经网络训练装置的架构示意图，包括第一获取模块501、第一生成模块502、第一确定模块503、训练模块504，具体的：

第一获取模块501，用于获取包含待检测对象对应的三维标注数据的图像样本；

第一生成模块502，用于将所述图像样本输入至待训练神经网络中，生成所述图像样本中每个所述待检测对象的三维预测数据；

第一确定模块503，用于基于所述图像样本中每个所述待检测对象的所述三维标注数据指示的深度信息，确定所述待检测对象的权重；

训练模块504，用于基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络。

一种可能的实施方式中，所述第一确定模块503，在基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重时，用于：

一种可能的实施方式中，所述训练模块504，在基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络时，用于：

一种可能的实施方式中，在所述三维预测数据中包括待检测对象的三维预测框的尺寸数据的情况下，所述尺寸数据包括长度、宽度和高度，所述训练模块504，在基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值时，用于：

一种可能的实施方式中，所述训练模块504，用于根据下述步骤确定的所述长度权重、所述宽度权重和所述高度权重：

将所述三维预测框的预测长度的倒数确定为所述长度权重；

将所述三维预测框的预测宽度的倒数确定为所述宽度权重；

将所述三维预测框的预测高度的倒数确定为所述高度权重。

基于相同的构思，本公开实施例还提供了一种目标对象检测装置，参见图6所示，为本公开实施例提供的目标对象检测装置的架构示意图，包括第二获取模块601、第二确定模块602，具体的：

第二获取模块601，用于获取待检测数据；

第二确定模块602，用于基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用上述实施例所述的神经网络训练方法训练得到的。

基于相同的构思，本公开实施例还提供了一种行驶控制装置，参见图7所示，为本公开实施例提供的行驶控制装置的架构示意图，包括第三获取模块701、第二生成模块702、控制模块703，具体的：

第三获取模块701，用于获取行驶装置在行驶过程中采集的道路图像；

第二生成模块702，用于利用基于上述实施例所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

控制模块703，用于基于所述道路图像中包括的目标对象的三维检测数据，控制所述行驶装置。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图8所示，为本公开实施例提供的电子设备的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

获取包含待检测对象对应的三维标注数据的图像样本；

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图9所示，为本公开实施例提供的电子设备的结构示意图，包括处理器901、存储器902、和总线903。其中，存储器902用于存储执行指令，包括内存9021和外部存储器9022；这里的内存9021也称内存储器，用于暂时存放处理器901中的运算数据，以及与硬盘等外部存储器9022交换的数据，处理器901通过内存9021与外部存储器9022进行数据交换，当电子设备900运行时，处理器901与存储器902之间通过总线903通信，使得处理器901在执行以下指令：

获取待检测数据；

基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用上述实施例所述的神经网络训练方法训练得到的。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图10所示，为本公开实施例提供的电子设备的结构示意图，包括处理器1001、存储器1002、和总线1003。其中，存储器1002用于存储执行指令，包括内存10021和外部存储器10022；这里的内存10021也称内存储器，用于暂时存放处理器1001中的运算数据，以及与硬盘等外部存储器10022交换的数据，处理器1001通过内存10021与外部存储器10022进行数据交换，当电子设备1000运行时，处理器1001与存储器1002之间通过总线1003通信，使得处理器1001在执行以下指令：

获取行驶装置在行驶过程中采集的道路图像；

利用基于上述实施例所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络训练方法、目标对象检测方法、行驶控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的神经网络训练方法、目标对象检测方法、行驶控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，包括：

获取包含待检测对象对应的三维标注数据的图像样本；

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述图像样本中每个待检测对象的三维标注数据指示的深度信息，确定所述待检测对象的权重，包括：

4.根据权利要求1～3任一所述的方法，其特征在于，所述基于每个所述待检测对象对应的所述权重、所述三维预测数据、和所述三维标注数据，训练所述待训练神经网络，包括：

5.根据权利要求4所述的方法，其特征在于，在所述三维预测数据中包括待检测对象的三维预测框的尺寸数据的情况下，所述尺寸数据包括长度、宽度和高度，所述基于每个所述待检测对象对应的所述三维预测数据、和所述三维标注数据，确定所述图像样本中每个所述待检测对象对应的损失值，包括：

6.根据权利要求5所述的方法，其特征在于，根据下述步骤确定的所述长度权重、所述宽度权重和所述高度权重：

将所述三维预测框的预测长度的倒数确定为所述长度权重；

将所述三维预测框的预测宽度的倒数确定为所述宽度权重；

将所述三维预测框的预测高度的倒数确定为所述高度权重。

7.根据权利要求1～6任一所述的方法，其特征在于，所述待检测对象对应的三维标注数据包括以下至少一种：

8.一种目标对象检测方法，其特征在于，包括：

获取待检测数据；

基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用权利要求1至7任一项所述的神经网络训练方法训练得到的。

9.一种行驶控制方法，其特征在于，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用基于权利要求1至7任一项所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

10.一种神经网络训练装置，其特征在于，包括：

11.一种目标对象检测装置，其特征在于，包括：

第二获取模块，用于获取待检测数据；

第二确定模块，用于基于所述待检测数据、和用于进行对象检测的第一目标神经网络，确定所述待检测数据中包括的每个目标对象的三维检测数据，其中，所述第一目标神经网络为利用权利要求1至7任一项所述的神经网络训练方法训练得到的。

12.一种行驶控制装置，其特征在于，包括：

第二生成模块，用于利用基于权利要求1至7任一项所述的神经网络训练方法训练得到的第二目标神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的三维检测数据；

13.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的神经网络训练方法的步骤；或者执行如权利要求8所述的目标对象检测方法的步骤；或者执行如权利要求9所述的行驶控制方法的步骤。

14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的神经网络训练方法的步骤；或者执行如权利要求8所述的目标对象检测方法的步骤；或者执行如权利要求9所述的行驶控制方法的步骤。