CN111539484B

CN111539484B - 训练神经网络的方法及装置

Info

Publication number: CN111539484B
Application number: CN202010355711.6A
Authority: CN
Inventors: 丁明宇; 王哲; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2024-05-21
Anticipated expiration: 2040-04-29
Also published as: CN111539484A

Abstract

本公开提供了一种训练神经网络的方法、目标检测方法、行驶控制方法、装置、电子设备及存储介质，该方法包括：获取训练图像样本；基于所述训练图像样本，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；基于所述训练图像样本和所述位置图，进行神经网络训练，得到所述用于目标检测的神经网络。

Description

训练神经网络的方法及装置

技术领域

本公开涉及深度学习技术领域，具体而言，涉及一种训练神经网络的方法、目标检测方法、行驶控制方法、装置、电子设备及存储介质。

背景技术

目标检测神经网络可以识别图片中的每个目标对象，并确定每个目标对象的三维检测数据，故目标检测神经网络可以应用于无人驾驶、安防系统等场景中。

一般的，可以利用标注有检测数据的单目图像训练得到目标检测神经网络，由于单目图像中不具有准确的三维深度信息和尺度信息，使得训练得到的目标检测神经网络的准确度较低；或者，也可以通过激光雷达、深度模型等方式确定单目图像的深度信息，再利用深度信息和标注有检测数据的单目图像训练得到目标检测神经网络，由于深度信息的获取较为复杂，造成目标对象的检测过程也较为复杂，检测时间较长，检测效率低。

发明内容

有鉴于此，本公开至少提供一种训练神经网络的方法、目标检测方法、行驶控制方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种训练神经网络的方法，包括：

获取训练图像样本；

基于所述训练图像样本，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；

基于所述训练图像样本和所述位置图，进行神经网络训练，得到所述用于目标检测的神经网络。

采用上述方法，通过基于训练图像样本生成至少一个位置图，每个位置图上的任一像素点的像素值，用于表征该任一像素点在训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值，即位置图中包含训练图像样本中每个像素点的位置信息，在对神经网络训练时，增加了表征训练图像样本中各像素点对应的位置信息的位置图作为训练内容，使得训练后的神经网络的准确度较高，且位置图的生成较为简单，使得目标检测的耗时较小、效率较高。

一种可能的实施方式中，所述位置图包括在相机坐标系的宽度方向的第一位置图，和在所述相机坐标系的深度方向的第二位置图；

所述基于所述训练图像样本，生成至少一个位置图，包括：

针对所述训练图像样本上的每一像素点，基于相机参数信息、设置的在相机坐标系下的高度方向的预设坐标值、以及该像素点在图像坐标系下的坐标值，确定该像素点在相机坐标系下的宽度方向坐标值和深度方向坐标值；

基于所述训练图像样本的各个像素点在相机坐标系下的宽度方向坐标值，生成所述训练图像样本在所述相机坐标系的宽度方向的第一位置图，以及基于所述各个像素点在所述相机坐标系下的深度方向坐标值，生成所述训练图像样本在所述相机坐标系的深度方向的第二位置图。

上述实施方式下，第一位置图中包含像素点在相机坐标系宽度方向上的位置信息，第二位置图中包含像素点在相机坐标系深度方向上的位置信息，这样，就有了表征各像素点在相机坐标系下宽度方向和深度方向的位置特征的信息，结合这些位置图和训练图像样本进行神经网络训练，可以提升训练得到的神经网络的准确度。

一种可能的实施方式中，所述位置图包括在所述像素坐标系的宽度方向上的第三位置图，和在所述像素坐标系的高度方向上的第四位置图；

所述基于所述训练图像样本，生成至少一个位置图，包括：

基于所述训练图像样本的各个像素点在像素坐标系的宽度方向的坐标值，生成所述训练图像样本在所述像素坐标系的宽度方向上的第三位置图，以及基于所述训练图像样本的各个像素点在像素坐标系的高度方向的坐标值，生成所述训练图像样本在所述像素坐标系的高度方向上的第四位置图。

上述实施方式中，第三位置图中包含像素点在像素坐标系宽度方向上的位置信息，第四位置图中包含像素点在像素坐标系高度方向上的位置信息，这样，就有了表征各像素点在像素坐标系宽度方向和高度方向的位置特征的信息，结合这些位置图和训练图像样本进行神经网络训练，可以提升训练得到的神经网络的准确度。

一种可能的实施方式中，获取训练图像样本之后，还包括：

基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图；所述锚点框分布图中包括多个大小相同的网格，每个网格中的像素点具有相同的像素信息，该像素信息用于表征该网格对应的锚点框；

基于所述训练图像样本和所述位置图，进行神经网络训练，包括：

基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练。

上述实施方式下，锚点框分布图中包括多个网格，每个网格的像素信息可以表征该网格对应的三维检测数据，该三维检测数据可以从尺寸、深度、朝向等多个维度表征图像特征，进而结合该锚点框分布图对神经网络进行训练时，可以提高训练后的神经网络的准确度。

一种可能的实施方式中，基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图，包括：

根据预设的网格数量，将所述训练图像样本划分为多个网格；

基于所述标注数据中指示的每个目标对象的三维检测框的中心点在二维平面的投影点的坐标信息，确定每个网格对应的目标对象；

基于所述标注数据中指示的每个目标对象的三维检测数据以及每个网格对应的目标对象，确定每个网络对应的平均三维检测数据；

基于各个网络对应的所述平均三维检测数据，生成所述锚点框分布图。

这里，基于每个网格对应的目标对象的三维检测数据，确定每个网格对应的平均三维检测数据，进而基于各个网格对应的平均三维检测数据，生成了锚点框分布图，使得锚点框分布图中平均三维检测数据的分布满足透视规律，透视规律是指将三维目标对象投影到二维平面时，近处的图像比远处的图像的尺寸大，进而可以使得基于锚点框分布图训练得到的神经网路的准确度较高，且锚点框分布图的生成过程较为简单，在保证神经网络的准确度的同时，保障了神经网络的检测效率。

一种可能的实施方式中，基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练，包括：

分别对所述训练图像样本、所述位置图、以及所述锚点框分布图进行特征提取，得到样本特征图、位置特征图、以及锚点框分布特征图；

基于所述样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图；

基于所述融合后的特征图，进行神经网络训练，得到所述用于目标检测的神经网络。

一种可能的实施方式中，基于所述样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图，包括：

将所述样本特征图与位置特征图进行特征融合处理，得到中间融合特征图；

基于所述中间融合特征图、以及锚点框分布特征图，得到所述融合后的特征图。

在上述实施方式中，将样本特征图和位置特征图进行特征融合处理，使得得到的中间融合特征图中包含像素点的位置信息和相机参数信息，丰富了中间融合特征图的特征信息，并基于中间融合特征图以及锚点框分布特征图，得到融合后的特征图，使得融合后的特征图既包含了中间融合特征图中的信息，也包含了锚点框分布特征图中的信息，进一步丰富了融合后的特征图的特征信息，使得基于融合后的特征图对神经网络进行训练后，得到的神经网络的检测准确度较高。

一种可能的实施方式中，基于所述中间融合特征图、以及锚点框分布特征图，得到所述融合后的特征图，包括：

基于所述中间融合特征图，确定用于回归处理的回归特征图；

将所述锚点框分布特征图和所述回归特征图进行特征融合处理，得到所述融合后的特征图。

一种可能的实施方式中，根据以下步骤对所述位置图进行特征提取：

通过所述神经网络的不同卷积层分别对所述位置图进行第一特征提取和第二特征提取，生成第一位置特征图以及第二位置特征图，其中，所述第一位置特征图表征对所述样本特征图中特征值的分布进行缩放调整，所述第二位置特征图表征对所述样本特征图中特征值的分布进行平移调整。

一种可能的实施方式中，将所述样本特征图与所述位置特征图进行特征融合处理，得到中间融合特征图，包括：

针对所述样本特征图中每一通道的子特征图，确定该通道的子特征图对应的特征值均值和特征值方差，并针对该通道的子特征图上的每个特征点，利用所述特征值均值、所述特征值方差、以及所述位置特征图中对应特征点的特征值，对该特征点的特征值进行调整，得到该特征点对应的调整后的特征值；基于该通道上各个调整后的特征值，得到该通道对应的融合后的子特征图；

基于各个通道对应的融合后的子特征图，得到所述中间融合特征图。

在上述实施方式下，通过确定每一通道的子特征图对应的特征值均值和特征值方差，利用特征值均值、特征值方差、以及位置特征图中对应特征点的特征值，对每一通道的子特征图上的特征点的特征值进行调整，这种生成中间融合特征图的方式计算效率较高。

一种可能的实施方式中，所述基于所述融合后的特征图，进行神经网络训练，包括：

对所述融合后的特征图进行全卷积处理，得到所述预测数据中的预测二维检测数据以及预测类别；

对所述融合后的特征图进行局部卷积处理，得到所述预测数据中的预测三维检测数据；

基于所述预测二维检测数据、所述预测类别、所述预测三维检测数据，以及所述训练图像样本对应的标注数据，进行神经网络训练。

在上述实施方式下，由于融合后的特征图中包含锚点框分布特征图的特征信息(即不同网格内对应不同的平均三维检测数据)，故通过在神经网络中设置对融合后的特征图进行局部卷积处理，可以使得融合后的特征图中，同一通道的特征图上不同位置处的特征点对应不同的卷积操作，使得通过局部卷积处理方式得到的三维检测数据较准确。

一种可能的实施方式中，基于所述预测二维检测数据、所述预测预测类别、所述预测三维检测数据，以及所述训练图像样本对应的标注数据，进行神经网络训练，包括：

确定所述预测二维检测数据与所述标注数据中的二维检测数据之间的第一损失信息、所述预测三维检测数据与所述标注数据中的三维检测数据之间的第二损失信息、所述预测类别与所述标注数据中的类别之间的第三损失信息；

基于所述第一损失信息、第二损失信息、和所述第三损失信息，确定目标损失信息；

基于所述目标损失信息，调整所述神经网络的网络参数信息。

一种可能的实施方式中，所述方法还包括：

基于所述样本特征图，生成所述训练图像样本对应的预测深度图；

基于所述标注数据中的深度信息和二维检测数据，确定所述训练图像样本对应的参考深度图；

所述基于所述目标损失信息，调整所述神经网络的网络参数信息，包括：

基于所述预测深度图、和所述参考深度图，确定所述训练图像样本对应的第四损失信息，并基于所述预测深度图与所述训练图像样本，确定所述训练图像样本对应的第五损失信息；

基于所述目标损失信息和所述第四损失信息、所述第五损失信息，调整所述神经网络的网络参数信息。

这里，神经网络训练时，可以通过样本特征图得到预测深度图，基于预测深度图和参考深度图，确定第四损失信息和第五损失信息，第四损失信息和第五损失信息表征训练图像样本的深度损失信息，通过基于深度损失信息、和目标损失信息，调整神经网络的网络参数信息，可以进一步提升训练得到的神经网络的准确度。

第二方面，本公开提供了一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用第一方面或第一方面任一实施方式所述的方法训练得到的。

第三方面，本公开提供了一种行驶控制方法，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，所述目标检测神经网络为利用第一方面或第一方面任一实施方式所述的方法训练得到的；

基于所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，控制所述行驶装置。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第四方面，本公开提供了一种训练神经网络的装置，包括：

获取模块，用于获取训练图像样本；

位置图生成模块，用于基于所述训练图像样本，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；

训练模块，用于基于所述训练图像样本和所述位置图，进行神经网络训练，得到所述用于目标检测的神经网络。

所述位置图生成模块，在基于所述训练图像样本，生成至少一个位置图时，用于：

一种可能的实施方式中，获取训练图像样本之后，所述装置还包括：锚点框分布图生成模块；

所述锚点框分布图生成模块，用于基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图；所述锚点框分布图中包括多个大小相同的网格，每个网格中的像素点具有相同的像素信息，该像素信息用于表征该网格对应的锚点框；

所述训练模块，在基于所述训练图像样本和所述位置图，进行神经网络训练时，用于：

一种可能的实施方式中，所述锚点框分布图生成模块，在基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图时，用于：

一种可能的实施方式中，所述训练模块，在基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练时，用于：

一种可能的实施方式中，所述训练模块，在基于所述样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图时，用于：

一种可能的实施方式中，所述训练模块，在基于所述中间融合特征图、以及锚点框分布特征图，得到所述融合后的特征图时，用于：

一种可能的实施方式中，所述训练模块，用于根据以下步骤对该位置图进行特征提取：

一种可能的实施方式中，所述训练模块，在将所述样本特征图与所述位置特征图进行特征融合处理，得到中间融合特征图时，用于：

一种可能的实施方式中，所述训练模块，在基于所述融合后的特征图，进行神经网络训练时，用于：

一种可能的实施方式中，所述训练模块，在基于所述预测二维检测数据、所述预测预测类别、所述预测三维检测数据，以及所述训练图像样本对应的标注数据，进行神经网络训练时，用于：

一种可能的实施方式中，所述装置还包括：

预测深度图生成模块，用于基于所述样本特征图，生成所述训练图像样本对应的预测深度图；

参考深度图确定模块，用于基于所述标注数据中的深度信息和二维检测数据，确定所述训练图像样本对应的参考深度图；

所述训练模块，在基于所述目标损失信息，调整所述神经网络的网络参数信息时，用于：

第五方面，本公开提供了一种目标检测装置，包括：

待检测图像获取模块，用于获取待检测图像；

目标对象检测模块，用于将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用第一方面或第一方面任一实施方式所述的方法训练得到的。

第六方面，本公开提供了一种行驶控制装置，包括：

道路图像获取模块，用于获取行驶装置在行驶过程中采集的道路图像；

检测模块，用于利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，所述目标检测神经网络为利用第一方面或第一方面任一实施方式所述的方法训练得到的；

控制模块，用于基于所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，控制所述行驶装置。

第七方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的训练神经网络的方法的步骤，或执行如上述第二方面所述的目标检测方法的步骤，或执行如上述第三方面所述的行驶控制方法的步骤。

第八方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的训练神经网络的方法的步骤，或执行如上述第二方面所述的目标检测方法的步骤，或执行如上述第三方面所述的行驶控制方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种训练神经网络的方法的流程示意图；

图2示出了本公开实施例所提供的一种训练神经网络的方法中，基于训练图像样本对应的标注数据，生成训练图像样本对应的锚点框分布图的具体方法的流程示意图；

图3示出了本公开实施例所提供的一种训练神经网络的方法中，基于训练图像样本、位置图、以及锚点框分布图，进行神经网络训练的具体方法的流程示意图；

图4示出了本公开实施例所提供的一种行驶控制方法的流程示意图；

图5示出了本公开实施例所提供的一种训练神经网络的装置的架构示意图；

图6示出了本公开实施例所提供的一种行驶控制装置的架构示意图；

图7示出了本公开实施例所提供的一种电子设备700的结构示意图；

图8示出了本公开实施例所提供的一种电子设备800的结构示意图；

图9示出了本公开实施例所提供的一种电子设备900的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

一般的，可以通过标注有检测数据的单目图像，训练得到目标检测神经网络，通过训练后的目标检测神经网络对待检测图像进行检测，得到待检测图像中每个目标对象的检测数据，其中，检测数据中包括二维检测数据、三维检测数据、类别等。但是，单目图像中不具有准确的三维深度信息和尺度信息，使得基于单目图像训练得到的目标检测神经网络在确定待识别图像的三维检测数据时，检测的准确度较低。

或者，也可以通过激光雷达、深度模型等方式确定单目图像的深度信息，再利用深度信息和标注有检测数据的单目图像训练得到目标检测神经网络，由于深度信息的获取较为复杂，使得目标对象的检测过程的也较为复杂，检测时间较长，检测效率低。

为了解决上述问题，本公开实施例提供了一种训练神经网络的方法，通过本公开提出的上述方法训练得到的用于目标检测的神经网络可以高效、精准的得到图像中包括的目标对象的检测数据。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种训练神经网络的方法进行详细介绍。

参见图1所示，为本公开实施例所提供的训练神经网络的方法的流程示意图，该方法包括S101-S103，其中：

S101，获取训练图像样本；

S102，基于训练图像样本，生成至少一个位置图；其中，每个位置图上的任一像素点的像素值，用于表征该任一像素点在训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；

S103，基于训练图像样本和位置图，进行神经网络训练，得到用于目标检测的神经网络。

上述方法中，通过基于训练图像样本生成至少一个位置图，每个位置图上的任一像素点的像素值，用于表征该任一像素点在训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值，即位置图中包含训练图像样本中每个像素点的位置信息，在对神经网络训练时，增加了表征训练图像样本中各像素点对应的位置信息的位置图作为训练内容，使得训练后的神经网络的准确度较高，且位置图的生成较为简单，使得目标检测的耗时较小、效率较高。

下述对S101-S103进行详细说明。

针对S101：

训练图像样本中的每一训练图像中包括标注数据，标注数据可以包括二维检测数据、三维检测数据以及类别。其中，二维检测数据中可以包括二维检测框的长度和宽度、二维检测框的中心点的坐标信息、三维检测框的中心点在二维图像上的投影点的坐标信息(可以根据三维检测框的中心点的坐标信息以及相机参数信息，计算得到)；三维检测数据中可以包括三维检测框的长度、宽度和高度，三维检测框的中心点的坐标信息。类别可以为目标对象的类别，类别可以为汽车、行人、自行车、宠物等。

针对S102和S103：

可以基于训练图像样本，生成训练图像样本对应的至少一个位置图，并基于该训练图像样本和至少一个位置图，对神经网络进行训练，得到训练后的用于目标检测的神经网络。

一种可选实施方式中，位置图可以包括在相机坐标系的宽度方向的第一位置图，和在相机坐标系的深度方向的第二位置图。具体实施时，基于训练图像样本，生成至少一个位置图，可以包括：

一、针对训练图像样本上的每一像素点，基于相机参数信息、设置的在相机坐标系下的高度方向的预设坐标值、以及该像素点在图像坐标系下的坐标值，确定该像素点在相机坐标系下的宽度方向坐标值和深度方向坐标值；

二、基于训练图像样本的各个像素点在相机坐标系下的宽度方向坐标值，生成训练图像样本在相机坐标系的宽度方向的第一位置图，以及基于各个像素点在相机坐标系下的深度方向坐标值，生成训练图像样本在相机坐标系的深度方向的第二位置图。

针对步骤一，针对训练图像样本上的每一像素点，通过下述公式计算得到该像素点在相机坐标系下的宽度方向坐标值和深度方向坐标值：

其中，z′＝z′_3D+K[2,3]；

其中，为设置的在相机坐标系下的高度方向的预设坐标值，该预设坐标值可以为目标对象的平均高度，比如，若目标对象的类别为汽车类别时，则/>可以为0.8米；或者，该预设坐标值可以为随机设置的任一值，比如，/>可以为0.5米、0.6米、1米等。x′_3D为像素点在相机坐标系下的宽度方向坐标值，z′_3D为像素点在相机坐标系下的深度方向坐标值。x′_2D、和y′_2D为像素点在图像坐标系下的坐标值。K为相机参数信息，该相机参数信息可以为3×4的矩阵，即K^-1为4×3的矩阵，K[2,3]为相机参数信息中第二行第三列的元素。

针对步骤二，可以基于训练图像样本的各个像素点在相机坐标系下的宽度方向坐标值，生成第一位置图，即第一位置图中每一像素点的像素值为训练图像样本中对应像素点在相机坐标系下的宽度方向坐标值x′_3D；以及可以基于训练图像样本的各个像素点在相机坐标系下的深度方向坐标值，生成第二位置图，即第二位置图中每一像素点的像素值为训练图像样本中对应像素点在相机坐标系下的深度方向坐标值z′_3D。

上述实施方式中，第一位置图中包含像素点在相机坐标系宽度方向上的位置信息，第二位置图中包含像素点在相机坐标系深度方向上的位置信息，这样，就有了表征各像素点在相机坐标系下宽度方向和深度方向的位置特征的信息，结合这些位置图和训练图像样本进行神经网络训练，可以提升训练得到的神经网络的准确度。

一种可选实施方式中，位置图可以包括在像素坐标系的宽度方向上的第三位置图，和在像素坐标系的高度方向上的第四位置图。进而基于训练图像样本，生成至少一个位置图，可以包括：

基于训练图像样本的各个像素点在像素坐标系的宽度方向的坐标值，生成训练图像样本在像素坐标系的宽度方向上的第三位置图，以及基于训练图像样本的各个像素点在像素坐标系的高度方向的坐标值，生成训练图像样本在像素坐标系的高度方向上的第四位置图。

在像素坐标系中，确定训练图像样本中每个像素点的坐标信息，该坐标信息包括宽度方向的坐标值以及高度方向的坐标值。进而，基于训练图像样本的各个像素点在像素坐标系的宽度方向的坐标值，生成训练图像样本在像素坐标系的宽度方向上的第三位置图，即第三位置图中每个像素点的像素值可以为训练图像样本中对应像素点的宽度方向的坐标值；以及基于训练图像样本的各个像素点在像素坐标系的高度方向的坐标值，生成训练图像样本在像素坐标系的高度方向上的第四位置图，即第四位置图中每个像素点的像素值可以为训练图像样本中对应像素点的高度方向的坐标值。

一种可选实施方式中，在获取训练图像样本之后，还包括：

基于训练图像样本对应的标注数据，生成训练图像样本对应的锚点框分布图；锚点框分布图中包括多个大小相同的网格，每个网格中的像素点具有相同的像素信息，该像素信息用于表征该网格对应的锚点框。

比如，锚点框分布图中网格的数量可以为4个、16个等，网格的数量可以根据实际需要进行设置。

在具体实施时，参见图2所示，基于训练图像样本对应的标注数据，生成训练图像样本对应的锚点框分布图，可以包括：

S201，根据预设的网格数量，将训练图像样本划分为多个网格；

S202，基于标注数据中指示的每个目标对象的三维检测框的中心点在二维平面的投影点的坐标信息，确定每个网格对应的目标对象；

S203，基于标注数据中指示的每个目标对象的三维检测数据以及每个网格对应的目标对象，确定每个网络对应的平均三维检测数据；

S204，基于各个网络对应的平均三维检测数据，生成锚点框分布图。

针对S201，示例性的，比如若网格数量可以为16，则可以将训练图像样本划分为4×4的网格；若网格数量可以为4，则可以将训练图像样本划分为2×2的网格。

针对S202，基于标注数据中指示的每个目标对象的三维检测框的中心点在二维平面的投影点的坐标信息，确定每个目标对象对应的网格，进而可以确定每个网格对应的目标对象。比如，若目标对象A的三维检测框的中心点在二维平面的投影点的坐标信息位于网格A中，则该目标对象A对应网格A。

针对S203，在确定每个网格对应的目标对象之后，可以针对每个网格，将该网格对应的每个目标对象的三维检测数据求平均，得到该网格对应的平均三维检测数据。三维检测数据可以包括三维检测框的长度、宽度、高度、三维检测框的朝向角(可以为三维检测框上的基准面与设置的基准线之间的夹角)、三维检测框的深度信息(可以为三维检测框的中心点在相机坐标系的相机光轴Z上的坐标值)，则平均三维检测数据可以包括平均长度、平均宽度、平均高度、平均朝向角、平均深度信息。

针对S204，可以将平均三维检测数据作为对应网格中每个像素点对应的像素值，生成锚点框分布图。比如，可以将平均三维检测数据中每个数据作为对应网格中每个像素点对应的一个通道的像素值，生成锚点框分布图。在平均三维检测数据中包括平均长度、平均宽度、平均高度、平均朝向角、平均深度信息时，则可以将平均长度作为一个通道的像素值、将平均宽度作为一个通道的像素值、将平均高度作为一个通道的像素值、将平均朝向角作为一个通道的像素值、将平均深度信息作为一个通道的像素值，进而可以基于网格中每个像素点对应的多个通道的像素值，生成锚点框分布图。

上述实施方式中，基于每个网格对应的目标对象的三维检测数据，确定每个网格对应的平均三维检测数据，进而基于各个网格对应的平均三维检测数据，生成了锚点框分布图，使得锚点框分布图中平均三维检测数据的分布满足透视规律，透视规律是指将三维目标对象投影到二维平面时，近处的图像比远处的图像的尺寸大，进而可以使得基于锚点框分布图训练得到的神经网络的准确度较高，且锚点框分布图的生成过程较为简单，在保证神经网络的准确度的同时，保障了神经网络的检测效率。

一种可选实施方式中，基于训练图像样本和位置图，进行神经网络训练，可以包括：

基于训练图像样本、位置图、以及锚点框分布图，进行神经网络训练。

在获取锚点框分布图之后，可以基于训练图像样本、位置图、以及锚点框分布图，对神经网络进行训练，得到训练后的神经网络。

上述实施方式中，锚点框分布图中包括多个网格，每个网格的像素信息可以表征该网格对应的三维检测数据，该三维检测数据可以从尺寸、深度、朝向等多个维度表征图像特征，进而结合该锚点框分布图对神经网络进行训练时，可以提高训练后的神经网络的准确度。

一种可选实施方式中，参见图3所示，基于训练图像样本、位置图、以及锚点框分布图，进行神经网络训练，包括：

S301，分别对训练图像样本、位置图、以及锚点框分布图进行特征提取，得到样本特征图、位置特征图、以及锚点框分布特征图。

S302，基于样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图。

S303，基于融合后的特征图，进行神经网络训练，得到用于目标检测的神经网络。

对S301进行说明，可以分别通过不同的卷积层对训练图像样本、位置图以及锚点框分布图进行特征提取，得到样本特征图、位置特征图以及锚点框分布特征图。在具体实施，可以通过至少一级卷积层，对训练图像样本进行特征提取，得到样本特征图。

在具体实施时，可以根据以下步骤对该位置图进行特征提取：

通过神经网络的不同卷积层分别对位置图进行第一特征提取和第二特征提取，生成第一位置特征图以及第二位置特征图，其中，第一位置特征图表征对样本特征图中特征值的分布进行缩放调整，第二位置特征图表征对样本特征图中特征值的分布进行平移调整。

本公开实施例中，也可以通过神经网络的不同卷积层分别对锚点框分布图进行第一特征提取和第二特征提取，得到第一锚点框分布特征图和第二锚点框分布特征图，第一锚点框分布特征图表征对回归特征图中特征值的分布进行缩放调整，第二锚点框分布特征图表征对回归特征图中特征值的分布进行平移调整。其中，对位置图进行特征提取的卷积层与对锚点框分布图进行特征提取的卷积层不同。

对S302进行说明，在具体实施时，基于样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图，包括：

一、将样本特征图与位置特征图进行特征融合处理，得到中间融合特征图。

二、基于中间融合特征图、以及锚点框分布特征图，得到融合后的特征图。

这里，可以先将样本特征图和位置特征图进行特征融合处理，得到中间融合特征图，再基于中间融合特征图以及锚点框分布特征图，得到融合后的特征图。示例性的，可以基于中间融合特征图，确定用于回归处理的回归特征图；再将锚点框分布特征图和回归特征图进行特征融合处理，得到融合后的特征图。

上述实施方式中，将样本特征图和位置特征图进行特征融合处理，使得得到的中间融合特征图中包含像素点的位置信息和相机参数信息，丰富了中间融合特征图的特征信息，并基于融合特征图以及锚点框分布特征图，得到融合后的特征图，使得融合后的特征图既包含了中间融合特征图中的信息，也包含了锚点框分布特征图中的信息，进一步丰富了融合后的特征图的特征信息，使得基于融合后的特征图对神经网络进行训练后，得到的神经网络的检测准确度较高。

示例性的，将样本特征图与位置特征图进行特征融合处理，得到中间融合特征图，包括：

针对样本特征图中每一通道的子特征图，确定该通道的子特征图对应的特征值均值和特征值方差，并针对该通道的子特征图上的每个特征点，利用特征值均值、特征值方差、以及位置特征图中对应特征点的特征值，对该特征点的特征值进行调整，得到该特征点对应的调整后的特征值；基于该通道上各个调整后的特征值，得到该通道对应的融合后的子特征图；

基于各个通道对应的融合后的子特征图，得到中间融合特征图。

示例性的，可以根据下述公式对样本特征图中每一通道的子特征图上的每个特征点的特征值进行调整：

其中，F_b,c,h,w为样本特征图的每个通道的特征图上每个特征点的特征值，F′_b,c,h,w为对应的特征点的调整后的特征值，μ_c为样本特征图上每个通道的特征图对应的特征值均值，σ_c为样本特征图上每个通道的特征图对应的特征值方差，γ_c,h,w为第一位置特征图上对应通道的特征图上对应特征点的特征值，β_c,h,w为第二位置特征图上对应通道的特征图上对应特征点的特征值。

在得到该特征点对应的调整后的特征值之后，可以基于该通道上各个调整后的特征值，得到该通道对应的融合后的子特征图；并基于各个通道对应的融合后的子特征图，得到中间融合特征图。

其中，锚点框分布特征图和回归特征图的特征融合处理，可参照样本特征图与位置特征图的特征融合处理过程，此处不再赘述。在目标特征图为锚点框分布特征图时，F_b,c,h,w为回归特征图的每个通道的特征图上每个特征点的特征值，F′_b,c,h,w为对应的特征点的调整后的特征值，μ_c为回归特征图上每个通道的特征图对应的特征值均值，σ_c为回归特征图上每个通道的特征图对应的特征值方差，γ_c,h,w为第一锚点框分布特征图上对应通道的特征图上对应特征点的特征值，β_c,h,w为第二锚点框分布特征图上对应通道的特征图上对应特征点的特征值。

上述实施方式中，通过确定每一通道的子特征图对应的特征值均值和特征值方差，利用特征值均值、特征值方差、以及目标特征图中对应特征点的特征值，对每一通道的子特征图上的特征点的特征值进行调整，这种生成目标融合特征图(包括中间融合特征图和融合后的特征图)的方式计算效率较高。

对S303进行说明，具体实施时，基于融合后的特征图，进行神经网络训练，可以包括：

对融合后的特征图进行全卷积处理，得到预测数据中的预测二维检测数据以及预测类别；

对融合后的特征图进行局部卷积处理，得到预测数据中的预测三维检测数据；

基于预测二维检测数据、预测类别、预测三维检测数据，以及训练图像样本对应的标注数据，进行神经网络训练。

可以对融合后的特征图进行全卷积处理，得到预测数据中的预测二维检测数据以及预测类别；以及可以对融合后的特征图进行局部卷积处理，得到预测数据中的预测三维检测数据。示例性的，局部卷积处理过程可以为：将每个通道上位置相同的特征点级联，得到中间特征图。比如，若融合后的特征图的尺寸信息可以为4×4×3(长度×宽度×通道数)，可以将每个通道上长度为0、宽度为0上的特征点级联，得到尺寸为3×1的第一组特征图，将每个通道上长度为0、宽度为1上的特征点级联，得到尺寸为3×1的第二组特征图，基于相同过程，可以得到16组特征图，16组特征图构成了中间特征图。进而可以对中间特征图进行卷积处理，并将卷积处理后的特征图进行拼接stitch处理，得到卷积特征图；再基于卷积特征图，得到预测数据中的预测三维检测数据。其中，局部卷积处理的方式有多种，此处仅为示例性说明。

上述实施方式中，由于融合后的特征图中包含锚点框分布特征图的特征信息(即不同网格内对应不同的平均三维检测数据)，故通过在神经网络中设置对融合后的特征图进行局部卷积处理，可以使得融合后的特征图中，同一通道的特征图上不同位置处的特征点对应不同的卷积操作，使得通过局部卷积处理方式得到的三维检测数据较准确。

一种可选实施方式中，基于预测二维检测数据、预测预测类别、预测三维检测数据，以及训练图像样本对应的标注数据，进行神经网络训练，包括：

确定预测二维检测数据与标注数据中的二维检测数据之间的第一损失信息、预测三维检测数据与标注数据中的三维检测数据之间的第二损失信息、预测类别与标注数据中的类别之间的第三损失信息；

基于第一损失信息、第二损失信息、和第三损失信息，确定目标损失信息；

基于目标损失信息，调整神经网络的网络参数信息。

可以从第一损失信息、第二损失信息、和第三损失信息中选择至少一种损失信息，确定为目标损失。比如，可以将第一损失信息确定为目标损失信息；或者，可以将第一损失信息和第二损失信息确定为目标损失信息；或者，可以将第一损失信息、第二损失信息和第三损失信息确定为目标损失信息。

一种可选实施方式中，该方法还包括：

基于样本特征图，生成训练图像样本对应的预测深度图；

基于标注数据中的深度信息和二维检测数据，确定训练图像样本对应的参考深度图。

这里，可以对样本特征图进行特征提取，得到用于深度预测的特征图，再基于深度预测的特征图，得到训练图像样本对应的预测深度图。示例性的，训练图像样本对应的参考深度图的确定过程可以为：针对训练图像样本中的每张图像，基于该图像中每个目标对象的二维检测数据以及预设的面积比例，确定该图像中的至少一个目标区域，将目标对象的深度信息确定为对应的目标区域中每个像素点的像素值(目标对象的深度信息可以为标注数据中的深度信息)，将除目标区域之外的其他区域中的像素点的像素值设置为预设值，生成了该图像对应的参考深度图。比如，若预设的面积比例为4:1，则可以将二维检测框的中心点作为目标区域的中心，选择二维检测框面积的四分之一的区域，作为该二维检测框对应的目标对象的目标区域，进而可以得到该图像中的至少一个目标区域。

一种可选实施方式中，基于目标损失信息，调整神经网络的网络参数信息，可以包括：

基于预测深度图、和参考深度图，确定训练图像样本对应的第四损失信息，并基于预测深度图与训练图像样本，确定训练图像样本对应的第五损失信息；

基于目标损失信息和第四损失信息、第五损失信息，调整神经网络的网络参数信息。

可以求解参考深度图与预测深度图中每一像素点的差值，得到训练样本对应的第四损失信息。或者，也可以求解参考深度图中目标区域中每一像素点与预测深度图中对应像素点的差值，得到训练样本对应的第四损失信息。

可以通过下述公式，求解第五损失信息：

其中，L_s为第五损失信息，ΔM′(i′,j′)为预测深度图中每一像素点对应的二阶导数，为训练图像样本中每一像素点对应的像素梯度。由第五损失信息计算公式可知，训练图像样本中图像像素梯度较小的位置第五损失信息较大，图像像素梯度较大的位置第五损失信息较小。

可以将第四损失信息、第五损失信息和目标损失信息，返回至神经网络中，对神经网络的网络参数信息进行调整，直至调整后的神经网络满足预设的条件为止，得到用于目标检测的神经网络。

上述实施方式中，神经网络训练时，可以通过样本特征图得到预测深度图，基于预测深度图和参考深度图，确定第四损失信息和第五损失信息，第四损失信息和第五损失信息表征训练图像样本的深度损失信息，通过基于深度损失信息、和目标损失信息，调整神经网络的网络参数信息，可以进一步提升训练得到的神经网络的准确度。

示例性的，用于目标检测的神经网络的网络结构，该神经网络可以包括第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块、相机标定空间标准化模块、以及三维检测框标准化模块。

模型训练时，获取训练图像样本，可以基于相机参数信息以及该训练图像样本生成第一位置图和第二位置图、以及基于训练图像样本生成第三位置图和第四位置图，并可以基于训练图像样本对应的标注数据生成锚点框分布图。

将第一位置图、第二位置图、第三位置图、以及第四位置图输入至相机标定标准化模块中分别进行第一特征提取和第二特征提取，得到第一位置特征图和第二位置特征图。

可以将相机标定标准化模块设置在任一特征提取模块之后，对对应的特征提取模块输出的训练特征图进行融合处理。比如可以将相机标定标准化模块设置在第三特征提取模块之后，具体实施时，训练图像样本输入至第一特征提取模块，得到训练图像样本对应的第一训练特征图，并将第一训练特征图输入至第二特征提取模块中，得到第二训练特征图，在将第二训练特征图输入至第三特征提取模块中，得到第三训练特征图。可以基于第一位置特征图、第二位置特征图和第三训练特征图(即样本特征图)进行特征融合处理，得到中间融合特征图，将中间融合特征图输入至第四特征提取模块中进行特征提取，得到回归特征图。

比如，还可以将相机标定标准化模块设置在每一特征提取模块之后，具体实施时，可以将训练图像样本输入至第一特征提取模块，得到第一训练特征图，可以将第一训练特征图与第一位置特征图、第二位置特征图进行特征融合处理，得到第一中间融合特征图；再将第一中间融合特征图输入至第二特征提取模块中得到第二训练特征图，可以将第二训练特征图与第一位置特征图、第二位置特征图进行特征融合处理，得到第二中间融合特征图；再将第二中间融合特征图输入至第三特征提取模块中得到第三训练特征图，可以将第一位置特征图、第二位置特征图和第三训练特征图进行特征融合处理，得到第三中间融合特征图，将第三中间融合特征图输入至第四特征提取模块中进行特征提取，得到第四训练特征图，可以将第一位置特征图、第二位置特征图和第四训练特征图进行特征融合处理，得到回归特征图。其中，相机标定空间标准化模块的数量以及设置位置，可以根据需要进行确定，此处仅为示例性说明。

可以将锚点框分布图输入至三维检测框标准化模块中分别进行第一特征提取和第二特征提取，得到第一锚点框分布特征图和第二锚点框分布特征图。将回归特征图与第一锚点框分布特征图、第二锚点框分布特征图进行特征融合处理，得到融合后的特征图，进而将融合后的特征图进行全卷积处理，得到训练图像样本对应的预测二维检测数据和预测类别，将融合后的特征图进行局部卷积处理，得到训练图像样本对应的预测三维检测数据。进而，可以基于预测二维检测数据、预测三维检测数据、预测类别、以及标注数据，得到第一损失信息、第二损失信息、第三损失信息。

模型训练时，还可以对目标中间融合特征图或者目标训练特征图进行特征提取，得到用于深度预测的特征图，进而基于用于深度预测的特征体，得到训练图像样本对应的预测深度图，其中，目标中间融合特征图或者目标训练特征图可以为第一特征提取模块、第二特征提取模块、第三特征提取模块、以及第四特征提取模块中，任一特征提取模块得到的特征图。接着，可以基于预测深度图、和参考深度图，确定第四损失信息，并基于预测深度图与训练图像样本，确定第五损失信息。

可以将第一损失信息、第二损失信息、第三损失信息、第四损失信息、第五损失信息之和，确定为目标损失信息，再基于目标损失信息，调整神经网络的网络参数信息，直至训练后的神经网络满足设置的条件为止，得到用于目标检测的神经网络。

基于相同构思，本公开实施例中还提供了一种目标检测方法，该方法包括：

获取待检测图像；

将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用上述实施方式所述的方法训练得到的。

基于相同构思，本公开实施例中还提供了一种行驶控制方法，参见图4所示，该方法包括S401-S403，其中：

S401，获取行驶装置在行驶过程中采集的道路图像；

S402，利用目标检测神经网络对道路图像进行检测，得到道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，目标检测神经网络为利用上述实施例所述的方法训练得到的；

S403，基于道路图像中包括的目标对象的尺寸数据、位置数据和类别，控制行驶装置。

示例性的，行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(AdvancedDriving Assistance System，ADAS)的车辆、或者机器人等。道路图像可以为行驶装置在行驶过程中实时采集到的图像。目标对象可以为道路中可以能出现的任一物体和/或、任一对象。比如，目标对象可以为出现在道路上的动物、行人等，也可以为道路上的其他车辆(包括机动车辆和非机动车辆)等。

其中，尺寸数据和位置数据可以以三维检测框的形式展示，尺寸数据可以是目标对象的三维检测框的长度、宽度和高度，位置数据可以是目标对象的三维检测框的中心点在相机坐标系下的坐标信息，该类别为目标对象的类别。

其中，在控制行驶装置时，可以控制行驶装置加速、减速、转向、制动等，或者可以播放语音提示信息，以提示驾驶员控制行驶装置加速、减速、转向、制动等。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种训练神经网络的装置，参见图5所示，为本公开实施例提供的一种训练神经网络的装置的架构示意图，包括获取模块501、位置图生成模块502、训练模块503、锚点框分布图生成模块504、预测深度图生成模块505、以及参考深度图确定模块506，具体的：

获取模块501，用于获取训练图像样本；

位置图生成模块502，用于基于所述训练图像样本，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；

训练模块503，用于基于所述训练图像样本和所述位置图，进行神经网络训练，得到所述用于目标检测的神经网络。

所述位置图生成模块502，在基于所述训练图像样本，生成至少一个位置图时，用于：

一种可能的实施方式中，获取训练图像样本之后，所述装置还包括：锚点框分布图生成模块504；

所述锚点框分布图生成模块504，用于基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图；所述锚点框分布图中包括多个大小相同的网格，每个网格中的像素点具有相同的像素信息，该像素信息用于表征该网格对应的锚点框；

所述训练模块503，在基于所述训练图像样本和所述位置图，进行神经网络训练时，用于：

一种可能的实施方式中，所述锚点框分布图生成模块504，在基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图时，用于：

一种可能的实施方式中，所述训练模块503，在基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练时，用于：

一种可能的实施方式中，所述训练模块503，在基于所述样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图时，用于：

一种可能的实施方式中，所述训练模块503，在基于所述中间融合特征图、以及锚点框分布特征图，得到所述融合后的特征图时，用于：

一种可能的实施方式中，所述训练模块503，用于根据以下步骤对该位置图进行特征提取：

通过所述神经网络的不同卷积层分别对所述位置图进行第一特征提取和第二特征提取，生成第一位置特征图以及第二位置特征图，其中，所述第一位置特征图表征对样本特征图中特征值的分布进行缩放调整，所述第二位置特征图表征对样本特征图中特征值的分布进行平移调整。

一种可能的实施方式中，所述训练模块503，在将所述样本特征图与所述位置特征图进行特征融合处理，得到中间融合特征图时，用于：

一种可能的实施方式中，所述训练模块503，在基于所述融合后的特征图，进行神经网络训练时，用于：

一种可能的实施方式中，所述训练模块503，在基于所述预测二维检测数据、所述预测预测类别、所述预测三维检测数据，以及所述训练图像样本对应的标注数据，进行神经网络训练时，用于：

一种可能的实施方式中，所述装置还包括：

预测深度图生成模块505，用于基于所述样本特征图，生成所述训练图像样本对应的预测深度图；

参考深度图确定模块506，用于基于所述标注数据中的深度信息和二维检测数据，确定所述训练图像样本对应的参考深度图；

所述训练模块503，在基于所述目标损失信息，调整所述神经网络的网络参数信息时，用于：

基于相同的构思，本公开实施例还提供了一种目标检测装置，包括：

待检测图像获取模块，用于获取待检测图像；

基于相同的构思，本公开实施例还提供了一种行驶控制装置，参见图6所示，为本公开实施例提供的一种行驶控制装置的架构示意图，包括道路图像获取模块601、检测模块602、以及控制模块603，具体的：

道路图像获取模块601，用于获取行驶装置在行驶过程中采集的道路图像；

检测模块602，用于利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，所述目标检测神经网络为利用上述实施例所述的方法训练得到的；

控制模块603，用于基于所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，控制所述行驶装置。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图7所示，为本公开实施例提供的电子设备的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当电子设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

获取训练图像样本；

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图8所示，为本公开实施例提供的电子设备的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

获取行驶装置在行驶过程中采集的道路图像；

利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的检测数据，其中，所述目标检测神经网络为利用上述实施例所述的方法训练得到的；

基于所述道路图像中包括的目标对象的检测数据，控制所述行驶装置。

基于同一技术构思，本公开实施例还提供了另一种电子设备。参照图9所示，为本公开实施例提供的电子设备的结构示意图，包括处理器901、存储器902、和总线903。其中，存储器902用于存储执行指令，包括内存9021和外部存储器9022；这里的内存9021也称内存储器，用于暂时存放处理器901中的运算数据，以及与硬盘等外部存储器9022交换的数据，处理器901通过内存9021与外部存储器9022进行数据交换，当电子设备900运行时，处理器901与存储器902之间通过总线903通信，使得处理器901在执行以下指令：

获取待检测图像；

将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用上述实施例所述的方法训练得到的。

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的训练神经网络的方法的步骤，或执行上述方法实施例中所述的行驶控制方法的步骤，或执行上述方法实施例中所述的目标检测方法的步骤。

本公开实施例所提供的训练神经网络的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的训练神经网络的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例所提供的目标检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的目标检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例所提供的行驶控制方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的行驶控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种训练神经网络的方法，其特征在于，包括：

获取训练图像样本；

基于所述训练图像样本的各个像素点在目标坐标系下的不同坐标方向上的坐标值，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；所述位置图为多个，所述多个位置图对应所述目标坐标系的不同坐标方向，所述目标坐标系包括相机坐标系或者像素坐标系；

基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练，得到所述用于目标检测的神经网络。

2.根据权利要求1所述的方法，其特征在于，所述位置图包括在相机坐标系的宽度方向的第一位置图，和在所述相机坐标系的深度方向的第二位置图；

所述基于所述训练图像样本，生成至少一个位置图，包括：

3.根据权利要求1所述的方法，其特征在于，所述位置图包括在像素坐标系的宽度方向上的第三位置图，和在所述像素坐标系的高度方向上的第四位置图；

所述基于所述训练图像样本，生成至少一个位置图，包括：

4.根据权利要求1所述的方法，其特征在于，基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练，包括：

6.根据权利要求5所述的方法，其特征在于，基于所述样本特征图、位置特征图、以及锚点框分布特征图，进行特征融合处理，得到融合后的特征图，包括：

7.根据权利要求6所述的方法，其特征在于，基于所述中间融合特征图、以及锚点框分布特征图，得到所述融合后的特征图，包括：

8.根据权利要求5所述的方法，其特征在于，根据以下步骤对所述位置图进行特征提取：

9.根据权利要求6所述的方法，其特征在于，将所述样本特征图与所述位置特征图进行特征融合处理，得到中间融合特征图，包括：

10.根据权利要求5-9任一项所述的方法，其特征在于，所述基于所述融合后的特征图，进行神经网络训练，包括：

对所述融合后的特征图进行全卷积处理，得到预测数据中的预测二维检测数据以及预测类别；

11.根据权利要求10所述的方法，其特征在于，基于所述预测二维检测数据、所述预测类别、所述预测三维检测数据，以及所述训练图像样本对应的标注数据，进行神经网络训练，包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.一种目标检测方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用权利要求1至12任一项所述的方法训练得到的。

14.一种行驶控制方法，其特征在于，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，所述目标检测神经网络为利用权利要求1至12任一项所述的方法训练得到的；

15.一种训练神经网络的装置，其特征在于，包括：

获取模块，用于获取训练图像样本；

位置图生成模块，用于基于所述训练图像样本对应的标注数据，生成所述训练图像样本对应的锚点框分布图；所述锚点框分布图中包括多个大小相同的网格，每个网格中的像素点具有相同的像素信息，该像素信息用于表征该网格对应的锚点框；以及基于所述训练图像样本的各个像素点在目标坐标系下的不同坐标方向上的坐标值，生成至少一个位置图；其中，每个所述位置图上的任一像素点的像素值，用于表征该任一像素点在所述训练图像样本上的对应像素点，在一种坐标系下的一个坐标方向上的坐标值；所述位置图为多个，所述多个位置图对应所述目标坐标系的不同坐标方向，所述目标坐标系包括相机坐标系或者像素坐标系；

训练模块，用于基于所述训练图像样本、所述位置图、以及所述锚点框分布图，进行神经网络训练，得到所述用于目标检测的神经网络。

16.一种目标检测装置，其特征在于，包括：

待检测图像获取模块，用于获取待检测图像；

目标对象检测模块，用于将所述待检测图像输入至用于目标检测的神经网络中，确定所述待检测图像中目标对象的三维检测框以及类别，其中，所述用于目标检测的神经网络为利用权利要求1至12任一项所述的方法训练得到的。

17.一种行驶控制装置，其特征在于，包括：

检测模块，用于利用目标检测神经网络对所述道路图像进行检测，得到所述道路图像中包括的目标对象的尺寸数据、位置数据和类别，其中，所述目标检测神经网络为利用权利要求1至12任一项所述的方法训练得到的；

18.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至12任一所述的训练神经网络的方法的步骤，或执行如权利要求13所述的目标检测方法的步骤，或执行如权利要求14所述的行驶控制方法的步骤。

19.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的训练神经网络的方法的步骤，或执行如权利要求13所述的目标检测方法的步骤，或执行如权利要求14所述的行驶控制方法的步骤。