CN110889464A

CN110889464A - 神经网络训练、目标对象的检测方法及装置

Info

Publication number: CN110889464A
Application number: CN201911262136.9A
Authority: CN
Inventors: 丁明宇; 王哲; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-03-17
Anticipated expiration: 2039-12-10
Also published as: CN110889464B

Abstract

本公开提供了一种神经网络训练、目标对象的检测方法及装置，包括：利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图；基于每个深度特征图，确定该深度特征图对应的卷积矩阵；利用神经网络根据各个深度特征图对应的卷积矩阵对样本图像进行特征提取，得到样本图像对应的样本特征图；根据样本特征图确定样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率；基于样本图像的目标对象的标注结果、样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率、以及样本特征图对应的特征向量，调整神经网络的网络参数。

Description

神经网络训练、目标对象的检测方法及装置

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种神经网络训练、目标对象的检测方法、装置、计算机设备及存储介质。

背景技术

目标检测是指识别图像中目标物体位置的技术，其广泛的应用在自动驾驶、人脸识别等领域。相关目标检测技术中，需要借助确定的卷积核对图像进行卷积，提取图像中的特征，然后根据提取的特征，对图像中的目标物体的位置进行识别。然而由于图像中不同目标物体在图像中的尺寸相差可能较大，这种方式在对图像进行卷积时，可能会受到目标物体尺寸大小的影响，如对于较小的目标物体，在对其进行卷积时可能会将该目标物体所在的背景区域一起卷积，进而导致提取的目标物体的特征不准确，从而影响目标物体的位置识别精度。

发明内容

本公开实施例至少提供一种神经网络训练、目标对象的检测方案。

第一方面，本公开实施例提供了一种神经网络训练方法，包括：

利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，所述样本图像中包括目标对象的标注结果；

基于每个深度特征图，确定该深度特征图对应的卷积矩阵；

利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图；

根据所述样本图像对应的样本特征图确定所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率；

基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数。

通过上述方法训练出的神经网络，可以根据由深度图像得到的多个深度特征图确定出多个卷积矩阵，根据各个卷积矩阵对对样本图像进行特征提取，由于不同的卷积矩阵中包含了样本图像中的目标对象的深度信息，因此，根据各个卷积矩阵对对样本图像进行特征提取时会结合样本图像中的目标对象的深度信息进行特征提取，从而降低由于深度信息不同导致的目标对象尺寸的改变对特征提取造成的干扰，进而提高区分样本图像的前景(即目标对象)和样本图像的背景(即非目标对象)的准确性，提高了目标对象的位置识别的精度。

一种可选的实施方式中，所述基于每个深度特征图，确定该深度特征图对应的卷积矩阵，包括：

针对预设的多个偏移矩阵集合中的每个偏移矩阵集合，将该深度特征图的特征矩阵分别与该偏移矩阵集合中的多个偏移矩阵相乘，得到该深度特征图对应的多个偏移特征矩阵；其中，所述偏移矩阵集合中的偏移矩阵用于对该深度特征图进行偏移处理，同一偏移矩阵集合中的不同偏移矩阵对应的偏移处理的方向不同，不同偏移矩阵集合对应的偏移处理的偏移量不同；

基于多个偏移矩阵集合中，每个偏移矩阵集合对应的所述多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵。

一种可选的实施方式中，所述基于多个偏移矩阵集合中，每个偏移矩阵集合对应的所述多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵，包括：

针对每个偏移矩阵集合对应的所述多个偏移特征矩阵中的一个偏移特征矩阵中的每个向量位置，确定所述多个偏移特征矩阵中在该向量位置处的特征向量的平均特征向量，将得到的平均特征向量作为该偏移矩阵集合对应的中间卷积矩阵在该向量位置处的特征向量；

将多个偏移矩阵集合分别对应的所述中间卷积矩阵进行加权相加，得到所述卷积矩阵。

上述实施方式中，通过偏移矩阵集合中的偏移矩阵控制特征图的特征矩阵偏移的方向和偏移量，在将中间卷积矩阵进行加权相加，得到卷积矩阵之后，相当于先控制卷积核的平移，然后再与样本图像相乘，从而实现对于样本图像的特征提取，由此可以区分样本图像中的前景(即目标对象)和背景(即非目标对象)；另外，通过偏移矩阵控制特征图的特征矩阵的偏移量，可以实现对于卷积核大小的控制，由此训练出的网络，可以自适应不同大小的物体，调整卷积核的尺寸。

一种可选的实施方式中，所述利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，包括：

利用所述神经网络对所述深度图像进行N级卷积运算，得到所述深度图像的第N个深度特征图；N为大于或等于1的正整数；

所述基于每个深度特征图，确定该深度特征图对应的卷积矩阵，包括：

基于所述第N个深度特征图，确定所述第N个深度特征图对应的卷积矩阵；

所述利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图，包括：

利用所述神经网络对所述样本图像进行卷积运算，得到所述样本图像对应的初始特征图；

基于所述第N个深度特征图对应的卷积矩阵，对所述样本图像对应的第N个样本特征图进行特征提取，得到所述样本图像对应的第N+1个样本特征图；其中，第N个样本特征图，为基于第N-1个深度特征图对应的卷积矩阵，对第N-1个样本特征图进行特征提取得到的，第1个样本特征图为所述初始特征图。

一种可选的实施方式中，所述基于所述第N个深度特征图对应的卷积矩阵，对所述样本图像对应的第N个样本特征图进行特征提取，得到所述样本图像对应的第N+1个样本特征图，包括：

将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图；

将每一轮调整后的更新样本特征图、以及所述第N个样本特征图在同一通道上的通道值相加，得到目标更新样本特征图；

将所述目标更新样本特征图对应的特征矩阵与所述第N个深度特征图对应的卷积矩阵中对应向量位置上的取值相乘，得到所述样本图像对应的第N+1个样本特征图。

上述实施方式中，通过调整样本特征图在不同通道上的通道值，可以实现同一张样本特征图在不同通道上的信息之间的融合，从而使得样本特征图所包含的特征更加全面。

一种可选的实施方式中，所述将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图，包括：

针对M-T大于或等于1的情况，确定所述第N个样本特征图在第M-T个通道上调整后的通道值，为第M个通道上调整前的通道值；M为小于P的任意正整数，P为第N个样本特征图的通道总数，T为预设通道偏移值；

针对M-T小于1的情况，确定第P-T+1个通道上的通道值，为第M-T+1个通道上调整前的通道值。

一种可选的实施方式中，所述样本特征图中的每一个特征点所对应的样本图像中每一个目标检测区域对应有一个或多个目标对象的存在概率；当同一目标检测区域对应有多个目标对象的存在概率时，所述多个目标对象的存在概率用于表示该目标检测区域存在多个不同的目标对象的概率。

一种可选的实施方式中，所述基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的多个目标检测区域分别对应的样本图像中目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数，包括：

基于所述样本图像的目标对象的标注结果、和所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率，确定该特征点所对应的样本图像中每个目标检测区域对应的目标对象的检测结果的第一损失值；所述目标对象的检测结果用于指示是否存在目标对象；

基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象的定位位置的第二损失值；所述目标对象的定位位置用于指示每个目标检测区域相对目标对象位置的位置偏移量；

基于所述第一损失值和所述第二损失值，调整所述神经网络的网络参数。

在调整神经网络的网络参数时，可以基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量计算多个损失值，由此可以提高神经网络训练的效率。

一种可选的实施方式中，所述基于所述样本图像的目标对象的标注结果、和所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率，确定该特征点所对应的样本图像中每个目标检测区域对应的目标对象的检测结果的第一损失值，包括：

基于所述每一个特征点所对应的样本图像中多个目标检测区域、以及所述样本图像的目标对象的标注结果对应的目标对象的标注区域和目标对象的类别，为每一个所述目标检测区域生成标签，所述标签用于表示所述目标检测区域所包含的目标对象的类别；

针对所述样本特征图中的每一个特征点对应的每一个目标检测区域，将该目标检测区域对应的至少一个预测的目标对象的存在概率中，概率值最大的预测的目标对象的存在概率所对应的目标对象的类别，确定为该目标检测区域对应的预测目标对象的类别；

基于生成的所述标签、以及所述预测目标对象的类别，确定所述第一损失值。

一种可选的实施方式中，所述基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象定位位置的第二损失值，包括：

确定所述每一个特征点对应的样本图像中每一个目标检测区域，与所述样本图像的目标对象的标注结果对应的目标对象的标注区域之间的重叠度；

将对应的所述重叠度符合预设条件的目标检测区域确定为选定目标检测区域，并确定所述选定目标检测区域对应的三维标注区域；

基于所述选定目标检测区域、所述选定目标检测区域对应的三维标注区域、以及所述样本特征图对应的特征矩阵，确定所述第二损失值。

一种可选的实施方式中，所述样本图像的目标对象的标注结果还包括多个包含目标对象的三维标注区域；考虑到样本图像中的目标对象的标注结果中的三维标注区域需要包括样本图像中目标对象的所在的三维区域，因此，样本图像中的目标对象的标注结果的三维标注区域的长宽高可以与目标对象的长宽高成一定比例。

所述选定目标检测区域对应的三维标注区域，为从预先确定的每一个目标检测区域所对应的三维标注区域中选取的。

其中，按照以下步骤确定所述每一个目标检测区域对应的三维标注区域：

针对所述样本图像的每一个三维标注区域，确定包含该三维标注区域在所述样本图像上的投影的二维标注区域；

基于所述神经网络确定所述样本图像的样本特征图，并确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域；

针对每个所述目标检测区域，基于多个所述二维标注区域分别与该目标检测区域之间的重叠度，确定该目标检测区域对应的三维标注区域。

一种可选的实施方式中，基于多个所述二维标注区域分别与该目标检测区域之间的重叠度，确定该目标检测区域对应的三维标注区域，包括：

基于多个所述二维标注区域分别与该目标检测区域之间的重叠度，从多个所述二维标注区域中，选择对应的所述重叠度符合预设条件的至少一个目标二维标注区域；

基于所述至少一个目标二维标注区域分别对应的三维标注区域，确定该目标检测区域对应的三维标注区域。

目标检测区域的种类(如尺寸、形状等)是固定的，基于上述实施方式，可以确定每一个目标检测区域所对应的三维标注区域，在从待检测图像的目标检测区域中筛选出目标对象的存在区域之后，可以根据其对应的三维标注区域，对待检测图像进行标注，从而得到目标对象的三维检测框。

一种可选的实施方式中，根据以下步骤确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域：

以所述样本特征图中的每一个特征点对应的所述样本图像中的像素点为目标检测区域的中心点，根据至少一种预设长宽比、和目标检测区域对应的至少一种尺寸大小，确定所述样本特征图中的每一个特征点对应的多个目标检测区域。

一种可选的实施方式中，每一个特征点对应的目标检测区域的个数等于所述长宽比的个数和所述尺寸大小的数量的乘积。

第二方面，本公开实施例提供了一种目标对象的检测方法，包括：

获取待检测图像、以及所述待检测图像对应的深度图像；

将所述待检测图像对应的深度图像和所述待检测图像输入基于第一方面提供的任一神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

基于所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的待检测图像中目标对象的存在概率、以及所述特征图中每一个特征点所对应的多个目标检测区域之间的重叠度，从所述多个目标检测区域中确定至少一个目标对象的存在区域，其中不同目标对象的存在区域之间的重叠度小于设定阈值；

基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框。

一种可选的实施方式中，所述基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框，包括：

确定所述目标对象的存在区域对应的三维标注区域；

基于所述三维标注区域、以及所述特征图在不同通道上的通道值，确定所述至少一个目标对象的三维检测框。

一种可选的实施方式中，所述待检测图像为道路图像，在确定所述至少一个目标对象的三维检测框之后，所述方法还包括：

基于确定的所述至少一个目标对象的三维检测框，控制采集所述道路图像的智能行驶设备的行驶。

基于上述方式确定出至少一个目标对象的三维检测框时，由于使用了第一方面提供的任意一种神经网络训练方法训练得到的神经网络，因此，可以提高对目标对象定位的精度，从而使得智能行驶设备可以基于确定出的至少一个目标对象的三维检测框，提高避障精度。

第三方面，本公开实施例提供了一种神经网络训练装置，包括：

第一特征提取模块，用于利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，所述样本图像中包括目标对象的标注结果；

卷积矩阵确定模块，用于基于每个深度特征图，确定该深度特征图对应的卷积矩阵；

第二特征提取模块，用于利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图；

存在概率确定模块，用于根据所述样本图像对应的样本特征图确定所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率；

调整模块，用于基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数。

一种可选的实施方式中，所述卷积矩阵确定模块，在基于每个深度特征图，确定该深度特征图对应的卷积矩阵时，用于：

一种可选的实施方式中，所述卷积矩阵确定模块，在基于多个偏移矩阵集合中，每个偏移矩阵集合对应的所述多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵时，用于：

一种可选的实施方式中，所述第一特征提取模块，在利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图时，用于：

所述卷积矩阵确定模块，在基于每个深度特征图，确定该深度特征图对应的卷积矩阵时，用于：

所述第二特征提取模块，在利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图时，用于：

一种可选的实施方式中，所述第二特征提取模块，在基于所述第N个深度特征图对应的卷积矩阵，对所述样本图像对应的第N个样本特征图进行特征提取，得到所述样本图像对应的第N+1个样本特征图时，用于：

将每一轮调整后的更新样本特征图与所述第N个样本特征图在同一通道上的通道值相加，得到目标更新样本特征图；

将所述目标更新样本特征图对应的特征矩阵、以及所述第N个深度特征图对应的卷积矩阵中对应向量位置上的取值相乘，得到所述样本图像对应的第N+1个样本特征图。

一种可选的实施方式中，所述第二特征提取模块，在将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图时，用于：

针对M-T大于或等于1的情况，确定所述第N个样本特征图在第M-T通道上调整后的通道值，为第M通道上调整前的通道值；M为小于P的任意正整数，P为第N个样本特征图的通道总数，T为预设通道偏移值；

针对M-T小于1的情况，确定第P-T+1通道上的通道值，为第M-T+1通道上调整前的通道值。

一种可选的实施方式中，所述调整模块，在基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数时，用于：

基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象的定位位置的第二损失值；所述目标对象的定位位置用于指示每个目标检测区域相对目标对象的位置的位置偏移量；

一种可选的实施方式中，所述调整模块，在基于所述样本图像的目标对象的标注结果、和所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率，确定该特征点所对应的样本图像中每个目标检测区域对应的目标对象的检测结果的第一损失值时，用于：

一种可选的实施方式中，所述调整模块，在基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象的定位位置的第二损失值时，用于：

一种可选的实施方式中，所述样本图像的目标对象的标注结果还包括多个包含目标对象的三维标注区域；所述选定目标检测区域对应的三维标注区域，为从预先确定的每一个目标检测区域所对应的三维标注区域中选取的；

所述装置，还包括：第一确定模块，所述第一确定模块，用于按照以下步骤确定所述每一个目标检测区域对应的三维标注区域：

一种可选的实施方式中，所述装置还包括：第二确定模块，所述第二确定模块用于根据以下步骤确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域：

第四方面，本公开实施例还提供了一种目标对象的检测装置，包括：

图像获取模块，用于获取待检测图像、以及所述待检测图像对应的深度图像；

数据预测模块，用于将所述待检测图像对应的深度图像和所述待检测图像输入基于第一方面或第一方面任一种可能的实施方式中所述的神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

筛选模块，用于基于所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的待检测图像中目标对象的存在概率、以及所述特征图中每一个特征点所对应的多个目标检测区域之间的重叠度，从所述多个目标检测区域中确定至少一个目标对象的存在区域，其中不同目标对象的存在区域之间的重叠度小于设定阈值；

确定模块，用于基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框。

一种可选的实施方式中，所述确定模块，在基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框时，用于：

确定所述目标对象的存在区域对应的三维标注区域；

一种可选的实施方式中，所述待检测图像为道路图像；

所述装置还包括控制模块，所述控制模块，用于在确定所述至少一个目标对象的三维检测框之后，基于确定的所述至少一个目标对象的三维检测框，控制采集所述道路图像的智能行驶设备的行驶。

第五方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤，或执行上述第二方面，或第二方面的可能的实施方式中的步骤。

第六方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤或执行上述第二方面，或第二方面的可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种待检测图像示意图；

图2示出了本公开实施例所提供的一种神经网络训练方法的流程图；

图3示出了本公开实施例所提供的基于卷积矩阵，对初始特征图进行特征提取过程的示意图；

图4示出了本公开实施例所提供的样本图像对应的第N+1个样本特征图确定方法的流程图；

图5示出了本公开实施例所提供的一种目标更新样本特征图确定方法的示意图；

图6示出了本公开实施例所提供的卷积示意图；

图7示出了本公开实施例所提供的一种第一损失值计算方法的流程图；

图8示出了本公开实施例所提供的重叠度计算方法的示意图；

图9示出了本公开实施例所提供的一种第二损失值计算方法的流程图；

图10示出了本公开实施例所提供的一种三维标注区域的旋转角的确定方法的示意图；

图11示出了本公开实施例所提供的一种每个目标检测区域对应的三维标注区域的确定方法的示意图；

图12示出了本公开实施例所提供的一种目标对象的检测方法的流程示意图；

图13示出了本公开实施例所提供的一种神经网络训练装置的架构示意图；

图14示出了本公开实施例所提供的一种目标对象的检测装置的架构示意图；

图15示出了本公开实施例所提供的电子设备1500的结构示意图；

图16示出了本公开实施例所提供的电子设备1600的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，在对图像中的目标物体进行检测时，需要对图像进行卷积处理以提取图像中的特征，然而目前在对图像进行卷积处理时，全部基于同一卷积核进行特征提取，这就导致不同深度的物体在进行特征提取时精度可能不同。例如，待检测图像如图1所示，图1中人和汽车的深度信息不同，人距离图像采集点较近，所以深度较小，汽车距离图像采集点较远，所以深度较大，若基于同一卷积核对图1进行特征提取，若卷积核较小(如卷积核1)，则提取待检测图像的特征的效率较低，若卷积核较大(如卷积核2)，则在对汽车进行卷积时，会将汽车周围的背景区域与汽车一起进行卷积，这就导致无法提取汽车的特征。

在另外一种技术中，还可以先从待检测图像中获取深度信息，然后基于采集待检测图像的相机的参数信息，将获取的深度信息转换为点云数据，再基于点云数据对待检测图像进行检测。然而这种方法，容易受到深度信息的影响，当深度信息精度受到影响时，所有点云数据的位置都会受到影响；且基于点云数据对待检测图像进行检测时，只能区分待检测图像中的前景(即待检测图像中的物体)和背景，而无法区分检测出的物体是否为目标物体。

本公开所提供的方案可以应用于具有计算功能的电子设备中，其中电子设备包括但不限于移动设备、个人计算机、具有计算功能的智能电视等；该电子设备可以配置有图像采集装置，或者电子设备可以外接图像采集装置，其连接方式包括但不仅限于有线连接和/或无线连接。

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

参见图2所示，为本公开实施例提供的神经网络训练方法的流程图，包括以下几个步骤：

S201、利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，所述样本图像中包括目标对象的标注结果。

S202、基于每个深度特征图，确定该深度特征图对应的卷积矩阵。

S203、利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图。

S204、根据所述样本图像对应的样本特征图确定所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率。

S205、基于样本图像的目标对象的标注结果、样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率、以及样本特征图对应的特征向量，调整神经网络的网络参数。

通过上述方法训练出的神经网络，可以基于深度图像对样本图像进行特征提取，因此，提取的特征结合了样本图像的深度信息，从而降低了由于深度信息不同导致的目标对象尺寸的改变对特征提取造成的干扰，进而提高区分样本图像的前景(即目标对象)和样本图像的背景(即非目标对象)的准确性，提高了目标对象的位置识别的精度。

下面是对上述步骤的详细介绍。

针对S201：

样本图像的目标对象的标注结果可以用于表示目标对象在样本图像中的位置，例如可以通过矩形框，对样本图像中的目标对象进行标注。在一种可能的实施方式中，样本图像的目标对象的标注结果可以包括对目标对象存在的区域的标注，以及目标对象的类别的标注，其中，目标对象存在的区域的标注可以包括目标对象在样本图像中所占的像素点的二维标注，以及目标对象所对应的三维标注。具体的标注的方法将在下文中展开介绍，在此暂不展开说明。

在确定样本图像对应的深度图像时，例如可以先提取样本图像中每个像素点的深度信息，然后将提取的深度信息进行可视化处理，得到样本图像对应的深度图像。

其中，所述利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，包括将所述样本图像对应的深度图像进行至少一次卷积运算，得到至少一个深度特征图。

针对S202：

具体实施中，在基于每个深度特征图，确定该深度特征图对应的卷积矩阵时，可以预先设置多个偏移矩阵集合，每个偏移矩阵集合中包括多个偏移矩阵，偏移矩阵用于对深度图像的深度特征图进行偏移处理，同一个偏移矩阵集合中的不同偏移矩阵对应的偏移处理的方向不同，偏移量相同；不同偏移矩阵集合对应的偏移处理的偏移量不同。

其中，不同偏移矩阵集合中的偏移量决定卷积过程中的感受野信息，偏移量越大，感受野信息越多。在卷积过程中，与偏移量相对应的是空洞卷积过程中卷积的间隔。空洞卷积即指每次卷积过程中，并非是与卷积核覆盖下的每一个像素点进行卷积操作，而是每隔预设个像素点，进行一次卷积，从而扩大卷积过程中的感受野，在本方案中，通过偏移矩阵中的偏移量，控制深度图像的深度特征图进行偏移，从而达到与空洞卷积相同的效果。

在确定深度特征图对应的卷积矩阵时，针对预设的多个偏移矩阵集合中的每个偏移矩阵集合，可以将该深度特征图的特征矩阵分别与该偏移矩阵集合中的多个偏移矩阵相乘，得到该深度特征图对应的多个偏移特征矩阵，然后基于多个偏移矩阵集合中，每个偏移矩阵集合对应的多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵。

其中，深度特征图中包括多个特征点，深度特征图的特征矩阵包括有多个特征向量，特征向量与特征点之间一一对应。

在一种可能的实施方式中，所述基于多个偏移矩阵集合中，每个偏移矩阵集合对应的多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵，针对每个偏移矩阵集合对应的多个偏移特征矩阵中的一个偏移特征矩阵中的每个向量位置处，可以确定多个偏移特征矩阵中在该向量位置处的特征向量的平均特征向量，然后将得到的平均特征向量作为该偏移矩阵集合对应的中间卷积矩阵在该向量位置处的特征向量，然后将多个偏移矩阵集合分别对应的中间卷积矩阵进行加权相加，得到卷积矩阵。

其中，在将多个偏移矩阵集合分别对应的中间卷积矩阵进行加权相加时，可以按照各个偏移矩阵集合各自对应的权重参数，分别将偏移矩阵集合对应的中间卷积矩阵在每个向量位置处的特征向量进行加权相加，将加权相加之后的特征向量作为卷积矩阵在该向量位置处的特征向量。

需要说明的是，权重参数为网络参数的一种，其初始值可以随机设置，在神经网络的训练过程中需要不断调整。

示例性的，若某一个偏移特征矩阵集合中包含的偏移特征矩阵为矩阵A₁、A₂、A₃、A₄、A₅、A₆、A₇、A₈、A₉，每个偏移特征矩阵均为M*N*P维的矩阵，则偏移特征矩阵中可以包括M*N个特征向量，每个特征向量为P维的向量，相应的，该偏移特征矩阵对应的深度特征图包括M*N个特征点；在计算某一向量位置处的特征向量的平均特征向量时，可以将矩阵A₁、A₂、A₃、A₄、A₅、A₆、A₇、A₈、A₉在该向量位置处对应的特征向量的各个元素求均值，作为最终确定的平均特征向量在该向量位置处的平均特征向量的元素值。

针对S203：

本申请一种实施方式中，在利用所述神经网络根据各个深度特征图对应的卷积矩阵对样本图像进行特征提取时，可以先将样本图像进行卷积运算，得到样本图像对应的初始特征图，然后基于卷积矩阵，对初始特征图进行特征提取，得到样本图像对应的样本特征图。

示例性的，如图3所示，在基于深度图像，确定用于对样本图像进行特征提取的卷积矩阵时，若深度图像进行了N级卷积运算，可以将深度图像进行N级卷积运算得到的深度特征图确定为第N个深度特征图，然后确定第N个深度特征图对应的卷积矩阵，N为大于1或等于1的正整数。

然后再基于卷积矩阵，对初始特征图进行特征提取时，可以是基于第N个深度特征图对应的卷积矩阵，对样本图像对应的第N个样本特征图进行特征提取，得到样本图像对应的第N+1个样本特征图。

其中，第N个样本特征图，为基于第N-1个深度特征图对应的卷积矩阵，对第N-1个样本特征图进行特征提取得到的，第1个样本特征图为初始特征图。

具体实施中，在基于第N个深度特征图对应的卷积矩阵，对样本图像对应的第N个样本特征图进行特征提取，得到样本图像对应的第N+1个样本特征图时，可以参照如图4所示的方法，包括以下步骤：

S401、将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图。

具体的，针对M-T大于或等于1的情况，可以确定第N个样本特征图在第M-T个通道上调整后的通道值，为第M个通道上调整前的通道值；M为小于P的任意正整数，P为第N个样本特征图的通道总数，T为预设通道偏移值；针对M-T小于1的情况，确定第P-T+1个通道上的通道值，为第M-T+1个通道上调整前的通道值。

S402、将每一轮调整后的更新样本特征图与所述第N个样本特征图在同一通道上的通道值相加，得到目标更新样本特征图。

示例性的，如图5所示，I为第N个样本特征图，该样本特征图有C_n个通道，预设通道偏移值为1，在经过一轮调整之后，得到更新样本特征图I_s ⁽¹⁾，在更新样本特征图I_s ⁽¹⁾中的第一通道上的通道值为样本特征图I的第二通道上的通道值，更新样本特征图I_s ⁽¹⁾中的第二通道上的通道值为样本特征图I的第三通道上的通道值，以此类推，更新样本特征图I_s ⁽¹⁾中的第M-1个通道上的通道值为样本特征图I的第M个通道上的通道值，M为小于C_n的任意正整数，当M-1小于1时，即M＝1时，更新样本特征图I_s ⁽¹⁾中第C_n通道上的通道值为样本特征图I的第一通道上的通道值；同理可以得到在进行第二轮调整之后的更新样本特征图I_s ⁽²⁾在各个通道上的取值，然后将第N个样本特征图I和更新样本特征图I_s ⁽¹⁾和更新样本特征图I_s ⁽¹⁾在同一通道上的通道值相加，得到目标更新样本特征图。

相关技术中，在对样本特征图进行处理时，仅仅是针对同一通道上的通道值进行运算，同一样本特征图的不同通道之间的信息并不互通，基于上述方法，可以实现同一样本特征图的不同通道上的信息之间的信息融合，从而使得样本特征图所包含的特征更加全面。

S403、将所述目标更新样本特征图对应的特征矩阵与所述第N个深度特征图对应的卷积矩阵中对应向量位置上的取值相乘，得到所述样本图像对应的第N+1个样本特征图。

具体实施中，还可以基于如下所述公式，确定样本图像对应的第N+1个样本特征图：

其中，N表示第N个样本特征图的特征矩阵，N'表示第N+1个样本特征图的特征矩阵，d表示偏移矩阵集合的个数，k表示每个偏移矩阵集合中所包含的偏移矩阵的个数，W表示偏移矩阵集合中的偏移量，A^w(N)表示偏移量为W的偏移矩阵集合所对应的权重参数，

表示第N个样本特征图的特征矩阵横向偏移g_i×w，纵向偏移g_j×w之后的偏移特征矩阵，g_i表示横向偏移量，g_j表示纵向偏移量，

表示对应向量位置点乘。

需要说明的是，在基于卷积核对图像进行卷积运算时，是将N*N大小的卷积核与图像中的每个像素点进行相乘，示例性的，如图6所示，X表示图像，F表示卷积核，O表示卷积后的特征图，卷积核需要覆盖在图像上，并与覆盖位置处的取值相乘，得到卷积后的特征。图6中：

O₁₁＝F₁₁X₁₁+F₁₂X₁₂+F₂₁X₂₁+F₂₂X₂₂；

O₁₂＝F₁₁X₁₂+F₁₂X₁₃+F₂₁X₂₃+F₂₂X₂₃；

O₂₁＝F₁₁X₂₁+F₁₂X₂₂+F₂₁X₃₁+F₂₂X₃₂；

O₂₂＝F₁₁X₂₂+F₁₂X₂₃+F₂₁X₃₂+F₂₂X₃₃。

在本方案中，深度图像的特征矩阵与偏移矩阵相乘，相当于图像卷积过程中卷积核的平移过程，每个偏移矩阵集合中所包含的偏移矩阵的个数是相同的，偏移矩阵的个数相当于卷积核的尺寸，因此，偏移矩阵集合中所包含的偏移矩阵的个数可以为N*N，N为正整数。

针对S204：

在一种可能的实施方式中，样本特征图中的每一个特征点所对应的每一个目标检测区域对应有一个或多个目标对象的存在概率；当同一目标检测区域对应有多个目标对象的存在概率时，所述多个目标对象的存在概率用于表示该目标检测区域存在多个不同的目标对象的概率。

示例性的，若目标对象包括行人、汽车、自行车，则样本图像中每一个特征点所对应的每一个目标检测区域对应的目标对象的存在概率分别表示，该目标检测区域中存在人的概率、该目标检测区域存在汽车的概率、以及该目标检测区域中存在自行车的概率。

预测样本特征图中每一个特征点对应于样本图像中的多个像素点，每一个特征点所对应的多个目标检测区域对应于样本图像中多个像素点所在的多个目标检测区域。

具体的，在确定样本特征图中的每一个特征点所对应的多个目标检测区域时，可以以样本特征图中的每一个特征点对应的所述样本图像中的像素点为目标检测区域的中心点，根据至少一种预设长宽比、和目标检测区域对应的至少一种尺寸大小，确定样本特征图中的每一个特征点对应的多个目标检测区域。

其中，每一个特征点对应的目标检测区域的个数等于长宽比的个数和尺寸大小的数量的乘积。

示例性的，若目标检测区域为长方形，预设长宽比分别为1:1、1:0.5、1:1.5三种，目标检测区域的长度所占的像素值分别为50、100、150、200、250、300六种，则对于样本特征图中的每一个特征点，该特征点对应3×6＝18个目标检测区域。

在另外一示例中，目标检测区域对应的尺寸还可以是目标检测区域的宽度所占的像素值、或目标检测区域的面积所占的像素值，具体预设长宽比的个数和目标检测区域对应的尺寸大小可以根据实际情况进行调整，本申请对此并不限定。

目标检测区域用于检测目标对象是否在该区域中，同一目标对象由于深度信息的不同，在不同样本图像中的大小可能不同，因此目标检测区域应该可以覆盖不同样本图像中的不同大小的目标对象。在一种可能的实施方式中，目标检测区域的尺寸还可以根据样本图像中目标对象的尺寸来进行设定。多个样本图像中包含有多个尺寸不同的目标对象，可以根据目标对象在样本图像中的像素点的多少，来确定目标检测区域的尺寸大小。

针对S205：

所述基于样本图像的目标对象的标注结果、样本特征图中的每一个特征点所对应的多个目标检测区域分别对应的目标对象的存在概率、以及样本特征图对应的特征向量，调整神经网络的网络参数，可以先基于样本图像的目标对象的标注结果、和样本特征图中的每一个特征点所对应的多个样本检测区域分别对应的目标对象的存在概率，确定该特征点所对应的每个目标检测区域对应的目标对象的检测结果的第一损失值；所述障物检测结果用于指示是否存在目标对象，以及，

基于样本特征图对应的特征向量，确定样本特征图中的每一个特征点所对应的多个目标检测区域对应的目标对象的定位位置第二损失；所述目标对象的定位位置用于指示每个目标检测区域相对目标对象的位置的位置偏移量。

具体的，在确定特征点所对应的每个目标检测区域对应的目标对象的检测结果的第一损失值时，可以基于如图7所示的方法，包括以下步骤：

S701、基于所述每一个特征点所对应的多个目标检测区域、以及所述样本图像的目标对象的标注结果对应的目标对象的标注区域和目标对象的类别，为每一个所述目标检测区域生成标签，所述标签用于表示所述目标检测区域所包含的目标对象的类别。

在一种可能的实施方式中，在为样本图像添加标注时，可以标注目标对象在样本图像中的位置区域(即目标对象的标注区域)、以及在该区域中所存在的目标对象的类别；在为每一个目标检测区域生成标签时，可以先确定每一个特征点所对应的每一个目标检测区域与目标对象的标注区域之间的重叠度，然后基于确定的重叠度，确定为该目标检测区域生成的标签的类型。

具体的，在确定每一个特征点所对应的每一个目标检测区域与目标对象的标注区域之间的重叠度时，如图8所示，目标检测区域为A区域，目标对象的标注区域为B区域，灰色区域为A区域和B区域重叠的区域，即A∩B，则目标检测区域和目标对象的标注区域之间的重叠度可以通过如下公式进行计算：

其中，p表示A区域和B区域的重叠度。

S702、针对所述样本特征图中的每一个特征点对应的每一个目标检测区域，将该目标检测区域对应的至少一个预测的目标对象的存在概率中，概率值最大的预测的目标对象的存在概率所对应的目标对象的类别，确定为该目标检测区域对应的预测的目标对象的类别。

示例性的，若某个特征点对应的目标检测区域的预测概率为该目标检测区域中存在“人”的概率为20％，该目标检测区域中存在“自行车”的概率为60％，该目标检测区域中存在“汽车”的概率为20％，则为该目标检测区域生成的标签为“自行车”。

S703、基于生成的所述标签、以及所述预测的目标对象的类别，确定所述第一损失值。

在一种可能的实施方式中，可以基于生成的标签、以及目标对象的类别，确定神经网络分类准确的概率，然后基于分类准确的概率，确定第一损失值。

示例性的，可以通过如下公式计算第一损失值：

L_class＝-log(S_t)

其中，L_class表示第一损失值，S_t表示分类准确的概率。

在确定样本特征图中的每一个特征点所对应的多个目标检测区域对应的目标对象的定位位置的第二损失值时，可以参照如图9所示的方法，包括以下几个步骤：

S901、确定所述每一个特征点对应的每一个目标检测区域，与所述样本图像的目标对象的标注结果对应的目标对象的标注区域之间的重叠度。

S902、将对应的所述重叠度符合预设条件的目标检测区域确定为选定目标检测区域，并确定所述选定目标检测区域对应的三维标注区域。

S903、基于所述选定目标检测区域、所述选定目标检测区域对应的三维标注区域、以及所述样本特征图对应的特征矩阵，确定所述第二损失值。

具体的，样本特征图的每一个特征点对应多个目标检测区域，每个特征点在不同通道上的特征值，即每个特征点对应的特征向量，表示该特征点对应的目标检测区域与目标对象所在的区域之间的偏移量，即该特征点对应的目标检测区域需要偏移多少才能包括样本图像中的目标对象。

在一种可能的实施方式中，在确定第二损失值时，可以先通过如下公式计算出偏移后的选定目标检测区域和选定目标检测区域所对应的三维标注区域在样本图像中的位置信息：

[x',y']_2D＝[A_x,A_y]_2D+[t_x,t_y]_2D×[A_w,A_h]_2D

[x',y']_p＝[A_x,A_y]_2D+[t_x,t_y]_p×[A_w,A_h]_2D

[x'^(m),y'^(m)]_p＝[A_x,A_y]_2D+[t_x ^(m),t_y ^(m)]_p×[A_w,A_h]_2D

[w',h']_2D＝[A_w,A_h]_2D×exp([t_w,t_h]_2D)

[w',h',l']_3D＝[A_w,A_h,A_l]_3D×exp([t_w,t_h,t_l]_3D)

[z',z'^(m),α']_3D＝[A_z,A_z,A_α]_3D+[t_z,t_z,t_α]_3D

其中，[A_x,A_y]_2D表示选定目标检测区域的中心的坐标，[A_w,A_h]_2D表示选定目标检测区域的长度和宽度，[t_x,t_y]_2D表示预测出的目标检测区域的中心坐标的偏移值，[x',y']_2D表示偏移后的选定目标检测区域的中心的坐标(即偏移后的[A_x,A_y]_2D)；

[t_x,t_y]_p表示预测的选定目标检测区域对应的三维标注区域在样本图像上的投影的二维标注区域的中心坐标的偏移值；[x',y']_p表示偏移后的二维标注区域的中心的坐标；

选定目标检测区域为矩形，其对应的三维标注区域为长方体，m取1～8中的任意值，[t_x ^(m),t_y ^(m)]_p表示预测的选定目标检测区域对应的三维标注区域的顶点在样本图像上的投影的坐标的偏移值，[x'^(m),y'^(m)]_p表示顶点在样本图像上的投影偏移后的坐标；

[t_w,t_h]表示预测的选定目标检测区域的长和宽的调整值，[w',h']_2D表示调整后的选定目标检测区域的长和宽；

[A_w,A_h,A_l]_3D表示目标检测区域对应的三维标注区域的长宽高，[t_w,t_h,t_l]_3D表示预测的目标检测区域对应的三维标注区域的长宽高的调整值，[w',h',l']_3D表示调整后的目标检测区域对应的三维标注区域的长宽高(即调整后的[A_w,A_h,A_l]_3D)；

[A_z,A_z,A_α]_3D中A_z表示目标检测区域对应的三维标注区域的中心点的深度，A_α表示目标检测区域的三维标注区域的旋转角，t_z表示预测的需要调整的目标检测区域对应的三维标注区域的中心点的深度，t_α表示预测的需要调整的目标检测区域的三维标注区域的旋转角，z'表示调整后的目标检测区域对应的三维标注区域的中心点的深度(即调整后的A_z)，z'^(m)表示调整后的目标检测区域对应的三维标注区域的顶点的深度，α'表示调整后的目标检测区域的三维标注区域的旋转角。

其中，三维标注区域的旋转角表示三维标注区域与视线角度之间的偏差，示例性的如图10所示，在图10中坐标原点的位置为相机所在位置，矩形框表示目标对象的位置，对于目标对象car1来说，其旋转角度为其摆放位置的朝向与水平方向的夹角γ与相机拍摄图片时拍摄角度之间的差值。

需要说明的是，上述公式中，所有预测值均为样本特征图的特征点对应的特征向量的元素。

在计算出偏移后的选定目标检测区域和选定目标检测区域所对应的三维标注区域在样本图像中的位置信息之后，可以根据以下公式计算第二损失值：

L_2D＝SmoothL1([x',y',w',h']_2D,[x,y,w,h]_2D)

L_3D＝SmoothL1([w',h',l',z',α']_3D,[w,h,l,z,α]_3D)+SmoothL1([x',y']_p,[x,y]_p)

其中，第二损失值包括L_2D、L_3D、以及L_corner，L_2D表示调整后的选定目标检测区域与样本图像的目标对象的标注结果对应的目标对象的标注区域之间的损失值；L_3D表示调整后的三维标注区域与目标对象的标注结果中的三维标注区域之间的损失值；L_corner表示调整后的三维标注区域的顶点在样本图像上的投影，与目标对象的标注结果中的三维标注区域的顶点之间的损失，以及，调整后的三维标注区域的顶点的深度信息，与目标对象的标注结果中的三维标注区域的顶点的深度信息之间的损失。

在基于第一损失值和第二损失值，调整神经网络的网络参数时，可以先基于第一损失值和第二损失值，确定本次训练过程中总损失，然后基于确定出的总损失，调整神经网络的网络参数。

具体的，在基于第一损失值和第二损失值，确定本次训练过程中的总损失时，可以基于下述公式进行计算：

L＝(1-S_t)^γ(L_class+L_2D+L_3D+L_corner)

其中，上标^γ为预设固定参数。

在一种可能的实施方式中，样本图像的目标对象的标注结果还包括多个包含目标对象的三维标注区域；选定目标检测区域对应的三维标注区域，为从预先确定的每一个目标检测区域所对应的三维标注区域中选取的。

在计算第一损失值和第二损失值之前，还可以先确定每个目标检测区域对应的三维标注区域。

其中，在确定每个目标检测区域对应的三维标注区域时，可以参照如图11所述的方法，包括以下几个步骤：

S1101、针对所述样本图像的每一个三维标注区域，确定包含该三维标注区域在所述样本图像上的投影的二维标注区域。

具体在确定包含三维标注区域在样本图像上的投影的二维标注区域时，可以先将三维标注区域的顶点和三维标注区域的中心点投影到样本图像上，然后确定能够包括三维标注区域的顶点和三维标注区域的中心点投影到样本图像上的点的最小的二维矩形框，并将确定出的二维矩形框所包含的区域确定为包含该三维标注区域在所述样本图像上的投影的二维标注区域。

其中，在将三维标注区域的顶点和三维标注区域的中心点投影到样本图像上时，可以通过如下公式确定投影到样本图像上的点的坐标：

其中，

表示投影到样本图像上之后点的坐标，

表示三维标注区域待投影的点的坐标及深度信息，Z_3D表示三维标注区域待投影的点的深度信息，k表示相机内参。

S1102、基于所述神经网络确定所述样本图像的样本特征图，并确定所述样本特征图中的每一个特征点所对应的多个目标检测区域。

S1103、针对每个所述目标检测区域，基于多个所述二维标注区域分别与该目标检测区域之间的重叠度，确定该目标检测区域对应的三维标注区域。

具体的，可以基于多个二维标注区域分别与该目标检测区域之间的重叠度，从多个所述二维标注区域中，选择对应的所述重叠度符合预设条件的至少一个目标二维标注区域(例如预设条件可以为重叠度大于预设阈值)；基于所述至少一个目标二维标注区域分别对应的三维标注区域，确定该目标检测区域对应的三维标注区域。

本公开实施例还提供了一种目标对象的检测方法，参见图12所示，为本公开实施例所提供的一种目标对象的检测方法的流程示意图，包括以下步骤：

S1201、获取待检测图像、以及所述待检测图像对应的深度图像。

S1202、将所述待检测图像对应的深度图像和所述待检测图像输入基于上述神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率。

S1203、基于所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的待检测图像中目标对象的存在概率、以及所述特征图中每一个特征点所对应的多个目标检测区域之间的重叠度，从所述多个目标检测区域中确定至少一个目标对象的存在区域，其中不同目标对象的存在区域之间的重叠度小于设定阈值。

在一种可能的实施方式中，若两个目标检测区域之间重叠度较高，则两个目标检测区域检测到的目标对象的可能为同一个目标对象的，因此可以基于目标检测区域分别对应的目标对象的存在概率、以及不同目标检测区域之间的重叠度，对目标检测区域进行筛选。

具体实施中，在从多个目标检测区域中确定至少一个障碍区存在区域的方法例如可以采用非极大值抑制(Non Maximum Suppression，NMS)方法，对此本申请将不再展开介绍。

S1204、基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框。

待检测图像对应的特征图中，每个特征点在不同通道上的通道值对应于该特征点对应的目标检测区域、以及目标检测区域对应的三维标注区域的偏移量，在确定出至少一个目标对象的存在区域之后，可以先确定目标对象的存在区域对应的三维标注区域，然后基于该目标对象的存在区域对应的特征点在不同通道上的通道值，调整三维标注区域的位置，从而确定至少一个目标对象的三维检测框。

本申请实施例提供的目标对象的检测方法可以应用于安防、道路图像监控等场景中，从而对安防监控场景中的人或者物体进行识别，确定出行为异常的人或者异常的物体。

在一种可能的应用场景中，所述待检测图像为道路图像；在确定至少一个目标对象的三维检测框之后，还可以基于确定的至少一个目标对象的三维检测框，控制采集道路图像的智能行驶设备的行驶。

其中，所述采集道路图像的智能行驶设备可以包括但不仅限于自动驾驶车辆、智能机器人等，目标对象可以是道路图像中的任意的人或者物体，通过确定至少一个目标对象的三维检测框，可以控制智能行驶设备加速、减速、刹车、转向等。

基于本方案所提供的方法，可以提高至少一个目标对象的三维检测框的定位精度，因此，在本方案应用于智能行驶设备中时，在确定目标对象(即障碍物)的位置时，更加精准，因此可以提高智能行驶设备的避障的精度。

本方案所提供的方法，还可以应用于安装有高级驾驶辅助系统(AdvancedDriving Assistant System，ADAS)的车辆，通过确定至少一个目标对象的三维检测框，可以结合当前驾驶状态(如车速、行驶位置等)，播放辅助驾驶语音，以提醒驾驶员进行避障，提高驾驶安全性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与神经网络训练方法对应的神经网络训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图13所示，为本公开提供的一种神经网络训练装置的架构示意图，所述装置包括：第一特征提取模块1301、卷积矩阵确定模块1302、第二特征提取模块1303、存在概率确定模块1304、调整模块1305、第一确定模块1306、以及第二确定模块1307，具体的：

第一特征提取模块1301，用于利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，所述样本图像中包括目标对象的标注结果；

卷积矩阵确定模块1302，用于基于每个深度特征图，确定该深度特征图对应的卷积矩阵；

第二特征提取模块1303，用于利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图；

存在概率确定模块1304，用于根据所述样本图像对应的样本特征图确定所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率；

调整模块1305，用于基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中的多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数。

一种可选的实施方式中，所述卷积矩阵确定模块1302，在基于每个深度特征图，确定该深度特征图对应的卷积矩阵时，用于：

一种可选的实施方式中，所述卷积矩阵确定模块1302，在基于多个偏移矩阵集合中，每个偏移矩阵集合对应的所述多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵时，用于：

针对每个偏移矩阵集合对应的所述多个偏移特征矩阵中的一个偏移特征矩阵中的每个向量位置，确定所述多个偏移特征矩阵中在该向量位置处的特征向量的平均特征向量，将得到的平均特征向量作为该偏移矩阵集合对应的中间卷积矩阵在该向量位置处的特征向量；将多个偏移矩阵集合分别对应的所述中间卷积矩阵进行加权相加，得到所述卷积矩阵。

一种可选的实施方式中，所述第一特征提取模块1301，在利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图时，用于：

所述卷积矩阵确定模块1302，在基于每个深度特征图，确定该深度特征图对应的卷积矩阵时，用于：

所述第二特征提取模块1303，在利用所述神经网络根据各个深度特征图对应的卷积矩阵对所述样本图像进行特征提取，得到所述样本图像对应的样本特征图时，用于：

一种可选的实施方式中，所述第二特征提取模块1303，在基于所述第N个深度特征图对应的卷积矩阵，对所述样本图像对应的第N个样本特征图进行特征提取，得到所述样本图像对应的第N+1个样本特征图时，用于：

一种可选的实施方式中，所述第二特征提取模块1303，在将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图时，用于：

一种可选的实施方式中，所述调整模块1305，在基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数时，用于：

一种可选的实施方式中，所述调整模块1305，在基于所述样本图像的目标对象的标注结果、和所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率，确定该特征点所对应的样本图像中每个目标检测区域对应的目标对象的检测结果的第一损失值时，用于：

一种可选的实施方式中，所述调整模块1305，在基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象的定位位置的第二损失值时，用于：

所述装置，还包括：第一确定模块1306，所述第一确定模块1306，用于按照以下步骤确定所述每一个目标检测区域对应的三维标注区域：

一种可选的实施方式中，所述装置还包括：第二确定模块1307，所述第二确定模块1307，用于根据以下步骤确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域：

基于同一发明构思，本公开实施例中还提供了与目标对象的检测方法对应的目标对象的检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述目标对象的检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参加图14所示，为本公开所提供的一种目标对象的检测装置的架构示意图，包括图像获取模块1401、数据预测模块1402、筛选模块1403、确定模块1404、以及控制模块1405，具体的：

图像获取模块1401，用于获取待检测图像、以及所述待检测图像对应的深度图像；

数据预测模块1402，用于将所述待检测图像对应的深度图像和所述待检测图像输入基于第一方面或第一方面任一种可能的实施方式中所述的神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

筛选模块1403，用于基于所述特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的样本图像中目标对象的存在概率、以及所述特征图中每一个特征点所对应的多个目标检测区域之间的重叠度，从所述多个目标检测区域中确定至少一个目标对象的存在区域，其中不同目标对象的存在区域之间的重叠度小于设定阈值；

确定模块1404，用于基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框。

一种可选的实施方式中，所述确定模块1404，在基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框时，用于：

确定所述目标对象的存在区域对应的三维标注区域；

一种可选的实施方式中，所述待检测图像为道路图像；

所述装置还包括控制模块，所述控制模块1405，用于在确定所述至少一个目标对象的三维检测框之后，基于确定的所述至少一个目标对象的三维检测框，控制采集所述道路图像的智能行驶设备的行驶。

基于同一技术构思，本申请实施例还提供了一种电子设备。参照图15所示，为本申请实施例提供的电子设备1500的结构示意图，包括处理器1501、存储器1502、和总线1503。其中，存储器1502用于存储执行指令，包括内存15021和外部存储器15022；这里的内存15021也称内存储器，用于暂时存放处理器1501中的运算数据，以及与硬盘等外部存储器15022交换的数据，处理器1501通过内存15021与外部存储器15022进行数据交换，当电子设备1500运行时，处理器1501与存储器1502之间通过总线1503通信，使得处理器1501在执行以下指令：

基于每个深度特征图，确定该深度特征图对应的卷积矩阵；

基于同一技术构思，本申请实施例还提供了一种电子设备。参照图16所示，为本申请实施例提供的电子设备1600的结构示意图，包括处理器1601、存储器1602、和总线1603。其中，存储器1602用于存储执行指令，包括内存16021和外部存储器16022；这里的内存16021也称内存储器，用于暂时存放处理器1601中的运算数据，以及与硬盘等外部存储器16022交换的数据，处理器1601通过内存16021与外部存储器16022进行数据交换，当电子设备1600运行时，处理器1601与存储器1602之间通过总线1603通信，使得处理器1601在执行以下指令：

获取待检测图像、以及所述待检测图像对应的深度图像；

将所述待检测图像对应的深度图像和所述待检测图像输入基于本申请实施例提供的任一神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络训练、目标对象的检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的神经网络训练、目标对象的检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的神经网络训练、目标对象的检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，包括：

基于每个深度特征图，确定该深度特征图对应的卷积矩阵；

2.根据权利要求1所述的方法，其特征在于，所述基于每个深度特征图，确定该深度特征图对应的卷积矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于多个偏移矩阵集合中，每个偏移矩阵集合对应的所述多个偏移特征矩阵，确定该深度特征图对应的卷积矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用待训练的神经网络对样本图像对应的深度图像进行特征提取，得到至少一个深度特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第N个深度特征图对应的卷积矩阵，对所述样本图像对应的第N个样本特征图进行特征提取，得到所述样本图像对应的第N+1个样本特征图，包括：

6.根据权利要求5所述的方法，其特征在于，所述将第N个样本特征图在不同通道上的通道值进行至少一轮调整，得到每一轮调整后的更新样本特征图，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述样本图像的目标对象的标注结果、所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率、以及所述样本特征图对应的特征向量，调整所述神经网络的网络参数，包括：

基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象定位位置的第二损失值；所述目标对象定位位置用于指示每个目标检测区域相对目标对象位置的位置偏移量；

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本图像的目标对象的标注结果、和所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域分别对应的目标对象的存在概率，确定该特征点所对应的样本图像中每个目标检测区域对应的目标对象的检测结果的第一损失值，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述样本特征图对应的特征向量、确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域对应的目标对象定位位置的第二损失值，包括：

10.根据权利要求9所述的方法，其特征在于，所述样本图像的目标对象的标注结果还包括多个包含目标对象的三维标注区域；所述选定目标检测区域对应的三维标注区域，为从预先确定的每一个目标检测区域所对应的三维标注区域中选取的；

11.根据权利要求10所述的方法，其特征在于，所述基于多个所述二维标注区域分别与该目标检测区域之间的重叠度，确定该目标检测区域对应的三维标注区域，包括：

12.根据权利要求1所述的方法，其特征在于，根据以下步骤确定所述样本特征图中的每一个特征点所对应的样本图像中多个目标检测区域：

13.一种目标对象的检测方法，其特征在于，包括：

获取待检测图像、以及所述待检测图像对应的深度图像；

将所述待检测图像对应的深度图像和所述待检测图像输入基于权利要求1～12任一所述的神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

14.根据权利要求13所述的方法，其特征在于，所述基于确定出的至少一个目标对象的存在区域、以及所述待检测图像对应的特征图，确定所述至少一个目标对象的三维检测框，包括：

确定所述目标对象的存在区域对应的三维标注区域；

15.根据权利要求13或14所述的方法，其特征在于，所述待检测图像为道路图像，在确定所述至少一个目标对象的三维检测框之后，所述方法还包括：

16.一种神经网络训练装置，其特征在于，包括：

17.一种目标对象的检测装置，其特征在于，包括：

数据预测模块，用于将所述待检测图像对应的深度图像和所述待检测图像输入基于权利要求1～12任一所述的神经网络训练方法训练的神经网络中，经所述神经网络处理得到所述待检测图像对应的特征图，以及所述特征图中的每一个特征点所对应的待检测图像中多个目标检测区域分别对应的目标对象的存在概率；

18.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至12任一所述的神经网络训练方法的步骤，或执行如权利要求13至15任一所述的目标对象的检测方法的步骤。

19.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的神经网络训练方法的步骤，或执行如权利要求13至15任一所述的目标对象的检测方法的步骤。