CN113284221B

CN113284221B - 一种目标物检测方法、装置及电子设备

Info

Publication number: CN113284221B
Application number: CN202110535339.1A
Authority: CN
Inventors: 梁晶晶; 唐勇; 邢昊桐
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-04-19
Anticipated expiration: 2041-05-17
Also published as: CN113284221A

Abstract

本发明提供一种目标物检测方法、装置及电子设备，属于图像处理技术，所述目标物检测方法包括：利用卷积神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取；构建平面扫描体来学习像素关系并估计深度信息；将平面扫描体转换为3D几何体，从3D几何体中提取用于目标识别的第二高阶特征；对卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络；利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。本发明通过在平面扫描体中建立立体对应约束，从2D特征转换到具有3D几何特征的3D几何体，提高了双目获取深度信息的精度，对目标物检测的精确度更高，并且将多种神经网络进行整合，提高了目标物检测的效率。

Description

一种目标物检测方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标物检测方法、装置及电子设备。

背景技术

物体检测是指利用计算机技术检测与识别出图像或视频中感兴趣目标(如车辆、行人、障碍物等)的类别与位置信息，是计算机视觉领域中重要研究领域之一。随着深度学习技术的不断完善与发展，基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用场景，例如：无人驾驶、辅助驾驶、人脸识别、无人安防、人机交互、行为识别等相关领域中。

然而，现有的目标检测方法通常在保证检测精度时却无法满足较好的检测效率，或是在实现高效检测时无法确保检测的精度以及目标物特征的损失度。

发明内容

有鉴于此，本发明提供一种目标物检测方法、装置及电子设备，用于解决目前的目标检测方法无法同时兼顾检测精度和检测效率的问题。

为解决上述技术问题，第一方面，本发明提供一种目标物检测方法，包括：

利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取；

构建平面扫描体来学习像素关系并估计深度信息；

将所述平面扫描体转换为3D几何体，利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征；

利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络；

利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。

可选的，所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。

可选的，所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络包括：

利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，使得训练得到的卷积神经网络的总损失值小于预设损失阈值，所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。

可选的，所述第一子神经网络为孪生神经网络。

可选的，所述将所述平面扫描体转换为3D几何体包括：

通过可导扭曲操作，将所述平面扫描体转换为3D几何体。

第二方面，本发明还提供一种目标检测装置，包括：

第一提取模块，用于利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取；

平面扫描体模块，用于构建平面扫描体来学习像素关系并估计深度信息；

第二提取模块，用于将所述平面扫描体转换为3D几何体，利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征；

训练模块，用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络；

检测模块，用于利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。

可选的，所述训练模块包括：

训练单元，用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，使得训练得到的卷积神经网络的总损失值小于预设损失阈值，所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。

可选的，所述第一子神经网络为孪生神经网络。

可选的，所述第二提取模块包括：

转换单元，用于通过可导扭曲操作，将所述平面扫描体转换为3D几何体。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述任一种目标物检测方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种目标物检测方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例中，通过在平面扫描体中建立立体对应约束，从2D特征转换到具有3D几何特征的3D几何体，提高了双目获取深度信息的精度，对目标物检测的精确度更高，并且将多种神经网络进行整合，提高了目标物检测的效率。

附图说明

图1为本发明实施例一提供的一种目标物检测方法的流程示意图；

图2为本发明实施例二提供的一种目标物检测装置的结构示意图；

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一提供的一种目标物检测方法的流程示意图，该方法包括以下步骤：

步骤11：利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取。

本发明实施例中，将双目图像对输入卷积神经网络中，利用卷积神经网络中的第一子神经网络提取双目图像对中的像素特征和第一高阶特征。可选的，所述第一子神经网络可以选用孪生神经网络(Siamese neural network)，孪生神经网络有两个结构相同、且共享权值的子网络，在孪生神经网络中采用的损失函数是对比损失(contrastive loss)，对比损失函数可以有效处理孪生神经网络中的配对数据的关系，对比损失的表达式如下：

其中，

代表两个样本特征X₁和X₂的欧式距离，P表示样本特征维数，Y为两个样本是否匹配的标签，Y＝1表示两个样本相似或匹配，Y＝1表示两个样本不匹配，m为设定阈值，N为样本个数，w表示网络模型的参数，D_W表示将输入的特征数据X转换为一组特征向量，L表示损失函数。

本发明实施例中的孪生神经网络利用的上述损失函数能够很好地表达成对样本的匹配程度，训练得到提取特征效果较好的网络模型。

其中，当Y＝1时，损失函数为：

即当样本相似时，如果在特征空间的欧式距离比较大，说明当前网络模型不好，因此加大损失；

当Y＝0时，损失函数为：

即当样本不相似时，其特征空间的欧氏距离反而变小，损失值会变大，正好符合要求。

步骤12：构建平面扫描体来学习像素关系并估计深度信息。

在双目立体匹配中，双目图像对(一对左右图像)可以用来构造基于视差的匹配代价体，它计算了双目图像对的像素点在水平方向上的位移是视差的匹配代价。根据基于匹配代价体的立体匹配方法，连接双目图像对特征构建平面扫描体(Plane-Sweep Volume)，其坐标可以表示为(u，v，d)，其中，(u，v) 表示图像上该点的像素点，d表示垂直于图像平面的深度信息，该坐标可以称之为相机坐标系下的坐标。平面扫描体能够学习像素间的相关性约束，因此利用平面扫描体来学习逐像素的对应关系，估计深度信息，可以容易地约束像素相关的一致性。

步骤13：将所述平面扫描体转换为3D几何体，利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征。

本发明实施例中，可选的，可以通过可导的扭曲(warping)操作，将上述的平面扫描体转换为3D几何体，即3DGV(3D Geometric Volume)，从而构建3D世界坐标系的3D几何特征。3D几何体可以看做是3D世界坐标系的3D体素网格，可以将3D几何体中的感兴趣区域按照大小为高、宽、深度 (W，H，D)的3D体素进行分割，所述高、宽、深度分别为沿摄像机视角的左方，下方和前方。由于前述步骤已经得到照相机坐标(u，v，d)，因此，根据已知的相机内参，利用反相3D投影，转换到世界坐标系(x，y，z)，具体公式如下：

其中，f_x、f_y分别为水平和垂直的焦距长度，c_u、c_v为相机位姿参数。

在得到3D几何体后，利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征。可选的，所述第二子神经网络可以由金字塔立体匹配网络(Pyramid Stereo Matching Network，PSMNet)中的SPP 模块连接预设数量的输出层构成。现有的一个PSMNet主要由两个模块组成： SPP模块(Spatial Pyramid Pooling，SPP)和3D卷积神经网络，其中，SPP模块通过聚合不同尺度和不同位置的环境信息构建匹配代价卷来充分利用全局环境信息，3D卷积神经网络则通过将多个堆叠的沙漏网络(hourglassnetwork) 与中间监督(intermediate supervision，使网络不断重复自底向上和自顶向下的过程，相当于每层网络特征之间的连接与监督)结合起来，去调整匹配代价卷。 PSMNet可以将像素级别的特征拓展到包括不同尺度感受野的区域级别的特征，将全局和局部特征信息结合起来构成匹配代价卷以获得更加可靠的视差估计值。SPP模块用于获取特征，通过结合不同级别的特征有助于立体匹配。在现有的PSMNet中，SPP模块通常连接三个输出层(第一至第三输出层)，而本发明实施例中，通过对PSMNet进行改进，将SPP模块连接多于3个的输出层，例如额外连接两个输出层(第四输出层和第五输出层)，用于捕获更多的第二高阶特征，以提高匹配精度和检测精度，使得最终训练得到的卷积神经网络对目标物的检测更加准确。例如，将更多的计算从第三输出层转换到第四输出层和第五输出层。

步骤14：利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络。

在得到所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征之后，即可对卷积神经网络进行目标物检测训练。具体的，根据3D几何体中的特征图的大小，对高度信息进行下采样，得到用于鸟瞰视角的特征图，对于特征图中的每一个位置(x，z)，提供多种不同大小和方向的锚(1,2,3,…,i)，用A表示锚的位置、大小和方向，用G表示真实框的位置、大小和方向，则锚与真实框之间的距离为：

其中，

表示第i个锚的x坐标，

表示第i个锚对应的真实框的x坐标，

表示第i个锚的z坐标，

表示第i个锚对应的真实框的z坐标。

为了平衡正负样本的比例，则中心值的计算公式如下：

centerness(A，G)＝e^{-norm(distance(A,G))}，

其中，norm为范数。

由于本发明实施例中的卷积神经网络整合了多种神经网络的功能，因此，本发明实施例仅用一个卷积神经网络即可实现特征提取和目标物检测，卷积神经网络是一个端到端的网络，不需要多个独立网络，其过程是可导的，不容易造成数据的流失与失真，极大提高了目标物识别检测的效率，达到了实时检测的效果。

而由于本发明实施例中的卷积神经网络需要进行多种任务、例如特征提取、目标检测等等，因此卷积神经网络的训练过程是一个多任务训练过程，因此，可选的，在本发明的一些实施例中，所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络包括：

也就是说，通过利用损失函数来约束卷积神经网络，使训练得到的卷积神经网络的总损失值小于预设损失阈值，以确保训练得到的卷积神经网络在特征提取、目标检测等过程的高效准确。其中，卷积神经网络的总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者，可以知道，考虑的损失约全面，一般训练得到的卷积神经网络的效果也就越好。

示例性的，总损失值可以通过以下公式计算：

LOSS＝L_depth+L_cls+L_reg+L_centerness,

其中，L_depth表示深度回归损失，引入smooth损失，采用L₁loss，则深度回归损失可以通过以下公式计算：

其中，i∈0,1,2,3，…，N_D，N_D为真实框深度的像素点数量，d_i表示第i 个像素点的预测深度值，

表示第i个像素点的真实深度值，；

其中，L_cls表示分类损失，本发明实施例采用焦点损失改善3D空间中分类不平衡的问题，分类损失可以通过以下公式计算：

其中，N_pos表示正样本数量，

表示锚的类别识别概率，

表示真实框的类别识别概率，A_(x,z)表示坐标为(x,z)的锚，G_(x,z)表示坐标为(x,z)的真实框；

其中，

表示3D边框回归损失，同样引入smooth损失，采用L₁loss， 3D边框回归损失可以通过以下公式计算：

其中，F_pos表示鸟瞰图中所有的正样本。

由此，通过以上步骤，训练得到(3D)卷积神经网络的总损失值小于预设损失阈值后，即表明该卷积神经网络可以用于对目标物进行高效、准确的检测。

步骤15：利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。

也就是说，在卷积神经网络满足预设条件后，即表明卷积神经网络的训练已经完成，将目标图像输入到训练好的卷积神经网络中，即可通过卷积神经网络输出检测到的目标物的位置等信息，实现目标物的快速、准确检测。

请参阅图2，图2是本发明实施例二提供的一种目标物检测装置的结构示意图，该目标物检测装置20包括：

第一提取模块21，用于利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取；

平面扫描体模块22，用于构建平面扫描体来学习像素关系并估计深度信息；

第二提取模块23，用于将所述平面扫描体转换为3D几何体，利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征；

训练模块24，用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络；

检测模块25，用于利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。

可选的，所述训练模块包括：

可选的，所述第一子神经网络为孪生神经网络。

可选的，所述第二提取模块包括：

本发明实施例是与上述方法实施例一对应的产品实施例，故在此不再赘述，详细请参阅上述实施例一。

请参阅图3，图3是本发明实施例三提供的一种电子设备的结构示意图，该电子设备30包括处理器31、存储器32及存储在所述存储器32上并可在所述处理器31上运行的计算机程序；所述处理器31执行所述计算机程序时实现如下步骤：

构建平面扫描体来学习像素关系并估计深度信息；

本发明实施例中，可选的，所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。

可选的，所述第一子神经网络为孪生神经网络。

可选的，所述将所述平面扫描体转换为3D几何体包括：

通过可导扭曲操作，将所述平面扫描体转换为3D几何体。

本发明实施例的具体工作过程与上述方法实施例一中的一致，故在此不再赘述，详细请参阅上述实施例一中方法步骤的说明。

本发明实施例四提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例一中任一种目标物检测方法中的步骤。详细请参阅以上对应实施例中方法步骤的说明。

上述计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标物检测方法，其特征在于，包括：

构建平面扫描体来学习像素关系并估计深度信息；

2.根据权利要求1所述的目标物检测方法，其特征在于，所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。

3.根据权利要求1所述的目标物检测方法，其特征在于，所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练，得到满足预设条件的卷积神经网络包括：

4.根据权利要求1所述的目标物检测方法，其特征在于，所述第一子神经网络为孪生神经网络。

5.根据权利要求1所述的目标物检测方法，其特征在于，所述将所述平面扫描体转换为3D几何体包括：

通过可导扭曲操作，将所述平面扫描体转换为3D几何体。

6.一种目标物检测装置，其特征在于，包括：

7.根据权利要求6所述的目标物检测装置，其特征在于，所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。

8.根据权利要求6所述的目标物检测装置，其特征在于，所述训练模块包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的目标物检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的目标物检测方法中的步骤。