CN112949769B

CN112949769B - 一种目标检测方法及目标检测系统

Info

Publication number: CN112949769B
Application number: CN202110372835.XA
Authority: CN
Inventors: 张燕咏; 褚晓萌; 张昱; 吉建民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-09-06
Anticipated expiration: 2041-04-07
Also published as: CN112949769A

Abstract

本申请公开了一种目标检测方法及目标检测系统，其中，所述目标检测方法首先将单目图像的像素坐标转换为3D空间的伪点云坐标，即将2D的单目图像转换为3D表示的伪点云图，以为目标检测方法提高检测精度奠定基础，然后提取所述伪点云图中特征点的空间上下文，并分别进行两个分支的检测，这两个分支包括局部检测和邻居投票检测，最后将局部分类结果与邻居分类结构进行融合，以通过待测目标周围的每个特征点的检测结果的投票减小严重变形的伪点云导致的检测误差，实现提高目标检测精度的目的。

Description

一种目标检测方法及目标检测系统

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种目标检测方法及目标检测系统。

背景技术

机器视觉是人工智能领域正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量或判断。

基于单目摄像头进行单目3D(三维)目标检测是机器视觉技术的一个重要分支，目前涌现了许多的单目3D检测算法。Mono-3D(X.Chen,K.Kundu,Z.Zhang,H.Ma,S.Fidler,andR.Urtasun.Monocular 3d object detection for autonomous driving.In CVPR,2016.)会生成一些特定类的候选框，然后将它们重新投影到相应的2D框中，2D检测网络用于提取特征，并与其他信息结合在一起，通过计算预测框的损失函数以获得准确的3D目标预测。Deep3DBox(Arsalan Mousavian,Dragomir Anguelov,John Flynn,and Jana Kosecka.3dbounding box estimation usingdeep learning and geometry.In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pages 7074–7082,2017)利用深度学习网络和2D框的几何约束来生成3D边界框和具有6个自由度的位姿。Rtm3d(Peixuan Li,Huaici Zhao,Pengfei Liu,and Feidao Cao.Rtm3d:Real-timemonocular 3d detection from object keypoints for autonomous driving.arXivpreprint arXiv:2001.03343,2020.)通过预测3D框在图像空间中的9个透视关键点来进行回归。

然而，上述基于纯图像的方法和基于LiDAR(激光雷达，LaserRadar)的方法在3D检测的精度上仍然有待提高。

发明内容

为解决上述技术问题，本申请提供了一种目标检测方法即目标检测系统，以实现提高对于目标检测的精度的目的。

为实现上述技术目的，本申请实施例提供了如下技术方案：

一种目标检测方法，用于包括单目摄像头的检测系统，所述目标检测方法包括：

获取单目图像；

利用预设深度估计模型，将所述单目图像的像素坐标转换为3D空间的伪点云坐标，以获得伪点云图；

提取所述伪点云图中特征点的空间上下文；

基于所述特征点的空间上下文进行待测目标的局部检测，以获取局部分类结果；

在所述伪点云图中确定所述待测目标的邻居特征点，获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标，以获得邻居分类结果；所述第一方向和所述第二方向在同一水平面上，且相互垂直；

将所述局部分类结果与所述邻居分类结果进行融合，以获得融合后的分类结果。

可选的，所述利用预设深度估计模型，将所述单目图像的像素坐标转换为3D空间的伪点云坐标包括：

使用所述预设深度估计模型得到所述单目图像的深度图；

结合所述单目摄像头的内参，利用第一预设公式，将所述深度图中的像素点坐标转换为3D空间的伪点云坐标；

所述第一预设公式包括：

z＝Z(u，v)，，其中，x、y、z分别表示所述伪点云坐标的x轴坐标、y轴坐标和z轴坐标，(u，v)表示所述深度图中像素点的坐标，(c_x,c_y)表示所述单目摄像头的相机坐标的中心，f_x表示所述单目摄像头的水平焦距，f_y表示所述单目摄像头的垂直焦距。

可选的，所述提取所述伪点云图中特征点的空间上下文包括：

将所述伪点云图中的特征点体素化为网格；

将所述网格输入到特征提取网络，所述网格经过所述特征提取网络的第一次特征提取后获得第一中间特征，所述第一中间特征经所述特征提取网络的第二次特征提取后获得所述特征点的空间上下文；

所述特征提取网络为预先训练的、带有注意力机制的神经网络。

可选的，所述第二次特征提取的过程包括：

将所述第一中间特征转换为第一向量、第二向量和第三向量，所述第一向量为第二次特征提取的查询向量，所述第二向量为第二次特征提取的键向量，所述第三向量为第二次特征提取的值向量；

根据所述第一向量、所述第二向量和所述第三向量，确定所述第一中间特征的注意力权重；

通过所述第一中间特征自身与其他特征点的加权总和，得到所述第一中间特征对应的特征点的空间上下文。

可选的，所述获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标包括：

获取所述邻居特征点预测的所述待测目标的中心坐标作为对于所述待测目标的检测结果，并将所述邻居特征点对于所述待测目标的检测结果投票给该待测目标；

获取所述邻居特征点的坐标；

根据所述邻居特征点预测的所述待测目标的中心坐标与所述邻居特征点的坐标，计算所述邻居特征点与所述待测目标的中心坐标之间的欧式距离；

剔除与所述待测目标的中心坐标之间的欧式距离大于预设距离阈值的邻居特征点的投票结果。

一种目标检测系统，用于包括单目摄像头的检测系统，所述目标检测系统包括：

图像获取模块，用于获取单目图像；

坐标转换模块，用于利用预设深度估计模型，将所述单目图像的像素坐标转换为3D空间的伪点云坐标，以获得伪点云图；

特征提取模块，用于提取所述伪点云图中特征点的空间上下文；

局部检测模块，用于基于所述特征点的空间上下文进行待测目标的局部检测，以获取局部分类结果；

邻居投票模块，用于在所述伪点云图中确定所述待测目标的邻居特征点，获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标，以获得邻居分类结果；所述第一方向和所述第二方向在同一水平面上，且相互垂直；

结果融合模块，用于将所述局部分类结果与所述邻居分类结果进行融合，以获得融合后的分类结果。

可选的，所述坐标转换模块包括：

深度转换单元，用于使用所述预设深度估计模型得到所述单目图像的深度图；

坐标计算单元，用于结合所述单目摄像头的内参，利用第一预设公式，将所述深度图中的像素点坐标转换为3D空间的伪点云坐标；

所述第一预设公式包括：

可选的，所述特征提取模块包括：

体素化单元，用于将所述伪点云图中的特征点体素化为网格；

提取单元，用于将所述网格输入到特征提取网络，所述网格经过所述特征提取网络的第一次特征提取后获得第一中间特征，所述第一中间特征经所述特征提取网络的第二次特征提取后获得所述特征点的空间上下文；

可选的，所述提取单元的第二次特征提取的过程包括：

可选的，所述邻居投票模块获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标的过程具体包括：

获取所述邻居特征点的坐标；

从上述技术方案可以看出，本申请实施例提供了一种目标检测方法及目标检测系统，其中，所述目标检测方法首先将单目图像的像素坐标转换为3D空间的伪点云坐标，即将2D的单目图像转换为3D表示的伪点云图，以为目标检测方法提高检测精度奠定基础，然后提取所述伪点云图中特征点的空间上下文，并分别进行两个分支的检测，这两个分支包括局部检测和邻居投票检测，最后将局部分类结果与邻居分类结构进行融合，以通过待测目标周围的每个特征点的检测结果的投票减小严重变形的伪点云导致的检测误差，实现提高目标检测精度的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种目标检测方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种目标检测方法，如图1所示，用于包括单目摄像头的检测系统，所述目标检测方法包括：

S101：获取单目图像。所述单目图像是指通过所述单目摄像头拍摄的2D(二维)图像。

S102：利用预设深度估计模型，将所述单目图像的像素坐标转换为3D空间的伪点云坐标，以获得伪点云图。

所述特征点即为构成所述伪点云图的像素点，在伪点云图中，3D空间的伪点云坐标为三维坐标。

将单目图像从2D转换为3D表示的伪点云图是提升单目3D目标检测精度的关键。但是，对单目图像进行深度估计会导致同一目标内伪点云的点的位置发生不可避免的移位。因此，预测的边框可能会出现不正确的位置和变形的形状，本申请实施例提供的目标检测方法通过下面的步骤以期解决这一问题。

S103：提取所述伪点云图中特征点的空间上下文。所述特征点的空间上下文是指伪点云图中与该特征点可能产生特征、语义关联的相关区域。

S104：基于所述特征点的空间上下文进行待测目标的局部检测，以获取局部分类结果。

在局部检测之前通常将伪点云图转换为俯视视角表示，此后对于特征点的空间上下文进行待测目标的局部检测即为对{cos(θ),sin(θ),dx,dz,log(w),log(l)}进行回归的过程，其中，θ表示待测目标的运动方向(当待测目标为车辆时，待测目标的运动方向即为车头朝向)，w和l分别表示伪点云图在鸟瞰方向上待测目标的宽和长，(dx,dz)表示伪点云图在鸟瞰方向下待测目标位置到对象中心位置的偏移。

S105：在所述伪点云图中确定所述待测目标的邻居特征点，获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标，以获得邻居分类结果；所述第一方向和所述第二方向在同一水平面上，且相互垂直。

在步骤S105中，为了减小严重变形的伪点云导致的检测误差，我们将接近待测目标的特征点视为有投票权的邻居特征点，或称作“选民”。每个选民投两票，即分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标，通过投票的分类结果达成“共识”，减小由于严重变形的伪点云导致的检测误差。

通常情况下，所述第一方向和第二方向均平行于所述伪点云图中的z轴方向，即分别为z轴的正向和负向。

S106：将所述局部分类结果与所述邻居分类结果进行融合，以获得融合后的分类结果。

在融合过程中，可考虑为局部分类结果和邻居分类结果分配不同的权重，通加权求和的方式获得融合后的分类结果。

具体地，局部分类结果P_local和邻居分类结果P_vote均通过1通道输出，将局部分类结果和邻居分类结果的特征连接起来，应用softmax函数，以获得两通道的权重图。这两个通道的值分别命名为W_local和W_local，每个位置的权重值的总和为1，最终的加权分类结果P_fusion可通过如下公式计算：

P_fusion＝W_local·P_local+W_vote·P_vote.。

下面对本申请实施例提供的目标检测方法的各个步骤的可行执行过程进行描述。

S1021：使用所述预设深度估计模型得到所述单目图像的深度图。

S1022：结合所述单目摄像头的内参，利用第一预设公式，将所述深度图中的像素点坐标转换为3D空间的伪点云坐标；

所述第一预设公式包括：

z＝D(u,v)，其中，x、y、z分别表示所述伪点云坐标的x轴坐标、y轴坐标和z轴坐标，(u，v)表示所述深度图中像素点的坐标，(c_x,c_y)表示所述单目摄像头的相机坐标的中心，f_x表示所述单目摄像头的水平焦距，f_y表示所述单目摄像头的垂直焦距。

在伪点云生成过程中，可采用各种深度估计模型作为所述预设深度估计模型，可选的，所述预设深度估计模型可以为DORN(Deep Ordinal Regression Network)模型，DORN模型具有较高的准确性和较低的均方根误差。在深度估计之后，将深度图中像素的像素坐标(u，v)与它的深度结合起来以生成伪点云点。

S1031：将所述伪点云图中的特征点体素化为网格。

具体地，点云的范围限制为L×W×H的范围，并分为l×w×h网格作为网络的输入，每个体素单元的大小为

其中h被视为输入的通道数。

S1032：将所述网格输入到特征提取网络，所述网格经过所述特征提取网络的第一次特征提取后获得第一中间特征，所述第一中间特征经所述特征提取网络的第二次特征提取后获得所述特征点的空间上下文；

由于伪点云的严重位移和变形，需要依赖远距离信息的空间上下文，以更好地识别对象的位置和形状。由于仅将在每个位置具有固定感受野的卷积运算堆叠在一起无法有效地提取足够的远距离特征，我们在特征提取网络中应用了自注意力机制。

更具体地，所述第二次特征提取的过程包括：

S10321：将所述第一中间特征转换为第一向量、第二向量和第三向量，所述第一向量为第二次特征提取的查询向量，所述第二向量为第二次特征提取的键向量，所述第三向量为第二次特征提取的值向量。

即在步骤S10321中将第一中间特征转换为三个向量，即第一向量Q、第二向量K和第三向量V，这三个向量的通道数分别为：c_Q，c_K和c_V。

S10322：根据所述第一向量、所述第二向量和所述第三向量，确定所述第一中间特征的注意力权重。

各个第一中间特征的注意力权重用w_i,j表示，全局的注意力权重用W表示，W的计算公式为：

其中，softmax为归一化指数函数。

S10323：通过所述第一中间特征自身与其他特征点的加权总和，得到所述第一中间特征对应的特征点的空间上下文。

具体地，步骤S10323可表示为：

其中，o_i表示位置i处的空间上下文，w_i,j表示归一化的注意力权重，ψ(x_j)表示x_j位置处的特征点。

S1051：获取所述邻居特征点预测的所述待测目标的中心坐标作为对于所述待测目标的检测结果，并将所述邻居特征点对于所述待测目标的检测结果投票给该待测目标。

在投票过程中，首先考虑一个BEV特征图(L_λ×W_λ)，其中L_λ和W_λ分别代表x和z方向上的特征图大小，λ表示下采样率。接近预测目标的特征点被视为有投票权的邻居，或称作“选民”。每个选民投两票，即投票给两个最接近的待测目标，一个在前面，一个在后面(在z方向上的相对位置)，由(dx_f,dz_f,dx_b,dz_b)表示在x和z方向上到两个待测目标的距离。

S1052：获取所述邻居特征点的坐标。

S1053：根据所述邻居特征点预测的所述待测目标的中心坐标与所述邻居特征点的坐标，计算所述邻居特征点与所述待测目标的中心坐标之间的欧式距离。

具体地，欧氏距离的计算公式如下：

其中，P是待测目标的列表。C_f和C_b是邻居特征点前面和后面的待测目标，(x_θ,z_θ)是邻居特征点预测的待测目标的中心位置，(x_g,z_g)是邻居特征点自己的位置。

S1054：剔除与所述待测目标的中心坐标之间的欧式距离大于预设距离阈值的邻居特征点的投票结果。

可选的，所述预设距离阈值的取值范围可以为10～15米，具体可选为10m、11m、12m、13m、14m或15m等。

在本实施例中，我们通过先投票后筛选的方式，将邻居特征点的投票结果投票给与其最接近的两个待测目标，所述投票结果包括所述邻居特征点预测的所述待测目标的中心坐标。

下面对本申请实施例提供的目标检测系统进行描述，下文描述的目标检测系统可与上文描述的目标检测方法相互对应参照。

相应的，本申请实施例提供了一种目标检测系统，用于包括单目摄像头的检测系统，所述目标检测系统包括：

图像获取模块，用于获取单目图像；

可选的，所述坐标转换模块包括：

所述第一预设公式包括：

可选的，所述特征提取模块包括：

可选的，所述提取单元的第二次特征提取的过程包括：

获取所述邻居特征点的坐标；

综上所述，本申请实施例提供了一种目标检测方法及目标检测系统，其中，所述目标检测方法首先将单目图像的像素坐标转换为3D空间的伪点云坐标，即将2D的单目图像转换为3D表示的伪点云图，以为目标检测方法提高检测精度奠定基础，然后提取所述伪点云图中特征点的空间上下文，并分别进行两个分支的检测，这两个分支包括局部检测和邻居投票检测，最后将局部分类结果与邻居分类结构进行融合，以通过待测目标周围的每个特征点的检测结果的投票减小严重变形的伪点云导致的检测误差，实现提高目标检测精度的目的。

本说明书中各实施例中记载的特征可以相互替换或者组合，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标检测方法，其特征在于，用于包括单目摄像头的检测系统，所述目标检测方法包括：

获取单目图像；

提取所述伪点云图中特征点的空间上下文；

将所述局部分类结果与所述邻居分类结果进行融合，以获得融合后的分类结果；

其中，所述获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标包括：

获取所述邻居特征点的坐标；

2.根据权利要求1所述的方法，其特征在于，所述利用预设深度估计模型，将所述单目图像的像素坐标转换为3D空间的伪点云坐标包括：

使用所述预设深度估计模型得到所述单目图像的深度图；

所述第一预设公式包括：

，其中，x、y、z分别表示所述伪点云坐标的x轴坐标、y轴坐标和z轴坐标，（u，v）表示所述深度图中像素点的坐标，(c_x, c_y)表示所述单目摄像头的相机坐标的中心，

表示所述单目摄像头的水平焦距，表示所述单目摄像头的垂直焦距。

3.根据权利要求1所述的方法，其特征在于，所述提取所述伪点云图中特征点的空间上下文包括：

将所述伪点云图中的特征点体素化为网格；

4.根据权利要求3所述的方法，其特征在于，所述第二次特征提取的过程包括：

5.一种目标检测系统，其特征在于，用于包括单目摄像头的检测系统，所述目标检测系统包括：

图像获取模块，用于获取单目图像；

结果融合模块，用于将所述局部分类结果与所述邻居分类结果进行融合，以获得融合后的分类结果；

其中，所述邻居投票模块获取所述邻居特征点对于所述待测目标的检测结果，并将所述检测结果分别投票给在第一方向和第二方向上与所述邻居特征点最接近的所述待测目标的过程具体包括：

获取所述邻居特征点的坐标；

6.根据权利要求5所述的系统，其特征在于，所述坐标转换模块包括：

所述第一预设公式包括：

7.根据权利要求5所述的系统，其特征在于，所述特征提取模块包括：

8.根据权利要求7所述的系统，其特征在于，所述提取单元的第二次特征提取的过程包括：