CN113673444B

CN113673444B - 一种基于角点池化的路口多视角目标检测方法及系统

Info

Publication number: CN113673444B
Application number: CN202110971811.6A
Authority: CN
Inventors: 张新钰; 李骏; 李志伟; 高鑫; 魏宏杨; 王力; 熊一瑾
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-03-11
Anticipated expiration: 2041-08-19
Also published as: CN113673444A

Abstract

本发明公开了一种基于角点池化的路口多视角目标检测方法及系统，所述方法包括：对实时采集的路口多视角相机的图像进行预处理；将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型，输出目标预测结果；其中，所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，同时将提取的特征进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果。

Description

一种基于角点池化的路口多视角目标检测方法及系统

技术领域

本发明属于目标检测领域，具体涉及一种基于角点池化的路口多视角目标检测方法及系统。

背景技术

随着无人驾驶和智慧城市的飞速发展，单传感器的车辆检测技术已经相对成熟，然而，在交通状况复杂的路口中，车辆拥堵造成的密集检测难度大、体积庞大的车辆造成的遮挡问题、单传感器的不确定性等因素严重制约了车辆检测的精度，在复杂的路口中也存在安全隐患。随着多视角检测方法的引入，路口车辆在拥挤或遮挡场景下的检测性能已经得到显著的提升，这对无人驾驶的安全性有极大的促进作用。然而，基于多视角的车辆检测方法往往伴随着多传感器数据的融合，将多视角数据整合到一起实现车辆检测可以通过多视角结果级融合和多视角特征级融合，但它们分别存在以下问题：

1、多视角结果级融合：每一个视角的数据都需要一个独立的计算单元，不可避免地带来了计算资源的大量开销。将所有视角的检测结果投影到一起时，由于透视变换的误差及图像拼接时边缘的畸变，处于视角重叠区域的目标在不同视角中的结果往往会不一致，这将导致车辆检测结果的“重影”现象，给无人驾驶的决策带来很大的不确定性。

2、多视角特征级融合：多视角数据提取特征后在一个独立的计算单元上完成所有的计算过程，以减少计算冗余。但特征融合只能减少计算量，并没有从本质上改善“重影”现象，而是将两个重影检测为一个较大的目标，这也会对最后的决策造成干扰。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种基于角点池化的路口多视角目标检测方法，该方法通过对多视角数据特征进行角点池化，增强目标车辆的角点信息，从而在保证没有冗余计算开销的同时，达到减轻甚至消除“重影”现象的目的。此外，基于角点池化的路口多视角车辆检测由于增强了车辆特征的角点信息，有效地提高了检测精度和模型的鲁棒性。

为实现上述目的，本发明提出了一种基于角点池化的路口多视角目标检测方法，所述方法包括：

对实时采集的路口多视角相机的图像进行预处理；

将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型，输出目标预测结果；其中，所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，同时将提取的特征进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果。

进一步的，所述路口多视角目标检测模型包括：特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块；

所述特征提取模块，用于对多个视角相机的图像进行特征提取，得到多个视角的特征图；

所述多视角特征投影模块，用于利用每个相机的标定文件，基于透视变换将多个视角的特征图投影到一个鸟瞰图平面上，得到多个相机的级联投影特征图；

所述特征融合模块，用于将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合，输出一个(N×C+2)通道的地平面矩形特征图，其中，N为相机的个数，C为每个相机的图像提取出的特征通道数；

所述特征图角点池化模块，用于对地平面矩形特征图进行角点池化处理，输出角点池化处理后的地平面矩形特征图；

所述单视角检测模块，用于对每个视角的特征图分别进行角点池化处理，得到多个单视角目标检测结果，然后将多个单视角目标检测结果投影到一个鸟瞰图平面上，输出单视角目标位置映射图；

所述预测模块，用于利用角点池化处理后的地平面矩形特征图预测目标位置，再利用单视角目标位置映射图的单视角检测结果对目标位置进行校正，输出目标预测结果。

进一步的，所述特征提取模块使用ResNet50网络，包括：一个用于降维的1x1卷积层、一个3x3卷积层和一个恢复维度的1x1卷积层。

进一步的，述多视角特征投影模块的具体实现过程为：

将每个视角的特征图投影到一个鸟瞰图平面上：

其中，s是一个实数比例因子，u和v为投影前的坐标，x、y、z为投影后的坐标；A为3×3的相机固有参数矩阵；[R|t]为3×4联合旋转-平移矩阵，其中R表示旋转，t表示平移；对于每个相机标定文件，将地平面位置量化成大小为H*W的网格，其中H和W为最终生成鸟瞰图的长度和宽度；根据透视变换将图像投影到地平面z＝0，视野之外的地平面位置用零填充。

进一步的，所述特征图角点池化模块的具体实现过程为：

将融合后的地平面矩形特征图复制3份，对4个相同的地平面矩形特征图的所有特征向量分别进行向左、向右、向上和向下的最大池化；

其中，在对某一方向的池化过程中，首先设置所有特征向量边缘第一个特征值为最大值，若往后的特征值比该最大值小，则将小的特征值进行最大池化，若遇到更大的特征值，则替换最大值，并用新的最大值继续往后池化，直到该方向的特征向量池化完毕；

将向左池化和向上池化的最大池化结果相加，相加的结果为左上角角点池化；

将向右池化和向下池化的最大池化结果相加，相加的结果为右下角角点池化；

将左上角角点池化与右下角角点池化结果级联，作为角点池化处理后的地平面矩形特征图。

进一步的，所述单视角检测模块包括：单视角特征图点池化单元和单视角检测单元；

所述单视角特征图点池化单元：用于对所有视角的特征图进行分别进行左上角角点池化和右下角角点池化，输出至单视角检测单元；

其中，对于每一个池化向量，角点池化方式为对某一方向的最大池化，对最大池化采用自适应衰减优化，衰减公式如下：

其中，w为执行自适应衰减的角点池化后特征值的大小，λ为衰减系数，step表示距离当前的最大特征值距离，w₀是当前的最大特征值；

所述单视角检测单元；对单视角特征图点池化单元的输出结果分别进行单视角目标检测，将多个单视角目标检测结果依据投影变换公式投影到一张鸟瞰图上，形成单视角目标位置映射图。

进一步的，所述方法还包括：对所述路口多视角目标检测模型进行训练的步骤，具体包括：

建立用于训练模型的数据集；数据集包括：标签文件集、图像数据集和标定文件集，标签文件集包括多个json文件，图像文件集包括多个预处理后的RGB图像，json文件和RGB图像是一一对应的，标定文件集包括每个路口相机的内参文件、外参文件及相对地平面的标定文件；

在所述路口多视角目标检测模型，每一个角点池化特征层中有多个目标的角点池化结果，为了将目标的各个角点池化结果在不同角点池化特征层中建立联系，使用Pull损失函数对池化结果分组，每个目标的左上角角点和右下角角点为一组；由于每个特征层存在独立性，使用Push损失函数将角点分离；

Pull损失函数如下：

Push损失函数如下：

其中，

和

分别作为第k个目标的左上角和右下角的嵌入向量，e_k是

和

的平均值，Δ为1，相当于偏移量损失；

在单视角的特征图的角点池化中，将左上角角点池化和右下角角点池化的结果作为一组角点，并在网络的训练中将它们作为一维的嵌入向量加入训练；

设定模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率，将数据集输入所述路口多视角目标检测模型，对模型进行训练，获得训练好的路口多视角目标检测模型。

本发明还提出了一种基于角点池化的路口多视角目标检测系统，所述系统包括：路口多视角目标检测模型、数据预处理模块和目标检测模块，

所述数据预处理模块：用于对实时采集的路口多视角相机的图像进行预处理；

所述目标检测模块，用于将预处理后的多视角相机数据输入路口多视角目标检测模型，输出目标预测结果；所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，将提取的特征输入另一路进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果。

与现有的技术相比，本发明的优势包括：

1、本发明的方法不需要额外的后处理操作，在保证实时性的前提下，可以准确地完成多视角目标检测的工作；

2、本发明提出的基于角点池化的检测方法，能大幅度提高路口多视角目标检测的精度，从算法层次较好地解决“重影”现象；

3、本发明针对路口可能存在的拥堵或目标车辆繁多的现象，对角点池化进行改进，用激活值衰减的角点池化方式来提高路口拥挤或目标车辆过多的精测精度。

附图说明

为了更清楚的说明本发明，下面将对本发明中所需要使用的附图简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本发明的一些实施例，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的角点池化示意图，其中表示的为左上角池化；

图2为本发明的基于角点池化的路口多视角目标检测方法的流程图；

图3为本发明方法的仿真示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义：

多视角相机：是指放置在路口的多个单目相机，分布在路侧，多视角相机的总视场角能覆盖整个路口。

多视角图像：是指通过多视角相机采集得到的彩色图像，为三通道图像。

Label：表示用于目标检测神经网络监督训练的标签，对多视角图像的每个目标的类别和位置进行了标注。

本发明的实施例1提出了一种基于角点池化的路口多视角目标检测方法，其中目标为车辆，具体实施步骤如下：

步骤1)建立并训练路口多视角目标检测模型；

步骤101)建立路口多视角目标检测模型；

路口多视角目标检测模型包括：特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块；

特征提取模块，用于对多视角图像进行特征提取；

使用ResNet50作为路口多视角车辆检测模型的backbone来对每个视角的图像提取特征，在使用中，考虑到路口多视角检测的轻量化和实时性需求，对ResNet50采用“bottleneck design”，将两个3x3的卷积层替换为1x1+3x3+1x1卷积层，中间3x3的卷积层首先通过一个1x1卷积层降维减少了计算，然后在另一个1x1的卷积层下做了还原，既保持了精度又减少了计算量。第一个1x1的卷积把256维通道降到64维，然后在最后通过1x1卷积恢复。最终降低了参数的数目，获得更轻量化的路口多视角目标检测模型。

多视角特征投影模块：

利用多相机的标定文件和透视变换原理将每个视角的特征图投影到一个鸟瞰图平面上，变换过程为：

其中，s是一个实数比例因子，u和v为投影前的坐标，x、y、z为投影后的坐标；P_θ是3×4角度变换矩阵。A为3×3的固有参数矩阵。[R|t]为3×4联合旋转-平移矩阵，即外参文件中的外部参数矩阵，其中R表示旋转，t表示平移。对于相机n∈{1、…，N}与标定文件，我们通过自定义的采样网格形状[H,W]根据透视变换将图像投影到地平面z＝0。视野之外的地平面位置用零填充。将n个相机的特征图依据透视变换公式依次投影。

特征融合模块：

将地平面位置量化成大小为H*W的网格，其中H和W指定最终生成鸟瞰图的长度和宽度。此外，用一个2通道的坐标图来指定地平面位置的X-Y坐标。将多视角特征投影模块输出的n个相机的投影特征图级联，并加上来自2通道的坐标特征图，得到一个(N×C+2)通道地平面矩形特征地图，也是该路口下的鸟瞰图特征图，其形状为[H,W]，C为每个相机的图像提取出的特征通道数。

特征图角点池化模块：

在目标检测中，边界框的角点通常位于目标的外部，在这种情况下，角点无法根据目标的局部特征或边缘特征进行定位。从眼睛观察目标的角度看，为了确定在某一个像素位置处是否存在目标检测框的左上角角点，需要水平地向右看目标的最顶部边界，并且垂直地向下看目标的最左边边界，在这里，把这种观察方式应用到多视角投影后融合特征图的操作中。

把融合后的特征图复制3份，分别进行向左、向右、向上、向下的最大池化所有的特征向量，具体操作为，在对某一方向的池化过程中，首先设置所有特征向量边缘第一个特征值为最大值，若往后的特征值比该最大值小，则将小的特征值进行最大池化，若遇到更大的特征值，则替换最大值，并用新的最大值继续往后池化，直到该方向的特征向量池化完毕。

对角点池化的结果，将向左池化和向上池化的池化结果相加，所得结果为左上角角点池化，向右池化和向下池化的池化结果相加，所得结果为右下角角点池化。图1展示了左上角角点池化过程的示意图。将左上角角点池化与右下角角点池化结果级联，作为多视角投影后融合特征图的输出。

单视角检测模块包括：单视角特征图点池化单元和单视角检测单元；

单视角特征图点池化单元：

单视角检测所用的特征图来自特征提取模块中多视角特征提取后的共享特征。为了更精确地提取路口下的车辆特征，对单视角特征图同样采用角点池化：

把每个单视角的特征图复制3份，分别进行向左、向右、向上、向下的最大池化所有的特征向量；将向左池化和向上池化的池化结果相加，所得结果为左上角角点池化，向右池化和向下池化的池化结果相加，所得结果为右下角角点池化。

进一步的，对角点池化方式进行了自适应衰减优化。上述角点池化中，对于每一个池化向量，角点池化方式为对某一方向的最大池化。上述池化方式提升了对目标角点的检测，但对于多个目标可能造成特征混淆，因此对最大池化采用自适应衰减优化，防止当前目标的最大池化值对两个目标间的空隙造成干扰，衰减公式如下：

其中，w为执行自适应衰减的角点池化后特征值的大小，λ为衰减系数，step表示距离当前的最大特征值距离，w₀是当前的最大特征值。研究表明，该自适应衰减的角点池化不仅保持了对路口下多视角车辆的检测性能，也有效减少了车间空隙的误检测和检测误差。

单视角检测单元；对单视角特征图的点池化单元输出结果进行单视角检测，将单视角检测结果依据投影变换公式投影到鸟瞰图，作为路口多视角目标检测的一部分监督信息，目的是为了辅助更好地获得路口下车辆的位置分布信息，进一步提高检测性能。

预测模块，用于利用的输出对路口下的车辆位置信息进行预测，同时利用单视角检测单元的检测结果对位置信息校正，最后输出当前路口下多视角图像投影到鸟瞰图的车辆位置的准确信息。

步骤102)训练路口多视角车辆检测模型；

建立用于训练模型的数据集；数据集包括：标签文件集、图像数据集和标定文件集，标签文件集包括多个json文件，图像文件集包括多个RGB图像，json文件和RGB图像是一一对应的，标定文件集包括每个数据采集相机的内参、外参文件及相对地平面的标定文件；

将三通道RGB图像进行预处理；作为神经网络模型的输入；

在路口多视角目标检测模型的训练过程中，每一个角点池化特征层中有多个目标的角点池化结果，为了将目标的各个角点池化结果在不同角点池化特征层中建立联系，使用Pull损失函数对池化结果分组，每个目标的左上角角点和右下角角点为一组；由于每个特征层存在独立性，使用Push损失函数将角点分离；

Pull损失函数如下：

Push损失函数如下：

其中，

和

分别作为第k个目标的左上角和右下角的嵌入向量，e_k是

和

的平均值，Δ为1，相当于偏移量损失；

与多视角的融合特征图的角点池化不同，在单视角的特征图的角点池化中，将左上角角点池化和右下角角点池化的结果作为一组角点，并在网络的训练中将它们作为一维的嵌入向量加入训练。

设定路口多视角目标检测模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率，对模型进行训练，获得路口多视角目标检测模型。

步骤2)对实时采集的多视角相机原始数据进行预处理，包括白化、去噪等操作；

步骤3)如图2所示，将预处理后的多视角相机数据输入训练好的路口多视角目标检测模型，首先进行特征提取、将提取的特征进行特征投影、特征融合和角点池化，输出车辆位置信息，同时进行单视角检测和结果投影，输出校正信息，对车辆位置信息进行校正，输出准确的车辆位置预测结果。

利用本发明的方法进行多视角相机数据的车辆位置预测，如图3所示。

实施例2

本发明的实施例2提出了一种基于角点池化的路口多视角目标检测系统，包括：训练好的路口多视角目标检测模型、数据预处理模块和目标检测模块，

数据预处理模块：用于对实时采集的路口多视角相机的图像进行预处理；

目标检测模块，用于将预处理后的多视角相机数据输入路口多视角目标检测模型，输出目标预测结果；其中，多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，将提取的特征输入另一路进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于角点池化的路口多视角目标检测方法，所述方法包括：

对实时采集的路口多视角相机的图像进行预处理；

将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型，输出目标预测结果；其中，所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，同时将提取的特征进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果；

所述路口多视角目标检测模型包括：特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块；

所述预测模块，用于利用角点池化处理后的地平面矩形特征图预测目标位置，再利用单视角目标位置映射图的单视角检测结果对目标位置进行校正，输出目标预测结果；

所述特征图角点池化模块的具体实现过程为：

2.根据权利要求1所述的基于角点池化的路口多视角目标检测方法，其特征在于，所述特征提取模块使用ResNet50网络，包括：一个用于降维的1x1卷积层、一个3x3卷积层和一个恢复维度的1x1卷积层。

3.根据权利要求1所述的基于角点池化的路口多视角目标检测方法，其特征在于，所述多视角特征投影模块的具体实现过程为：

将每个视角的特征图投影到一个鸟瞰图平面上：

4.根据权利要求1所述的基于角点池化的路口多视角目标检测方法，其特征在于，所述单视角检测模块包括：单视角特征图点池化单元和单视角检测单元；

5.根据权利要求1所述的基于角点池化的路口多视角目标检测方法，其特征在于，所述方法还包括：对所述路口多视角目标检测模型进行训练的步骤，具体包括：

Pull损失函数L_pull如下：

Push损失函数L_push如下：

其中，

和

分别作为第k个目标的左上角和右下角的嵌入向量，e_k是

和

的平均值，Δ为1，相当于偏移量损失；

6.一种基于角点池化的路口多视角目标检测系统，其特征在于，所述系统包括：路口多视角目标检测模型、数据预处理模块和目标检测模块，

所述目标检测模块，用于将预处理后的多视角相机数据输入路口多视角目标检测模型，输出目标预测结果；所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化，通过角点池化处理后的地平面矩形特征图预测目标位置，将提取的特征输入另一路进行单视角检测和结果投影，通过单视角目标位置映射图对目标位置进行校正，输出目标预测结果；

所述特征图角点池化模块的具体实现过程为：