CN113673425B

CN113673425B - 一种基于Transformer的多视角目标检测方法及系统

Info

Publication number: CN113673425B
Application number: CN202110957843.0A
Authority: CN
Inventors: 张新钰; 李志伟; 李骏; 高鑫; 刘宇红; 王力; 杜浩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-03-15
Anticipated expiration: 2041-08-19
Also published as: CN113673425A

Abstract

本发明提出了一种基于Transformer的多视角目标检测方法及系统，所述方法包括：利用多个相机同时采集多个视角的RGB图像并进行预处理；将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型，输出包含目标检测检测结果的鸟瞰图；所述多视角目标检测模型包括：特征提取模块、Transformer模型和投影模块；所述特征提取模块，用于提取每个视角的RGB图像的多尺度特征图，将多个视角的多尺度特征图输入Transformer模型；所述Transformer模型，用对输入的特征图的进行目标检测，输出bounding box；所述投影模块，用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图，与特征提取模块输出的多个视角的特征图进行融合，再经过投影变换和卷积后输出鸟瞰图。

Description

一种基于Transformer的多视角目标检测方法及系统

技术领域

本发明涉及目标检测领域，具体涉及一种基于Transformer的多视角目标检测方法及系统。

背景技术

对于遮挡情况下的行人检测，总结已有的相关工作，主要通过单视角检测的角度来解决遮挡问题。目前单视角检测方法的切入点有对目标候选框分成不同部分逐一处理、区别对待再加以特征融合，或是从损失的角度使得目标候选框对相互遮挡的情况更具判别性，通过设置损失函数的方式，使预测框和所负责的真实目标框的距离缩小，而使得其与周围非负责目标框(包含真实目标框和预测框)的距离加大以提高模型性能。

然而，这些方法往往都包含了多大量冗余的计算，对遮挡问题解决的并不完美。多视角检测往往包含多个方位的信息，每个方位的目标信息由不同的相机提供。目前聚合空间邻域的信息通常采用条件随机场，平均随机场推理。Transformer是由谷歌于2017年提出的具有里程碑意义的模型，同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础(RNN,LSTM等)。从本质上来讲，RNN是以串行的方式来处理数据，对应到NLP任务上，即按照句中词语的先后顺序，每一个时间步处理一个词语。相较于这种串行模式，Transformer的巨大创新便在于并行化的语言处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

目前，有些学者开创性地将Transformer模型跨领域地引用到了计算机视觉任务中，并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代，甚至可能完全取代传统的卷积操作。DETR基于transformer框架，合并了set-based匈牙利算法，通过二分图匹配，强制每一个gt都有唯一的预测结果，让Encoder初始化的权重不再是统一分布，即不再与所有key计算相似度，而是与更有意义的key计算相似度，deformable convolution就是一种有效关注稀疏空间定位的方式随即提出deformable detr，融合deformable conv的稀疏空间采样与Transformer相关性建模能力。在整体特征图像素中，模型关注小序列的采样位置作为key。

发明内容

本发明的目的在于克服行人检测的遮挡问题，利用Transformer模型提出了一种新的多视角目标检测方法。

为实现上述目的，本发明的实施例1提出了一种基于Transformer的多视角目标检测方法，所述方法包括：

利用多个相机同时采集多个视角的RGB图像并进行预处理；

将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型，输出包含目标检测检测结果的鸟瞰图；所述多视角目标检测模型包括：特征提取模块、Transformer模型和投影模块；

所述特征提取模块，用于提取每个视角的RGB图像的多尺度特征图，将多个视角的多尺度特征图输入Transformer模型；

所述Transformer模型，用对输入的特征图的进行目标检测，输出bounding box；

所述投影模块，用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图，与特征提取模块输出的多个视角的特征图进行融合，再经过投影变换和卷积后输出鸟瞰图。

进一步的，所述特征提取模块包括：两个分支以及自适应平均池化和Relu层；第一个分支为Resnet网络，第二个分支由一个3x3的卷积层和一个1x1的卷积层组成，自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。

进一步的，所述Transformer模型包括六个编码器和六个解码器，dropout概率设置为0.1，激活函数设置为RELU，将预测bounding box数量设置为50。

进一步的，所述投影模块的具体实现过程包括：

对于Transformer模型输出的每个视角的特征图的50个bounding box，将每个bounding box的置信度分别与阈值比较，只保留置信度大于阈值的bounding box作为有效的bounding box；

对于每个视角的一个有效的bounding box，生成对应的高斯热图heat为：

其中，(x,y)为图像上的点坐标，(x_m,y_m)为第m个bounding box的中心点的坐标，M为有效bounding box的个数；sigma的值为10，r＝4，代表中心点的辐射范围；

将每个视角的特征图与其生成的高斯热图进行融合，得到融合后的目标特征图；

利用每个相机的标定文件，基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上，得到多个相机的级联投影特征图；将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合，输出一个(N×C+2)通道的地平面矩形特征图；

通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图。

进一步的，所述方法还包括：对多视角目标检测模型进行训练的步骤，具体包括：

建立训练集：利用亮度增强，高斯噪声和mixup方法在wildtrack数据集的基础上进行扩充，其中亮度增强参数设置为1.5，高斯噪声的均值设置为0，方差设置为0.005，mixup方法中原图透明度设置为0.4，混合图片透明度设置为0.6；

计算损失函数loss时，只保留二分图匹配算法的分类loss和回归loss，其中分类loss采用交叉熵函数，回归loss采用L1 loss。

本发明的实施例2提出了一种基于Transformer的多视角目标检测系统，所述系统包括：

多视角图像采集模块，用于利用多个相机同时采集多个视角的RGB图像并进行预处理；

目标检测模块，用于将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型，输出包含目标检测检测结果的鸟瞰图；所述多视角目标检测模型包括：特征提取模块、Transformer模型和投影模块；

进一步的，所述投影模块的具体实现过程包括：

与现有的技术相比，本发明的优势在于：

1、本发明的方法的Transformer模型不仅提升了原有模型的精度，并对后面计算鸟瞰图起到了作用；

2、本发明根据相机的内参数和外参数校准多角度图片投影到地面上的位置，在一定程度上避免了透视变换方法在距离很远时表现不佳的现象；

3、本发明采用大卷积核与接受场较大的卷积层结合，因此模型采用CNN模型和大卷积核的空间聚集方法，同时采用特征投影和通道级联的方法聚集多相机信息。

4、本发明的方法在模型的训练上首先对数据集进行扩充，避免了在代码上进行数据增强时多相机间RGB图像紊乱的可能；只保留了二分图匹配loss中的分类和回归loss，在极大程度上减少了模型计算的时间，使模型能更快收敛。

附图说明

图1为本发明的多视角目标检测模型整体结构图；

图2为本发明的最后生成的鸟瞰图与Ground Truth对比图。

具体实施方式：

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义：

多视角相机：是指放置在路口的多个单目相机，分布在路侧，多视角相机的总视场角能覆盖整个路口。

RGB图像：是指通过单目相机采集得到的彩色图像，为三通道图像。

Label：表示用于目标检测神经网络监督训练的类别标签，对彩色图像的每个目标的类别进行了标注。

本发明的实施例1提出了一种基于Transformer的多视角目标检测方法，在本实施例中，目标为行人，包括以下步骤：

步骤1)建立并训练多视角目标检测模型；具体包括：

步骤101)建立多视角目标检测模型；

如图1所示，多视角目标检测模型包括：特征提取模块、Transformer模型和投影模块；

特征提取模块，用于提取每个视角的RGB图像的多尺度特征图，将多个视角的特征图输入Transformer模型；

使其捕捉特征能力更强，本发明的特征提取模块包括：两个分支以及自适应平均池化和Relu层；第一个分支为Resnet网络，第二个分支由一个3x3的卷积层和一个1x1的卷积层组成，自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。

两个分支的结构能够更好的提取特征，让模型有更好的表现。因为第一层往往携带着数据更多的信息，因此模型在Resnet第一层后面加上融合结构，之后在网络最后一层前让其与特征图进行融合，因为分支结构的输出特征图与模型最后一层得到的特征图通道数不同，因此分支结构输出的特征图要经过额外的1x1卷积调整通道数。这里采用膨胀卷积，膨胀卷积可以在保持参数个数不变的情况下增大卷积核的感受野，在一定程度上也提高了模型的性能，两个分支的结构能够更好的提取特征，让模型有更好的表现。之后将得到的特征图送入Transformer模型。

Transformer模型，用对输入的特征图的进行目标检测，输出bounding box；模型包括六个编码器和六个解码器，对每一个输入向量query(单个视角的特征图)，之前关注所有的空间位置(所有位置作为key)，现在只关注更有意义的、网络认为更包含局部信息的位置(少且固定数量位置作为key)，缓解特征图大带来大运算量的问题。实施过程中，特征图输入给一个线性映射，输出3MK个通道，M为检测头的个数，K为key的数量，前2MK个通道编码采样的offset，决定每一个query应该找哪些key，最后MK个通道，输出每一个key的贡献(重要性指标)(不再用k×q计算，直接输入q回归)，且只对找到的keys的贡献进行归一化。将变性注意模块(deformable attention module)扩展为多尺度特征图，主要解小目标问题相当于单层版本的扩展，对于一个query，每一层采集K个点作为keys，转换成：对一个query，所有层均采K个点，融合了不同层的特征，故不需要FPN(feature pyramid networks，特征金字塔网络)，这里正则化是针对一个query，所有LK个位置的贡献(回归得到)进行softmax。

首先将编码层和解码层数量设置为6，dropout概率设置为0.1，激活函数指定为RELU，将预测bounding box数量设置为50。将Transformer注意力应用于图像特征地图的核心问题是，它将查看所有可能的空间位置。为了解决这个问题，提出了一个可变形的注意力模块。受变形卷积的启发，变形注意模块只关注参考点周围的一小组关键采样点，无论特征图的空间大小如何。通过为每个查询分配少量固定数量的键，可以缓解收敛和特征空间分辨率的问题。

给定一个输入特征映射x，让q索引一个包含内容特征z_q和一个二维参考点p_q的查询元素，通过计算变形注意力特征

其中m是注意头，k是采样键，k是总采样键值(k＜＜HW)。Δp_mqk和A_mqk分别表示第m个注意头中第k个采样点的采样偏移量和注意权重。标量注意力权值Amqk在[0,1]范围内，经

归一化。p_q+Δp_mqk为分数阶，在计算x(p_q+Δp_mqk)时采用双线性插值。Δp_mqk和A_mqk都是通过在查询特征z_q上的线性投影得到的。

引入了多尺度可变形注意力机制。设

为输入的多尺度特征映射。设

为每个查询元素q的参考点的归一化坐标，则应用多尺度变形注意模块为

其中m表示注意头，l表示输入特征级别，k表示采样点。Δp_mlqk和A_mlqk分别表示第1个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重。标量注意权中A_mlqk被归一化为

使用归一化坐标

来清晰地表述尺度，其中归一化坐标(0,0)和(1,1)分别表示图像的左上角和右下角。上述函数中的

将归一化坐标

重新缩放到第l级的输入特征映射。多尺度形变注意与之前的单尺度形变注意非常相似，不同之处在于它从多尺度特征图中抽取LK点，而不是从单尺度特征图中抽取K点。

投影模块，用于利用Transformer模型输出的结果细化特征，以Transformer模型预测的bounding box的中点为中心生成一个高斯热图，与特征提取模块输出的多个视角的特征图进行融合，再经过投影变换和卷积后得到鸟瞰图；具体包括：

步骤S1)对于Transformer模型输出的每个视角的特征图的50个bounding box，将每个bounding box的置信度与阈值(0.3)比较，只保留置信度大于0.3的bounding box作为有效的bounding box；

步骤S2)对于每个视角的一个有效的bounding box，生成对应的高斯热图heat为：

步骤S3)将每个视角的特征图与其生成的高斯热图进行融合，得到融合后的目标图；

步骤S4)利用每个相机的标定文件，基于透视变换将多个视角的融合后的目标图投影到一个鸟瞰图平面上，得到多个相机的级联投影特征图；将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合，输出一个(N×C+2)通道的地平面矩形特征图

利用数据集中相机的内外参数，根据相应的摄像机标定θ(1)…θ(N)，利用透视变换投影N个特征图，得到N个形状特征图[C,Hg,Wg]。对于每个地平面位置，将其X-Y坐标存储在一个2通道坐标地图中。通过将N个投影的地形图与坐标图连接起来，聚合了此时整个场景的地平面地形图(形状为[N×C+2,Hg,Wg])。最后，在地平面特征地图上应用大的核卷积，从而聚合空间邻居信息，进行最终的占用决策。相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。

图像中的一个点(像素)位于3D世界中的一条线上。为了确定图像像素的精确3D位置，考虑一个共同的参考框架：地平面z＝0。对于这个地平面上的所有3D位置(x,y,0)，逐点变换可以写成

这里s是一个实数比例因子，P_θ是3×4角度变换矩阵。A为3×3的固有参数矩阵。[R|t]为3×4联合旋转-平移矩阵，即外部参数矩阵，其中R表示旋转，t表示平移。

将多个相机的级联投影特征图与2通道的相机坐标特将地平面位置量化成形状为[Hg,Wg]的网格，其中Hg和Wg指定接地网的高度和宽度。对于相机n∈{1、…，N}与校准θ(N)，可以通过自定义的采样网格形状[Hg,Wg]，根据公式2投影图像到地平面z＝0，其余(视野之外的)地平面位置用零填充。来自N个摄像机的投影C通道特征地图，连接一个2通道坐标图来指定地平面位置的X-Y坐标，得到一个(N×C+2)通道的地平面特征地图，其形状为[Hg,Wg]。

步骤S5)再通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图，以用于可视化；

步骤102)训练多视角目标检测模型；

步骤102-1)建立训练集；

对图像设置label，将其设置成只含box的格式，方便后续操作。

由于数据集的局限性，我们利用亮度增强，高斯噪声，mixup方法在wildtrack数据集的基础上进行扩充，其中亮度增强参数设置为1.5，高斯噪声的均值设置为0，方差设置为0.005，mixup方法中原图透明度设置为0.4，混合图片透明度设置为0.6。

步骤102-2)计算loss时，只保留二分图匹配算法的分类loss和回归loss，其中分类loss采用交叉熵函数，回归loss采用L1 loss。计算回归loss时将bounding box与GT box(Label中标注的框)一一对应，计算它们的总和。

计算loss时，将预测框的数量限制为50个，让二分图匹配计算回归loss和分类loss，因为行人检测只有一个类别，因此模型做分类时将类别只分为前景和后景。因为Transformer模型对数据集比较敏感，在大数据集上表现的更好一些，因此在原有数据集的基础上加了数据增强，使数据集扩充为原来的四倍，模型表现出了更好的效果。

步骤2)利用多个相机同时采集多个视角的RGB图像，输入训练好的多视角目标检测模型，输出鸟瞰图。

如图2所示，多视角目标检测模型预测生成的鸟瞰图与Ground Truth几乎吻合。

本发明的实施例2提出了一种基于Transformer的多视角目标检测系统，系统包括：

目标检测模块，用于将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型，输出包含目标检测检测结果的鸟瞰图；多视角目标检测模型包括：特征提取模块、Transformer模型和投影模块；

特征提取模块，用于提取每个视角的RGB图像的多尺度特征图，将多个视角的多尺度特征图输入Transformer模型；

Transformer模型，用对输入的特征图的进行目标检测，输出bounding box；

投影模块，用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图，与特征提取模块输出的多个视角的特征图进行融合，再经过投影变换和卷积后输出鸟瞰图。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Transformer的多视角目标检测方法，所述方法包括：

利用多个相机同时采集多个视角的RGB图像并进行预处理；

所述投影模块，用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图，与特征提取模块输出的多个视角的特征图进行融合，再经过投影变换和卷积后输出鸟瞰图；

所述特征提取模块包括：两个分支以及自适应平均池化和Relu层；第一个分支为Resnet网络，第二个分支由一个3x3的卷积层和一个1x1的卷积层组成，自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。

2.根据权利要求1所述的基于Transformer的多视角目标检测方法，其特征在于，所述Transformer模型包括六个编码器和六个解码器，dropout概率设置为0.1，激活函数设置为RELU，将预测bounding box数量设置为50。

3.根据权利要求2所述的基于Transformer的多视角目标检测方法，其特征在于，所述投影模块的具体实现过程包括：

利用每个相机的标定文件，基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上，得到多个相机的级联投影特征图；将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合，输出一个(N×C+2)通道的地平面矩形特征图；N为相机的个数，C为一个相机的投影通道数；

4.根据权利要求1所述的基于Transformer的多视角目标检测方法，其特征在于，所述方法还包括：对多视角目标检测模型进行训练的步骤，具体包括：

5.一种基于Transformer的多视角目标检测系统，其特征在于，所述系统包括：

6.根据权利要求5所述的基于Transformer的多视角目标检测系统，其特征在于，所述Transformer模型包括六个编码器和六个解码器，dropout概率设置为0.1，激活函数设置为RELU，将预测bounding box数量设置为50。

7.根据权利要求6所述的基于Transformer的多视角目标检测系统，其特征在于，所述投影模块的具体实现过程包括：