CN113673420B

CN113673420B - 一种基于全局特征感知的目标检测方法及系统

Info

Publication number: CN113673420B
Application number: CN202110954164.8A
Authority: CN
Inventors: 张新钰; 王力; 李骏; 曾维佳; 刘伟; 杨磊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-02-15
Anticipated expiration: 2041-08-19
Also published as: CN113673420A

Abstract

本发明公开了一种基于全局特征感知的目标检测方法及系统，所述方法包括：实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；将原始监控图像输入训练好的全局感知特征提取器，输出检测结果；所述全局感知特征提取器包括：图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络。本发明的方法可以提升检测精度并有效增强目标检测的泛化性能。

Description

一种基于全局特征感知的目标检测方法及系统

技术领域

本发明涉及自动驾驶领域，具体涉及一种基于全局特征感知的目标检测方法及系统。

背景技术

在交通拥堵的大城市，车主出行过程中往往需要花费大量时间来寻找可用停车位，在自动驾驶时代，实现代客泊车的前提也在于实时获取停车位的状态信息，从而进一步实现路径规划。基于计算机视觉的方法可以实现对停车场的车位进行检测，相比于基于地磁传感器的方法，优势在于成本低，几个摄像头就可以覆盖整个停车场，并且可以在现有的监控摄像头上进行升级，摄像头将拍摄到的画面进行处理后直接将车位信息反馈给车辆，进一步降低了成本。

国内外对于利用视觉检测停车位的方法已经有了一定研究，通常分为三种：

(1)对停车场图像做车辆检测，通过计算图像中车辆二维框与车位框的交并比来判断车位状况；

(2)对停车场车辆图像做语义分割，同样通过计算非背景点与车位的交并比来判断车位内有车无车。

这两种方法性能依赖于网络的检测或分割的准确度，对车位位置的检测存在一定误差。

(3)对摄像机拍摄到的停车场图像进行先验模板的标注，在系统运行时，根据先验模板对图像进行切割，每个切割图像只包含一个停车位，通过对分割后的停车位图像进行二分类(占用或者空闲)以完成对车位状况的检测。这种方案让网络只需要关注分割后的图像，避免了网络被停车位以外的图像分散注意力，相比前两种方案，这种方案降低了网络任务难度，从而拥有更高的精度。

目前来看，基于先验模板的停车场检测方法有两个共同特点：1)使用浅层网络避免过拟合；2)使用空洞卷积或者加大池化层步数以提高网络的感受野。然而浅层的网络降低了模型的学习能力，让模型只能学习到浅层特征，容易在停车位图像或车辆颜色较为复杂的情况下产生误检，并且较大的池化层步数会带来大量的信息损失，这进一步降低了模型的检测性能。

发明内容

针对上述问题，本发明提出了一种基于全局特征感知的目标检测方法，该方法基于设计的全局感知特征提取器GPFE(Global Perception Feature Extractor)，可以有效提升网络对高维特征的学习能力，以及对图像全局特征(如光照、亮度等)的感知能力。在现有网络中添加该模块并在公开数据集上进行实验可以验证该方法的有效性。

为实现上述目的，本发明的实施例1提供了一种基于全局特征感知的目标检测方法，所述方法包括：

实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；

将原始监控图像输入训练好的全局感知特征提取器，输出检测结果；

所述全局感知特征提取器包括：图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络；

所述图像切分模块，用于对待检测的图像进行切分，形成若干个固定大小的图像块，并将位置嵌入添加到图像块中，输出线性嵌入序列；

所述Transformer编码器，用于利用自注意力机制对线性嵌入序列进行处理，提取整张图像的特征图；

所述上采样和通道压缩模块，用于扩大整张图像的特征图的分辨率，并进行通道压缩；

所述特征重标定模块，用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接，利用注意力机制对拼接特征的通道进行权重分配，再将加权后的特征图送入分类网络中；

所述分类网络：用于对加权后的特征图进行目标检测，输出检测结果。

进一步的，所述图像切分模块的具体实现过程为：

将原始监控图像

切分为图像块p_i，(H,W)表示原始监控图像的分辨率，C为图像的通道数，

其中S²表示图像块大小，N表示图像块的数量并且

将图像块p_i铺展成一维向量后使用全连接层FC(·)对该图像块进行“词嵌入”操作，“词嵌入”向量Emb(i)为：

Emb(i)＝FC(Flatten(p_i))+Lp_i

其中，Flatten(p_i)为将图像块p_i铺展成一维向量；Lp_i为一个可学习的变量，以表征图像块的位置编码信息；

将线性嵌入序列[Emb(0)，Emb(1),…,Emb(N)]输出至Transfomer编码器。

进一步的，所述Transfomer编码器由L个块堆叠而成，每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元；

对于第l个块，其输入向量为y_l-1，其中，第一个块的输入向量为y₀＝[Emb(0)，Emb(1),…,Emb(N)]；上一个块的输出为下一个块的输入；

第一层归一化单元对输入向量y_l-1进行层归一化处理得到向量X＝LN(y_l-1)；

多头自注意力模块包括M个单头，第m个单头的自注意机制的输出SA_m为：

其中，

和

均代表线性转换矩阵，

代表第m个单头的矩阵

的维度；

将M个单头的自注意机制的输出拼接起来，通过乘一个线性变换矩阵W^O得到多头自注意力模块的输出MHA(X)：

MHA(X)＝Concat[SA₁,…,SA_M]W^o

第一加法单元，用于将多头自注意力模块的输出与输入向量进行相加，结果为y′_l：

y′_l＝MHA(X)+y_l-1

第二层归一化单元，用于对y′_l进行层归一化处理得到向量LN(y′_l)；

多层感知机，用于对向量LN(y′_l)进行处理，输出处理结果：MLP(LN(y′_l))

第二加法单元，用于将多层感知机的输出与y′_l进行相加：

y_l＝MLP(LN(y′_l))+y′_l

则第l个块的输出为y_l，第L个块的输出y_L为Transfomer编码器的输出。

进一步的，所述上采样和通道压缩模块包括多个堆叠的块，每个块均包含一个线性插值单元以及两个卷积层；第一个块输入的特征图为y_L；上一个块的输出为下一个块的输入；最后一个块的输出为所述上采样和通道压缩模块的输出；

线性插值单元，用于将输入的特征图分辨率扩大两倍；

两个卷积层，用于将线性插值单元输出的特征图的通道数减少一半，完成对信息的压缩。

进一步的，所述特征重标定模块包括：拼接单元、权重计算单元和加权单元；

所述拼接单元：用于将上采样和通道压缩模块输出的特征图与原始监控图像进行拼接，输出拼接后的特征图；

所述权重计算单元，用于采用注意力机制，通过全局平均池化函数对拼接后的特征图的空间维度进行特征压缩，获取全局的感受；然后通过线性转换函数为每个特征通道计算一个权重；

所述加权单元，用于将经过特征选择后的权重通过乘法加权到拼接后的特征图上，从而完成特征图的重标定，将重标定后的特征图输入分类网络。

进一步的，所述方法还包括：对全局感知特征提取器进行训练的步骤。

本发明的实施例2提供了一种基于全局特征感知的目标检测系统，所述系统包括：预先训练好的全局感知特征提取器、数据采集模块和检测模块

所述数据采集模块，用于实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；

所述检测模块，用于将原始监控图像输入所述全局感知特征提取器，输出检测结果；

本发明的优势在于：

1、本发明的目标检测方法基于全局特征感知，通过提升模型的全局感受以应对目标检测复杂的情况，如光照变化、遮挡状况，将该模块的输出向量输入到分类网络当中可实现对目标状态的判断；

2、本发明的方法可以提升检测精度并有效增强目标检测的泛化性能。

附图说明

图1为本发明提出的用于对切割后的停车位图片进行特征提取的全局感知特征提取器的示意图。

具体实施方式

下面将结合说明书附图和实施例对本发明所述的全局特征提取模块做进一步的解释和说明，然而该解释和说明并不对本发明的技术方案构成不当限定。对于本发明的一些实施例，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

实施例1

本发明的实施例1提出了一种基于全局特征感知的目标检测方法，在本实施例中，目标位停车场的车位，检测结果是空闲或占用；该方法包括：

步骤1)建立并训练全局感知特征提取器GPFE；

图1所示为本发明的全局感知特征提取器GPFE的结构图，由于车位检测会因为车身反光以及车身颜色等影响因素导致模型误检。因此使用全局特征提取模块提升模型对图片整体特征的感知能力，进而提升模型的准确率以及环境的适用性。

全局感知特征提取器GPFE对输入该模块中的图像进行切割，形成一个个固定大小的图像块，并将位置嵌入添加到图像块中以保留位置信息，位置编码可以通过学习的方式获得，这些小块的线性嵌入序列作为下一步Transformer编码器的输入。使用Transformer编码器进行特征提取，提升模型的全局感知能力。通过上采样以及卷积层来扩大特征图的分辨率以及实现通道压缩，之后与原图像进行拼接避免信息损失。通过学习的方式自动获取到每个特征通道的重要程度，利用注意力机制完成对融合特征的通道进行权重分配，避免注意力分散，再将提取到的特征图送入分类网络中。

全局感知特征提取器GPFE具体实现方式如下：

图像切分(Image Slicing)模块：将车位图像

切分为图像块p_i，(H,W)表示车位图像的分辨率，C为图像的通道数，

其中S²表示图像块大小，N表示图像块的数量并且

将图像块p_i铺展成一维向量后使用全连接层FC(·)对图像块进行“词嵌入”操作，“词嵌入”向量Emb(i)满足以下公式：

Emb(i)＝FC(Flatten(p_i))+Lp_i

其中，Flatten(p_i)为将图像块p_i铺展成一维向量；为了让每个图像块p_i能够感受到与其他图像块的相对位置关系，该部分在对图像块嵌入信息的过程中加上一个可学习的变量Lp_i，以表征图像块的位置编码信息。

Transfomer编码器：由L个块重复堆叠而成，每个块包含第一层归一化单元、多头自注意力模块MHA(Multi-Head self-Attention)、第一加法单元、第二层归一化单元、多层感知机(MLP,Multi-layer Perception)和第二加法单元；

其中，

和

均代表线性转换矩阵，

代表第m个单头的矩阵

的维度；

MHA(X)＝Concat[SA₁,…,SA_M]W^o

y′_l＝MHA(X)+y_l-1

第二加法单元，用于将多层感知机的输出与y′_l进行相加：

y_l＝MLP(LN(y′_l))+y′_l

则第l个块的输出为y_l，作为第l+1个块的输入，第L个块的输出y_L为Transfomer编码器的输出。

上采样和通道压缩(UpSamper and Channel compress)模块：包括多个堆叠的块，每个块均包含一个线性插值单元以及两个卷积层；第一个块输入的特征图为y_L；上一个块的输出为下一个块的输入；最后一个块的输出为所述上采样和通道压缩模块的输出；

线性插值单元，用于将输入的特征图分辨率扩大两倍；

两个卷积层，用于将线性插值单元输出的特征图的通道数减少一半，完成对信息的压缩，避免模型对多余信息产生注意力分散。

特征重标定(Feature Recalibration)模块：为了避免信息损失，将上采样和通道压缩模块输出的特征图与车位图像进行拼接，同样为了避免增加的信息会分散模型注意力，采用注意力机制SE(Squeeze and Excitation)，通过全局平均池化函数Fsq(·)对空间维度进行特征压缩，获取全局的感受。接着通过线性转换函数Fex(·)为每个特征通道计算一个权重，最后依据特征通道的重要程度，将经过特征选择后的权重通过乘法加权到先前的特征上，从而完成特征的重标定。

该模块包括：拼接单元、权重计算单元和加权单元；

拼接单元：用于将上采样和通道压缩模块输出的特征图与车位的RGB图像进行拼接，输出拼接后的特征；

权重计算单元，用于采用注意力机制SE(Squeeze and Excitation)，通过Fsq(·)对空间维度进行特征压缩，获取全局的感受；接着通过Fex(·)为每个特征通道计算一个权重；

加权单元，用于将经过特征选择后的权重通过乘法加权到拼接后的特征上，从而完成特征的重标定，将重标定后的特征输入分类网络；

分类网络：用于对特征重标定模块输出的特征进行车位检测，输出检测结果：空闲0或占用1。

本发明提出的全局感知特征提取器GPFE是一种通用特征提取模块，通过将提取后的特征图传给分类网络以完成分类任务，分类网络的选择多样化，比如轻量化网络ShuffleNet、MobileNet等，GPFE侧重于对图像全局特征进行提取，通过比较在GPFE后添加不同的分类网络可以验证模块的通用性和有效性。

全局感知特征提取器GPFE使用图像切分将一张图片转换成多个词嵌入向量满足Transformer的输入要求。使用Transformer编码器进行特征提取，利用其自注意力机制对每两个向量计算相关度从而拥有整张图片的感受，进一步提升模型对图像整体特征的感受能力。通过上采样扩大特征图的分辨率并且使用卷积神经网络完成对特征图的压缩，并与原图像进行拼接减少信息损失。使用注意力机制SE，通过对每个通道进行特征编码并且回归每个通道的重要程度，让模型更关注携带信息量多的通道，避免注意力分散。实验表明各种模型加上全局感知特征提取器GPFE后能够提升模型对亮度、光照的感知能力，提升模型的泛化性能。

需要说明的是该网络的搭建、训练、测试的硬件和软件平台为Ubuntu16.04+RTX3090+pytorch1.7+cuda11.1+python3.7。

步骤2)实时获取相机采集的RGB图像，对该图像进行切割，获取车位图像；

步骤3)将车位图像输入训练好的全局感知特征提取器GPFE，输出检测结果。

实施例2

本发明的实施例2提供了一种基于全局特征感知的目标检测系统，该系统包括：预先训练好的全局感知特征提取器、数据采集模块和检测模块

数据采集模块，用于实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；

检测模块，用于将原始监控图像输入全局感知特征提取器，输出检测结果；

全局感知特征提取器包括：图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络；

图像切分模块，用于对待检测的图像进行切分，形成若干个固定大小的图像块，并将位置嵌入添加到图像块中，输出线性嵌入序列；

Transformer编码器，用于利用自注意力机制对线性嵌入序列进行处理，提取整张图像的特征图；

上采样和通道压缩模块，用于扩大整张图像的特征图的分辨率，并进行通道压缩；

特征重标定模块，用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接，利用注意力机制对拼接特征的通道进行权重分配，再将加权后的特征图送入分类网络中；

分类网络：用于对加权后的特征图进行目标检测，输出检测结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。