CN114187569A

CN114187569A - 一种皮尔森系数矩阵与注意力融合的实时目标检测方法

Info

Publication number: CN114187569A
Application number: CN202111458521.8A
Authority: CN
Inventors: 程飞; 杨鹏飞; 李晨; 林成民; 朱子恒; 丁韵青
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-15

Abstract

本发明公开了一种皮尔森系数矩阵与注意力融合的实时目标检测方法，主要解决现有图像处理技术存在特征图全局上下文信息不全、特征图处理耗时高的问题。其实现方案为：1)获取实验训练集和测试集，并使用骨干网络提取各自的图片特征，将提取的图片特征图输入到皮尔森系数矩阵与注意力融合的编码器；将该编码器输出的具有全局上下文关系的特征图输入到现有的DETR模型解码器中，构建出皮尔森系数矩阵与注意力融合的目标检测模型；2)利用训练集对该目标检测模型进行训练；3)将测试集图片输入到训练好的目标检测模型，得到待预测图像中的目标分类及目标定位坐标。本发明提高了目标检测的精确度和速度，可用于自动驾驶、交通流量分析。

Description

一种皮尔森系数矩阵与注意力融合的实时目标检测方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种实时目标检测方法，可用于自动驾驶、交通流量分析场景。

技术背景

随着深度学习的快速发展，使得计算机视觉及其相关领域迎来了巨大的机遇与挑战。作为计算机视觉的一个重要子领域，目标检测的发展取得长足进步。目标检测的任务是找出图片中所有感兴趣的物体，并确定它们的位置和类别。基于卷积神经网络的目标检测算法是其中的典型代表，其可以分为两类，一类是两阶段法，其代表算法有Faster R-CNN等，这种算法需要先产生目标的候选框，再对候选框做目标分类与包围框回归；另一类是一阶段法，代表算法有YOLO等，仅需要一次操作就可以直接预测目标的类别和位置。

卷积神经网络通过对输入图片进行局部线性加权实现图片特征提取，难以有效提取全局上下文信息，随着卷积层数的增加，特征图像素点的局部感受野增大，但会损失小目标的特征信息。Lin等人提出的特征金字塔FPN弥补这种不足，将较低卷积层提取的图片纹理信息与较高卷积层提取的图片语义信息通过上采样、下采样、横向连接结合，得到更丰富的图片特征。Dai等人使用可形变卷积动态调整卷积核在特征图中的采样点，提取远距离的有效特征。这两种方法虽说都在一定程度上缓解了卷积神经网络提取全局上下文关系能力不足的问题，但提取到的图片信息仍然遗漏了大量的全局上下文信息。

为了解决上述问题，Facebook团队在2020年ECCV会议上提出DETR网络结构，其利用Transformer的多头自注意力机制提取特征图片的全局上下文信息，给目标检测的研究带来了新方向。但DETR网络结构存在的不足之处是：Transformer中的每个编码器层都存在多头自注意力计算，而多头自注意力机制的核心在于查询向量与键向量乘积得到的注意力矩阵，即点与全局上下文的相互关系，计算复杂度与输入特征图尺寸的平方成正比，因此注意力计算会消耗大量时间，并且查询向量与键向量作为特征图的线性变化，没有考虑到特征图各个通道之间的数据变化规律与联系，导致编码器层对全局上下文特征的提取不够充分，降低了DETR网络结构的目标检测性能。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出一种皮尔森系数矩阵与注意力融合的实时目标检测方法，以对DETR网络结构进行改进，充分提取编码器特征，减小计算复杂度，提高目标检测性能。

为实现上述目的，本发明的技术方案包括：

(1)获取实时车辆检测公开数据集，对该数据集的训练集、测试集图片依次进行随机反转、缩放、裁剪，并根据设定的均值和标准差对图片进行归一化；

(2)采用ResNet-50作为骨干网络对归一化后的图片进行特征提取，得到维度为(B，C，H，W)的特征图矩阵X，其中B为特征图的数量，H、W分别为特征图的高和宽，C为特征图的通道数；

(3)构建皮尔森系数矩阵与注意力融合的目标检测模型：

(3a)获取带有全局上下文信息的特征图矩阵F：

计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数，构成皮尔森系数矩阵P；

将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化；

将转化后的皮尔森系数矩阵MP与特征图矩阵X做矩阵相乘，并将该矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化，得到层归一化后的残差连接矩阵F′；

将层归一化后的残差连接矩阵F′输入到前向反馈层FFN，该前向反馈层的输出结果为一个带有全局上下文信息的特征图矩阵F；

(3b)选用原始包含六个相同的编码器层的Transformer编码器，去除其前三个编码器层，将(3a)得到的带有全局上下文信息的特征图矩阵F与Transformer编码器的第四个编码器层相连接，形成具有四层结构的皮尔森系数矩阵与注意力融合的Transformer编码器，并将其与DETR网络结构中的解码器相连接，构成皮尔森系数矩阵与注意力融合的目标检测模型；

(4)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss，采用梯度下降法对模型进行训练，得到训练好的目标检测模型；

(5)将归一化后的测试集图片输入到训练好的目标检测模型中，得到待预测图像中的目标分类及目标定位坐标，通过目标定位坐标在图像中画出目标包围框并标注目标类别。

本发明与现有技术相比，具有如下优点：

第一，本发明使用基于皮尔森系数矩阵的编码器层提取像素之间的浅层关系，同时使用原始Transformer编码器层提取像素之间的深层关系，通过融合皮尔森系数矩阵与注意力机制对输入图片特征进行编码，相比原始Transformer编码器，具有更强的图片全局上下文关系提取能力。

第二，本发明由于使用多分支多层感知机对皮尔森系数矩阵进行转化，增强了皮尔森系数矩阵在提取全局上下文关系时的灵活性。

第三，本发明由于把原始Transformer的前三个编码器层替换为一个基于皮尔森系数矩阵的编码器层，相比原始包含六个编码器层的Transformer编码器，降低编码器的计算开销，提高模型的训练、推理速度。

附图说明

图1为本发明的实现流程图；

图2为本发明中的皮尔森系数矩阵与注意力融合的编码器结构图；

图3为本发明中的皮尔森系数矩阵与注意力融合的目标检测模型结构图；

图4为本发明中的目标检测模型与DETR模型训练过程中的平均准确率变化对比图；

图5为本发明中的目标检测模型对测试集图片进行检测的效果图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步详细描述。

参照图1，本实例的实现步骤如下：

步骤1，获取实验训练集和测试集。

1.1)从互联网上下载车辆检测公开数据集；

1.2)对数据集的训练集、测试集图片进行随机反转，将反转后的图片随机裁剪为不同的大小和宽高比，再将裁剪后的图片尺寸随机缩放为480、512、544、576、608、640、672、704、736、768、800中的一个；

1.3)设置均值为0.485、0.456、0.406，设置标准差为0.229、0.224、0.225，根据设定的均值和标准差对缩放后的图片进行归一化，得到归一化后的三通道图片。

步骤2，使用骨干网络提取图片特征。

选择ResNet-50网络作为骨干网络，其由一个卷积层、一个最大池化层、四个残差模块组成，其中四个残差模块又分别由9个卷积层、12个卷积层、18个卷积层和9个卷积层组成；

将归一化后的三通道图片输入到ResNet-50网络的第一个卷积层，再将该卷积层的输出结果输入到第一个最大池化层，再将该最大池化层的输出结果输入到第一个残差模块，再依次将残差模块的输出结果输入到下一个残差模块，最后一个残差模块的输出即为维度为(B，C，H，W)的特征图矩阵X，其中B为特征图的数量，H、W分别为特征图的高和宽，C为特征图的通道数。

步骤3，构建皮尔森系数矩阵与注意力融合的目标检测模型。

3.1)根据特征图矩阵X，获取带有全局上下文信息的特征图矩阵F：

3.1.1)计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数，构成皮尔森系数矩阵P：

对特征图矩阵X进行维度变换，即将其4维度(B，C，H，W)变换为3维度(B，H*W，C)，其中H*W表示特征图的分辨率；

计算维度变换后特征图矩阵的最后一维均值：

其中，

表示第b个特征图矩阵中位置为s的特征向量的均值，X_b,s,c表示第b个特征图矩阵中位置为s的特征向量的第c个通道的特征值，b＝1，2，…，B，s＝1，2，…，H*W；

根据特征图矩阵最后一维的均值

和所述的特征值X_b,s,c计算皮尔森系数：

其中，

表示第b个特征图矩阵中位置为s₁与s₂的特征向量之间的皮尔森系数，

分别表示第b个特征图矩阵中位置为s₁和s₂的特征向量的第c个通道的特征值，

分别表示第b个特征图矩阵中位置为s₁和s₂的特征向量的均值，b＝1，2，…，B；s₁＝1，2，…，H*W；s₂＝1，2，…，H*W；

利用皮尔森系数的计算公式，计算特征图矩阵中所有位置之间的皮尔森系数，得到维度为(B，H*W，H*W)的皮尔森系数矩阵P；

3.1.2)将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化：

对皮尔森系数矩阵P的最后一维做softmax归一化：

其中，

表示归一化后第b个特征图矩阵中位置为s₁与s₂的特征向量之间的皮尔森系数，b＝1，2，…，B；s₁＝1，2，…，H*W；s₂＝1，2，…，H*W；

利用softmax归一化的计算公式，对皮尔森系数矩阵P的所有位置都进行归一化，得到归一化后的皮尔森系数矩阵P′；

根据不同特征图矩阵的特征图分辨率H*W，采用多分支结构选择相应的多层感知机MLP，该MLP由一个输入层、一个隐藏层和一个输出层构成，其中输入层的输入维度与输出层的输出维度都为H*W，保证转化前后皮尔森系数矩阵的维度不变，输入层与隐藏层之间的激活函数选择RELU，隐藏层与输出层之间不设置激活函数，将归一化后的皮尔森系数矩阵P′输入MLP的输入层，MLP的输出结果为转化后的皮尔森系数矩阵MP：

MP＝W₂*f(W₁*P′+b₁)+b₂

其中，W₁、b₁分别代表输入层与隐藏层之间的权重参数和偏置项，W₂、b₂分别代表隐藏层与输出层之间的权重参数和偏置项，f(·)代表激活函数RELU；

3.1.3)将转化后的皮尔森系数矩阵MP与特征图矩阵X做矩阵相乘，并将该矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化，得到层归一化后的残差连接矩阵F′：

对多层感知机转化后的皮尔森系数矩阵与特征图矩阵的第二、三维进行矩阵相乘：

MF_b＝MP_b×X_b，

其中，MF_b表示第b个多层感知机转化后的皮尔森系数矩阵与特征图矩阵的矩阵相乘结果，MP_b表示第b个多层感知机转化后的皮尔森系数矩阵，X_b表示第b个特征图矩阵，b＝1，2，…，B；

利用矩阵相乘的计算公式，对所有皮尔森系数矩阵与特征图矩阵都做矩阵相乘，得到矩阵相乘结果MF，将矩阵相乘结果MF与特征图矩阵X进行残差连接并进行层归一化，得到层归一化后的残差连接矩阵F′：

F′＝LayerNorm(MF+X)

其中，LayerNorm(·)代表层归一化函数，X表示特征图矩阵。

3.1.4)将层归一化后的残差连接矩阵F′输入到前向反馈层FFN，该前向反馈层由两个全连接层组成，第一个全连接层的输入维度与第二个全连接层的输出维度一致，第一个全连接层的激活函数设置为RELU，第二个全连接层无激活函数，设置两个全连接层的dropout参数为0.1；将该前向反馈层的输出结果与残差连接矩阵F′再进行残差连接并进行层归一化，得到一个带有全局上下文信息的特征图矩阵F：

F＝LayerNorm(F′+FFN(F′))

其中，LayerNorm(·)代表层归一化函数，FFN(·)代表对F′进行前向反馈层计算；

3.2)选用原始Transformer编码器，其由六个结构相同的基于注意力的编码器层组成，去除其前三个编码器层，将3.1)得到的带有全局上下文信息的特征图矩阵F与Transformer编码器的第四个编码器层相连接，形成具有四层结构的皮尔森系数矩阵与注意力融合的Transformer编码器，如图2所示；

3.3)选用DETR网络，其包括编码器、解码器，其中解码器由六个结构相同的解码器层组成，将3.2)中的Transformer编码器与DETR网络中的解码器相连接，构成皮尔森系数矩阵与注意力融合的目标检测模型。

上述目标检测模型的结构为：骨干网络→皮尔森系数矩阵与注意力融合的Transformer编码器→解码器，其中，皮尔森系数矩阵与注意力融合的Transformer编码器由一个基于皮尔森系数矩阵的编码器层和三个基于注意力的编码器层构成，解码器由六个结构相同的解码器层组成，如图3所示。

步骤4，对皮尔森系数矩阵与注意力融合的目标检测模型进行训练。

4.1)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss为交叉熵损失函数与L1范数损失函数之和，设置最大迭代次数为T＝50，并令初始迭代次数t＝0；

4.2)从训练集中按序选择两张图片与其对应的真实标签，将图片输入到步骤2中的骨干网络进行特征提取，将得到的特征图矩阵输入到皮尔森系数矩阵与注意力融合的目标检测模型，输出该图片的预测结果，并利用损失函数Loss计算预测结果与对应的真实标签的损失值；

4.3)采用Adam优化器，设置学习率为0.001，通过损失值对皮尔森系数矩阵与注意力融合的目标检测模型参数进行更新；

4.4)判断训练集的所有图片是否全部更新：如果是，则执行4.5)，否则，返回4.2)；

4.5)判断当前的迭代次数是否达到最大迭代次数T：如果是，则得到训练好的皮尔森系数矩阵与注意力融合的目标检测模型，执行步骤5；如果不是，则令t＝t+1，返回4.2)。

步骤5，使用训练好的目标检测模型对输入图片进行目标检测。

将待检测图像输入到训练好的皮尔森系数矩阵与注意力融合的目标检测模型，通过其骨干网络提取输入图片的特征，该特征图通过基于皮尔森系数矩阵的编码器层提取全局上下文信息，该具有全局上下文信息的特征图再通过基于注意力的编码器层进一步提取全局上下文信息，该基于注意力的编码器层的输出结果再通过解码器得到待检测图像中的目标类别及目标定位坐标，通过目标定位坐标在图像中画出目标包围框并标注目标类别。

本发明的效果可通过以下实验进一步验证。

一.实验条件：

CPU使用Intel Xwon(R)Gold 6240CPU 2.60GHz×72，GPU使用NVIDIA GeForceGTX 2080Ti×3，操作系统使用Ubuntu 16.04，深度学习框架使用Pytorch1.8，NVIDIA计算包选择CUDA10.0+cuDNN7.4.1。

使用部分公开车辆检测数据集作为训练数据和测试数据。

二.实验内容

实验一.用上述训练数据集分别对本发明中的目标检测模型和现有的DETR模型进行训练，并分别记录其训练过程中的准确率、平均训练时间和平均测试时间，其中平均训练时间和平均测试时间如表1所示，训练过程中的准确率如图4所示，其中：

图4a为本发明中的目标检测模型训练的平均准确率均值mAP曲线；

图4b为现有的DETR模型训练的mAP曲线；

从4a可见，随着迭代次数的增大，mAP逐渐增加并稳定到0.30；

从4b可见，随着迭代次数的增大，mAP逐渐减少并稳定到0.29，低于本发明的收敛准确率；

由图4a和图4b的对比可见，本发明中的目标检测模型随着训练迭代次数增加，皮尔森系数矩阵的多层感知机的转化效果越来越好，因此mAP逐渐提升；由于DETR模型已加载训练好的模型参数，因此对数据集有极好的拟合能力，当数据集只有原来的一部分时，随着训练迭代次数的增加，模型对数据集的拟合能力逐渐降低，mAP逐渐下降。

表1为两种模型的训练时间与测试时间对比结果。

	现有DETR模型	本发明目标检测模型
			训练时间(秒/幅图)	0.1974	0.1925(↑2.48％)
测试时间(秒/幅图)	0.0837	0.0815(↑2.63％)

由表1可见，相比DETR模型，本发明提出的目标检测模型比DETR模型的训练速度高2.48％，测试速度上高2.63％。

实验二.从上述测试数据集中随机选择一张图片输入本发明中的目标检测模型进行目标检测，检测结果如图5所示。

从图4可见，本发明中的目标检测模型能够识别出输入图片中所有车辆的类别并对其进行定位。

综上，本发明中的目标检测模型具有良好的检测效果，且相比现有的DETR模型，在准确率、训练速度、测试速度上均有提升，表明本发明在实际应用中其效果优于现有的DETR模型。

Claims

1.一种皮尔森系数矩阵与注意力融合的实时目标检测方法，其特征在于，包括：

(1)获取车辆检测公开数据集，对该数据集的训练集、测试集图片依次进行随机反转、缩放、裁剪，并根据设定的均值和标准差对图片进行归一化；

(3)构建皮尔森系数矩阵与注意力融合的目标检测模型：

(3a)获取带有全局上下文信息的特征图矩阵F：

2.根据权利要求1所述的方法，其特征在于，(2)中采用ResNet-50作为骨干网络对归一化后的图片进行特征提取，是将归一化图片输入到ResNet-50网络的第一个卷积层，再将该卷积层的输出结果输入到第一个最大池化层，再将该最大池化层的输出结果依次输入到四个残差模块，最后一个残差模块的输出即为特征图矩阵X。

3.根据权利要求1所述的方法，其特征在于，(3a)中计算特征图矩阵X中每一个特征值与其他所有特征值之间的皮尔森系数，得到的皮尔森系数矩阵P，实现如下：

(3a1)对特征图矩阵X进行维度变换，即将其4维度(B，C，H，W)变换为3维度(B，H*W，C)，其中，H*W表示特征图的分辨率；

计算维度变换后特征图矩阵的最后一维均值：

其中，

表示第b个特征图矩阵中位置为s的特征向量的均值，X_b,s,c表示第b个特征图矩阵中位置为s的特征向量的第c个通道的特征值，b＝1，2，…，B；s＝1，2，…，H*W；

(3a2)根据特征图矩阵最后一维的均值

和所述的特征值X_b,s,c计算皮尔森系数：

其中，

(3a3)利用(3a2)的公式，计算特征图矩阵中所有位置之间的皮尔森系数，得到维度为(B，H*W，H*W)的皮尔森系数矩阵P。

4.根据权利要求1所述的方法，其特征在于，(3a)中将皮尔森系数矩阵P输入到一个输入层与输出层维度相同的多层感知机MLP中进行转化，实现如下：

(3a4)对皮尔森系数矩阵P的最后一维做softmax归一化：

其中，

(3a5)利用(3a4)的公式，对皮尔森系数矩阵P的所有位置都进行归一化，得到归一化后的皮尔森系数矩阵P′；

(3a6)根据不同特征图矩阵的特征图分辨率H*W，采用多分支结构选择相应的多层感知机MLP，将归一化后的皮尔森系数矩阵P′输入MLP的输入层，MLP的输出结果为转化后的皮尔森系数矩阵MP：

MP＝W₂*f(W₁*P′+b₁)+b₂

其中，W₁、b₁分别代表输入层与隐藏层之间的权重参数和偏置项，W₂、b₂分别代表隐藏层与输出层之间的权重参数和偏置项，f(·)代表激活函数RELU。

5.根据权利要求1所述的方法，其特征在于，(3a)中得到矩阵相乘结果MF，实现如下：

(3a7)对多层感知机转化后的皮尔森系数矩阵与特征图矩阵的第二、三维进行矩阵相乘：

MF_b＝MP_b×X_b，

(3a8)利用(3a7)的公式，对所有皮尔森系数矩阵与特征图矩阵都做矩阵相乘，得到矩阵相乘结果MF。

6.根据权利要求1所述的方法，其特征在于，(3a)中得到层归一化后的残差连接矩阵F′，表示如下：

F′＝LayerNorm(MF+X)

其中，LayerNorm(·)代表层归一化函数，X表示特征图矩阵。

7.根据权利要求1所述的方法，其特征在于，(3a)中得到的带有全局上下文信息的特征图矩阵F，表示如下：

F＝LayerNorm(F′+FFN(F′))

其中，F代表带有全局上下文信息的特征图矩阵，LayerNorm(·)代表层归一化函数，FFN(·)代表对F′进行前向反馈层计算。

8.根据权利要求1所述的方法，其特征在于，(3b)中得到的皮尔森系数矩阵与注意力融合的目标检测模型，其结构为：骨干网络→皮尔森系数矩阵与注意力融合的Transformer编码器→解码器，其中，皮尔森系数矩阵与注意力融合的Transformer编码器由一个基于皮尔森系数矩阵的编码器层和三个基于注意力的编码器层构成。

9.根据权利要求1所述的方法，其特征在于(4)中用梯度下降法对皮尔森系数矩阵与注意力融合的目标检测模型进行训练，实现如下：

(4a)设置皮尔森系数矩阵与注意力融合的目标检测模型的损失函数Loss为交叉熵损失函数与L1范数损失函数之和，设置最大迭代次数为T＝50，并令初始迭代次数t＝0；

(4b)从训练集中按序选择两张图片与其对应的真实标签，将图片输入到(2)中的骨干网络进行特征提取，将得到的特征图矩阵输入到皮尔森系数矩阵与注意力融合的目标检测模型，输出该图片的预测结果，并利用损失函数Loss计算预测结果与对应的真实标签的损失值；

(4c)采用Adam优化器，设置学习率为0.001，通过损失值对皮尔森系数矩阵与注意力融合的目标检测模型参数进行更新；

(4d)判断训练集的所有图片是否全部更新：如果是，则执行(4e)，否则，返回(4b)；

(4e)判断当前的迭代次数是否达到最大迭代次数T：如果是，则得到训练好的皮尔森系数矩阵与注意力融合的目标检测模型，执行(5)；如果不是，则令t＝t+1，返回(4b)。