CN116524203A

CN116524203A - 一种基于注意力和双向加权特征融合的车辆目标检测方法

Info

Publication number: CN116524203A
Application number: CN202310498898.9A
Authority: CN
Inventors: 邢雪; 王彬; 王菲; 穆天傲; 唐磊; 王兵
Original assignee: Jilin Institute of Chemical Technology
Current assignee: Jilin Institute of Chemical Technology
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-01
Anticipated expiration: 2043-05-05
Also published as: CN116524203B

Abstract

本发明公开了一种基于注意力和双向加权特征融合的车辆目标检测方法，应用于交通技术领域，其中包括：选取UA‑DETRACK数据集，并对数据集进行预处理；对数据进行增强，并将处理后的图像作为训练样本；对车辆进行目标编码，然后进行网络的搭建；对于训练的样本进行特征提取，然后对提取的特征进行特征融合；对搭建好的网络进行训练，得到目标检测模型；对目标检测模型进行测试，并输出结果。通过引入带注意力机制的特征融合模式，解决中大目标，被遮挡或截断目标的检测精度低的问题。

Description

一种基于注意力和双向加权特征融合的车辆目标检测方法

技术领域

本发明涉及交通技术领域，更具体的说是涉及一种基于注意力和双向加权特征融合的车辆目标检测方法。

背景技术

近年来，随着市场需求以及人工智能技术的不断发展，智能交通技术成为交通领域中不可或缺的一个重要组成部分，车辆目标检测技术作为智能交通领域的一个重要步骤，也是广大学者研究的主要问题之一。基于深度学习的车辆目标检测任务中，主要分为基于候选框的算法和基于回归的算法，基于候选区域的算法由于受限于候选框的人为设置和候选框的数量繁多，运行速率较慢，而基于回归的算法舍去了候选框的计算，提高了检测效率。

CenterNet算法作为基于回归算法的代表之一，通过对于车辆中心的回归方式，可以有效地检测到目标车辆，但是它对于特种车辆的检测和较中大目标和被遮挡或者截断检测的精确率、漏检率和定位准确度仍与理想水平有一定差异。

因此，提出一种基于注意力和双向加权特征融合的车辆目标检测方法，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于注意力和双向加权特征融合的车辆目标检测方法，通过引入带注意力机制的特征融合模式，解决较中大目标，被遮挡或截断目标的检测精度低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于注意力和双向加权特征融合的车辆目标检测方法，包括以下步骤：

S1、选取UA-DETRACK数据集，并对数据集进行预处理，得到预处理后的数据集；

S2、对预处理后的数据集进行数据增强处理，并将处理后的数据集作为训练样本；

S3、对车辆进行目标编码，然后进行网络的搭建；

S4、对训练样本进行特征提取，然后对提取的特征进行特征融合；

S5、对搭建好的网络进行训练，得到目标检测模型；

S6、对目标检测模型进行测试，并输出结果。

上述的方法，可选的，S1中的选取数据集的具体步骤如下：

选取UA-DETRACK数据集，将每帧图片的标注信息从xml格式中提取出来，并切分成训练集和测试集；通过编写python脚本将目标框位置信息进行规范化处理，并转换成TXT格式作为车辆数据集的标签。

上述的方法，可选的，S1中对数据集进行预处理的具体方法如下：

对路边停靠的密集且静止不动的车辆，以及极远处目标太小且过于模糊的车辆的目标框里的像素进行高斯模糊。

上述的方法，可选的，S2中对数据进行增强的方式如下：

对图像进行随机切分；对图像进行随机角度的翻转。

上述的方法。可选的，S3中，在数据编码模块，改变原来的一级编码模式对数据集中的目标进行两级编码。

上述的方法，可选的，S4中的特征融合采用双向加权特征融合模块和注意力模块融合的模式，将S1中自底向上通道得到的特征图通过注意力机制模块找到输入数据中与当前输出相关的有用信息，注意力机制模块包含一个ChannelAttention和一个SpatialAttention，然后将注意力机制模块的特征图进行相加融合得到最终用于目标检测模型的特征。

上述的方法，可选的，S5中CNN网络包括ResNet主干网络，双向特征融合模块和注意力机制模块的neck，中心点预测模块，分类模块，offset模块，以及scale模块。

上述的方法，可选的，对于中心点预测模块，将网络得到的featuremap和编码得到的featuremap进行比较得到损失函数值，损失函数采用Focal Loss；

对于目标宽高模块和中心点偏移模块，将网络得到的featuremap和编码得到的featuremap进行比较得到损失函数值，损失函数采用DIOULoss；

对于车辆类别判别模块，将网络得到的featuremap和编码得到的feature map进行比较得到损失函数值，损失函数采用CrossEntropyLoss。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于注意力和双向加权特征融合的车辆目标检测方法，具有以下有益效果：

(1)一种基于注意力和双向加权特征融合的车辆目标检测方法，在复杂背景下的道路车辆目标检测任务中，拥有较高的精度；

(2)一种基于注意力和双向加权特征融合的车辆目标检测方法，通过融合不同感受野下的特征图的时空信息，提高检测的召回率；

(3)一种基于注意力和双向加权特征融合的车辆目标检测方法，通过改进目标的编码方式，将检测和分类分开进行，让网络学习更多的车辆的显著的共通性特征，提高特种车辆检测的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于注意力和双向加权特征融合的车辆目标检测的方法流程图；

图2为本发明提供的一种目标检测算法的系统结构图；

图3为本发明提供的双向加权特征融合结构图；

图4为本发明提供的通道注意力机制图；

图5为本发明提供空间注意力机制图；

图6为本发明提供的检测头整体结构图；

图7为本发明提供的模糊不感兴趣区域图；

图8为本发明提供的Heatmap示意图；

图9为本发明提供的下采样回归误差示意图；

图10为本发明提供的类别编码示意图；

图11为本发明提供主干网络图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本发明公开了一种基于注意力和双向加权特征融合的车辆目标检测方法，包括以下步骤：

S1、选取UA-DETRACK数据集，将数据集切分成训练集和测试集，并对数据集进行预处理；

S2、对数据进行增强，并将处理后的图像作为训练样本；

S3、对车辆进行目标编码，然后进行网络的搭建；

S4、对于训练的样本进行特征提取，然后对提取的特征进行特征融合；

S5、对搭建好的网络进行训练，得到目标检测模型；

S6、对目标检测模型进行测试并输出结果。

具体的，数据集中有些路边停靠的车辆静止不动且密集，以及有些极远处车辆目标太小且过于模糊。对于这些车辆数据，我们在图像预处理时，将这些车辆进行模糊处理，方法是将这些车辆的目标框里的像素进行高斯模糊。

具体的，对于训练好的目标检测模型，我们需要用一些指标来评估这个算法的优劣，下面是需要用到的评估指标：

IntersectionOverUnion(IoU)：交并比，即检测结果与实际目标边框的交集除以它们之间的并集。IoU展示了算法预测出来的目标框与原来图片中标记的框的重合程度，IoU越大表示算法检测的目标位置越精确，算法准确度越高。

MeanAveragePrecision(MAP)：多类别平均精度，对于多个类别的平均精度取平均值，表现出算法对于不同尺度、不同类型物体的通用检测效果。当前目标检测算法的检测精度对比通常都使用MAP作为评价的指标，计算MAP时，不同算法会选用不同的IoU值作为识别目标位置成功的标准。对训练好的目标检测模型在测试集上进行测试，最后使用这几个评估指标对模型进行评价。

进一步的，S1中的选取数据集的具体步骤如下：

选取基于真实场景的UA-DETRACK数据集，将每帧图片的标注信息从xml格式中提取出来，并切分成训练集和测试集；通过编写python脚本将目标框位置信息进行规范化处理，并转换成TXT格式作为车辆数据集的标签。

更进一步的，S2中对数据进行增强的方式如下：

对图像进行随机切分；对图像进行随机角度的翻转。

具体的，由于固定摄像头下摄像时间有限，导致车辆数据集图像相对较少，导致数据分布不够广泛，缺乏真实情况的一些样本，因此我们在训练过程中对数据进行动态的数据增强。

主要增强的模式入下：

(a)对图像进行随机切分，将切除的部分进行补0的操作，值得一提的是，切分后的图片中的目标样本如果小于其原始大小的1/4时，即被切除的部分大于3/4,我们会将这个样本进行模糊处理并丢弃其包围框。

(b)对图像进行随机角度的翻转，翻转角度在(-15°，15°)。

进一步的，S3中，在数据编码模块，改变原来的一级编码模式对数据集中的目标进行两级编码。

具体的，骨干网络起到特征提取的作用，这部分和普通的CNN网络中特征提取结构没有区别，本发明选用ResNet网络以实现针对性的特征提取，特别的是，这部分网络结构是不包括全连接层和分类器的。特征的准确提取直接影响着检测器的性能，因此对骨干网络的研究对实现更优的目标检测效果具有重要的意义。

更进一步的，S4中的特征融合采用双向加权特征融合模块和注意力模块融合的模式，将S1中自底向上通道得到的特征图通过注意力机制模块使得让网络更专注于找到输入数据中显著的与当前输出相关的有用信息，注意力机制模块包含一个ChannelAttention和一个SpatialAttention，然后将注意力机制模块的特征图进行相加融合得到最终用于目标检测模型的特征。

进一步的，S5中CNN网络包括ResNet主干网络，双向特征融合模块和注意力机制模块的neck，中心点预测模块，分类模块，offset模块，以及scale模块。

更进一步的，对于中心点预测模块，将网络得到的featuremap和编码得到的featuremap进行比较得到损失函数值，损失函数采用FocalLoss；

参照图2所示，为一种基于注意力和双向加权特征融合的车辆目标检测方法的系统结构。

参照图3所示，引入双向加权特征融合机制。该模块添加自下而上的路径以增强FPN中的自上而下的路径,缩短了低层级信息传输到高层级的路径,并使用自适应功能池来捕获所有级别的信息,将高层级丰富的语义特征与位于较低层的丰富的纹理特征图中的准确定位信息相结合。除此之外,它将上采样层与下采样层中相同尺寸的特征图进行横向连接,以产生语义丰富的特征,保留空间信息。

参照图4所示，在特征融合阶段中，在上述双向加权融合特征融合模块中加入通道注意力机制模块，对每一个双向加权特征融合模块通过自下而上得到的featuremap采用全局平局池化和全局最大池化得到两个的1×1×C全局特征后进行相加得到全局特征，通过sigmoid层得到各个通道的重要性，再将得到的全局特征图和原始的特征图进行通道权重相乘，得到新的特征图。

参照图5所示，为了计算空间注意力，首先在通道维度平均池化和最大池化，然后将他们产生的特征图拼接起来(concat)。然后在拼接后的特征图上，使用卷积操作来产生最终的空间注意力特征图。将各个自下而上的特征图通过注意力机制模块得到的新的特征图进行相加融合得到最终用于检测器的特征。

参照图6所示，在目标检测阶段对上述得到的特征图，进行Decouplehead操作，得到4组特征图，分别代表车辆目标的中心位置，车辆的宽高信息，由于下采样导致的车辆中心点偏移信息和车辆类别信息。

参照图7所示，数据集中有些路边停靠的车辆静止不动且密集，以及有些极远处车辆目标太小且过于模糊。对于这些车辆数据，我们在图像预处理时，将这些车辆进行模糊处理，方法是将这些车辆的目标框里的像素进行高斯模糊。

具体的，对车辆进行目标编码包括：

(a)中心点预测模块：如图8所示，生成一张大小是图片宽高3/4的feature map，我们称之为F1。将图片中所有车辆的中心点位置(x,y)按照下采样两倍的位置(int(x₁/4)，int(y₁/4))以高斯分布的形式放置于生成的F1中，高斯分布的峰值为1，高斯半径的大小根据目标宽高决定。

(b)目标大小回归模块：生成两张大小和F1一致的featuremap，我们分别称之为F2和F3，用于回归目标车辆的宽高尺寸。将目标车辆宽w，和高h分别放置在F2和F3的(int(x₁/4)，int(y₁/4))位置上。

(c)中心点偏移模块：如图9所示，生成两张大小和F1一致的featuremap，我们分别称之为F4和F5，用于回归由于下采样导致的中心点偏移。蓝色点是groundtruth坐标的目标中心点位置，红色点是图像下采样后还原的目标中心点位置，由于图像经过神经网络生成的featuremap大小是原始图像大小的四分之一，因此，中心点在经过下采样后会产生偏移，设原始图片中车辆中心点位置为(x,y),放置到F1上的位置是(int(x₁/4)，int(y₁/4))，因此如果将F1的位置返回原始图像大小会存在误差，其在宽高上的误差分别为：x'＝x-4*int(x/4)，y'＝y-4*int(y/4)，因此将x'，y'的值分别放置在F4和F5(int(x₁/4)，int(y₁/4))的位置上。

(d)车辆类别判定模块：如图10所示，生成4张大小和F1相同的用于判别目标车辆类型的featuremap，我们分别称之为F6，F7，F8和F9，分别代表car，van，bus，others这四个类别。将目标车辆的类型对应的featuremap的(int(x₁/4)，int(y₁/4))设置为1，其余featuremap对应位置设置为0。

参照图11所示，采用双向加权特征融合模块和注意力模块融合的模式，增强网络提取到特征的有效性。具体实施步骤如下：

(1)对ResNet主干网络提取出的P3，P5，P7，P9，P10层作为双向加权特征融合模块的输入；

(2)双向特征融合模块通过自顶向下的通路，传递的是高层特征的语义信息；衔接自底向上的通路，传递的是低层特征的位置信息；并且在原始输入节点和输出节点之间添加一条额外的边以在不增加太多成本的情况下融合更多的特性。本文将两个双向特征融合模块进行拼接，以此达到更高层次的特征融合；

(3)将步骤2中自底向上通道得到的特征图通过注意力机制模块使得让网络更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量。注意力机制模块包含一个ChannelAttention和一个Spatial Attention。ChannelAttention计算每个通道的权重，关注于输入的不同通道信息；SpatialAttention会计算一个空间权重，也就是对不同通道在同一像素位置的值乘上相同的权重，关注于输入的不同位置信息，然后将多注意力机制模块的特征图进行相加融合得到最终用于检测器模块的特征。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，包括以下步骤：

S3、对车辆进行目标编码，然后进行网络的搭建；

S5、对搭建好的网络进行训练，得到目标检测模型；

S6、对目标检测模型进行测试，并输出结果。

2.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S1中的选取数据集的具体步骤如下：

3.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S1中对数据集进行预处理的具体方法如下：

4.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S2中对数据进行增强的方式如下：

对图像进行随机切分；对图像进行随机角度的翻转。

5.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S3中，在数据编码模块，改变原来的一级编码模式对数据集中的目标进行两级编码。

6.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S4中的特征融合采用双向加权特征融合模块和注意力模块融合的模式，将S1中自底向上通道得到的特征图通过注意力机制模块找到输入数据中与当前输出相关的有用信息，注意力机制模块包含一个Channel Attention和一个Spatial Attention，然后将注意力机制模块的特征图进行相加融合得到最终用于目标检测模型的特征。

7.根据权利要求1所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

S5中CNN网络包括ResNet主干网络，双向特征融合模块和注意力机制模块的neck，中心点预测模块，分类模块，offset模块，以及scale模块。

8.根据权利要求7所述的一种基于注意力和双向加权特征融合的车辆目标检测方法，其特征在于，

对于中心点预测模块，将网络得到的feature map和编码得到的feature map进行比较得到损失函数值，损失函数采用Focal Loss；

对于目标宽高模块和中心点偏移模块，将网络得到的feature map和编码得到的feature map进行比较得到损失函数值，损失函数采用DIOU Loss；

对于车辆类别判别模块，将网络得到的feature map和编码得到的feature map进行比较得到损失函数值，损失函数采用Cross Entropy Loss。