CN115661683A

CN115661683A - 一种基于多注意力机制网络的车辆识别统计方法

Info

Publication number: CN115661683A
Application number: CN202210769132.5A
Authority: CN
Inventors: 刘皓挺; 陈帅; 丁凯; 李�昊; 陈宇; 邓斌
Original assignee: University of Science and Technology Beijing USTB; 63983 Troops of PLA
Current assignee: University of Science and Technology Beijing USTB; 63983 Troops of PLA
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2023-01-31

Abstract

本发明公开了一种基于多注意力机制网络的车辆识别统计方法，包括：获取无人机航拍的需要统计车流量的道路的实时视频；采用基于YOLOv5和HRNet设计的阶梯式多注意力网络LMNet作为检测器，对实时视频中的车辆目标进行检测，获取其中车辆的位置信息；利用改进的Strong SORT网络，依据所获取的车辆的位置信息对相应的车辆进行位置跟踪，从而获取相应车辆的运动轨迹；在无人机航拍的道路场景中划定虚拟计数线，根据所获取的车辆运动轨迹通过虚拟计数线的情况，统计车辆的数目，得到相应道路上的车流量统计结果。本发明有效提高了检测准确率，降低了误检率和漏检率，提升了追踪效果。

Description

一种基于多注意力机制网络的车辆识别统计方法

技术领域

本发明涉及车辆检测、车辆跟踪、车辆计数技术领域，特别涉及一种基于多注意力机制网络的车辆识别统计方法。

背景技术

在智能交通系统中，实时、准确的道路车流量统计可以让交管部门合理分配资源、提高道路通行效率，同时有效预防和应对城市交通拥堵问题。基于视频的道路车流量统计一般包括车辆目标检测和车辆跟踪两个部分。传统的目标检测算法通常利用人工构建的目标特征，采用分类算法进行分类，判断目标是否存在。但是传统的算法存在一些明显缺点，如检测效率低、资源消耗大，且人工设计的特征鲁棒性低、泛化效果差等，由此导致车辆误检率和漏检率高。而随着基于深度学习的检测算法的出现，检测和跟踪效果有了明显的提升。

基于深度学习的目标跟踪算法主要是基于检测的跟踪，检测器提前将每一帧图像中的目标检测出来，之后跟踪检测出的目标，所以检测效果的好坏严重影响到跟踪效果，从而影响到计数结果。考虑到道路车流量统计的实时性和灵活性，基于无人机的在线检测跟踪是车流量统计的较接近实际应用的方法。

但现有的基于无人机的在线检测跟踪技术，由于航拍中的车流统计有着运动模糊、车辆遮挡和目标尺寸变化大等因素，容易造成漏检和误检，进而影响到跟踪的效果，出现跟踪车辆身份切换问题，最后影响到统计结果。

发明内容

本发明提供了一种基于多注意力机制网络的车辆识别统计方法，以解决现有的检测跟踪技术容易造成漏检和误检，进而影响到跟踪的效果，出现跟踪车辆身份切换问题，最后影响到统计结果的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于多注意力机制网络的车辆识别统计方法，所述基于多注意力机制网络的车辆识别统计方法包括：

获取无人机航拍的需要统计车流量的道路的实时视频；

采用基于YOLOv5和HRNet设计的阶梯式多注意力网络LMNet作为检测器，对所述实时视频中的车辆目标进行检测，获取其中车辆的位置信息；

利用改进的Strong SORT网络，依据所获取的车辆的位置信息，对相应的车辆进行位置跟踪，从而获取相应车辆的运动轨迹；

在无人机航拍的道路场景中划定虚拟计数线，根据所获取的车辆运动轨迹通过虚拟计数线的情况，统计车辆的数目，得到相应道路上的车流量统计结果。

进一步地，所述阶梯式多注意力网络LMNet采用One-Stage结构，LMNet网络包括Input输入端、Backbone主干网络、Neck网络层和Head输出端；其中，

Backbone主干网络采用HRNet-W40；网络的输入采用512×512的分辨率，Head输出端总共有四个预测输出头，四个预测输出头分别为128×128，64×64，32×32，16×16；HRNet-W40的stage2_1和stage2_2前面加入了空间注意力机制，Neck网络层的FPN1、FPN2、FPN3和FPN4前面加入了通道注意力机制。

进一步地，所述LMNet网络中锚框损失函数采用EIOU LOSS损失函数。

进一步地，所述损失函数由置信度损失、类别损失及边界框坐标损失三部分构成。

进一步地，LMNet网络对实时视频中的车辆目标进行检测的过程，包括：

Input输入端对输入的数据进行Mosaic增强、自适应锚框计算和自适应图片缩放；其中，Mosaic增强通过随机缩放、随机裁剪和随机排布的方式拼接4张新的训练图像并对图像进行Mosaic增强；自适应锚框计算用于调整初始锚框的大小和比例；自适应图片缩放将原始图片统一缩放到标准尺寸并获得特征图；

经过Input输入端的操作后，将512×512×3的图片送入Backbone主干网络进行特征提取操作；Backbone主干网络采用HRNet-w40作为特征提取网络，其中，HRNet-w40网络的具体处理步骤如下：

Stage1：首先使用步长为2的3×3卷积操作将输入图像卷积两次，从而使得图像的高H和宽W变为H/4与W/4的大小；随后使用1个稠密卷积块进行处理，对特征进行提取；输出大小为[128，128，256]的特征图，并分别通过两个SAM模块进入stage2中；

Stage2：首先在上一阶段的基础上产生一个低分辨率的分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行多尺寸融合得到最后的输出，产生的特征图大小分别为[128，128，32]，[64，64，64]，进入stage3；

Stage3：在上一阶段的基础上产生一个低分辨率的分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行重复多尺度融合，得到的输出大小分别为[128，128，32]，[64，64，64]，[32，32，128]，分别输入stage4中；

Stage4：在上一阶段的基础上产生一个低分辨率分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行重复多尺度融合，得到大小分别为[128，128，32]，[64，64，64]，[32，32，128]，[16，16，256]的特征图，并分别通过四个通道注意力机制模块输入Neck网络层中；

Neck网络层由FPN结构组成，FPN结构是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到进行预测的特征图；

Head输出端用于最终检测部分，不同缩放尺度的输出检测头被用来检测不同大小的目标车辆，在特征图上生成预测框，并生成类概率和置信度信息；Head输出端接收Neck网络层的四个不同维度的特征层输出，然后利用EIOU_LOSS损失函数预测图像中车辆目标的位置信息和置信度，获取车辆位置信息。

进一步地，改进的Strong SORT网络采用表观特征余弦距离计算两帧间的距离。

进一步地，所述改进的Strong SORT网络的外观分支的外观特征提取器采用重识别领域的宽残差网络WRN替换ResNeSt50。

进一步地，在无人机航拍的道路场景中划定虚拟计数线时，不同方向的道路分别划定一条虚拟计数线，且不同方向的道路上的虚拟计数线之间保持平行。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明借鉴YOLOv5和HRNet设计了一个阶梯式多注意力网络LMNet(Ladder-typeMulti-attention Network)作为检测器，结合改进的Strong SORT目标跟踪的车流量统计算法，实现了端到端的检测和统计。相比于现有技术，本发明有效提高了检测准确率，降低了误检率和漏检率，提升了追踪效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多注意力机制网络的车辆识别统计方法的执行流程示意图；

图2是本发明实施例提供的LMNet网络的结构示意图；

图3是本发明实施例提供的SAM空间注意力机制模块示意图；

图4是本发明实施例提供的SE_Block通道注意力机制模块示意图；

图5是Strong SORT结构图；

图6是本发明实施例提供的改进的Strong SORT结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种基于多注意力机制网络的车辆识别统计方法，该方法采用无人机航拍的方式跟踪检测车辆并统计道路车辆，基于无人机的道路车辆统计方法灵活性高，在缺乏道路监控的路口也能实时判断车流情况，并且无人机的航拍视频便于联网传输。该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该方法的执行流程如图1所示，包括以下步骤：

S1，获取无人机航拍的需要统计车流量的道路的实时视频；

S2，采用基于YOLOv5和HRNet设计的阶梯式多注意力网络LMNet作为检测器，对所述实时视频中的车辆目标进行检测，获取其中车辆的位置信息；

S3，利用改进的Strong SORT网络，依据所获取的车辆的位置信息，对相应的车辆进行位置跟踪，从而获取相应车辆的运动轨迹；

S4，在无人机航拍的道路场景中划定虚拟计数线，根据所获取的车辆运动轨迹通过虚拟计数线的情况，统计车辆的数目，得到道路上的车流量统计结果。

需要说明的是，在本实施例中，上述步骤在无人机航拍的道路场景中划定虚拟计数线时，不同方向的道路分别划定一条虚拟计数线，以统计所有车道的车辆数目，并且不同方向的道路虚拟计数线之间保持平行。

具体地，请参阅图2至图4，本实施例的LMNet通过改进YOLOv5网络得到，其采用One-Stage结构，由Input输入端、Backbone主干网络、Neck网络层和Head输出端4个部分组成。具体地，LMNet网络的介绍如下：

Backbone部分采用HRNet-W40，相比于其他主干网络，HRNet可以保留更多的细节信息，有助于航拍车辆这类小目标的检测；LMNet网络中锚框损失函数用EIOU LOSS损失函数，相比于其他目标框回归损失函数，EIOU LOSS考虑了重叠面积，中心点距离、长宽边长真实差，对检测效果有明显的提升；网络的输入采用512×512的分辨率，Head总共有四个预测输出头，四个预测输出头分别为128×128，64×64，32×32，16×16，对不同尺寸的目标车辆都能进行很好地检测，大大减少了误检率和漏检率；为了加强特征的提取和减少冗余信息，在HRNet-W40的stage2_1、stage2_2前面加入了空间注意力机制SAM(spatial attentionmechanisms)，在Neck的FPN1、FPN2、FPN3、FPN4前面加入了通道注意力机制模块SE_Block。上述LMNet网络的结构如图2所示；SAM空间注意力机制模块如图3所示；SE_Block通道注意力机制模块如图4所示。

利用上述LMNet网络模型作为检测器检测车辆的检测过程包括：

Input对输入的数据进行Mosaic增强、自适应锚框计算和自适应图片缩放；其中，Mosaic增强通过随机缩放、随机裁剪、随机排布的方式拼接4张新的训练图像并对图像进行Mosaic增强；自适应锚框计算用于调整初始锚框的大小和比例；自适应图片缩放将原始图片统一缩放到一个标准尺寸并获得特征图。经Input的一系列操作后，将512×512×3的图片送入Backbone进行特征提取操作。

Backbone用HRNet-w40作为特征提取网络，HRNet-w40的处理步骤如下：

Stage1：首先使用步长为2的3×3卷积操作将输入图像卷积两次，从而使得图像的高(H)和宽(W)变为H/4与W/4的大小。随后使用1个稠密卷积块进行处理，对特征进行提取。输出大小为([128，128，256])的特征图，并分别通过两个SAM模块进入stage2中；

Stage2：首先在上一阶段的基础上产生一个低分辨率的分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行多尺寸融合得到最后的输出，产生的特征图大小分别为([128，128，32]，[64，64，64])，进入stage3；

Stage3：在上一阶段基础上产生一个低分辨率的分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行重复多尺度融合，得到的输出大小分别为([128，128，32]，[64，64，64]，[32，32，128])，分别输入stage4；

Stage4：同样在上一阶段的基础上产生一个低分辨率分支，然后每一个分支分别利用1个稠密卷积块进行特征提取，最后进行重复多尺度融合，得到大小分别为([128，128，32]，[64，64，64]，[32，32，128]，[16，16，256])的特征图，分别记为Stage4_1、Stage4_2、Stage4_3、Stage4_4，并分别通过四个SE_Block模块输入Neck中。

Neck网络由FPN结构组成，FPN结构是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到进行预测的特征图。

Head端主要用于最终检测部分，这些不同缩放尺度的输出检测头被用来检测不同大小的目标车辆，它在特征图上生成预测框，并生成类概率、置信度信息。本实施例采用EIOU_LOSS损失函数作为LMNet网络算法的预测框回归损失函数，EIOU_LOSS考虑了重叠面积，中心点距离、长宽边长真实差，基于CIOU解决了纵横比的模糊定义，并添加Focal Loss解决BBox回归中的样本不平衡问题。LMNet网络损失函数由置信度损失(L_conf)、类别损失(L_cla)以及边界框坐标损失(L_EIoU)三部分构成，公式如下：L_total＝L_conf+L_cla+L_EioU。

输出端接收Neck网络的四个不同维度的特征层输出(128×128×256)、(64×64×256)、D3(32×32×256)、D3(16×16×256)，然后利用损失函数预测图像中车辆目标的位置信息和置信度，获取车辆位置信息。

在车流量统计方法中，上述LMNet网络检测模型作为车辆目标的检测器，提取城市道路场景中的车辆，获取车辆检测框位置信息，改进后的Strong Sort算法利用NSA卡尔曼滤波器预测车辆检测框在下一帧的状态，使用匈牙利算法将预测到的状态与下一帧的检测结果进行匹配，接着NSA卡尔曼滤波更新，进而实现车辆的追踪。预测下一帧中车辆的轨迹，其中，轨迹包括若干条，对若干条所述轨迹进行检测，保留有效轨迹，对有效轨迹进行Vanilla全局线性匹配，获取所述车辆的运动轨迹。Strong Sort是在Deep SORT目标追踪基础上进行改进的，并且利用WRN深度提取外观信息，对遮挡目标的追踪效果有显著提升。

其中，需要说明的是，SORT算法在传统算法的基础上，使用卡尔曼滤波处理每帧的关联性，利用匈牙利算法进行关联度量，使得其检测性能提升了几十倍。然而SORT算法的Id频繁切换的问题比较明显，也就是说SORT算法只适用于遮挡情况少的、运动比较稳定的对象。Deep SORT通过结合动作和外观信息的更准确的度量来实现关联度量，使用CNN网络提取特征，增加了对缺失和遮挡的鲁棒性，同时易于实现、高效，也适用于在线场景。

Strong SORT对Deep SORT的改进主要体现在两个分支上，如图5的下半部分所示。对于外观分支，应用了更强大的外观特征提取器BoT来取代原来简单的CNN。Deep SORT的特征库也被新的特征更新策略替换，新的特征策略以指数平均移动(EMA)的方式更新，不仅提高了匹配质量，而且减少了时间消耗。外观分支特征提取算法以ResNeSt50为主干，可提取更具区分性的特征。对于运动分支，采用ECC来进行摄像机运动补偿。此外，普通卡尔曼滤波很容易受到低质量检测的影响，且忽略了检测噪声尺度上的信息，为解决这个问题，借用了NSA卡尔曼算法并提出了一个自适应计算噪声协方差。另外不再只使用外观特征距离进行匹配，而是用Vanilla全局线性匹配代替Deep SORT的级联匹配。

由于Strong SORT采用马氏距离来计算两帧之间的距离，而马氏距离仅衡量空间距离会导致严重的身份变换问题，所以本实施例中改进的Strong SORT引入表观特征余弦距离度量框内的内容相似度。并且为了加快训练速度，外观分支的外观特征提取器采用了重识别领域的宽残差网络(Wide Residual Networks,WRN)替换ResNeSt50，该模型可以在相近参数量的情况下具有更快的训练速度，同时又能保持网络性能。改进的Strong SORT如图6所示。

本实施例选择改进的Strong SORT跟踪器作为跟踪阶段的跟踪器，该跟踪器带有深度关联特征，它的跟踪效果基于检测器准确地检测结果。以LMNet网络检测结果的检测框位置信息、置信度、图像特征为输入。置信度主要用于检测框的筛选，检测框位置信息与图像特征用于与跟踪器的匹配计算。预测模块利用卡尔曼滤波器，更新模块部分利用EMA更新策略进行匈牙利算法的匹配。

为了防止多目标跟踪中一个目标覆盖多个目标或多个检测器检测一个目标的情况，Strong SORT跟踪器使用八维状态空间

作为车辆目标的直接观测模型，其中，(u,v)为车辆目标检测框中心位置坐标，r为车辆目标检测框纵横比，h为车辆目标检测框的高度。(u，v，r，h)是车辆目标状态的观测变量，

为预测信息，即算法使用NSA卡尔曼滤波器进行对下一帧目标轨迹的预测。使用匈牙利算法将预测到的状态与下一帧的检测结果进行匹配，接着卡尔曼滤波更新，实现跟踪运动车辆。

对于某条车辆跟踪轨迹，只有连续图像中存在车辆检测框与其匹配成功，该轨迹才生效，否则丢弃。对于匹配过程而言，检测框与车辆轨迹之间的匹配可以使用匈牙利算法解决。对于个别车辆，在跟踪过程中偶尔会出现一些检测失败的情形，为保证后续能够继续跟踪该目标，改进的Strong SORT算法在某条轨迹确认生效后，对其进行Vanilla全局线性赋值，采用表观特征余弦距离和运动信息来进行匹配，进而形成车辆运动的轨迹。对于每条轨迹，记录上次成功检测的帧与当前检测帧之间的帧数，该计数器在卡尔曼滤波器预测期间递增，当轨迹与测量关联时置0。当帧数超过设定的阈值时，则认为目标车辆已离开当前视野并删除轨迹。当检测器中出现无法与现有轨迹相匹配的检测就先生成一条暂定轨迹，如果该轨迹在相邻帧中无法重新匹配则删除。根据运动轨迹与虚拟计数线的相交情况，可判断车辆通过虚拟计数线的数量，以统计车辆的数目。

综上，本实施例通过获取可见光相机航拍的实时视频；在需要统计车流量的路口划定标志线；使用LMNet网络模型提取无人机航拍的车辆，获取车辆的位置信息；利用改进的Strong SORT依据所获取的车辆位置信息跟踪车辆，从而获取车辆的运动轨迹；划定虚拟计数线，根据所获取的车辆运动轨迹通过虚拟计数线的情况，统计车辆的数目。实现了端到端的检测和统计。相比于现有技术，本发明有效提高了检测准确率，降低了误检率和漏检率，提升了追踪效果。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于多注意力机制网络的车辆识别统计方法，其特征在于，包括：

获取无人机航拍的需要统计车流量的道路的实时视频；

2.如权利要求1所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，所述阶梯式多注意力网络LMNet采用One-Stage结构，LMNet网络包括：Input输入端、Backbone主干网络、Neck网络层和Head输出端；其中，

3.如权利要求2所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，所述LMNet网络中锚框损失函数采用EIOU LOSS损失函数。

4.如权利要求3所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，所述损失函数由置信度损失、类别损失及边界框坐标损失三部分构成。

5.如权利要求4所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，LMNet网络对所述实时视频中的车辆目标进行检测的过程，包括：

6.如权利要求1所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，所述改进的Strong SORT网络采用表观特征余弦距离计算两帧间的距离。

7.如权利要求6所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，所述改进的Strong SORT网络的外观分支的外观特征提取器采用重识别领域的宽残差网络WRN替换ResNeSt50。

8.如权利要求1所述的基于多注意力机制网络的车辆识别统计方法，其特征在于，在无人机航拍的道路场景中划定虚拟计数线时，不同方向的道路分别划定一条虚拟计数线，并且不同方向的道路上的虚拟计数线之间保持平行。