CN114639067A

CN114639067A - 一种基于注意力机制的多尺度全场景监控目标检测方法

Info

Publication number: CN114639067A
Application number: CN202210091887.4A
Authority: CN
Inventors: 张德祥; 王俊; 寻丽娜; 阎庆
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-06-17

Abstract

本发明公开了一种基于注意力机制的多尺度全场景监控目标检测方法，本发明涉及监测技术领域，具体包括如下步骤：通过在主干网络中增加一次下采样操作，使用最后四次下采样得到的特征图尺寸作为目标检测的四个尺度；将特征图进行3次上采样，与主干网络中的特征进行拼接融合，形成特征金字塔网络；在FPN上采样的基础上，增加了一条下采样特征融合路径，构成PAN结构，本文采用YOLOv5s作为基础框架，分析监控场景下的目标具有尺寸变化差异大的特点，提出了一种多尺度目标检测结构，提升网络对目标尺寸变化的适应能力，设计了一种基于注意力机制的特征提取模块，并将其融入到主干网络中，提升网络的特征提取能力。

Description

一种基于注意力机制的多尺度全场景监控目标检测方法

技术领域

本发明涉及监测技术领域，具体为一种基于注意力机制的多尺度全场景监控目标检测方法。

背景技术

随着城市的快速发展，城市人口数量越来越大，各类交通工具数量激增，导致安全隐患也逐渐增多。为了更好地对城市进行安全管理，在城市的交通路口、街道以及社区都开始安装监控摄像头。近些年，城市监控设施逐渐完善，记录的视频数量呈爆发式增长，仅仅通过人力很难处理这种海量级别的数据。为此，借助计算机视觉技术对监控视频中的目标进行自动化提取和分类是非常有必要的，这将有助于促进智慧城市的建设，有效协助政府部门提升城市管理水平。

传统的目标检测方法的核心方法是通过对目标进行手工提取特征，通常使用方向梯度直方图、尺度不变性特征转换等方法提取目标特征。再通过分类器将提取到的特征做进一步的分类和归纳，得到图像中目标的位置和类别信息。尽管目前基于神经网络的目标检测算法已经具有较好检测精度和检测速度，但是仍然难以适应复杂的城市监控场景，主要存在以下问题：城市监控的场景多变，加上目标遮挡以及各类天气的影响，导致出现目标特征表现不明显的问题；目标类型多，不同种类的目标尺寸差异大，同类目标的尺寸变化大，同一目标在远景和近景处的尺寸相差能达到十几倍。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于注意力机制的多尺度全场景监控目标检测方法，解决了城市监控的场景多变，加上目标遮挡以及各类天气的影响，导致出现目标特征表现不明显的问题；目标类型多，不同种类的目标尺寸差异大，同类目标的尺寸变化大，同一目标在远景和近景处的尺寸相差能达到十几倍的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于注意力机制的多尺度全场景监控目标检测方法，具体包括如下步骤：

S1、通过在主干网络中增加一次下采样操作，使用最后四次下采样得到的特征图尺寸作为目标检测的四个尺度；

S2、将特征图进行3次上采样，与主干网络中的特征进行拼接融合，形成特征金字塔网络；

S3、在FPN上采样的基础上，增加了一条下采样特征融合路径，构成PAN结构，最后得到大小为80×80、40×40、20×20、10×10 的多尺度特征融合图。

优选的，步骤S1中，所述主干网络中添加通道注意力机制。

优选的，步骤S3中，在CSP结构中引入SE (Squeeze-and-Excitation)模块，构建了新的特征提取模块 SE-CSPNet，SE模块用于从特征的通道关系之间入手，通过全连接层和Sigmoid函数来获得特征图通道的权重，再根据这些权重抑制那些无用的通道特征，关注有益的通道特征。

优选的，所述SE模块分为三个操作，分别为Squeeze、Excitation 和Reweight。

优选的，所述SE模块操作步骤如下：

1)首先通过Squeeze操作将通道为c的特征压缩为大小为1×1 ×c的特征。该特征与输入的特征通道数相匹配，并且在一定程度上具有全局感受野，它表征了特征在通道上的全局分布信息。这里的 Squeeze操作是通过全局平均池化层实现(Global averagepooling)，见公式(1)：

2)获得特征的通道全局分布信息后，通过Excitation操作来获得特征通道之间的非线性交互关系，对每个通道的重要性进行预测，并给予不同权重。通过公式(2)将特征先通过全连接层进行降维，目的是为了减小特征的通道数从而降低计算量。然后通过ReLU激活函数再接一个全连接层，保持输出的通道维度与输入相一致，再经过 Sigmoid函数得到权重SC：

s_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂ReLU(W₁z_c)) (2)

3)将Excitation操作得到的权重s当作是特征每个通道的重要性，最后再通过Reweight操作将权重s与特征相乘，完成在通道维度上对输入特征的重新标定，实现了注意力机制，见公式(3)：

(三)有益效果

本发明提供了一种基于注意力机制的多尺度全场景监控目标检测方法。与现有技术相比具备以下有益效果：

1)本文采用YOLOv5s作为基础框架，分析监控场景下的目标具有尺寸变化差异大的特点，提出了一种多尺度目标检测结构，提升网络对目标尺寸变化的适应能力，设计了一种基于注意力机制的特征提取模块，并将其融入到主干网络中，提升网络的特征提取能力，有效地改善了监控场景下目标受到遮挡、环境以及天气等影响导致的特征表现不明显问题，采用K-means聚类方法计算监控数据集的初始锚框，提升检测精度，加速模型的收敛。

2)通过在不同数据集上验证实验，MODN-BAM在COCO数据集上的mAP50和mAP分别提升了4.7％和3.7％，推理速度达到了图片3.8ms，在全场景监控数据集上，mAP50达到了89.6％，处理监控视频时速度可以达到154帧每秒。实验结果表明，MODN-BAM能够有效地应用于全场景监控下的目标检测，并且具有较快的检测速度，完全可以达到实时检测的效果。

附图说明

图1为本发明多尺度检测网络结构结构示意图；

图2为本发明SE模块结构示意图；

图3为本发明SE-CSPNet结构示意图；

图4为本发明数据集示例图片结构示意图；

图5为本发明数据集示例图片结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供一种技术方案：一种基于注意力机制的多尺度全场景监控目标检测方法，具体包括如下步骤：

S3、在FPN上采样的基础上，增加了一条下采样特征融合路径，构成PAN结构，最后得到大小为80×80、40×40、20×20、10×10 的多尺度特征融合图；

其中，自上往下的特征融合使深层网络可以获得浅层网络中丰富的位置信息，自下往上的特征融合丰富了特征了语义信息，使整个网络具有更强的特征表达能力。

在本实施例中，监控场景由于遮挡、天气等原因对导致目标特征表现不明显的问题，针对这个问题，本文在主干网络CSPDarknet中添加通道注意力机制，以增强网络的特征提取能力，通过在CSP结构中引入SE(Squeeze-and-Excitation)模块，构建了新的特征提取模块SE-CSPNet，SE模块主要是从特征的通道关系之间入手，通过全连接层和Sigmoid函数来获得特征图通道的权重，再根据这些权重抑制那些无用的通道特征，而更加关注有益的通道特征，从而提升网络的检测性能；

请参阅图2，所述SE模块分为三个操作，分别为Squeeze、 Excitation和Reweight，操作步骤如下：

2)获得特征的通道全局分布信息后，通过Excitation操作来获得特征通道之间的非线性交互关系，对每个通道的重要性进行预测，并给予不同权重。通过公式(2)将特征先通过全连接层进行降维，目的是为了减小特征的通道数从而降低计算量。然后通过ReLU激活函数再接一个全连接层，保持输出的通道维度与输入相一致，再经过Sigmoid函数得到权重SC：

s_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂ReLU(W₁z_c)) (2)

本文通过在CSP模块的残差结构中嵌入SENet，构建的SE-CSPNet 模块如图3所示。

本文部分实验数据采集于全景监控数据，其中包括了城市交通路口监控、高速监控、社区监控、园区卡口等环境下的监控视频，通过视频解码从中挑选了12000张图片进行手工标注，标注行人(Person)、小汽车(car)、货车(truck)、公共汽车(bus)、自行车(bicycle)、摩托车(motorcycle)、狗(dog)、猫(cat)共8个目标类别，数据集中包含了全天24小时的图片，其中白天的图片8500张，夜间图片3500 张，另外数据集中包含了晴天、阴天以及雨天等天气下的图片，整个数据集具有一定的代表性，数据集的部分图片如5所示；

请参阅图4，由于数据集中的图片取自监控场景，其中公共汽车、狗、猫的类别数量比与其它类别数量较少，容易导致过拟合问题。因此本文在监控数据集的基础上，融合了VOC数据集，从中挑选包含公共汽车、狗、猫的图片，同时剔除8个类别以外的其它类别，选取了 3000张图片，本文采用的监控数据集共包含15000张图片，其中随机选取12000张作为训练集图片，3000张作为验证集图片；

本文使用多项指标对模型进行评价，其中包括平均精度均值(mAP)、每秒检测帧数(FPS)以及F1值。其中查准率(precision， P)、查全率(recall，R)的通过公式(4)和公式(5)进行计算：

其中：TP表示预测的正样本中正确的数量；FP表示预测的正样本中错误的数量；FN表示预测的负样本中错误的数量；查准率P表示预测的正样本中真实正样本所占的比例；查全率R表示预测结果中真实正样本占所有真实正样本的比例。在不同置信度下，分别计算P、R的值，再以P为纵坐标，R为横坐标绘制出P-R曲线，通过计算P-R 曲线下的面积就能得到每个类别的平均精度(Average Precision， AP)，mAP就是所有类别的AP值求平均。另外TP、FP、FN的是根据预测框与真实框的IOU设定一个阈值来划分的，mAP50则是IOU取0.5 时得到的，mAP是从0.5到0.95之间每隔0.05取一个值作为IOU阈值进行计算并求均值得到的平均精度均值。

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

本文的实验是在CenterOS系统下进行，显卡型号为NVIDIA TESLA P100，显存16GB，CUDA10.2，CUDNN7.6.5，采用Pytorch深度学习框架，版本为1.7.0。

训练时使用随机梯度下降(Stochastic Gradient Descent，SGD) 进行模型优化，并且采用Mosaic数据增强方法，将四张图片通过随机缩放、翻转操作后拼接成一张图，这样在一定程度上增加了 batch-size的大小，不仅丰富了数据集，而且减少了GPU资源的消耗。置信度损失和类别损失采用交叉熵函数计算，目标定位损失函数采用CIOU函数。输入图片大小为640×640，batch-size设为64，先将修改后网络在COCO数据集上训练300个epoch，初始权重采用 Kaiming初始化方法进行初始化。

训练监控数据集前，使用K-means聚类算法计算初始锚框大小，使用合适尺寸初始锚框可以使网络更容易学习，提升检测精度。分别计算三个尺度和四个尺度的锚框，每个尺度得到3种尺寸大小的锚框。训练监控数据集时采用迁移学习的思想，加载COCO数据集上训练的权重，进行参数微调，训练200个epoch。

使用本文提出的MODN-BAM在COCO数据集上进行消融实验，实验对比结果见表1，表中Time表示的是模型推理时间。

表1 COCO数据集上的消融实验结果

Method	mAP<sub>50</sub>	mAP	Time
				YOLOv5s	55.4	36.7	3.0ms
YOLOv5s+Attentions	56.8	37.4	3.2ms
				YOLOv5s+Multi-scales	59.0	39.3	3.5ms
MODN-BAN	60.1	40.4	3.8ms

根据表1中第一行和第二行的数据，引入注意力机制后模型的 mAP50和mAP分别提升了1.4％和0.7％，速度下降0.2ms，再对比第一行和第三行的数据，加入多尺度检测结构后模型的mAP50和mAP分别提升了3.6％和2.6％，速度下降0.5ms。第四行是本文提出的同时引入注意力机制和多尺度检测结构的MODN-BAM，通过比较第一行的结果，模型的检测精度有非常大的提升，mAP50和mAP分别提升了4.7％和3.7％，尽管检测速度有所下降，但仅仅下降了不到1ms的时间；

为了进一步的验证MODN-BAM的有效性，将MODN-BAM其它目标检测算法RetinaNet-ResNet101、YOLOF、YOLOF-ResNet101、RDSNet、 YOLOv3、YOLOv3-SPP、YOLOv4、NAS-FPN、EfficientDet-D1、YOLOv5s 等进行对比，结果见表2。表中所列出的指标数据均是在COCO数据集上得出，其中mAP75为IOU取0.75时的平均精度均值，mAPs、mAPm、 mAPl分别为COCO数据集中划分的小目标、中目标和大目标所对应的平均精度均值。

表2 COCO数据集上与其它算法的对比结果

从表2的数据中可以看到，RetinaNet-ResNet101、YOLOF、 YOLOF-ResNet101在输入尺寸最小为800的情况下，各项精度指标以及FPS均低于MODN-BAM，和其中精度指标最接近的YOLOF-ResNet101 算法相比，MODN-BAM的FPS高出8.3倍。

在输入尺寸为640×640的情况下，MODN-BAM的检测速度要比 NAS-FPN、EfficientDet-D1分别高出7.3倍和3.5倍。检测精度上，仅仅在大目标的检测精度上比EfficientDet-D1低1.1％，对于小目标的检测，MODN-BAM的精度要高出4.6％。相比较于基础框架YOLOv5s，牺牲了1.2倍的检测速度，但其它各项精度指标均有较大的提升。

对于输入尺寸为608×608的目标检测算法，MODN-BAM对比 YOLOv3的提升效果最大，仅mAP就提升了7.4％，小目标的检测精度提高了4.2％，并且在速度上要比YOLOv3快8.7倍；对比YOLOv3的改进版算法YOLOv3-SPP，MODN-BAM只有mAP50低了0.5％，但包括mAP 在内的其它精度指标都高于YOLOv3-SPP，FPS也高出2.4倍；对比 YOLOv4，虽然在精度指标上MODN-BAM相对较低，但是检测速度只有 MODN-BAM的0.35倍。

从表2中的数据来看，MODN-BAM的各项指标处于中上水平，在保持较高检测精度的情况下，检测速度仍然具有明显的优势，在检测精度和检测速度之间达到了一个非常好的平衡。

从COCO数据集上表现结果来看，MODN-BAM是一个有效的目标检测网络。为了验证MODN-BAM在城市的全场景监控下的应用效果，在全场景监控数据集上进行消融实验，实验结果见表3.表中的FPS是平均一秒处理的帧数，是通过对同一实际监控视频进行检测然后计算得到的，FrameSize为测试视频的分辨率大小。

表3全场景监控数据集上的消融实验结果

Method	FrameSize	mAP<sub>50</sub>	FPS
				YOLOv5s	1920*1080	85.7	182
YOLOv5s+Attentions	1920*1080	87.6	176
				YOLOv5s+Multi-scales	1920*1080	88.4	163
MODN-BAN	1920*1080	89.6	154

通过表3中的实验数据可以看到，分别引入多尺度检测结构和注意力机制后，模型在全场景监控数据集上的mAP50分别提升了2.7％和1.9％。同时引入两种方法的MODN-BAM在全场景数据集上的mAP50 达到了89.6％，平均一秒可以处理154帧图片。

请参阅图5，在测试数据集中选取3张城市监控拍摄的图片，分别使用YOLOv5s和MODN-BAM进行目标检测，检测对比结果如图5 所示，从中可以看到本文提出的MODN-BAM相比较与YOLOv5s的检出率有明显的提升，在图A右侧中间的两辆摩托车和一些远处的汽车以及图B中左侧墙角的自行车和小狗，这些漏检的目标通过MODN-BAM 都可以成功的检测出来。夜间的检测对比结果如图C所示，能够看到 MODN-BAM对于夜间的目标也有非常好的检测效果。

综上所述、为了提高监控场景下目标监测性能，提出了一种基于注意力机制的多尺度全场景监控目标检测方法。本文采用YOLOv5s作为基础框架，分析监控场景下的目标具有尺寸变化差异大的特点，提出了一种多尺度目标检测结构，提升网络对目标尺寸变化的适应能力。设计了一种基于注意力机制的特征提取模块，并将其融入到主干网络中，提升网络的特征提取能力，有效地改善了监控场景下目标受到遮挡、环境以及天气等影响导致的特征表现不明显问题。采用K-means 聚类方法计算监控数据集的初始锚框，提升检测精度，加速模型的收敛。

通过在不同数据集上验证实验，MODN-BAM在COCO数据集上的 mAP50和mAP分别提升了4.7％和3.7％，推理速度达到了图片3.8ms。在全场景监控数据集上，mAP50达到了89.6％，处理监控视频时速度可以达到154帧每秒。实验结果表明，MODN-BAM能够有效地应用于全场景监控下的目标检测，并且具有较快的检测速度，完全可以达到实时检测的效果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于注意力机制的多尺度全场景监控目标检测方法，其特征在于：具体包括如下步骤：

S3、在FPN上采样的基础上，增加了一条下采样特征融合路径，构成PAN结构，最后得到大小为80×80、40×40、20×20、10×10的多尺度特征融合图。

2.根据权利要求1所述的一种基于注意力机制的多尺度全场景监控目标检测方法，其特征在于：步骤S1中，所述主干网络中添加通道注意力机制。

3.根据权利要求2所述的一种基于注意力机制的多尺度全场景监控目标检测方法，其特征在于：步骤S3中，在CSP结构中引入SE(Squeeze-and-Excitation)模块，构建了新的特征提取模块SE-CSPNet，SE模块用于从特征的通道关系之间入手，通过全连接层和Sigmoid函数来获得特征图通道的权重，再根据这些权重抑制那些无用的通道特征，关注有益的通道特征。

4.根据权利要求3所述的一种基于注意力机制的多尺度全场景监控目标检测方法，其特征在于：所述SE模块分为三个操作，分别为Squeeze、Excitation和Reweight。

5.根据权利要求4所述的一种基于注意力机制的多尺度全场景监控目标检测方法，其特征在于：所述SE模块操作步骤如下：

1)首先通过Squeeze操作将通道为c的特征压缩为大小为1×1×c的特征，该特征与输入的特征通道数相匹配，并且在一定程度上具有全局感受野，它表征了特征在通道上的全局分布信息。这里的Squeeze操作是通过全局平均池化层实现(Global average pooling)，见公式(1)：

s_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂ReLU(W₁z_c)) (2)