CN115240119A

CN115240119A - 一种基于深度学习的视频监控中行人小目标检测方法

Info

Publication number: CN115240119A
Application number: CN202210955111.2A
Authority: CN
Inventors: 吴敌; 侯伟; 张丽丽; 葛宝玉; 周全; 李慧子; 邵文杰; 吴玥
Original assignee: Harbin Space Star Data System Technology Co ltd
Current assignee: Harbin Space Star Data System Technology Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-10-25

Abstract

本发明公开了一种基于深度学习的视频监控中行人小目标检测方法，包括：步骤S1、构建行人小目标数据集，步骤S2、对YOLOv5检测模型进行改进，步骤S3、利用步骤S1中自组建数据集，以及步骤S2改进的YOLOv5检测模型进行训练、测试，评价，将检测模型应用于监控视频检测中。本发明的方法满足现有视频监控中对检测精度及检测速度的要求，节省了大量的人工成本，可以有效提升在边境地区视频监控中占比较小的行人目标检测准确率。

Description

一种基于深度学习的视频监控中行人小目标检测方法

技术领域

本发明涉及深度学习和目标检测领域技术，尤其是种基于深度学习的视频监控中行人小目标检测方法。

背景技术

目前我国区域视频监控中，通常采用高空长焦摄像头，拍摄的图像中监测范围广，待识别的行人图像占比小、分辨率低特征不明显、边境地区背景复杂等。现有的目标检测方法检测精度低，容易出现漏检误检的情况，因此当前的视频监控系统需要人工核验，视频数据量大，需要人工成本高，人工检测效率低，严重影响监控效率。基于深度学习的目标检测技术是计算机视觉领域中最重要的研究方向之一。随着人工智能技术发展以及计算机硬件并行计算不断升级迭代，目标检测在从传统的特征提取方法，逐渐发展到使用深度学习技术进行检测。深度学习目标检测领域包括以YOLO为代表的单阶段目标检测速度快、精度高、模型精简便于改进，但对于低分辨率弱小目标检测精度低，容易出现漏检误检现象。

发明内容

本发明为了解决上述现有技术问题，提出一种基于深度学习的视频监控中行人小目标检测方法。

本发明涉及一种基于深度学习的视频监控中行人小目标检测方法，包括：

步骤S1、构建行人小目标数据集

采集图像数据并进行筛选及预处理，对预处理后的图像进行标注、分类，形成固定比例的自组建数据集；

步骤S2、对YOLOv5检测模型进行改进

首先在YOLOv5检测模型的骨干网络中引入Transformer多头自注意力机制，其次在颈部网络中对特征图上采样操作，上采样处理后与骨干网络特征图进行融合生成新的特征层，改进网络结构及网络连接方式；

步骤S3、利用步骤S1中自组建数据集，以及步骤S2改进的YOLOv5检测模型进行训练、测试，评价，将检测模型应用于监控视频检测中。

优先地，步骤S1中，采集筛选数据集的方法为：从公开数据集中收集行人小目标图像，定义行人小目标范围，筛选出符合条件图像。

优先地，步骤S1中，图像预处理和分类包括：图像进行旋转、剪裁、增强处理以扩充数据集；标注方式为使用LabelImg工具进行标注、分类，然后将数据划分为训练集、验证集、测试集。

优先地，步骤S2中，改进的YOLOv5检测模型包括输入端、骨干网络、颈部网络和检测层。

优先地，步骤S2的具体实施方法是：

S2.1、对图像进行Mosaic数据增强、自适应锚框计算、自适应图片缩放处理，定义输入图像格式为640×640×3，处理后作为骨干网络输入；

S2.2、骨干网络部分包括Focus结构、CBS结构、C3结构、SSP结构和C3TR结构，其中C3TR结构为引入Transformer多头自主自注意力机制对原有C3结构改进，处理后获得不同尺度特征图，作为颈部网络输入；

S2.3、颈部网络包括使用FPN+PAN结构进行特征融合，改进颈部网络，增加特征图的上采样操作，通过上采样与特征融合后，获取新的3个尺度张量数据，作为检测层输入；

S2.4、将3个尺度的张量输入Prediction部分，基于损失函数及反向传播进行梯度计算，具体采用CIOU_LOSS+DIOU_nms进行损失函数计算和非极大值抑制，得到3个预测层数据。

优先地，步骤S2.3中，改进的骨干网络中C3TR结构方法是：在原有骨干网络中的最后一层C3结构中引入Transformer多头自注意力机制，将Resuint组件更换为TransformerBlock，变为C3TR结构；TransformerBlock结构使用q,k,v均是长度c的向量，通过n的单头注意力拼接后得到长度nc的行向量，经过线性层运算后再得到长度c的向量。

优先地，步骤S2.3中，改进的颈部网络获取3个尺度张量数据方法是：增加上采样操作，从新组织网络连接方式；在网络第17层增加上采样处理后与骨干网络第2层特征图进行融合生成160×160×255特征层。

有益效果

本发明提供了一种基于深度学习的视频监控中行人小目标检测方法，在现有深度学习算法YOLOv5算法基础上引入了Transformer多头自注意力机制，将深度卷积神经网络与Transformer相结合，以及改进优化现有网络结构，进一步提高检测小目标检测精度。该方法满足现有视频监控中对检测精度及检测速度的要求，节省了大量的人工成本，可以有效提升在边境地区视频监控中占比较小的行人目标检测准确率。

附图说明

图1是本发明的原理流程示意图；

图2是本发明的改进YOLOv5的检测模型示意图；

图3是引入Transformer多头自注意力机制后C3TR结构的示意图。

具体实施方式

以下结合图1至3对本实施方式进行具体说明。

如图1所示，本发明一种基于深度学习的视频监控中行人小目标检测方法，包括以下步骤：

1、构建行人小目标数据集：提出行人小目标数据集获取方法、对行人小目标数据进行预处理方法以及对数据集进行人工标注，最后将数据集划分为训练集、验证集、测试集三种；

2、对YOLOv5检测模型进行改进：基于YOLOv5检测模型在骨干网络中引入Transformer多头自注意力机制，以及在颈部网络中对特征图上采样操作并改进网络结构；

3、利用构建的数据集和改进的YOLOv5检测模型，进行训练、测试、评估，将模型应用于监控视频的检测中。

下面进行具体的技术内容介绍

一、边境地区行人小目标数据集制作

本发明首先给出行人小目标数据集制作过程

1.1数据集获取

从COCO数据集、VOC数据集和边境的地区影像获取的行人图像数据。从COCO数据集和VOC数据集中的Person类标签中，筛选出小目标行人数据，从视频监控中截取出带行人的图像数据。

1.2数据集预处理

对获取的上述图像进行图像的旋转、分割、放大、平移等处理操作，已扩充数据集。使用LabelImg图像标注工具，对处理后的图像进行标注工作。其中行人小目标定义为物体标注框的长宽乘积，除以整个图像长宽的乘积，再开根号后小于3％的行人为小目标。将标注好的图像和标签分为images(图片)和labels(标签)两个目录存储，目录下按照6：2：2的比例划分为训练集、验证集和测试集三种。

二、改进YOLOv5的检测模型

本次发明对边境地区行人检测采用了深度学习目标检测模型YOLOv5,并在原有模型基础上进行小目标提升改进，YOLOv5的检测模型包括输入端、骨干网络、颈部网络、检测层，如图2所示。下面给出本次发明使用检测模型的算法函数。

2.1输入端

输入端是对第一部分制作的边境地区小目标数据集作为输入，进行Mosaic数据增强、自适应锚框计算、自适应图片缩放三步操作，操作过程如下：

1)Mosaic数据增强，对4张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接，以丰富数据集，增加小目标。

2)自适应锚框计算，初始设定长宽的锚框，在模型训练中，在初始锚框的基础上输出预测框，与真实框对比，反向更新，迭代网络参数。本发明在YOLOv5原有三组锚框的基础上修改锚框大小，提升小目标检测能力，增加的小尺寸锚框的格式如下：

-[5,6 8,14 15,11]

3)自适应图片缩放，在上述制作的数据集中，图片的尺寸都不相同，需要将原始图片统一缩放到一个标准尺寸，再送到检测模型中，本次采用统一图像输入格式为640×640×3。

2.2骨干网络

YOLOv5检测模型的骨干网络由Focus、CBS、C3、C3TR、SSP四个结构组成，四个结构的组成方式如图2所示，具体含义如下：

1)Focus结构是对图像进行切片操作；

2)CBS结构是由Conv+BN+SiLu组成，Conv代表卷积操作、BN代表批量归一化(BatchNormalization)、SiLu代表激活函数；

3)C3结构由CBS、Resunit、Concat组成,YOLOv5设计了两种C3结构，其中C3_1_1应用在骨干网络中，C3_2_1应用在下面的颈部网络中，Resunit是残差组件、Concat是特征融合组件；

4)SSP代表空间金字塔池化(Spatial Pyramid Pooling)，进行多尺度特征融合操作。

5)C3TR就是在原有的C3结构上进行改进，将Resuint组件更换为TransformerBlock结构，如图3所示，引入Transformer多头自注意力机制其中q,k,v均是长度c的向量，单头注意力也是长度c的向量，n个单头注意力拼接后得到长度nc的向量，经过线性层运算后再得到长度c的向量。

2.3颈部网络

YOLOv5检测模型颈部网络主要由FPN特征金字塔和PAN自底向上的特征增强算法组成，如图2颈部网络部分所示，本次发明由3层FPN+PAN结构组成，增加小目标检测层，具体操作如下：

1)在YOLOv5检测模型的颈部网络第17层，对特征图继续上采样操作，获取到160*160特征图，再与骨干网络中的第2层特征图进行Concat融合操作，融合后获取到更大的特征图，因定义输入为640*640图像，因此该特征层感受野大小为4*4，提升检测模型对小尺寸目标检测能力；

2)增加小目标检测层后，使用FPN+PAN网络连接结构，组成3层网络特征结构。小目标检测层通过FPN特征金字塔融合高低层特征，提升多尺度检测能力，通过PAN进行自底向上的特征增强，可让顶层特征共享底层小目标特征，提升全局的检测效果，其中输出的三层网络结构分别为160×160×255、80×80×255、40×40×255。

2.4检测层

检测层是对颈部网络生成的3层特征网络进行1×1卷积运算后，输出3组特征图。特征结果通过CIOU_LOSS+DIOU_nms进行损失函数计算和非极大值抑制，输出分类结果和特征框。具体含义如下：

1)3组特征图：包含了对应尺度提取出的预测框类别、置信度、像素坐标信息。3组特征图的张量数据格式尺寸为nx×ny×255，其中nx、ny为网格宽高，三组特征图分别为160×160、80×80、40×40。255＝[na×(nc+1+4)]，na为3是每组anchor尺度数量、nc为80是类别数量、1是预测框对应类别上的置信度、4是预测框坐标；

2)CIOU_LOSS+DIOU_nms：YOLOv5检测模型使用了CIOU_Loss损失函数，考虑重叠面积、中心点距离、长宽比三个重要几何因素。采用DIOU_nms作为非极大值抑制，对重叠目标提出改进。CIOU_Loss损失函数定义如下：

其中，IOU为交并比，Distance_2²代表了预测框和真实框的中心点的欧式距离，Distance_C²代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离，v是衡量长宽比一致性的参数，定义为：

其中，w^p、h^p和w^gt、h^gt分别代表预测框的高宽和真实框的高宽。

三、改进后模型训练、测试、评估及视频检测方法

3.1模型训练

根据构建的行人小目标数据集中标注的图像，修改YOLOv5网络的配置文件，将数据输入到改进后的YOLOv5检测模型，定义训练的参数、训练轮数，经过损失函数及反向传播梯度计算，利用验证集进行精度验证，最终模型收敛得到了小目标行人检测模型及格式为pt的权重文件。

3.2测试、评估

采用交并比(IOU)衡量预测框和标注框的重合程度，即预测框的位置是否准确，交并比的评价具有以下特性：非负性、对称性以及尺度不变性。交并比公式如下所示：

式中，B_p为预测框，B_gt为标注框。根据与标注框的关系，可将某一预测框划分为下式四类中的某一类：

TP:{Conf＞P_thresh且IOU＞IOU_thresh}

FP:{Conf＞P_thresh且IOU＜IOU_thresh}

FN:{Conf＜P_thresh且IOU＞IOU_thresh}

TN:{Conf＜P_thresh且IOU＜IOU_thresh}

式中，IOU_thresh为0-1之间的常数，需要人工指定。

对于某一特定类别，TP、FP、FN、TN四种预测框的个数构成混淆矩阵(ConfusionMatrix)，混淆矩阵如下表所示。

预测框个数	预测为行人	预测为其他类
			真实为行人	TP预测框个数	FN预测框个数
真实为其他类别	FP预测框个数	TN预测框个数

近一步定义以下参数：

1、Precision(查准率)是指所有预测框中预测正确的比例。

2、Recall(召回率)是指所有标注框中被正确预测的比例。

3、Average Precision(评价精度，简称AP)：将P_thresh阈值从0到1变化，计算每个P_thresh阈值对应的Precision和Recall，绘制成某类别的PR性能曲线，其围成的面积为该类别的AP。取AP@0.5为IOU_thresh取0.5时，AP的值。mAP@0.5:0.95为IOU_thresh分别取以0.05为步长，从0.5增大至0.95的十个数时，AP的平均值。

mAP@0.5＝AP_i(IOU_thresh＝0.5)

mAP@0.5:0.95＝∑_jAP_i(IOU_thresh＝j)

本发明以IOU、Precision、Recall、AP、mAP@0.5、mAP@0.5:0.95作为性能指标，基于改进的YOLOv5检测模型，能够在边境地区行人小目标检测的精度上有5％以上的提升。

3.3视频检测

将满足指标的训练模型应用于视频监控的小目标行人检测中，视频数据的获取方法可分为三种方式进行：

1、实时视频流数据：摄像头通过网络传输的实时监控数据；

2、USB传输视频数据：摄像头同USB与检测设备项连接，进行实时检测；

3、存储的视频数据：通过视像头监控存储的各种视频格式数据进行读取检测。

上述内容仅为本发明较好的实施案例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，如输入图像的尺寸，锚框大小，可根据实际数据样本进行修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，包括：

步骤S1、构建行人小目标数据集

步骤S2、对YOLOv5检测模型进行改进

2.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S1中，采集筛选数据集的方法为：从公开数据集中收集行人小目标图像，定义行人小目标范围，筛选出符合条件图像。

3.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S1中，图像预处理和分类包括：图像进行旋转、剪裁、增强处理以扩充数据集；标注方式为使用LabelImg工具进行标注、分类，然后将数据划分为训练集、验证集、测试集。

4.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S2中，改进的YOLOv5检测模型包括输入端、骨干网络、颈部网络和检测层。

5.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S2的具体实施方法是：

步骤S2.1、对图像进行Mosaic数据增强、自适应锚框计算、自适应图片缩放处理，定义输入图像格式为640×640×3，处理后作为骨干网络输入；

步骤S2.2、骨干网络部分包括Focus结构、CBS结构、C3结构、SSP结构和C3TR结构，其中C3TR结构为引入Transformer多头自主自注意力机制对原有C3结构改进，处理后获得不同尺度特征图，作为颈部网络输入；

步骤S2.3、颈部网络包括使用FPN+PAN结构进行特征融合，改进颈部网络，增加特征图的上采样操作，通过上采样与特征融合后，获取新的3个尺度张量数据，作为检测层输入；

步骤S2.4、将3个尺度的张量输入Prediction部分，基于损失函数及反向传播进行梯度计算，具体采用CIOU_LOSS+DIOU_nms进行损失函数计算和非极大值抑制，得到3个预测层数据。

6.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S2.3中，改进的骨干网络中C3TR结构方法是：在原有骨干网络中的最后一层C3结构中引入Transformer多头自注意力机制，将Resuint组件更换为TransformerBlock，变为C3TR结构；TransformerBlock结构使用q,k,v均是长度c的向量，通过n的单头注意力拼接后得到长度nc的行向量，经过线性层运算后再得到长度c的向量。

7.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法，其特征在于，步骤S2.3中，改进的颈部网络获取3个尺度张量数据方法是：增加上采样操作，从新组织网络连接方式；在网络第17层增加上采样处理后与骨干网络第2层特征图进行融合生成160×160×255特征层。