CN114821480A

CN114821480A - 一种可调节算法计算参数量的监控视频人物跟踪方法

Info

Publication number: CN114821480A
Application number: CN202210509561.9A
Authority: CN
Inventors: 黄英来; 李大明; 姜忠良
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-29

Abstract

本发明公开了一种可调节算法计算参数量的监控视频人物跟踪方法。包括：(1)制作训练数据集。(2)搭建改进的GhostNet‑YOLOX网络，主要改进为：使用GhostNet方法替换YOLOX算法原卷积结构，通过调整压缩比k，控制压缩算法计算参数量，以适应不同算力的处理器，训练GhostNet‑YOLOX网络以及实现视频人物位置信息预测。(3)输入监控行人视频，对视频分帧图片使用自适应伽马变换进行亮度均衡处理，降低或提升过亮或过暗图片的亮度，增强算法的识别率。(4)使用DeepSort算法调用改进后的GhostNet‑YOLOX训练模型，输出预测结果，实现人物跟踪。通过改进，该算法能够保持较好的精度，并提供不同的计算参数量版本，从而更好地在移动设备上进行部署。

Description

一种可调节算法计算参数量的监控视频人物跟踪方法

技术领域

本发明涉及机器视觉目标检测和目标跟踪领域，特别涉及一种基于结合GhostNet-YOLOX目标检测算法和DeepSort算法的监控视频人物跟踪方法。

背景技术

目前，关于监控视频人物跟踪方法，多采用联合目标检测算法的和DeepSort算法的跟踪方法。而该方法其识别率的高低和检测速度，主要受到目标检测算法的检测精度和检测速度的影响。而基于一阶段的目标检测算法(如SSD，Retina-Net，YOLO系列等)相比于二阶段检测算法(Fast R-CNN,Faster R-CNN和Mask R-CNN等)，能提供较高的检测速度，YOLO系列是一阶段目标检测算法的优秀代表，且版本不断更新升级，YOLOX是继YOLOv4、YOLOv5之后的新一代检测算法，算法的性能得以提升。

在实际中，由于硬件设备的算力限制，而在不改变算法结构时，算法的计算参数量固定，并不一定适应硬件设备的部署，GhostNet方法提出了一种基于卷积的可调计算参数量的特征提取结构，同时该方法对剩余特征图的拼接利用，减少了精度损失。

发明内容

有鉴于此，本发明提供了一种基于结合GhostNet-YOLOX的目标检测算法和DeepSort算法的监控视频人物跟踪方法。通过对视频分帧图片进行亮度均衡处理、使用结合GhostNet方法和YOLOX算法的目标检测方法，提供了较好的检测精度和多样的计算参数量，能更好地在不同算力的处理器上进行部署。

为了实现上述目的，本发明采用如下技术方案：

一种基于结合GhostNet-YOLOX的目标检测算法和DeepSort算法的监控视频人物跟踪方法，包括如下步骤：

步骤1：对多场景背景(商业区、十字路口、街道)下的监控视频进行分帧成图片，并对其中的人像位置进行标注，将图片和对应的标注信息以VOC数据集格式存储，用作实验的训练集；

步骤2：搭建GhostNet-YOLOX模型；

步骤3：输入训练集数据，训练GhostNet-YOLOX模型，直至损失函数曲线趋于平稳时，停止训练，保存此时的训练权值，以.pth格式保存；

步骤4：输入监控行人视频，对视频的分帧图像进行自适应伽马增强，来调节整个图片的亮度；

步骤5：对当前视频帧图片，调用改进后的训练模型，载入训练权值，输出预测人物位置参数；

步骤6：使用DeepSort算法根据轨迹对当前预测参数进行管理，分配ID实现人物跟踪；

优选地，所述的步骤1具体为：

对多场景背景(商业区、十字路口、街道)下的监控视频进行分帧并对其中的人像位置进行标注，将图片和对应的标注信息以VOC数据集格式存储,抽取其中的4/5，用作实验的训练集；

优选地，所述的步骤2包括：

首先，搭建GhostNet-YOLOX网络，主要包括：BackBone部分，Neck部分和Decouple_Head三部分。网络的基本组成单元为：Focus特征重组结构，由GhostNet、批量归一化层和SiLU函数激活层组成的CBS块,CSPLayer多级残差块，SPP并行池化结构。其中：

SiLU的函数表达式为：

使用GhostNet方法替换其中的卷积结构，设输入特征图为F₁∈R^C×H×W，特征图通道数为C，宽和高分别为W和H。输出特征图为

模块压缩比系数为k。GhostNet的过程为：

首先，通过常规卷积操作降低输入特征图通道数，得到浓缩信息的特征图

C₂值为C₄/k；

然后，对浓缩的特征图进行depthwise卷积操作，得到映射特征图

C₃值为C₄·(k-1)/k，同时为缩减参数量，使depthwise卷积组数为C₂，则形成F₂和F₃维度之间的一对多映射；

最后，将浓缩特征图通过残差边和映射特征图进行拼接，得到F₄。

优选地，步骤3包括：

GhostNet-YOLOX的损失函数为：Loss＝loss_loc+k₁×loss_con+k₂×loss_cls

其中，loss_loc为位置预测框回归损失，loss_con为置信度损失，loss_cls为分类损失。K₁和K₂为平衡三者的参数。

优选地，步骤4包括：

首先，将待分帧的图片转化为RGB格式，分为R、G、B三张特征图，分别计算R、G、B三张特征图的像素均值M₁、M₂、M₃。

然后，分别求取R、G、B三张特征图各自的变换系数α_i，(i取值为1、2、3)，则最终的变换系数α＝(α₁+α₂+α₃)/3。α_i计算公式如下：

然后，分别对R、G、B三张特征图的每个像素值X_i，映射到Y_i∈[0,1]区间内。映射公式如下：

Y_i＝X_i/255。

最后，将Y_i进行伽马变换后，映射回原空间。计算公式为：

Z_i＝Y_i ^α×255。

优选地，步骤6包括：

步骤6-1：根据GhostNet-YOLOX的检测结果detections初始化预测轨迹信息tracks。

其中，轨迹信息tracks利用8维特征向量

表示,u,v表示检测框的坐标，y,h表示宽高比和高，后四个参数分别表示前四个参数的变化率。

步骤6-2：对于预测的轨迹信息通过卡尔曼滤波算法进行导出，产生未确认状态的新轨迹unconfirmed tracks和可确认状态的轨迹confirmed tracks。

步骤6-3：对于确认状态的轨迹confirmed tracks，与detections产生的目标框信息结果进行级联匹配cascade，形成如下两种情况：

(1)tracks和detections失配(2)tracks和detections匹配成功。

当tracks和detections匹配成功的情况，则代表跟踪成功，之后使用卡尔曼滤波法更新预测轨迹tracks信息，返回6-2步骤，进入下一循环。

步骤6-4：对于未确认状态的新轨迹unconfirmed tracks或者原为确认状态的轨迹级联匹配后失配的tracks和detections，进行tracks和detections之间的IoU值计算，形成tracks和detections代价矩阵。代价矩阵值计算方式为1-IoU，IoU值为两者的交并比。

步骤6-5：代价矩阵通过匈牙利算法，得到tracks的三种匹配结果：

(1)tracks失配(2)dections失配(3)tracks和detections匹配成功。

对于第(1)种情况：如果失配的tracks是未确认态或者是确认态的tracks但失配次数超过30，则删除，反之失配次数未超过30，进入步骤6-2，进入下一循环。

对于第(2)种情况：对于失配的detections，则为其分配一个新track,并分配新的ID后进入步骤6-2，进入下一循环。

对于第(3)种情况：则代表跟踪成功，之后使用卡尔曼滤波法更新预测轨迹tracks信息，返回6-2步骤，进入下一循环。

步骤6-6：重复步骤6-2至步骤6-5，直到视频帧结束。

本发明相较现有技术具有以下有益效果：

通过对视频分帧图片进行亮度均衡处理，提高了算法的检测和跟踪精度。

使用结合GhostNet方法和YOLOX算法的目标检测方法，提供了可调的计算参数量，能更好地为在不同算力的硬件上进行部署。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明提供的基于结合GhostNet-YOLOX的算法和DeepSort算法的监控视频人物跟踪方法流程图；

图2是本发明提供的GhostNet-YOLOX算法结构图；

图3是本发明提供的GhostNet-YOLOX算法中的Decouple_Head结构；

图4是本发明提供的GhostNet-YOLOX算法中的Focus特征图重组原理图；

图5是本发明提供的GhostNet-YOLOX算法中的CSPLayer多级残差块结构；

图6是本发明提供的GhostNet-YOLOX算法中的SPP并行池化结构；

图7是本发明提供的GhostNet-YOLOX算法中的可调计算参数量的GhostNet原理图；

图8是本发明提供的Deepsort算法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体的，本发明实施例公开了一种基于结合GhostNet-YOLOX的目标检测算法和DeepSort算法的监控视频人物跟踪方法，首先整个方法的实施步骤(见图1)如下：

步骤2：搭建GhostNet-YOLOX模型；

优选地，所述的步骤1具体为：

对多场景背景(商业区、十字路口、街道)下的监控视频进行分帧并对其中的人像位置进行标注，将图片和对应的标注信息以VOC数据集格式存储,抽取其中的4/5，用作实验的训练集。在一个实例中，在对上述三类场景的监控视频进行分帧，获得分帧的视频图片3000张，对其中的人物位置进行标注，将图片和对应的标注信息以VOC数据集格式存储，并随机抽取其中的2400张和对应标注文件，用作GhostNet-YOLOX模型的训练集。

优选地，所述的步骤2包括：

首先，搭建GhostNet-YOLOX网络(见图2)，主要包括：BackBone部分，Neck部分和Decouple_Head三部分。网络的基本组成单元为：Focus特征重组结构，由GhostNet、批量归一化层和SiLU函数激活层组成的GBS块,CSPLayer多级残差块，SPP并行池化结构。其中：

SiLU的函数表达式为：

Decouple_Head(见图3)分别通过两组GBS块，对类别信息cls、置信度con和预测框位置参数loc进行独立提取。

Focus特征重组结构(见图4)，通过分别对特征图的长、宽维度，每间隔一个像素值取一次像素值进行特征图重组。在一个实例中，特征图的维度从(w,h,c)转换为(w/2,h/2,4×c)。

CSPLayer多级残差块(见图5),分别对特征图通过两路GBS块，并在一路CBS结构中添加n个ResBlock，ResBlock结构如图5中虚线所示，最后将两路提取的特征图进行拼接。

SPP并行池化结构(见图6)，首先将特征图经过GBS块后，进行池化核为5，9，13和无操作的池化操作，将得到的4组特征拼接后，再经过GBS块后输出。

使用GhostNet方法替换其中的卷积结构，GhostNet方法的压缩参数倍数设置为k(k取值为不小于1的整数)。

其中，GhostNet的过程(见图7)为：设输入特征图为F₁∈R^C×H×W，特征图通道数为C，宽和高分别为W和H。输出特征图为

模块压缩比系数为k。

首先通过常规卷积操作降低输入特征图通道数，得到浓缩信息的特征图

C₂值为C₄/k。

然后对浓缩的特征图进行depthwise卷积操作，得到映射特征图

C₃值为C₄·(k-1)/k，同时为缩减参数量，使depthwise卷积组数为C₂，则形成F₂和F₃维度之间的一对多映射。

最后将浓缩特征图通过残差边和映射特征图进行拼接，得到F₄。整个算法通过设置不同k值，实现参数可调。