CN116828305A

CN116828305A - 一种基于YOLOv5算法的云台自动追踪目标物方法

Info

Publication number: CN116828305A
Application number: CN202310556954.XA
Authority: CN
Inventors: 曹晓冬; 王建宇; 薄华商
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-29

Abstract

本发明属于控制系统技术领域，是针对建筑工地场景下工人场地安全需求，设计了一种基于YOLOv5算法的云台自动追踪目标物方法，控制云台自动跟踪目标物。该方法对在工地活动范围内的工人进行跟踪。本发明采用改进的YOLOv5算法，对建筑工地人员进行目标检测，对检测到的目标通过控制云台转动进行实时跟踪，实现自动跟踪目标物。在现有技术中，监控用摄像头都是固定安装，即便是安装在可控云台上也是按照预定轨迹转动，云台无法追随运动中的目标物体，所以本发明解决了以上问题，能够对识别到的目标进行自动追踪功能。

Description

一种基于YOLOv5算法的云台自动追踪目标物方法

技术领域

本发明属于控制系统技术领域，具体涉及一种基于YOLOv5算法的云台自动追踪目标物方法。

背景技术

建筑工地场景下工人的安全是第一位，为及时发现意外事故、降低风险，实时关注工人动态十分重要。而普通监控用摄像头是固定的，即便是传统云台也只能按照预定轨迹转动，无法追随运动中的目标物体。通过实时观察到工人动态，进一步对工人进行管理，能够全面、及时发现工人的违规行为，以保障人员人身安全。

近年来，利用计算机视觉智能的监控技术已成为主流发展趋势，并广泛应用于各种施工场景下。在目标检测的基础上，通过云台自动追踪实现对工地人员的实时观察。

发明内容

本发明的目的在于设计一种基于YOLOv5算法的云台自动追踪目标物方法，能够准确识别目标并控制云台灵活的自动跟踪目标物。

本发明的技术方案为：本发明提供一种基于YOLOv5算法的云台自动追踪目标物方法，获取待检测场所对应的视频流，对于检测到的目标进行实时自动追踪；

进一步地，首先进行人体目标物识别，通过YOLOv5算法对人体目标物进行权重的训练，对人体目标物进行跟踪识别，获取目标坐标位置后，控制云台向该坐标位置进行转动靠近，直至两者坐标重合；

进一步地，重新构建YOLOv5的主干网络，利用Senet和GhostNet融合以改进算法的性能；

进一步地，改进后的模型将步长为1的Ghost Bottleneck模块代替了原有的特征提取层，并且没有影响到特征提取的效果；原模型中的步长为2的普通卷积层也被GhostBottleneck模块所替代；SE模块用于通道特征的融合；

进一步地，利用目标识别结果，在每一帧视频中进行目标识别，获取目标物所在坐标位置(x’,y’)，与云台摄像头的坐标位置(x₀,y₀)进行比较；

进一步地，若目标物所在位置的x轴坐标值小于云台摄像头所在位置的x轴坐标值，则控制摄像头向左转动；若目标物所在位置的x轴坐标值大于等于云台摄像头所在位置的x轴坐标值，则控制摄像头向右转动；

进一步地，每次云台摄像头是以-0.2向左转动，直至云台摄像头与人体目标物两者的x轴坐标值一致，则结束云台摄像头转动。

本发明在控制系统软件设计方面主要以YOLOv5为开发环境，以Python语言为编程工具，从实时摄像头取得视频流，利用目标检测模型对所述待检测图像进行目标检测处理，得到目标检测结果，在每一帧中进行目标识别，获取目标物所在坐标位置，与云台摄像头的坐标位置进行比较。若目标物所在位置的x轴坐标值小于云台摄像头所在位置的x轴坐标值，则控制摄像头向左转动；相反，若目标物所在位置的x轴坐标值大于云台摄像头所在位置的x轴坐标值，则控制摄像头向右转动。

本发明与现有技术相比，其显著优点为利用SENet和轻量级的卷积神经网络架构GhostNet，重新构建了YOLOv5的主干网络，利用线性变换减少了模型体积和计算成本，达到快速准确识别目标的效果。

附图说明

图1云台自动跟踪算法流程图；

图2BackBone结构图和切片操作示意图；

图3CBL结构图(左)和残差结构图(右)；

图4多种情况下IoU计算示意图；

图5GIoU计算示意图；

图6YOLOv5四种模型网络结构对比示意图；

图7YOLOv5四种模型性能对比示意图；

图8SE模块结构示意图；

图9Squeeze操作示意图；

图10Excitation操作示意图；

图11Ghost模块示意图；

图12重新构建的YOLOv5主干网络示意图；

图13镜头成像示意图；

图14训练过程的终端显示。

具体实施方式

下面结合附图和表格对本发明作进一步详细描述。

本发明提供一种基于YOLOv5算法的云台自动追踪目标物方法，进行人体目标物检测时，首先利用YOLOv5网络中内置的目标检测权重文件，将实时视频流第一帧检测到的结果创建对应的轨迹，获得目标检测框，获取检测到的人体目标物检测框的坐标位置，与云台摄像头的坐标位置进行比较。判断两者坐标的位置差距，当人体目标物的x轴坐标值位于云台摄像头x轴坐标值左边时，对云台x轴坐标值进行修改，以每次改变-0.2来控制云台摄像头向左转动，直至两者的x坐标值一致，则结束该帧云台转动。重复以上步骤，控制云台自动跟踪目标物体。

总体思路是先进行人体目标物识别，随之用YOLOv5算法其权重的训练，对其进行跟踪识别，获取目标坐标位置后，控制云台向该坐标位置进行转动靠近，直至两者坐标重合。整个跟踪识别过程如图1所示。

本发明提供一种基于YOLOv5算法的云台自动追踪目标物方法，包括以下步骤：

本发明运用的背景环境默认是工地场所，这样的场所存在着环境复杂、光照不均匀等问题，所以对本模块所使用的目标检测模型要求很高，较为传统的目标检测方法很难达到此要求，是故将从现代目标检测算法中寻找最为合适的模型。

输入图像首先被网络分割成MxM个方块，这些分割出的区域对应到特征图上的每一个点，所以这样的单元被命名为Cell。每个单元检测一个物体，若目标框的中心没有出现在这个单元中，则此单元不参与检测。每一个参与检测的单元会生成B个目标框，这其中包含了定位、类别、置信度[x,y,w,h,c,class]信息。若数据集有N个类别，则每个单元会输出(5xB+N)xSxS的信息。对于每个单元的B个目标框，选取其中得分最高的参与损失函数LOSS的计算，计算公式如下所示。式中的x、y、w、h是预测目标框和目标真实位置的中心坐标以及尺寸，l_ij ^obj可以判断第i个单元内是否有目标框的中心。

YOLO系列的作者Joseph Redmon在v1时率先提出将目标检测看作端到端的回归问题，充分利用全局信息进行预测，会对图片进行上下文信息分析，检测速度得到极大的提升。在早期版本的YOLO算法中，明确规定一个单元格只负责检测一个目标。但如果在一个单元格内有多个目标的话，就会产生有较为严重的漏检问题，所以对一些小目标的物体检测效果不好。这一问题在YOLO的v2版本进行了改进，作者在v2中加入了WordTree，将检测和分类问题做出统一框架后，还提出了层次联合训练，这些措施在一定程度上降低了漏检的频率。同时利用PassThrough Layer进行特征融合，改善了小目标检测问题。而YOLOv3进一步对YOLOv2的骨干网络进行了改进，通过使用DarkNet-53代替DarkNet-19作为识别网络,使用了DarkNet-53网络的前52层和大量残差的跳层连接。同时利用步长为2的卷积代替原先的池化层实现特征图下采样。由于卷积层多有助于对物体特征的分析，所以YOLOv3在基础卷积层上还搭建了75层的卷积网络。但网络层数众多会引起梯度消失等问题，为此YOLOv3在搭建部分卷积层时使用残差结构，这样可以克服ReLu激活函数导致的梯度消失问题。以上做法使DarkNet-53网络在比ResNet-152网络层数少、计算快的同时达到相差不多的分类精度和效果。同时v3中的多尺度检测采用了特征金字塔(FPN)，即上采样(Upsampling)和特征融合结合的做法，对多尺度融合特征图分别做检测，进一步对v2中的特征融合思想进行加强。

Alexey Bochkovskiy在2020年4月发表了他对YOLO系列的更新作--YOLOv4。v4首先将v3中BackBone的DarkNet53中增加了跨阶段局域网络(CSPNet)的基础卷积模块，并删去全连接层和最后的池化层，更新为CSPDarkNet53，解决了大型CNN核心网中的梯度信息重复问题，在保持住准确率的同时降低了计算量。作者在YOLOv4的研究中发现路径聚合网络(PANet)是最适合YOLO的特征融合网络，PANet基于MASK R-CNN和FPN框架，通过自下向上的路径增强，下层定位信号增强整个特征层次来缩短特征之间的信息路径，加强了信息的传播。v4的激活函数也由ReLu改为Mish，提高了准确度的同时也提高了算力要求。

仅在v4发表后两个月，Ultralytics发布了YOLOv5算法的第一个正式版本，这两者在模型架构上有许多相似之处，但v5比v4有更灵活的实现能力。下面将从输入端、BackBone、Neck和输出端四个部分来对v5进行核心内容的介绍。

相较于v3及以前的版本，v4和v5都在图像增强方面大做文章。由于目标场景的复杂，很难做到为每一种检测场景都拍摄到足够多的样本图片，所以需要想办法在现有数据集的基础上进行推广和增强到其他情况。图像增强是指在现有的数据集的基础上通过一些图像变换组合来创建更多的训练样本，起到扩大数据集的效果。在v4和v5中除了使用了缩放、旋转、翻转、裁剪、曝光等常见的几何畸变和光照畸变图像增强技术以外，还使用了Random Erase、MixUp等图像遮挡技术，对于多图数据使用了CutMix和Mosaic的混合。还使用了自对抗训练(SAT)来进行数据增强。

预设锚定框的设置在v3和v4中仍是依赖K-means和遗传算法对数据集分析，需要通过单独的程序运行后获得的，而在v5中是可以由训练数据的自动学习获得。K-means迭代和遗传算法计算锚定框的功能被嵌入到代码中，在每次训练时会自适应计算训练集中的最佳锚定框的值。

在v5以前的YOLO算法中，输入模型的训练数据都需要统一缩放到一个标准尺寸，比如YOLO中常用的416x416、608x608等，再送入网络。比如下图的800x600的图片进行缩放到416*312后再在图像的上下部分填充至416*416的尺寸。但v5的作者认为这样的填充使长宽比不同的图像在填充黑边时，若长宽比例差距大会有很多冗余，严重影响实际使用时的推理速度。所以作者对letterbox函数进行修改，对于不同尺寸的待检测图像会有多种缩放系数，选择可用的最小的系数，使模型推理时使图像自适应添加最少的灰边，提升目标检测速度。

v5在BackBone中添加了v4及以前的版本中都没有的Focus结构，即注意力机制，这部分结构如图2所示。人眼在进行视觉处理时，会扫描全图后投入更多注意力去关注重点区域，抑制无用信息，以更快的速度得到结果。而注意力机制和此原理类似，从v5的网络结构图可以看到，切片操作帮助网络将原尺寸的输入图变成多通道的特征图，同对下采样卷积做的改进可以明显减少参数量，从而达到提速的效果。

在v4的主干网络中只设计了一种CSP结构，而在v5中的BackBone和Neck中都应用了不同结构的CSP，在BackBone的主干网络中使用了CSP1_X结构，而Neck中使用CSP2_X结构。这两种CSP结构的区别是CSP1_X结构中有残差网络，而CSP2_X结构中残差网络被更换为了CBL结构，CBL结构如图3所示。

v5的Neck部分和v4类似，也是使用了基于FPN框架的PAN，该框架通过改善底层特征传播和聚合每个特征层次上的候选区域来加强信息传播。同时v5还加入了运用了CBL结构的CSP2_X，加强了网络的特征融合的能力。

对于输出的bounding box，在v5中使用GIoU(Generalized Intersection overUnion)作为损失函数。IoU意为交并比，是目标检测中非常常用的一种评估指标，主要计算内容是预测的目标位置的边框和目标真实位置的边框的交集和并集的比值。由于两个边框的位置关系和大小关系的复杂情况，可能会出现的情况如图4所示。两者的交集的计算是IoU计算中的难点。如下图所示，这意味着当预测框和目标实际位置框没有任何重叠时，IoU将始终为0，且IoU无法区分出两者对齐时的方向情况，所以在v5中提出了GIoU来解决此问题。

GIoU的主要思想如下：对于预测框A和实际框B，先找出一个能够完全将他们包住的最小方框C，然后计算C的面积减去A和B的并集，将计算得到的值除以C的面积，最终再用A和B原本的IoU值减去这个比值得到GIoU。A、B、C三者关系如图5所示。

GIoU损失函数的计算公式如式：

由于v5的窗口遍历时目标检测，在得到了目标框后还需要针对多目标框进行筛选，通常需要进行非极大值抑制(NMS)。这是一种回归框选择算法，由于一张图片中的目标往往形状、大小、长宽比例都不相同，所以在算法检测后会对同一个目标预测出许多不同的位置框，而利用NMS就可以在众多预测位置框中选出最合适的那一个。

YOLOv5为了方便使用者根据实际使用需求选择最合适的网络结构，利用depth_multiple和width_multiple这两个参数来控制网络的深度和宽度，BackBone和Head等部分的通道设置了YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种网络结构，具体参数见表1，详细结构如图6所示。网络结构呈现形式不同于v3、v4使用的cfg文件，v5使用yaml形式呈现。

表1YOLOv54种模型宽度和参数设置

本发明将v5的四种结构和v4都在COCO数据集上进行了测试，并将YOLOv5四种模型的性能进行了对比。如图7所示，YOLOv5s的网络最小，模型大小一般只有10余兆，COCO中小目标占比不低，因此5s精度相对较低，但是速度很快，在大目标检测时会有不错的表现。随着网络的宽度和深度的提升，检测精度也会不断提高，但是检测速度已经模型体量也会相对应的变大。由于本发明中需要对安全现场监督对检测的实时性要求较高，所以最终本发明选择了精度较高的YOLOv5x模型。

YOLOv5网络模型更加方便并提高对目标物检测的精度，本发明重新构建了YOLOv5的主干网络，利用SENet和GhostNet来减小模型体量。

注意力机制灵感来自于人类的直觉，当人们接收到大量的信息时，通常会关注其中的某些部分，选择性地忽略背景信息。这种现象表明人类处理信息时会有所侧重，更加高效地分析周围环境。例如，阅读报纸时，人们通常会关注标题和图片，而忽略其它信息。注意力机制模仿了这个过程。

本发明采用了Hu等在2017年提出的SENet网络，该网络将空间注意力和通道注意力结合起来，其中一种名为SE模块的结构，如图8所示。

图中，表示卷积操作的是F_tr，X表示为F_tr的输入，U表示为F_tr的输出。SE模块通过三个操作自动获取每个特征通道的重要程度，并根据权重加权特征通道，从而实现自动校正，解决了默认认为每个特征通道同等重要的问题。其三个操作包括：Squeeze操作、Excitation操作和Scale操作。

首先，Squeeze操作通过全局池化层(Global Average Pooling)对特征图进行压缩，将每个特征通道的空间尺寸将为一维，得到一个全局特征描述符。Squeeze的具体操作式如下式所示，Squeeze操作示意图如图9所示。

其次，Excitation操作通过两个全连接层(FC)对全局特征描述符进行处理，来得到每个特征通道的权重，以获得每个通道的重要程度，Excitation的操作如下式所示，Excitation操作示意图如图10所示。

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))；

其中，σ为Sigmoid函数，δ为ReLU函数。

最后，Scale操作使用学习到的通道权重来对每个通道进行甲醛，从而实现对特征通道的自动校正。具体来说，每个通道的输出被乘以一个学习到的标量，这个标量在Excitation操作中被计算出来，从而达到特征重标定的作用。Scale操作的计算公式如下式所示。

x_c＝F_scale(u_c,s_c)＝s_c*u_c；

GhostNet是一种轻量级的卷积神经网络架构，旨在提高模型的计算效率和准确性。GhostNet采用了一系列创新性的设计，包括Ghost模块、Squeeze-and-Excitation模块和Mixed Depthwise Convolution等，以在保持高准确性的同时减少了模型的计算成本和内存占用。其中Ghost模块是GhostNet的核心模块，该模块的特点就是不需要训练，能够直接在现有的神经网络中使用。Ghost模块是在传统卷积操作的基础上增加了线性运算，将生成的Ghost特征图与本特征图进行合并，从而得到最终的输出结果，如图11所示。

输入为给定的X，其中c是输入的通道数，h是高度，w是输入的宽度。相较于传统的卷积运算而言，Ghost卷积运算的优势有如下几点：减少模型参数和计算复杂度、使用更少的参数生成类似的特征表示、增强模型的表达能力，从而提高模型性能。Ghost卷积层将每个卷积核分成多个子卷积核，并共享它们之间的参数，然后将Ghost特征图与本征特征图合并以得到输出结果。此外，Ghost卷积层的线性运算还能进一步增强模型表达能力。

两个Ghost模块组合使用可以得到Ghost Bottleneck模块，其类似于ResNet中的残差模块，结合了卷积层和直连层。这个模块可以用来增加和减少通道的数量，并且可以利用直连层将两个Ghost模块的输入和输出相连。Ghost Bottleneck模块包含两个Ghost模块，第一个Ghost模块用于增加通道的数量，第二个Ghost模块则用于减少通道的数量以匹配直连层。左侧结构为步长为1的Ghost Bottleneck模块，除了第二个Ghost模块外，每一层都使用ReLU。右侧结构为步长为2的Ghost Bottleneck模块，在两个Ghost模块之间插入了一个步长为2的深度可分离卷积层来实现。

将上面所述的Senet和GhostNet融合以改进算法的性能，如图12所示。

改进后的模型将步长为1的Ghost Bottleneck模块代替了原有的特征提取层，并且没有影响到特征提取的效果。原模型中的步长为2的普通卷积层也被Ghost Bottleneck模块所替代。GhostNet网络利用线性变换减少了模型体积和计算成本。此外，SE模块用于通道特征的融合，以提高Ghost Bottleneck模块对原始特征的验证，并增强特征表达能力，从而提高了Ghost Bottleneck模块的鲁棒性、精度和网络模型的收敛速度。

在视频画面中建立以左上角为坐标原点，横轴右方向为X轴正方向，纵轴下方向为Y轴正方向，建立XY轴坐标系。坐标系中以像素为量化单位，运动目标的位置和速度均以像素作为单位衡量。运动目标的速度是以像素为量化的，以1ms为单位时间，其单位为：像素/毫秒，即在1ms内移动的像素数。云台的速度是以角度为量化的，也以1ms为单位时间，其单位为：度/毫秒，即在1ms内云台转动的角度。通过相邻视频组之间的位置关系，可以计算出运动目标的速度，然后匹配得出云台转动速度，完成云台实时跟踪运动目标。

镜头是凸透镜，所以存在水平方向的最大视角和垂直方向的最大视角，即水平或垂直方向上能观测到的最大视野角度。由于一台摄像机中镜头是固定的，所以其水平方向和垂直方向的最大视角也是固定的。如图13所示为镜头的成像示意图，其中场景A为拍摄到的实际视野场景，场景B为通过镜头显示在屏幕上的成像图像。在视频画面中建立X轴Y轴坐标系，O为画面中心位置，O′为镜头的焦点位置，OO′则为镜头的焦距f。

云台转动是由内部的电机控制的，当云台接收到转动指令时，对应的步进电机就会接通电源并且开始转动。同一个电机的转动速度之间成比例，则云台转动速度与转动角度之间也存在对应关系，如下式所示：

其中V为云台转动速度的最高等级。θ_V为云台在最高等级转动下，单位时间1ms内转过的监督。v为云台某个时刻的转动速度，化成十进制表示。由于云台速度和转动角度成上述比例关系，即可求出在速度v下，云台每毫秒转过的角度θ_v为得知θ_v后，可计算出云台在此速度下每秒转过1度所用的时间t_v，如下式所示：

通过大量实验结果证明云台的等级速度和在此速度下云台转过1度所用的时间t_v的乘积是一定值count，称为云台转动常量，无量纲。在云台跟踪运动目标的过程中，若运动目标水平或垂直方向上在时间T内移动的角度为0，则可求云台转动1度所用的时间t。然后用云台转动1度所用的时间t去除相对应的云台转动常量，得出的除值即为云台水平或垂直方向上所需的转动速度。

Claims

1.一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：获取待检测场所对应的视频流，对于检测到的目标进行实时自动追踪。

2.根据权利要求1所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：针对安全现场监督对检测的实时性要求，利用YOLOv5x模型设计云台自动追踪目标方法。

3.根据权利要求1所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：首先进行人体目标物识别，通过YOLOv5算法对人体目标物进行权重的训练，对人体目标物进行跟踪识别，获取目标坐标位置后，控制云台向该坐标位置进行转动靠近，直至两者坐标重合。

4.根据权利要求2所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：重新构建YOLOv5的主干网络，利用Senet和GhostNet融合以改进算法的性能。

5.据权利要求4所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：改进后的模型将步长为1的GhostBottleneck模块代替了原有的特征提取层，并且没有影响到特征提取的效果；原模型中的步长为2的普通卷积层也被GhostBottleneck模块所替代；SE模块用于通道特征的融合。

6.根据权利要求2所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：利用目标识别结果，在每一帧视频中进行目标识别，获取目标物所在坐标位置(x’,y’)，与云台摄像头的坐标位置(x₀,y₀)进行比较。

7.根据权利要求5所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：若目标物所在位置的x轴坐标值小于云台摄像头所在位置的x轴坐标值，则控制摄像头向左转动；若目标物所在位置的x轴坐标值大于等于云台摄像头所在位置的x轴坐标值，则控制摄像头向右转动。

8.根据权利要求5所述的一种基于YOLOv5算法的云台自动追踪目标物方法，其特征在于：每次云台摄像头是以-0.2向左转动，直至云台摄像头与人体目标物两者的x轴坐标值一致，则结束云台摄像头转动。