CN116862952B

CN116862952B - 一种用于相似背景条件下的变电站作业人员视频追踪方法

Info

Publication number: CN116862952B
Application number: CN202310923810.3A
Authority: CN
Inventors: 庄硕; 张可; 张俸源; 齐美彬; 黄文礼; 李小红
Original assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd; Hefei University of Technology
Current assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd; Hefei University of Technology
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2024-02-27
Anticipated expiration: 2043-07-26
Also published as: CN116862952A

Abstract

本发明涉及一种用于相似背景条件下的变电站作业人员视频追踪方法，与现有技术相比解决了灰色工装与灰色电气设备相似背景下难以实现人员追踪的缺陷。本发明包括以下步骤：多目标跟踪数据集的建立；多目标跟踪网络的构建；多目标跟踪网络的训练；变电站监控视频数据的实时获取；多目标跟踪特征图的生成；多特征动态加权检测框关联计算；变电站作业人员视频的追踪。本发明将历史帧和当前帧的目标视觉特征进行聚合，融合了时空信息，能够提取稳健的时空视觉特征以应对遮挡、背景干扰等问题；同时，设计的多特征动态加权方法能有效解决作业人员着装与背景相似的问题，提升作业人员跟踪的准确性。

Description

一种用于相似背景条件下的变电站作业人员视频追踪方法

技术领域

本发明涉及视频跟踪处理技术领域，具体来说是一种用于相似背景条件下的变电站作业人员视频追踪方法。

背景技术

变电站的稳定运行是国家安全的重要组成部分，在检修变电站电气设备时，实现作业人员的跟踪对于安全作业和变电站的可靠运行有着重要的作用。目前，对变电站作业人员进行监控跟踪主要通过现场人为监督或办理工作票等传统方式，存在人为疏忽导致误入危险带电区域或误触碰带电设备的问题。另一种常见的方法是作业人员穿戴安全监控传感器，存在穿戴流程复杂、设备较重影响作业人员操作的问题。近年来，基于计算机视觉技术实现变电站智能巡检得到了广泛的研究，然而，由于变电站环境复杂、天气变化、作业区域相对于摄像头可能存在不同程度的遮挡、作业人员的灰色着装与电气设备颜色较为相似等因素，变电站作业人员的精准检测和跟踪面临着很大的挑战。

现有技术一“基于视频识别和UWB定位的变电站作业现场安全识别方法”使用UWB定位作业人员，并结合YOLOv3目标检测技术判定作业行人是否安全。现有技术二“基于YOLOv3和坐标映射的变电站作业人员精确立体定位算法研究”通过目标检测和视觉三维定位的方法实现变电站作业人员的位置监控。现有技术三“FairMOT:On the Fairness ofDetection and Re-Identification in Multiple Object Tracking”将多目标跟踪模型中的检测任务和再识别任务使用共享的特征提取网络，既保证了两个任务进行公平地学习，又提升了模型整体的推理速度。现有技术四“Deep OC-SORT:Multi-PedestrianTracking by Adaptive Re-Identification”提出了一种基于动态再识别的多目标跟踪模型，通过加权因子调整当前帧和历史帧的目标视觉特征融合比例，在关联匹配阶段通过计算每个跟踪目标与检测框的相似度来调节视觉特征的权重，即在前后帧目标变化较大情况动态调整视觉特征的权重。

但是，在实际应用中发现，变电站环境复杂，作业人员在工作时会受到电气设备、检修设备等不同程度的遮挡，进而导致目标的丢失与遗漏；而且，变电站电气设备大部分是灰色的，与作业人员的灰色工装有较高的相似度，影响作业人员跟踪过程中的匹配准确率，给作业人员视频追踪带来了较大难度。

因此，如何在电气设备与作业工装同样的灰色背景下，实现变电站作业人员的视频追踪已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中灰色工装与灰色电气设备相似背景下难以实现人员追踪的缺陷，提供一种用于相似背景条件下的变电站作业人员视频追踪方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种用于相似背景条件下的变电站作业人员视频追踪方法，包括以下步骤：

11)多目标跟踪数据集的建立：获取变电站作业现场的监控视频，制作变电站作业人员多目标跟踪数据集；

12)多目标跟踪网络的构建：基于特征共享和时空视觉特征构建多目标跟踪网络；

13)多目标跟踪网络的训练：将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络中进行训练；

14)变电站监控视频数据的实时获取；

15)多目标跟踪特征图的生成：将实时获取的变电站监控视频数据输入到训练后的多目标跟踪网络，得到作业人员的运动特征和时空视觉特征；

16)多特征动态加权检测框关联计算：将多目标跟踪网络产生的作业人员运动特征和时空视觉特征进行动态加权，得到关联过程中的匹配权重；

17)变电站作业人员视频的追踪：基于变电站监控视频的实时数据，通过关联过程中的匹配权重定位出相似背景下的变电站作业人员并得到其身份ID，实现变电站作业人员的视频追踪。

所述多目标跟踪数据集的建立包括以下步骤：

21)获取变电站不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频；

22)挑选出包含若干个作业人员的典型视频，使用标注软件对视频序列进行标注，标注内容包括作业人员的位置和身份ID，同一个作业人员分配同样的身份ID编号，全部视频序列标注完成后即构成变电站作业人员多目标跟踪数据集。

所述多目标跟踪网络的构建包括以下步骤：

31)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块；

32)设定目标检测识别分支：设定目标检测识别分支包括特征提取网络、检测分支、再识别分支；其中，特征提取网络为使用YOLOv8框架中的CSPDarkNet网络，检测分支为两个卷积核大小分别为3×3和1×1的卷积层，再识别分支为两个卷积核大小分别为3×3和1×1的卷积层；

33)设定时空特征融合模块，时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析，若目标框置信度得分大于设定的阈值，则利用再识别分支提取的视觉特征，与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合，融合后的时空视觉特征用于与下一帧的目标检测框关联匹配。

所述多目标跟踪网络的训练包括以下步骤：

41)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络，并设置多目标跟踪网络的参数：学习率、优化函数、迭代次数、批量训练的大小；

42)目标检测识别分支的特征提取网络，提取出不同尺度大小的特征图P3、P4和P5，作为后续变电站作业人员检测和再识别任务的共享多尺度特征；

43)特征图P3送入检测分支和再识别分支，

检测分支依次通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层得到作业人员的目标位置，即运动特征和类别置信度得分，

再识别分支通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层，其中第二个卷积层含有128个卷积核，即得到128维的特征向量用于表征目标再识别的视觉特征，并进行身份ID的分类判别，

目标检测分支和再识别分支网络不共享参数；

44)在特征图P4和P5之后均分别送入检测分支和再识别分支，两个分支不共享参数；

45)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制，得到目标检测框。

所述多特征动态加权检测框关联计算包括以下步骤：

51)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征；

52)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征；

53)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联：

将51)步得到的前一帧目标运动特征记为d₁，52)步得到的当前帧目标运动特征记为d₂，使用余弦距离计算两帧之间的目标运动特征匹配度d_s，具体计算方式为：

54)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联，

将51)步得到的前一帧作业人员时空视觉特征和52)步得到的当前帧作业人员时空视觉特征记为f₁和f₂，使用余弦距离计算两帧之间的目标视觉特征匹配度f_s，具体计算方式为：

55)计算步骤52)步检测到的当前帧作业人员与背景的相似度，

根据目标检测框裁剪原图得到对应的图像记作I₁，将目标检测框的宽高扩大2倍然后裁剪对应的原图得到I₂，使用结构相似性指数SSIM计算目标与背景的相似度b_s，具体计算方式为：

b_s＝SSIM(I_x，I₂)； (3)

56)结合51)和52)前后两帧检测到的作业人员运动特征和时空视觉特征，使用匈牙利算法将前后两帧的多个作业人员进行关联，并使用目标与背景的相似度得分b_s来确定运动特征和时空视觉特征在关联过程中的权重，则前后两帧检测到的作业人员匹配度c_s的计算方式为：

c_s＝b_s·d_s+(1-b_s)·f_s

其中，d_s为前后两帧之间的目标运动特征匹配度，f_s为前后两帧之间的目标时空视觉特征匹配度，b_s为检测到的作业人员与背景的相似度；

57)通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果。

变电站作业人员视频的追踪包括以下步骤：

61)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

62)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

63)利用多特征动态加权检测框关联计算实现61)步和62)步作业人员的匹配和关联，分配对应的身份ID，通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果；

64)持续处理变电站监控视频的实时数据，对第三帧和第二帧的检测目标进行关联匹配并分配身份ID，若视频未结束，则继续后续帧的目标检测与关联匹配，直至视频的最后一帧。

有益效果

本发明的一种用于相似背景条件下的变电站作业人员视频追踪方法，与现有技术相比将历史帧和当前帧的目标视觉特征进行聚合，融合了时空信息，能够提取稳健的时空视觉特征以应对遮挡、背景干扰等问题；同时，设计的多特征动态加权方法能有效解决作业人员着装与背景相似的问题，提升作业人员跟踪的准确性。

本发明在时空视觉特征提取阶段，根据当前检测框的置信度得分来决定是否更新跟踪目标的视觉特征，如果置信度高，则将当前帧视觉特征与历史视觉特征以拼接的方式进行聚合，共同用于后续的目标框关联匹配；通过计算目标检测框与其局部背景的相似度来调节视觉特征和运动特征的权重，并非现有技术中的通过前后帧中待跟踪目标与当前帧的检测框的相似度动态调节视觉权重，使得本发明适合于变电站作业环境与作业人员着装较为相似的场景，在相似度得分高的情况下以运动特征为主进行关联匹配。

本发明构建的时空视觉特征提取模块，将历史帧中的目标视觉特征与当前帧进行融合，增强了多目标跟踪模型在遮挡环境下的鲁棒性；本发明构建的多特征动态加权检测框关联策略，能够根据目标与背景的相似性调节视觉信息和运动信息在跟踪过程中的权重，提升了多目标跟踪模型在在作业人员着装与变电站背景相似情况下的稳定性和有效性。

附图说明

图1为本发明的方法顺序图；

图2为本发明所涉及的多目标跟踪网络的结构示意图；

图3、图4和图5均为利用本发明所述方法的变电站作业人员视频跟踪检测图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种用于相似背景条件下的变电站作业人员视频追踪方法，包括以下步骤：

第一步，多目标跟踪数据集的建立：获取变电站作业现场的监控视频，制作变电站作业人员多目标跟踪数据集。

(1)获取变电站不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频。

(2)挑选出包含若干个作业人员的典型视频，使用标注软件对视频序列进行标注，标注内容包括作业人员的位置和身份ID，同一个作业人员分配同样的身份ID编号，全部视频序列标注完成后即构成变电站作业人员多目标跟踪数据集。

在实际应用中，可以在变电站的关键电气设备区域附近布置监控摄像头，其中，摄像头距离设备在60米以内，摄像头分辨率不低于2560×1440，获取不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频，人工挑选出包含多个作业人员的典型视频，使用标注软件对视频序列进行标注，标注内容包括作业人员的位置和身份ID，同一个作业人员分配同样的身份ID编号，全部视频序列标注完成后即构成一个变电站作业人员多目标跟踪数据集，随后按照8:1:1的比例划分为训练集、验证集和测试集。

第二步，多目标跟踪网络的构建：如图2所示，基于特征共享和时空视觉特征构建多目标跟踪网络。

(1)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块。

(2)设定目标检测识别分支：设定目标检测识别分支包括特征提取网络、检测分支、再识别分支；其中，特征提取网络为使用YOLOv8框架中的CSPDarkNet网络，检测分支为两个卷积核大小分别为3×3和1×1的卷积层，再识别分支为两个卷积核大小分别为3×3和1×1的卷积层。

(3)设定时空特征融合模块，时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析，若目标框置信度得分大于设定的阈值，则利用再识别分支提取的视觉特征，与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合，融合后的时空视觉特征用于与下一帧的目标检测框关联匹配。

进行目标框置信度得分判断的阈值，可以根据YOLOv8目标检测算法，设定为0.5。

第三步，多目标跟踪网络的训练：将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络中进行训练。

(1)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络，并设置多目标跟踪网络的参数：学习率、优化函数、迭代次数、批量训练的大小；

(2)目标检测识别分支的特征提取网络，提取出不同尺度大小的特征图P3、P4和P5，作为后续变电站作业人员检测和再识别任务的共享多尺度特征；

(3)特征图P3送入检测分支和再识别分支，

目标检测分支和再识别分支网络不共享参数；

(4)在特征图P4和P5之后均分别送入检测分支和再识别分支，两个分支不共享参数；

(5)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制，得到目标检测框。

第四步，变电站监控视频数据的实时获取。

第五步，多目标跟踪特征图的生成：将实时获取的变电站监控视频数据输入到训练后的多目标跟踪网络，得到作业人员的运动特征和时空视觉特征。

第六步，多特征动态加权检测框关联计算：将多目标跟踪网络产生的作业人员运动特征和时空视觉特征进行动态加权，得到关联过程中的匹配权重。

针对变电站作业人员着装与电气设备颜色较为接近易导致跟踪丢失以及作业人员身份ID切换频繁的问题，设计的多特征动态加权策略对作业人员与工作背景的相似度进行评估，进而动态调整运动特征和时空视觉特征在前后视频帧中关联匹配的权重，增强了运动特征在作业人员着装与作业背景较为相似情况下的权重，能有效提升变电站作业人员的跟踪精度。

(1)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征。

(2)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征。

(3)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联：

将第(1)步得到的前一帧目标运动特征记为d₁，第(2)步得到的当前帧目标运动特征记为d₂，使用余弦距离计算两帧之间的目标运动特征匹配度d_s，具体计算方式为：

(4)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联，

将第(1)步得到的前一帧作业人员时空视觉特征和第(2)步得到的当前帧作业人员时空视觉特征记为f₁和f₂，使用余弦距离计算两帧之间的目标视觉特征匹配度f_s，具体计算方式为：

(5)计算步骤(2)步检测到的当前帧作业人员与背景的相似度，

b_s＝SSIM(I₁，I₂)； (3)

(6)结合第(1)和第(2)前后两帧检测到的作业人员运动特征和时空视觉特征，使用匈牙利算法将前后两帧的多个作业人员进行关联，并使用目标与背景的相似度得分b_s来确定运动特征和时空视觉特征在关联过程中的权重，则前后两帧检测到的作业人员匹配度c_s的计算方式为：

c_s＝b_s·d_s+(1-b_s)·f_s

(7)通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果。

第七步，变电站作业人员视频的追踪：基于变电站监控视频的实时数据，通过关联过程中的匹配权重定位出相似背景下的变电站作业人员并得到其身份ID，实现变电站作业人员的视频追踪。

(1)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

(2)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

(3)利用多特征动态加权检测框关联计算实现(1)步和(2)步作业人员的匹配和关联，分配对应的身份ID，通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果；

(4)持续处理变电站监控视频的实时数据，对第三帧和第二帧的检测目标进行关联匹配并分配身份ID，若视频未结束，则继续后续帧的目标检测与关联匹配，直至视频的最后一帧。

如图3、图4和图5所示，其为变电站监控视频在2022-07-20 7：23：45、2022-07-207：23：49和2022-07-20 7：23：50的跟踪结果，框中为作业人员定位结果，框左上角的数字为作业人员的身份ID，可以看出，在作业人员与背景比较相似的情况下，仍能实现作业人员的稳定跟踪。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种用于相似背景条件下的变电站作业人员视频追踪方法，其特征在于，包括以下步骤：

所述多目标跟踪网络的构建包括以下步骤：

121)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块；

122)设定目标检测识别分支：设定目标检测识别分支包括特征提取网络、检测分支、再识别分支；其中，特征提取网络为使用YOLOv8框架中的CSPDarkNet网络，检测分支为两个卷积核大小分别为3×3和1×1的卷积层，再识别分支为两个卷积核大小分别为3×3和1×1的卷积层；

123)设定时空特征融合模块，时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析，若目标框置信度得分大于设定的阈值，则利用再识别分支提取的视觉特征，与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合，融合后的时空视觉特征用于与下一帧的目标检测框关联匹配；

所述多目标跟踪网络的训练包括以下步骤：

131)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络，并设置多目标跟踪网络的参数：学习率、优化函数、迭代次数、批量训练的大小；

132)目标检测识别分支的特征提取网络，提取出不同尺度大小的特征图P3、P4和P5，作为后续变电站作业人员检测和再识别任务的共享多尺度特征；

133)特征图P3送入检测分支和再识别分支，

目标检测分支和再识别分支网络不共享参数；

134)在特征图P4和P5之后均分别送入检测分支和再识别分支，两个分支不共享参数；

135)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制，得到目标检测框；

14)变电站监控视频数据的实时获取；

所述多特征动态加权检测框关联计算包括以下步骤：

161)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征；

162)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征；

163)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联：

将161)步得到的前一帧目标运动特征记为d₁，162)步得到的当前帧目标运动特征记为d₂，使用余弦距离计算两帧之间的目标运动特征匹配度d_s，具体计算方式为：

164)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联，

将161)步得到的前一帧作业人员时空视觉特征和162)步得到的当前帧作业人员时空视觉特征记为f₁和f₂，使用余弦距离计算两帧之间的目标视觉特征匹配度f_s，具体计算方式为：

165)计算步骤162)步检测到的当前帧作业人员与背景的相似度，

b_s＝SSIM(I₁，I₂)； (3)

166)结合161)和162)前后两帧检测到的作业人员运动特征和时空视觉特征，使用匈牙利算法将前后两帧的多个作业人员进行关联，并使用目标与背景的相似度得分b_s来确定运动特征和时空视觉特征在关联过程中的权重，则前后两帧检测到的作业人员匹配度c_s的计算方式为：

c_s＝b_s·d_s+(1-b_s)·f_s

167)通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果；

2.根据权利要求1所述的一种用于相似背景条件下的变电站作业人员视频追踪方法，其特征在于，所述多目标跟踪数据集的建立包括以下步骤：

21)获取变电站不同天气状况、不同作业环境以及不同穿着条件下的作业人员检修电气设备时的监控视频；

3.根据权利要求1所述的一种用于相似背景条件下的变电站作业人员视频追踪方法，其特征在于，变电站作业人员视频的追踪包括以下步骤：

31)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

32)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型，得到作业人员的目标检测框，提取检测框中包含的目标视觉特征；

33)利用多特征动态加权检测框关联计算实现31)步和32)步作业人员的匹配和关联，分配对应的身份ID，通过前后两帧检测到的作业人员匹配度c_s计算代价矩阵，并作为匈牙利算法的输入，得到前后两帧作业人员的匹配结果；

34)持续处理变电站监控视频的实时数据，对第三帧和第二帧的检测目标进行关联匹配并分配身份ID，若视频未结束，则继续后续帧的目标检测与关联匹配，直至视频的最后一帧。