CN116862952B - 一种用于相似背景条件下的变电站作业人员视频追踪方法 - Google Patents
一种用于相似背景条件下的变电站作业人员视频追踪方法 Download PDFInfo
- Publication number
- CN116862952B CN116862952B CN202310923810.3A CN202310923810A CN116862952B CN 116862952 B CN116862952 B CN 116862952B CN 202310923810 A CN202310923810 A CN 202310923810A CN 116862952 B CN116862952 B CN 116862952B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- operators
- substation
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 87
- 230000000007 visual effect Effects 0.000 claims abstract description 74
- 238000012544 monitoring process Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明涉及一种用于相似背景条件下的变电站作业人员视频追踪方法,与现有技术相比解决了灰色工装与灰色电气设备相似背景下难以实现人员追踪的缺陷。本发明包括以下步骤:多目标跟踪数据集的建立;多目标跟踪网络的构建;多目标跟踪网络的训练;变电站监控视频数据的实时获取;多目标跟踪特征图的生成;多特征动态加权检测框关联计算;变电站作业人员视频的追踪。本发明将历史帧和当前帧的目标视觉特征进行聚合,融合了时空信息,能够提取稳健的时空视觉特征以应对遮挡、背景干扰等问题;同时,设计的多特征动态加权方法能有效解决作业人员着装与背景相似的问题,提升作业人员跟踪的准确性。
Description
技术领域
本发明涉及视频跟踪处理技术领域,具体来说是一种用于相似背景条件下的变电站作业人员视频追踪方法。
背景技术
变电站的稳定运行是国家安全的重要组成部分,在检修变电站电气设备时,实现作业人员的跟踪对于安全作业和变电站的可靠运行有着重要的作用。目前,对变电站作业人员进行监控跟踪主要通过现场人为监督或办理工作票等传统方式,存在人为疏忽导致误入危险带电区域或误触碰带电设备的问题。另一种常见的方法是作业人员穿戴安全监控传感器,存在穿戴流程复杂、设备较重影响作业人员操作的问题。近年来,基于计算机视觉技术实现变电站智能巡检得到了广泛的研究,然而,由于变电站环境复杂、天气变化、作业区域相对于摄像头可能存在不同程度的遮挡、作业人员的灰色着装与电气设备颜色较为相似等因素,变电站作业人员的精准检测和跟踪面临着很大的挑战。
现有技术一“基于视频识别和UWB定位的变电站作业现场安全识别方法”使用UWB定位作业人员,并结合YOLOv3目标检测技术判定作业行人是否安全。现有技术二“基于YOLOv3和坐标映射的变电站作业人员精确立体定位算法研究”通过目标检测和视觉三维定位的方法实现变电站作业人员的位置监控。现有技术三“FairMOT:On the Fairness ofDetection and Re-Identification in Multiple Object Tracking”将多目标跟踪模型中的检测任务和再识别任务使用共享的特征提取网络,既保证了两个任务进行公平地学习,又提升了模型整体的推理速度。现有技术四“Deep OC-SORT:Multi-PedestrianTracking by Adaptive Re-Identification”提出了一种基于动态再识别的多目标跟踪模型,通过加权因子调整当前帧和历史帧的目标视觉特征融合比例,在关联匹配阶段通过计算每个跟踪目标与检测框的相似度来调节视觉特征的权重,即在前后帧目标变化较大情况动态调整视觉特征的权重。
但是,在实际应用中发现,变电站环境复杂,作业人员在工作时会受到电气设备、检修设备等不同程度的遮挡,进而导致目标的丢失与遗漏;而且,变电站电气设备大部分是灰色的,与作业人员的灰色工装有较高的相似度,影响作业人员跟踪过程中的匹配准确率,给作业人员视频追踪带来了较大难度。
因此,如何在电气设备与作业工装同样的灰色背景下,实现变电站作业人员的视频追踪已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中灰色工装与灰色电气设备相似背景下难以实现人员追踪的缺陷,提供一种用于相似背景条件下的变电站作业人员视频追踪方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种用于相似背景条件下的变电站作业人员视频追踪方法,包括以下步骤:
11)多目标跟踪数据集的建立:获取变电站作业现场的监控视频,制作变电站作业人员多目标跟踪数据集;
12)多目标跟踪网络的构建:基于特征共享和时空视觉特征构建多目标跟踪网络;
13)多目标跟踪网络的训练:将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络中进行训练;
14)变电站监控视频数据的实时获取;
15)多目标跟踪特征图的生成:将实时获取的变电站监控视频数据输入到训练后的多目标跟踪网络,得到作业人员的运动特征和时空视觉特征;
16)多特征动态加权检测框关联计算:将多目标跟踪网络产生的作业人员运动特征和时空视觉特征进行动态加权,得到关联过程中的匹配权重;
17)变电站作业人员视频的追踪:基于变电站监控视频的实时数据,通过关联过程中的匹配权重定位出相似背景下的变电站作业人员并得到其身份ID,实现变电站作业人员的视频追踪。
所述多目标跟踪数据集的建立包括以下步骤:
21)获取变电站不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频;
22)挑选出包含若干个作业人员的典型视频,使用标注软件对视频序列进行标注,标注内容包括作业人员的位置和身份ID,同一个作业人员分配同样的身份ID编号,全部视频序列标注完成后即构成变电站作业人员多目标跟踪数据集。
所述多目标跟踪网络的构建包括以下步骤:
31)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块;
32)设定目标检测识别分支:设定目标检测识别分支包括特征提取网络、检测分支、再识别分支;其中,特征提取网络为使用YOLOv8框架中的CSPDarkNet网络,检测分支为两个卷积核大小分别为3×3和1×1的卷积层,再识别分支为两个卷积核大小分别为3×3和1×1的卷积层;
33)设定时空特征融合模块,时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析,若目标框置信度得分大于设定的阈值,则利用再识别分支提取的视觉特征,与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合,融合后的时空视觉特征用于与下一帧的目标检测框关联匹配。
所述多目标跟踪网络的训练包括以下步骤:
41)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络,并设置多目标跟踪网络的参数:学习率、优化函数、迭代次数、批量训练的大小;
42)目标检测识别分支的特征提取网络,提取出不同尺度大小的特征图P3、P4和P5,作为后续变电站作业人员检测和再识别任务的共享多尺度特征;
43)特征图P3送入检测分支和再识别分支,
检测分支依次通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层得到作业人员的目标位置,即运动特征和类别置信度得分,
再识别分支通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层,其中第二个卷积层含有128个卷积核,即得到128维的特征向量用于表征目标再识别的视觉特征,并进行身份ID的分类判别,
目标检测分支和再识别分支网络不共享参数;
44)在特征图P4和P5之后均分别送入检测分支和再识别分支,两个分支不共享参数;
45)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制,得到目标检测框。
所述多特征动态加权检测框关联计算包括以下步骤:
51)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征;
52)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征;
53)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联:
将51)步得到的前一帧目标运动特征记为d1,52)步得到的当前帧目标运动特征记为d2,使用余弦距离计算两帧之间的目标运动特征匹配度ds,具体计算方式为:
54)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联,
将51)步得到的前一帧作业人员时空视觉特征和52)步得到的当前帧作业人员时空视觉特征记为f1和f2,使用余弦距离计算两帧之间的目标视觉特征匹配度fs,具体计算方式为:
55)计算步骤52)步检测到的当前帧作业人员与背景的相似度,
根据目标检测框裁剪原图得到对应的图像记作I1,将目标检测框的宽高扩大2倍然后裁剪对应的原图得到I2,使用结构相似性指数SSIM计算目标与背景的相似度bs,具体计算方式为:
bs=SSIM(Ix,I2); (3)
56)结合51)和52)前后两帧检测到的作业人员运动特征和时空视觉特征,使用匈牙利算法将前后两帧的多个作业人员进行关联,并使用目标与背景的相似度得分bs来确定运动特征和时空视觉特征在关联过程中的权重,则前后两帧检测到的作业人员匹配度cs的计算方式为:
cs=bs·ds+(1-bs)·fs
其中,ds为前后两帧之间的目标运动特征匹配度,fs为前后两帧之间的目标时空视觉特征匹配度,bs为检测到的作业人员与背景的相似度;
57)通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果。
变电站作业人员视频的追踪包括以下步骤:
61)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
62)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
63)利用多特征动态加权检测框关联计算实现61)步和62)步作业人员的匹配和关联,分配对应的身份ID,通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果;
64)持续处理变电站监控视频的实时数据,对第三帧和第二帧的检测目标进行关联匹配并分配身份ID,若视频未结束,则继续后续帧的目标检测与关联匹配,直至视频的最后一帧。
有益效果
本发明的一种用于相似背景条件下的变电站作业人员视频追踪方法,与现有技术相比将历史帧和当前帧的目标视觉特征进行聚合,融合了时空信息,能够提取稳健的时空视觉特征以应对遮挡、背景干扰等问题;同时,设计的多特征动态加权方法能有效解决作业人员着装与背景相似的问题,提升作业人员跟踪的准确性。
本发明在时空视觉特征提取阶段,根据当前检测框的置信度得分来决定是否更新跟踪目标的视觉特征,如果置信度高,则将当前帧视觉特征与历史视觉特征以拼接的方式进行聚合,共同用于后续的目标框关联匹配;通过计算目标检测框与其局部背景的相似度来调节视觉特征和运动特征的权重,并非现有技术中的通过前后帧中待跟踪目标与当前帧的检测框的相似度动态调节视觉权重,使得本发明适合于变电站作业环境与作业人员着装较为相似的场景,在相似度得分高的情况下以运动特征为主进行关联匹配。
本发明构建的时空视觉特征提取模块,将历史帧中的目标视觉特征与当前帧进行融合,增强了多目标跟踪模型在遮挡环境下的鲁棒性;本发明构建的多特征动态加权检测框关联策略,能够根据目标与背景的相似性调节视觉信息和运动信息在跟踪过程中的权重,提升了多目标跟踪模型在在作业人员着装与变电站背景相似情况下的稳定性和有效性。
附图说明
图1为本发明的方法顺序图;
图2为本发明所涉及的多目标跟踪网络的结构示意图;
图3、图4和图5均为利用本发明所述方法的变电站作业人员视频跟踪检测图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种用于相似背景条件下的变电站作业人员视频追踪方法,包括以下步骤:
第一步,多目标跟踪数据集的建立:获取变电站作业现场的监控视频,制作变电站作业人员多目标跟踪数据集。
(1)获取变电站不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频。
(2)挑选出包含若干个作业人员的典型视频,使用标注软件对视频序列进行标注,标注内容包括作业人员的位置和身份ID,同一个作业人员分配同样的身份ID编号,全部视频序列标注完成后即构成变电站作业人员多目标跟踪数据集。
在实际应用中,可以在变电站的关键电气设备区域附近布置监控摄像头,其中,摄像头距离设备在60米以内,摄像头分辨率不低于2560×1440,获取不同天气状况、不同作业环境以及不同穿着等条件下的作业人员检修电气设备时的监控视频,人工挑选出包含多个作业人员的典型视频,使用标注软件对视频序列进行标注,标注内容包括作业人员的位置和身份ID,同一个作业人员分配同样的身份ID编号,全部视频序列标注完成后即构成一个变电站作业人员多目标跟踪数据集,随后按照8:1:1的比例划分为训练集、验证集和测试集。
第二步,多目标跟踪网络的构建:如图2所示,基于特征共享和时空视觉特征构建多目标跟踪网络。
(1)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块。
(2)设定目标检测识别分支:设定目标检测识别分支包括特征提取网络、检测分支、再识别分支;其中,特征提取网络为使用YOLOv8框架中的CSPDarkNet网络,检测分支为两个卷积核大小分别为3×3和1×1的卷积层,再识别分支为两个卷积核大小分别为3×3和1×1的卷积层。
(3)设定时空特征融合模块,时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析,若目标框置信度得分大于设定的阈值,则利用再识别分支提取的视觉特征,与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合,融合后的时空视觉特征用于与下一帧的目标检测框关联匹配。
进行目标框置信度得分判断的阈值,可以根据YOLOv8目标检测算法,设定为0.5。
第三步,多目标跟踪网络的训练:将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络中进行训练。
(1)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络,并设置多目标跟踪网络的参数:学习率、优化函数、迭代次数、批量训练的大小;
(2)目标检测识别分支的特征提取网络,提取出不同尺度大小的特征图P3、P4和P5,作为后续变电站作业人员检测和再识别任务的共享多尺度特征;
(3)特征图P3送入检测分支和再识别分支,
检测分支依次通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层得到作业人员的目标位置,即运动特征和类别置信度得分,
再识别分支通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层,其中第二个卷积层含有128个卷积核,即得到128维的特征向量用于表征目标再识别的视觉特征,并进行身份ID的分类判别,
目标检测分支和再识别分支网络不共享参数;
(4)在特征图P4和P5之后均分别送入检测分支和再识别分支,两个分支不共享参数;
(5)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制,得到目标检测框。
第四步,变电站监控视频数据的实时获取。
第五步,多目标跟踪特征图的生成:将实时获取的变电站监控视频数据输入到训练后的多目标跟踪网络,得到作业人员的运动特征和时空视觉特征。
第六步,多特征动态加权检测框关联计算:将多目标跟踪网络产生的作业人员运动特征和时空视觉特征进行动态加权,得到关联过程中的匹配权重。
针对变电站作业人员着装与电气设备颜色较为接近易导致跟踪丢失以及作业人员身份ID切换频繁的问题,设计的多特征动态加权策略对作业人员与工作背景的相似度进行评估,进而动态调整运动特征和时空视觉特征在前后视频帧中关联匹配的权重,增强了运动特征在作业人员着装与作业背景较为相似情况下的权重,能有效提升变电站作业人员的跟踪精度。
(1)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征。
(2)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征。
(3)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联:
将第(1)步得到的前一帧目标运动特征记为d1,第(2)步得到的当前帧目标运动特征记为d2,使用余弦距离计算两帧之间的目标运动特征匹配度ds,具体计算方式为:
(4)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联,
将第(1)步得到的前一帧作业人员时空视觉特征和第(2)步得到的当前帧作业人员时空视觉特征记为f1和f2,使用余弦距离计算两帧之间的目标视觉特征匹配度fs,具体计算方式为:
(5)计算步骤(2)步检测到的当前帧作业人员与背景的相似度,
根据目标检测框裁剪原图得到对应的图像记作I1,将目标检测框的宽高扩大2倍然后裁剪对应的原图得到I2,使用结构相似性指数SSIM计算目标与背景的相似度bs,具体计算方式为:
bs=SSIM(I1,I2); (3)
(6)结合第(1)和第(2)前后两帧检测到的作业人员运动特征和时空视觉特征,使用匈牙利算法将前后两帧的多个作业人员进行关联,并使用目标与背景的相似度得分bs来确定运动特征和时空视觉特征在关联过程中的权重,则前后两帧检测到的作业人员匹配度cs的计算方式为:
cs=bs·ds+(1-bs)·fs
其中,ds为前后两帧之间的目标运动特征匹配度,fs为前后两帧之间的目标时空视觉特征匹配度,bs为检测到的作业人员与背景的相似度;
(7)通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果。
第七步,变电站作业人员视频的追踪:基于变电站监控视频的实时数据,通过关联过程中的匹配权重定位出相似背景下的变电站作业人员并得到其身份ID,实现变电站作业人员的视频追踪。
(1)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
(2)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
(3)利用多特征动态加权检测框关联计算实现(1)步和(2)步作业人员的匹配和关联,分配对应的身份ID,通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果;
(4)持续处理变电站监控视频的实时数据,对第三帧和第二帧的检测目标进行关联匹配并分配身份ID,若视频未结束,则继续后续帧的目标检测与关联匹配,直至视频的最后一帧。
如图3、图4和图5所示,其为变电站监控视频在2022-07-20 7:23:45、2022-07-207:23:49和2022-07-20 7:23:50的跟踪结果,框中为作业人员定位结果,框左上角的数字为作业人员的身份ID,可以看出,在作业人员与背景比较相似的情况下,仍能实现作业人员的稳定跟踪。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (3)
1.一种用于相似背景条件下的变电站作业人员视频追踪方法,其特征在于,包括以下步骤:
11)多目标跟踪数据集的建立:获取变电站作业现场的监控视频,制作变电站作业人员多目标跟踪数据集;
12)多目标跟踪网络的构建:基于特征共享和时空视觉特征构建多目标跟踪网络;
所述多目标跟踪网络的构建包括以下步骤:
121)设定多目标跟踪网络的第一部分为目标检测识别分支、第二部分为时空特征融合模块;
122)设定目标检测识别分支:设定目标检测识别分支包括特征提取网络、检测分支、再识别分支;其中,特征提取网络为使用YOLOv8框架中的CSPDarkNet网络,检测分支为两个卷积核大小分别为3×3和1×1的卷积层,再识别分支为两个卷积核大小分别为3×3和1×1的卷积层;
123)设定时空特征融合模块,时空特征融合模块用于对检测分支得到的作业人员的目标框置信度得分进行分析,若目标框置信度得分大于设定的阈值,则利用再识别分支提取的视觉特征,与前一帧中定位的作业人员目标或前一帧已标记的作业人员样本目标进行视觉特征融合,融合后的时空视觉特征用于与下一帧的目标检测框关联匹配;
13)多目标跟踪网络的训练:将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络中进行训练;
所述多目标跟踪网络的训练包括以下步骤:
131)将变电站作业人员多目标跟踪数据集输入到多目标跟踪网络,并设置多目标跟踪网络的参数:学习率、优化函数、迭代次数、批量训练的大小;
132)目标检测识别分支的特征提取网络,提取出不同尺度大小的特征图P3、P4和P5,作为后续变电站作业人员检测和再识别任务的共享多尺度特征;
133)特征图P3送入检测分支和再识别分支,
检测分支依次通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层得到作业人员的目标位置,即运动特征和类别置信度得分,
再识别分支通过卷积核大小为3×3的卷积层和卷积核大小为1×1的卷积层,其中第二个卷积层含有128个卷积核,即得到128维的特征向量用于表征目标再识别的视觉特征,并进行身份ID的分类判别,
目标检测分支和再识别分支网络不共享参数;
134)在特征图P4和P5之后均分别送入检测分支和再识别分支,两个分支不共享参数;
135)将基于P3、P4和P5特征图得到的目标检测结果进行非极大值抑制,得到目标检测框;
14)变电站监控视频数据的实时获取;
15)多目标跟踪特征图的生成:将实时获取的变电站监控视频数据输入到训练后的多目标跟踪网络,得到作业人员的运动特征和时空视觉特征;
16)多特征动态加权检测框关联计算:将多目标跟踪网络产生的作业人员运动特征和时空视觉特征进行动态加权,得到关联过程中的匹配权重;
所述多特征动态加权检测框关联计算包括以下步骤:
161)使用训练后的多目标跟踪网路获取前一视频帧作业人员的运动特征和时空视觉特征并使用卡尔曼滤波器预测前一视频帧所检测到的作业人员在当前视频帧中的运动特征;
162)使用训练后的多目标跟踪网路获取当前视频帧作业人员的运动特征和时空视觉特征;
163)将当前视频帧检测到的变电站作业人员与前一视频帧中检测到的变电站作业人员进行运动特征关联:
将161)步得到的前一帧目标运动特征记为d1,162)步得到的当前帧目标运动特征记为d2,使用余弦距离计算两帧之间的目标运动特征匹配度ds,具体计算方式为:
164)将当前视频帧检测到的变电站作业人员目标与前一视频帧中检测到的变电站作业人员进行时空视觉特征关联,
将161)步得到的前一帧作业人员时空视觉特征和162)步得到的当前帧作业人员时空视觉特征记为f1和f2,使用余弦距离计算两帧之间的目标视觉特征匹配度fs,具体计算方式为:
165)计算步骤162)步检测到的当前帧作业人员与背景的相似度,
根据目标检测框裁剪原图得到对应的图像记作I1,将目标检测框的宽高扩大2倍然后裁剪对应的原图得到I2,使用结构相似性指数SSIM计算目标与背景的相似度bs,具体计算方式为:
bs=SSIM(I1,I2); (3)
166)结合161)和162)前后两帧检测到的作业人员运动特征和时空视觉特征,使用匈牙利算法将前后两帧的多个作业人员进行关联,并使用目标与背景的相似度得分bs来确定运动特征和时空视觉特征在关联过程中的权重,则前后两帧检测到的作业人员匹配度cs的计算方式为:
cs=bs·ds+(1-bs)·fs
其中,ds为前后两帧之间的目标运动特征匹配度,fs为前后两帧之间的目标时空视觉特征匹配度,bs为检测到的作业人员与背景的相似度;
167)通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果;
17)变电站作业人员视频的追踪:基于变电站监控视频的实时数据,通过关联过程中的匹配权重定位出相似背景下的变电站作业人员并得到其身份ID,实现变电站作业人员的视频追踪。
2.根据权利要求1所述的一种用于相似背景条件下的变电站作业人员视频追踪方法,其特征在于,所述多目标跟踪数据集的建立包括以下步骤:
21)获取变电站不同天气状况、不同作业环境以及不同穿着条件下的作业人员检修电气设备时的监控视频;
22)挑选出包含若干个作业人员的典型视频,使用标注软件对视频序列进行标注,标注内容包括作业人员的位置和身份ID,同一个作业人员分配同样的身份ID编号,全部视频序列标注完成后即构成变电站作业人员多目标跟踪数据集。
3.根据权利要求1所述的一种用于相似背景条件下的变电站作业人员视频追踪方法,其特征在于,变电站作业人员视频的追踪包括以下步骤:
31)将变电站监控视频的实时数据第一帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
32)将变电站监控视频的实时数据第二帧输入到训练后的多目标跟踪网路模型,得到作业人员的目标检测框,提取检测框中包含的目标视觉特征;
33)利用多特征动态加权检测框关联计算实现31)步和32)步作业人员的匹配和关联,分配对应的身份ID,通过前后两帧检测到的作业人员匹配度cs计算代价矩阵,并作为匈牙利算法的输入,得到前后两帧作业人员的匹配结果;
34)持续处理变电站监控视频的实时数据,对第三帧和第二帧的检测目标进行关联匹配并分配身份ID,若视频未结束,则继续后续帧的目标检测与关联匹配,直至视频的最后一帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310923810.3A CN116862952B (zh) | 2023-07-26 | 2023-07-26 | 一种用于相似背景条件下的变电站作业人员视频追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310923810.3A CN116862952B (zh) | 2023-07-26 | 2023-07-26 | 一种用于相似背景条件下的变电站作业人员视频追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116862952A CN116862952A (zh) | 2023-10-10 |
CN116862952B true CN116862952B (zh) | 2024-02-27 |
Family
ID=88221524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310923810.3A Active CN116862952B (zh) | 2023-07-26 | 2023-07-26 | 一种用于相似背景条件下的变电站作业人员视频追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862952B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154051A (zh) * | 2016-03-03 | 2017-09-12 | 株式会社理光 | 背景剪除方法及装置 |
CN111489378A (zh) * | 2020-06-28 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 视频帧特征提取方法、装置、计算机设备及存储介质 |
CN112233145A (zh) * | 2020-10-23 | 2021-01-15 | 湖南工程学院 | 一种基于rgb-d时空上下文模型的多目标遮挡跟踪方法 |
CN112767438A (zh) * | 2021-01-05 | 2021-05-07 | 北京航空航天大学 | 结合时空运动的多目标跟踪方法 |
CN113744310A (zh) * | 2021-08-24 | 2021-12-03 | 北京百度网讯科技有限公司 | 目标跟踪方法、装置、电子设备及可读存储介质 |
CN114373154A (zh) * | 2022-01-13 | 2022-04-19 | 南京航空航天大学 | 密集人群场景下多目标跟踪的外观特征更新方法及系统 |
CN114419102A (zh) * | 2022-01-25 | 2022-04-29 | 江南大学 | 一种基于帧差时序运动信息的多目标跟踪检测方法 |
CN114612517A (zh) * | 2022-03-16 | 2022-06-10 | 西安理工大学 | 基于时空信息融合的目标跟踪方法 |
CN114972418A (zh) * | 2022-03-30 | 2022-08-30 | 北京航空航天大学 | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 |
CN115546259A (zh) * | 2022-09-22 | 2022-12-30 | 成都思晗科技股份有限公司 | 一种用于变电站复杂场景下的多目标跟踪方法 |
CN115690732A (zh) * | 2022-10-14 | 2023-02-03 | 徐博 | 一种基于细粒度特征提取的多目标行人跟踪方法 |
CN115761568A (zh) * | 2022-10-19 | 2023-03-07 | 安徽大学 | 一种基于YOLOv7网络和Deepsort网络的猕猴检测方法 |
CN115798055A (zh) * | 2023-02-10 | 2023-03-14 | 四川大学 | 一种基于cornersort跟踪算法的暴力行为检测方法 |
CN116402850A (zh) * | 2023-03-20 | 2023-07-07 | 华南理工大学 | 一种面向智能驾驶的多目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913386A (zh) * | 2021-01-29 | 2022-08-16 | 北京图森智途科技有限公司 | 一种多目标跟踪模型的训练方法以及多目标跟踪方法 |
-
2023
- 2023-07-26 CN CN202310923810.3A patent/CN116862952B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154051A (zh) * | 2016-03-03 | 2017-09-12 | 株式会社理光 | 背景剪除方法及装置 |
CN111489378A (zh) * | 2020-06-28 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 视频帧特征提取方法、装置、计算机设备及存储介质 |
CN112233145A (zh) * | 2020-10-23 | 2021-01-15 | 湖南工程学院 | 一种基于rgb-d时空上下文模型的多目标遮挡跟踪方法 |
CN112767438A (zh) * | 2021-01-05 | 2021-05-07 | 北京航空航天大学 | 结合时空运动的多目标跟踪方法 |
CN113744310A (zh) * | 2021-08-24 | 2021-12-03 | 北京百度网讯科技有限公司 | 目标跟踪方法、装置、电子设备及可读存储介质 |
CN114373154A (zh) * | 2022-01-13 | 2022-04-19 | 南京航空航天大学 | 密集人群场景下多目标跟踪的外观特征更新方法及系统 |
CN114419102A (zh) * | 2022-01-25 | 2022-04-29 | 江南大学 | 一种基于帧差时序运动信息的多目标跟踪检测方法 |
CN114612517A (zh) * | 2022-03-16 | 2022-06-10 | 西安理工大学 | 基于时空信息融合的目标跟踪方法 |
CN114972418A (zh) * | 2022-03-30 | 2022-08-30 | 北京航空航天大学 | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 |
CN115546259A (zh) * | 2022-09-22 | 2022-12-30 | 成都思晗科技股份有限公司 | 一种用于变电站复杂场景下的多目标跟踪方法 |
CN115690732A (zh) * | 2022-10-14 | 2023-02-03 | 徐博 | 一种基于细粒度特征提取的多目标行人跟踪方法 |
CN115761568A (zh) * | 2022-10-19 | 2023-03-07 | 安徽大学 | 一种基于YOLOv7网络和Deepsort网络的猕猴检测方法 |
CN115798055A (zh) * | 2023-02-10 | 2023-03-14 | 四川大学 | 一种基于cornersort跟踪算法的暴力行为检测方法 |
CN116402850A (zh) * | 2023-03-20 | 2023-07-07 | 华南理工大学 | 一种面向智能驾驶的多目标跟踪方法 |
Non-Patent Citations (4)
Title |
---|
Multi-object Tracking Based on YOLOX and DeepSORT Algorithm;Guangdong Zhang等;《6GN for Future Wireless Networks》;20230708;52-64 * |
Video Saliency Incorporating SpatiotemporalCues and Uncertainty Weighting;Yuming Fang等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20140930;第23卷(第9期);3910-3921 * |
基于YOLOv5和DeepSORT的多目标跟踪算法研究与应用;王嘉琳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210915(第09期);I138-668 * |
基于机器视觉的交互皮影机器人研究;张义超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200815(第08期);I138-546 * |
Also Published As
Publication number | Publication date |
---|---|
CN116862952A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898514B (zh) | 一种基于目标检测与动作识别的多目标视觉监管方法 | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN107808133B (zh) | 基于无人机巡线的油气管道安全监测方法、系统及软件存储器 | |
CN109685066A (zh) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 | |
CN110427825B (zh) | 基于关键帧与快速支持向量机融合的视频火焰识别方法 | |
CN101389004B (zh) | 一种基于在线学习的运动目标分类方法 | |
CN107944396A (zh) | 一种基于改进深度学习的刀闸状态识别方法 | |
CN112149514B (zh) | 一种施工作业人员的安全着装检测方法及系统 | |
CN107133569A (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN102521565A (zh) | 低分辨率视频的服装识别方法及系统 | |
CN113903081A (zh) | 一种水电厂图像视觉识别人工智能报警方法及装置 | |
CN106557740B (zh) | 一种遥感图像中油库目标的识别方法 | |
CN113963222B (zh) | 一种基于多策略组合的高分辨率遥感影像变化检测方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN106127812A (zh) | 一种基于视频监控的客运站非出入口区域的客流统计方法 | |
CN116486287A (zh) | 基于环境自适应机器人视觉系统的目标检测方法及系统 | |
CN114092478B (zh) | 一种异常检测方法 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN113076825A (zh) | 一种变电站工作人员爬高安全监测方法 | |
CN116862952B (zh) | 一种用于相似背景条件下的变电站作业人员视频追踪方法 | |
CN112597902A (zh) | 一种基于核电安全的小目标智能识别方法 | |
CN109544608B (zh) | 一种无人机图像采集特征配准方法 | |
CN112116561B (zh) | 基于图像处理融合网络权值的电网传输线检测方法及装置 | |
CN112883889A (zh) | 一种适用于电力施工场景下违章行为检测方法 | |
CN113316080A (zh) | 基于Wi-Fi与图像融合指纹的室内定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |