CN112801068B - 一种视频多目标跟踪与分割系统和方法 - Google Patents

一种视频多目标跟踪与分割系统和方法 Download PDF

Info

Publication number
CN112801068B
CN112801068B CN202110397488.6A CN202110397488A CN112801068B CN 112801068 B CN112801068 B CN 112801068B CN 202110397488 A CN202110397488 A CN 202110397488A CN 112801068 B CN112801068 B CN 112801068B
Authority
CN
China
Prior art keywords
video
target
frame
feature
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110397488.6A
Other languages
English (en)
Other versions
CN112801068A (zh
Inventor
房体品
秦者云
卢宪凯
丁冬睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxin Huizhi Shandong Intelligent Technology Co ltd
Original Assignee
Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhongju Artificial Intelligence Technology Co ltd filed Critical Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority to CN202110397488.6A priority Critical patent/CN112801068B/zh
Publication of CN112801068A publication Critical patent/CN112801068A/zh
Application granted granted Critical
Publication of CN112801068B publication Critical patent/CN112801068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频多目标跟踪与分割系统和方法。该系统包括:视频获取模块,用于获取待处理视频;特征提取模块,与视频获取模块连接,用于提取多个视频帧的特征;目标框检测分支,与特征提取模块连接,用于生成每个视频帧包含的目标的目标框、类别和置信度;语义分割分支,与特征提取模块连接,用于生成每个视频帧包含的目标的分割掩膜;时空嵌入分支,与特征提取模块连接,用于对所述多个视频帧中的每个目标的分布进行估计。本发明通过时空信息可以学习到更具有区分性的嵌入信息,提高系统的跟踪性。

Description

一种视频多目标跟踪与分割系统和方法
技术领域
本发明实施例涉及视频多目标跟踪与分割技术领域,尤其涉及一种视频多目标跟踪与分割系统和方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
多目标跟踪与分割(Multi-Object Tracking and Segment,MOST)主要任务是根据每一帧图像中目标的检测结果,匹配已有的目标轨迹和分割掩膜;对于新出现的目标,需要生成新的目标分割掩膜;对于已经离开摄像机视野的目标,需要终止轨迹的跟踪。这一过程中,检测结果与已有的目标轨迹的匹配可以看作为目标的重识别,例如,当跟踪多个行人时,把已有的轨迹的行人图像集合看作为图像库(gallery),而检测图像看作为查询图像(query),检测结果与已有的目标轨迹的匹配关联过程可以看作在图像库中检索查询图像的过程。由于实例掩模能够精确地描绘出可见物体的边界和分离的邻接关系,多目标跟踪与分割不仅提供像素级的分析,更重要的是鼓励学习比基于边界框(bounding box,bbox)的方法更具区分性的实例特征,以便于更稳健的相似性度量。
多目标跟踪与分割有许多实际应用,如视频监控、人机交互和虚拟现实。这些实际需求引起了人们对这一话题的极大兴趣。除了需要设计复杂的外观模型或运动模型,解决具有挑战性的问题,如尺度变化、光照变化、确定目标的数量和维持各自的身份信息(Identity,ID)外,还需要解决诸如频繁遮挡、相似外观、多目标间的相互影响的问题。
多目标跟踪与分割通常按照“检测-跟踪-分割”的模式,具有目标定位的检测模型,用于将数据关联的外观嵌入跟踪模型以及分割模型。然而,目前的多目标跟踪与分割系统的跟踪性仍受到很大限制。
发明内容
本发明提供一种视频多目标跟踪与分割系统和方法,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种视频多目标跟踪与分割系统,该系统包括:
视频获取模块,用于获取待处理视频,所述待处理视频由多个视频帧组成,所述多个视频帧中包含多个目标;
特征提取模块,与所述视频获取模块连接,用于使用基于3D卷积扩展的多尺度信息整合模块,提取所述多个视频帧的特征;
目标框检测分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的目标框、类别和置信度;
语义分割分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的分割掩膜;
时空嵌入分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,对所述多个视频帧中的每个目标的分布进行估计,得到每个目标的轨迹分布似然值。
在一实施例中,所述特征提取模块包括金字塔结构的特征提取器,所述特征提取器用于:
基于每个视频帧的4个相邻的视频帧,得到所述每个视频帧对应的4个不同尺度的特征图F1、F2、F3和F4
在一实施例中,所述特征提取器包括:
自底向上路径,与所述视频获取模块连接,使用残差网络(Resudual Network,ResNet50)模型作为骨干网络,包括5个串联的卷积块TU1、TU2、TU3、TU4和TU5,其中,每个相邻的视频帧输入TU1后,依次通过TU2、TU3、TU4和TU5,TU1、TU2、TU3、TU4和TU5分别输出所述每个相邻的视频帧的不同尺度的特征Feature1、Feature2、Feature3、Feature4和Feature5
自顶向下路径,与所述自底向上路径连接,包括4个卷积模块TD4、TD3、TD2和TD1,其中,Feature5通过1×1卷积后经过上采样,作为TD4的输入,得到Fe4;将TDi的输出上采样至Featurei-1大小,与通过1×1卷积的Featurei-1进行跳跃连接,得到Fei-1,作为TDi-2的输入,其中,i为正整数,且2≤i≤4;
通道变换模块,用于将所述4个相邻的视频帧的Fej进行通道数叠加,得到Fej ,其中,Fej的通道数为Nj,Fej 的通道数为4Nj;使用两个串联的3D卷积对Fej 进行上下文信息获取,得到Fj,其中,Fj的通道数为Nj,j为正整数,且1≤j≤4。
在一实施例中,所述目标框检测分支是用于:
对于每个视频帧的Fj,使用区域生成网络机制得到所述每个视频帧包含的目标的目标框;
根据所述目标框所在的区域,提取特征Fj中对应位置的局部区域特征;
使每个局部区域特征依次经过一个全连接层和一个输出层,得到所述目标框中的目标的类别及置信度;
其中,j为正整数,1≤j≤4。
在一实施例中,所述语义分割分支是用于:
使用三个上采样层将每个视频帧的F1、F2、F3和F4合并;
使合并后的特征依次经一个全连接层和一个输出层,生成所述每个视频帧包含的目标的分割掩膜。
在一实施例中,所述时空嵌入分支是用于对每个目标进行跟踪,利用每个目标的位置信息和时序信息进行关联检测。
在一实施例中,所述时空嵌入分支包括流-变分编码器。
第二方面,本发明实施例还提供了一种视频多目标跟踪与分割方法。该方法包括:
S10:获取多个训练视频,其中,每个训练视频由多个训练视频帧组成,所述多个训练视频帧中包含多个目标;对每个训练视频进行标注,其中,标注的信息包括每个训练视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜;
S20:构建上述任一实施例提供的视频多目标跟踪与分割系统;
S30:以所述多个训练视频为训练集,根据每个训练视频的标注信息和损失函数,对所述视频多目标跟踪与分割系统进行训练;
S40:获取待处理视频,其中,所述待处理视频由多个待处理视频帧组成,所述多个待处理视频帧中包含多个目标;将所述待处理视频输入到训练好的视频多目标跟踪与分割系统中,获得每个视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜。
在一实施例中,所述步骤S30包括:
利用所述视频多目标跟踪与分割系统,预测每个训练视频帧包含的目标的目标框、类别和置信度,目标的分割掩膜,以及目标的轨迹分布似然值;
对于每个训练视频帧,使用交叉熵损失函数,计算标注的目标框、类别和置信度与预测的目标框、类别和置信度之间的损失,作为目标框、类别和置信度损失;计算标注的分割掩膜与预测的分割掩膜之间的损失,作为分割掩膜损失;
使用轨迹分布似然值估计轨迹分布损失;
将所述目标框、类别和置信度损失,分割掩膜损失,以及轨迹分布损失的加和作为所述损失函数,迭代优化所述视频多目标跟踪与分割系统。
在一实施例中,在步骤S30中,
所述目标框检测分支、语义分割分支和时空嵌入分支均使用ImageNet数据集上预训练的权重参数进行初始化。
本发明的有益效果为:
1. 本发明中基于变分推理的时空嵌入分支,将时序信息结合空间信息作为关联检测并处理时间动态,即目标运动轨迹。通过时空信息可以学习到更具有区分性的嵌入信息,辅助跟踪算法决定如何检测并且链接目标,使得每一帧检测结果之间的过渡顺畅自然。
2. 本发明使用基于3D卷积扩展的多尺度信息整合模块进行特征提取,充分利用视频的上下文信息和多尺度信息,结合局部-全局信息和上下文信息能够有效地保存目标的边界信息,改善目标轮廓模糊的问题,使得检测结果更加平滑和完整。
3. 本发明对基于“检测-跟踪-分割”模式的算法进行改进,充分挖掘视频目标在不同帧之间的轨迹关系,充分利用上下文信息和多尺度信息,对视频中的多目标对象进行有效的跟踪和分割。
附图说明
图1是本发明实施例提供的一种视频多目标跟踪与分割系统的工作流程图。
图2是本发明实施例提供的一种金字塔结构的特征提取器的结构示意图。
图3是本发明实施例提供的一种f-VAE的工作流程图。
图4是本发明实施例提供的一种视频多目标跟踪与分割方法的流程图。
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多目标跟踪与分割通常按照“检测-跟踪-分割”的模式,具有目标定位的检测模型,用于将数据关联的外观嵌入跟踪模型,以及分割模型。然而,目前的MOTS方法很少涉及到如何从视频片段(Segments)中提取实例特征嵌入信息。跟踪-候选区卷积神经网络(Tracking Region Convolutional Neural Network,TRCNN)模型通过3D卷积扩展了掩膜-候选区卷积神经网络(Mask-Region Convolutional Neural Network,Mask-RCNN)模型,并采用自由量化方案(Region Of Intrest-Alignment,ROI-Align)来提取bbox方案中的实例嵌入信息。由于受卷积感受野的影响,前景特征和背景特征仍然混杂在一起,不利于区分特征的学习。因此,学习稳健的实例关联所必需的区分性实例嵌入信息,可以突破目前在跟踪性能方面的限制。
实施例一
本实施例提出一种视频多目标跟踪与分割系统。该系统包括:视频获取模块、特征提取模块、目标框检测分支、语义分割分支和时空嵌入分支。
视频获取模块用于获取待处理视频,所述待处理视频由多个视频帧组成,所述多个视频帧中包含多个目标。
特征提取模块与所述视频获取模块连接,用于使用基于3D卷积扩展的多尺度信息整合模块,提取所述多个视频帧的特征。
目标框检测分支与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的目标框、类别和置信度。
语义分割分支与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的分割掩膜。
时空嵌入分支与所述特征提取模块连接,用于基于所述多个视频帧的特征,对所述多个视频帧中的每个目标的分布进行估计,得到每个目标的轨迹分布似然值。
在一实施例中,所述特征提取模块包括金字塔结构的特征提取器,所述特征提取器用于:基于每个视频帧的4个相邻的视频帧,得到所述每个视频帧对应的4个不同尺度的特征图F1、F2、F3和F4
在一实施例中,所述特征提取器包括:自底向上路径、自顶向下路径和通道变换模块。
自底向上路径与所述视频获取模块连接,使用残差网络ResNet50模型作为骨干网络,包括5个串联的卷积块TU1、TU2、TU3、TU4和TU5,其中,每个相邻的视频帧输入TU1后,依次通过TU2、TU3、TU4和TU5,TU1、TU2、TU3、TU4和TU5分别输出所述每个相邻的视频帧的不同尺度的特征Feature1、Feature2、Feature3、Feature4和Feature5
自顶向下路径与所述自底向上路径连接,包括4个卷积模块TD4、TD3、TD2和TD1,其中,Feature5通过1×1卷积后经过上采样,作为TD4的输入,得到Fe4;将TDi的输出上采样至Featurei-1大小,与通过1×1卷积的Featurei-1进行跳跃连接,得到Fei-1,作为TDi-2的输入,其中,i为正整数,且2≤i≤4。
通道变换模块用于将所述4个相邻的视频帧的Fej进行通道数叠加,得到Fej ,其中,Fej的通道数为Nj,Fej 的通道数为4Nj;使用两个串联的3D卷积对Fej 进行上下文信息获取,得到Fj,其中,Fj的通道数为Nj,j为正整数,且1≤j≤4。
在一实施例中,所述目标框检测分支是用于:
对于每个视频帧的Fj,使用区域生成网络机制得到所述每个视频帧包含的目标的目标框,其中,j为正整数,1≤j≤4;
根据所述目标框所在的区域,提取特征Fei中对应位置的局部区域特征,其中,i为正整数,且i<4;
使每个局部区域特征依次经过一个全连接层和一个输出层,得到所述目标框中的目标的类别及置信度。
在一实施例中,所述语义分割分支是用于:
使用三个上采样层将每个视频帧的F1、F2、F3和F4合并;
使合并后的特征依次经一个全连接层和一个输出层,生成所述每个视频帧包含的目标的分割掩膜。
在一实施例中,所述时空嵌入分支是用于对每个目标进行跟踪,利用每个目标的位置信息和时序信息进行关联检测。
可选地,时空嵌入分支以基于变分推理的时空嵌入分支进行目标跟踪,使用目标的位置信息和时序信息进行关联检测。
在一实施例中,所述时空嵌入分支包括流-变分编码器。
在相关技术中,由于没有学习到稳健的实例关联所必需的区分性实例嵌入信息,导致跟踪和分割精度受限,远没有达到预期的结果。而基于时空嵌入信息的变分推理的视频多目标跟踪与分割系统可以将所有视频帧中出现的同一个目标的运动轨迹视为同一个分布,通过估计该分布的似然值优化嵌入信息,使得该信息更具有区分性。图1为本发明实施例提供的一种视频多目标跟踪与分割系统的工作流程图。如图1所示,该系统的工作流程包括步骤S1-S4。
S1:获取待处理的视频。
S2:使用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息。
S3:使用目标框检测分支、语义分割分支分别生成视频中的目标的目标框、类别及置信度和分割掩膜。
S4:以基于变分推理的时空嵌入分支进行目标跟踪,使用目标的位置信息和时序信息进行关联检测。
在步骤S2中,采用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息,该特征信息包含了能识别和区分每一帧视频中目标的嵌入信息。
具体来说,在步骤S2中,将与当前视频帧相邻的4帧视频(即当前视频帧前面的4帧视频)分别输入到金字塔结构的特征提取器中,得到当前视频帧对应的4个不同尺度的特征图F1,...,Fn, n=4。图2是本发明实施例提供的一种金字塔结构的特征提取器的结构示意图。如图2所示,特征编码器包括自底向上路径、自顶向下路径和跳跃连接。特征编码器对视频真的处理经过以下几个阶段。
S2-1:自底向上路径为编码过程,使用ResNet50模型作为骨干网络,由5个卷积块TU1、TU2、TU3、TU4和TU5串联组成。自底向上路径是为了获得原视频帧的不同尺度的特征信息,5个卷积块的分别输出原视频帧的不同尺度的特征信息:Feature1,Feature2,...,Feature5
S2-2:自顶向下路径为解码过程,有4个卷积模块TD4、TD3、TD2、TD1,Feature5通过1×1卷积后作为TD4的输入;自顶向下路径是为了解码,获得不同尺度的解码后特征。
S2-3:将TDi,2≤i≤4的输出上采样至Featurei大小,与通过1×1卷积的Featurei进行跳跃连接,即对应位置元素相加,得到Fei,同时作为TDi-1的输入。
S2-4:对于每一帧视频,都可以得到4个特征输出Fe1,...,Fen, n=4。将4帧视频相同尺度的特征进行通道数叠加,使用两个串联的3D卷积对每一个尺度的特征进行上下文信息获取,通道数变为原来的1/4(与单帧视频特征通道数相同),得到F1,...,Fn, n=4。通道数的叠加是为了将4帧相邻视频的特征合并,缩减是为了减少计算量,将合并后的特征通道数减少到1/4。
通过步骤S2得到的特征信息中包含了能识别和区分每一帧视频中目标的嵌入信息。
在步骤S3中,使用两个分支分别生成目标框、类别和置信度,以及分割掩膜。
具体来说,在目标框检测分支中,对于Fj使用区域生成网络(Region ProposalNetwork,RPN)机制得到目标框的检测结果。类别检测分支根据目标框所在的区域,提取特征Fj中对应位置的局部区域特征。1≤j≤4。对于每个局部特征,后面接一个全连接层和一个输出层,输出该目标框中的目标类别及置信度。
在语义分割分支中,对于特征F1,...,Fn, n=4,使用三个上采样层将四个不同尺度的特征合并。令F1 = F1,对于Fi ,i<4,进行2倍上采样,输出尺度变为原来的2倍,通道数减少为原来的二分之一,得到Fi ;对于Fi+1通过1×1卷积,通道数减少为原来的二分之一,再与Fi 进行通道数叠加,得到新的F i+1。F4 就是合并后特征。后面接一个全连接层和一个输出层,输出该视频帧的分割掩膜。
在步骤S4中,以基于变分推理的时空嵌入分支进行目标跟踪,使用目标的位置信息和时序信息进行关联检测。上述步骤都是针对每一帧中的目标进行的,而时空嵌入分支对应的步骤4是针对所有视频帧中同一目标的运动轨迹进行的。
具体来说,区别于图像分割任务,多目标跟踪与分割的难点在于跟踪视频中同一目标的运动轨迹,即同一目标在不同时间的位置信息。识别每一帧图像中的目标可以获得目标的空间位置信息,为了利用时间信息,将流-变分编码器(flow-Variational AutoEncoder,f-VAE)应用到时空嵌入分支。每一帧视频都可以通过特征提取获得特征嵌入信息Fe1,...,Fen, n=4,Fe4是原视频帧图像尺度的四分之一。将每一帧的Fe1通过1×1卷积降维后,在通道维度上拼接在一起,获得时空嵌入信息。f-VAEs是囊括流模型和变分自编码器的更一般的框架,相比于原始的生成流(Generative flow,Glow)模型,f-VAE收敛更快,并且能在更小的网络规模下达到同样的生成效果。
图3是本发明实施例提供的一种f-VAE的工作流程图。如图3所示,f-VAE是编码器解码器结构,编码器是卷积和压缩算子的堆叠。具体来说,编码器由五个块(block)组成,并且在每个块之前都进行一次压缩。而每个block由若干步复合而成,每步由3个3x3的卷积和1个1x1的卷积串联组成。
至于解码器(生成器)则是卷积和解压缩算子的堆叠,结构上就是编码器的逆。解码器的最后可以加上激活函数tanh(⋅),但这也不是必须的。而无条件流的结果是照搬自Glow模型,只是Glow模型的学习深度更深,卷积核的数目更大。
编码器是对输入提取特征,解码器是根据提取的特征重构原图,使用重构图像和原图根据交叉熵损失计算可得损失值1;无条件流对特征继续进行可逆计算,得到一个似然值,根据最大似然估计得到损失值2。将两个损失值相加得到f-VAE的总损失值。
本发明提出了一种基于变分推理的视频多目标跟踪与分割系统,使用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息,使用基于变分推理的时空嵌入分支,将时序信息结合空间信息作为关联检测信息并处理时间动态(即目标的运动轨迹)。通过时空信息辅助跟踪算法决定如何检测并且链接目标。最终形成相应的目标框、分类信息及分割掩膜。
本发明可以实现如下有益效果:
1. 本发明中基于变分推理的时空嵌入分支,将时序信息结合空间信息作为关联检测并处理时间动态,即目标运动轨迹。通过时空信息可以学习到更具有区分性的嵌入信息,辅助跟踪算法决定如何检测并且链接目标,使得每一帧检测结果之间的过渡顺畅自然。
2. 本发明使用基于3D卷积扩展的多尺度信息整合模块进行特征提取,充分利用视频的上下文信息和多尺度信息,结合局部-全局信息和上下文信息能够有效地保存目标的边界信息,改善目标轮廓模糊的问题,使得检测结果更加平滑和完整。
3. 本发明对基于“检测-跟踪-分割”模式的算法进行改进,充分挖掘视频目标在不同帧之间的轨迹关系,充分利用上下文信息和多尺度信息,对视频中的多目标对象进行有效的跟踪和分割。
值得注意的是,上述实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例二
本实施例提供一种视频多目标跟踪与分割方法,该方法基于实施例一所述的视频多目标跟踪与分割系统。图4是本发明实施例提供的一种视频多目标跟踪与分割方法的流程图。如图4所示,该方法包括步骤S10-S40。
S10:获取多个训练视频,其中,每个训练视频由多个训练视频帧组成,所述多个训练视频帧中包含多个目标;对每个训练视频进行标注,其中,标注的信息包括每个训练视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜。
S20:构建实施例一提供的视频多目标跟踪与分割系统。
S30:以所述多个训练视频为训练集,根据每个训练视频的标注信息和损失函数,对所述视频多目标跟踪与分割系统进行训练。
S40:获取待处理视频,其中,所述待处理视频由多个待处理视频帧组成,所述多个待处理视频帧中包含多个目标;将所述待处理视频输入到训练好的视频多目标跟踪与分割系统中,获得每个视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜。
在一实施例中,所述步骤S30包括:
利用所述视频多目标跟踪与分割系统,预测每个训练视频帧包含的目标的目标框、类别和置信度,目标的分割掩膜,以及目标的轨迹分布似然值;
对于每个训练视频帧,使用交叉熵损失函数,计算标注的目标框、类别和置信度与预测的目标框、类别和置信度之间的损失,作为目标框、类别和置信度损失;计算标注的分割掩膜与预测的分割掩膜之间的损失,作为分割掩膜损失;
使用轨迹分布似然值估计轨迹分布损失;
将所述目标框、类别和置信度损失,分割掩膜损失,以及轨迹分布损失的加和作为所述损失函数,迭代优化所述视频多目标跟踪与分割系统。
在一实施例中,在步骤S30中,所述目标框检测分支、语义分割分支和时空嵌入分支均使用ImageNet数据集上预训练的权重参数进行初始化。
可选地,在步骤S30中,利用视频多目标跟踪与分割系统,预测出每一帧视频的目标框、目标框所包含目标的类别及置信度、分割掩膜和轨迹分布似然值。图像标注信息有真实的每一帧视频的目标框、目标框所包含目标的类别及置信度和分割掩膜。使用交叉熵损失函数计算每一帧视频的目标框、目标框所包含目标的类别及置信度和分割掩膜之间的损失。使用最大似然值估计计算轨迹分布的损失。将三者加和作为总的损失值,迭代优化模型。在测试时,不需要使用时空嵌入分支估计轨迹分布的似然值。
本发明实施例的视频多目标跟踪与分割方法与实施例一中的视频多目标跟踪与分割系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节,请参照实施例一中的视频多目标跟踪与分割系统。
实施例三
图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示,该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个,图5中以一个处理器510为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任一实施例所提供的视频多目标跟踪与分割方法的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,实现本发明任一实施例所提供的视频多目标跟踪与分割方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于计算机程序,用于执行本发明任一实施例所提供的视频多目标跟踪与分割方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种视频多目标跟踪与分割系统,其特征在于,包括:
视频获取模块,用于获取待处理视频,所述待处理视频由多个视频帧组成,所述多个视频帧中包含多个目标;
特征提取模块,与所述视频获取模块连接,用于使用基于3D卷积扩展的多尺度信息整合模块,提取所述多个视频帧的特征;
目标框检测分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的目标框、类别和置信度;
语义分割分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,生成每个视频帧包含的目标的分割掩膜;
时空嵌入分支,与所述特征提取模块连接,用于基于所述多个视频帧的特征,对所述多个视频帧中的每个目标的分布进行估计,得到每个目标的轨迹分布似然值;
其中,所述特征提取模块包括金字塔结构的特征提取器,所述特征提取器用于:
基于每个视频帧的4个相邻的视频帧,得到所述每个视频帧对应的4个不同尺度的特征图F1、F2、F3和F4
所述特征提取器包括:
自底向上路径,与所述视频获取模块连接,使用残差网络ResNet50模型作为骨干网络,包括5个串联的卷积块TU1、TU2、TU3、TU4和TU5,其中,每个相邻的视频帧输入TU1后,依次通过TU2、TU3、TU4和TU5,TU1、TU2、TU3、TU4和TU5分别输出所述每个相邻的视频帧的不同尺度的特征Feature1、Feature2、Feature3、Feature4和Feature5
自顶向下路径,与所述自底向上路径连接,包括4个卷积模块TD4、TD3、TD2和TD1,其中,Feature5通过1×1卷积后作为TD4的输入;将TDi的输出上采样至Featurei大小,与通过1×1卷积的Featurei进行跳跃连接,得到Fei,同时作为TDi-1的输入,其中,i为正整数,且2≤i≤4;和
通道变换模块,用于将所述4个相邻的视频帧的Fej进行通道数叠加,得到Fej ,其中,Fej的通道数为Nj,Fej 的通道数为4Nj;使用两个串联的3D卷积对Fej 进行上下文信息获取,得到Fj,其中,Fj的通道数为Nj,j为正整数,且1≤j≤4;
所述时空嵌入分支包括流-变分编码器,其中,所述包括流-变分编码器包括:
编码器,与所述特征提取模块连接,用于对输入F1、F2、F3和F4提取特征,得到F1、F2、F3和F4的特征,其中,所述编码器是卷积和压缩算子的堆叠,所述编码器由五个块组成,并且在每个块之前都进行一次压缩,每个块由若干步复合而成,每步由3个3x3的卷积和1个1x1的卷积串联组成;
解码器,与所述编码器连接,用于根据所述F1、F2、F3和F4的特征重构原图,其中,所述解码器是卷积和解压缩算子的堆叠,结构上是所述编码器的逆;和
无条件流,与所述编码器连接,用于对所述F1、F2、F3和F4的特征进行可逆运算,得到所述似然值,其中,所述无条件流的结果照搬自原始的生成流模型。
2.如权利要求1所述的视频多目标跟踪与分割系统,其特征在于,所述目标框检测分支是用于:
对于每个视频帧的Fj,使用区域生成网络机制得到所述每个视频帧包含的目标的目标框;
根据所述目标框所在的区域,提取特征Fj中对应位置的局部区域特征;
使每个局部区域特征依次经过一个全连接层和一个输出层,得到所述目标框中的目标的类别及置信度;
其中,j为正整数,1≤j≤4。
3.如权利要求2所述的视频多目标跟踪与分割系统,其特征在于,所述语义分割分支是用于:
使用三个上采样层将每个视频帧的F1、F2、F3和F4合并;
使合并后的特征依次经一个全连接层和一个输出层,生成所述每个视频帧包含的目标的分割掩膜。
4.一种视频多目标跟踪与分割方法,其特征在于,包括:
S10:获取多个训练视频,其中,每个训练视频由多个训练视频帧组成,所述多个训练视频帧中包含多个目标;对每个训练视频进行标注,其中,标注的信息包括每个训练视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜;
S20:构建如权利要求1-3任意一项所述的视频多目标跟踪与分割系统;
S30:以所述多个训练视频为训练集,根据每个训练视频的标注信息和损失函数,对所述视频多目标跟踪与分割系统进行训练;
S40:获取待处理视频,其中,所述待处理视频由多个待处理视频帧组成,所述多个待处理视频帧中包含多个目标;将所述待处理视频输入到训练好的视频多目标跟踪与分割系统中,获得每个视频帧包含的目标的目标框、类别和置信度,以及目标的分割掩膜。
5.如权利要求4所述的视频多目标跟踪与分割方法,其特征在于,所述步骤S30包括:
利用所述视频多目标跟踪与分割系统,预测每个训练视频帧包含的目标的目标框、类别和置信度,目标的分割掩膜,以及目标的轨迹分布似然值;
对于每个训练视频帧,使用交叉熵损失函数,计算标注的目标框、类别和置信度与预测的目标框、类别和置信度之间的损失,作为目标框、类别和置信度损失;计算标注的分割掩膜与预测的分割掩膜之间的损失,作为分割掩膜损失;
使用轨迹分布似然值估计轨迹分布损失;
将所述目标框、类别和置信度损失,分割掩膜损失,以及轨迹分布损失的加和作为所述损失函数,迭代优化所述视频多目标跟踪与分割系统。
6.如权利要求5所述的视频多目标跟踪与分割方法,其特征在于,在步骤S30中,
所述目标框检测分支、语义分割分支和时空嵌入分支均使用ImageNet数据集上预训练的权重参数进行初始化。
CN202110397488.6A 2021-04-14 2021-04-14 一种视频多目标跟踪与分割系统和方法 Active CN112801068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397488.6A CN112801068B (zh) 2021-04-14 2021-04-14 一种视频多目标跟踪与分割系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397488.6A CN112801068B (zh) 2021-04-14 2021-04-14 一种视频多目标跟踪与分割系统和方法

Publications (2)

Publication Number Publication Date
CN112801068A CN112801068A (zh) 2021-05-14
CN112801068B true CN112801068B (zh) 2021-07-16

Family

ID=75816994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397488.6A Active CN112801068B (zh) 2021-04-14 2021-04-14 一种视频多目标跟踪与分割系统和方法

Country Status (1)

Country Link
CN (1) CN112801068B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494297B (zh) * 2022-01-28 2022-12-06 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法
CN115063453B (zh) * 2022-06-24 2023-08-29 南京农业大学 植物叶片气孔个体行为检测分析方法、系统及存储介质
CN115719368B (zh) * 2022-11-29 2024-05-17 上海船舶运输科学研究所有限公司 一种多目标船舶跟踪方法及系统
CN117494921B (zh) * 2023-12-29 2024-04-12 湖南工商大学 一种多目标类型的路径模型求解方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9476983B2 (en) * 2012-03-15 2016-10-25 GM Global Technology Operations LLC System and method for fusing radar/camera object data and LiDAR scan points
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN110660080A (zh) * 2019-09-11 2020-01-07 昆明理工大学 一种基于学习率调整融合多层卷积特征的多尺度目标跟踪方法
CN111985464A (zh) * 2020-08-13 2020-11-24 山东大学 面向法院判决文书的多尺度学习的文字识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6621914B1 (en) * 1999-10-22 2003-09-16 Lockheed Martin Corporation Method and software-implemented apparatus for detecting objects in multi-dimensional data
CN103077534B (zh) * 2012-12-31 2015-08-19 南京华图信息技术有限公司 时空多尺度运动目标检测方法
WO2016016033A1 (en) * 2014-07-31 2016-02-04 Thomson Licensing Method and apparatus for interactive video segmentation
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法
CN109886090B (zh) * 2019-01-07 2020-12-04 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法
CN110705431B (zh) * 2019-09-26 2022-03-15 中国人民解放军陆军炮兵防空兵学院 基于深度c3d特征的视频显著性区域检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9476983B2 (en) * 2012-03-15 2016-10-25 GM Global Technology Operations LLC System and method for fusing radar/camera object data and LiDAR scan points
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN110660080A (zh) * 2019-09-11 2020-01-07 昆明理工大学 一种基于学习率调整融合多层卷积特征的多尺度目标跟踪方法
CN111985464A (zh) * 2020-08-13 2020-11-24 山东大学 面向法院判决文书的多尺度学习的文字识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的视频多目标跟踪算法研究;储琪;《中国博士学位论文全文数据库 信息科技辑》;20190815;第I138-43页 *

Also Published As

Publication number Publication date
CN112801068A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
Oh et al. Fast video object segmentation by reference-guided mask propagation
Abbas et al. A comprehensive review of recent advances on deep vision systems
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
Shou et al. Cdc: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
Khan et al. Automatic shadow detection and removal from a single image
Vahdani et al. Deep learning-based action detection in untrimmed videos: A survey
Li et al. Spatio-temporal unity networking for video anomaly detection
Lorre et al. Temporal contrastive pretraining for video action recognition
Li et al. Transformer-based visual segmentation: A survey
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
Khan et al. Revisiting crowd counting: State-of-the-art, trends, and future perspectives
Yu et al. Joint spatial-temporal attention for action recognition
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
Zhou et al. Transformer-based multi-scale feature integration network for video saliency prediction
US20230154139A1 (en) Systems and methods for contrastive pretraining with video tracking supervision
Patel et al. A study on video semantics; overview, challenges, and applications
Katircioglu et al. Self-supervised human detection and segmentation via background inpainting
Taghinezhad et al. A new unsupervised video anomaly detection using multi-scale feature memorization and multipath temporal information prediction
Roy et al. Sparsity-inducing dictionaries for effective action classification
Wang et al. Non-local attention association scheme for online multi-object tracking
Singh et al. Attention-guided generator with dual discriminator GAN for real-time video anomaly detection
Sun et al. Weak supervised learning based abnormal behavior detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Jiang Zhifang

Inventor after: Fang Tipin

Inventor after: Qin Zheyun

Inventor after: Lu Xiankai

Inventor after: Ding Dongrui

Inventor before: Fang Tipin

Inventor before: Qin Zheyun

Inventor before: Lu Xiankai

Inventor before: Ding Dongrui

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20240207

Address after: Room 1609, 16th Floor, Building 2, Xinsheng Building, Northwest Corner of Xinluo Street and Yingxiu Road Intersection, Shunhua Road Street, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250014

Patentee after: Lingxin Huizhi (Shandong) Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: Room 156-8, No.5 Lingbin Road, Dangan Town, Xiangzhou District, Zhuhai City, Guangdong Province 519000

Patentee before: Guangdong Zhongju Artificial Intelligence Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right