CN112801068B

CN112801068B - 一种视频多目标跟踪与分割系统和方法

Info

Publication number: CN112801068B
Application number: CN202110397488.6A
Authority: CN
Inventors: 房体品; 秦者云; 卢宪凯; 丁冬睿
Original assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Current assignee: Lingxin Huizhi Shandong Intelligent Technology Co ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-16
Anticipated expiration: 2041-04-14
Also published as: CN112801068A

Abstract

本发明公开了一种视频多目标跟踪与分割系统和方法。该系统包括：视频获取模块，用于获取待处理视频；特征提取模块，与视频获取模块连接，用于提取多个视频帧的特征；目标框检测分支，与特征提取模块连接，用于生成每个视频帧包含的目标的目标框、类别和置信度；语义分割分支，与特征提取模块连接，用于生成每个视频帧包含的目标的分割掩膜；时空嵌入分支，与特征提取模块连接，用于对所述多个视频帧中的每个目标的分布进行估计。本发明通过时空信息可以学习到更具有区分性的嵌入信息，提高系统的跟踪性。

Description

一种视频多目标跟踪与分割系统和方法

技术领域

本发明实施例涉及视频多目标跟踪与分割技术领域，尤其涉及一种视频多目标跟踪与分割系统和方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

多目标跟踪与分割（Multi-Object Tracking and Segment，MOST）主要任务是根据每一帧图像中目标的检测结果，匹配已有的目标轨迹和分割掩膜；对于新出现的目标，需要生成新的目标分割掩膜；对于已经离开摄像机视野的目标，需要终止轨迹的跟踪。这一过程中，检测结果与已有的目标轨迹的匹配可以看作为目标的重识别，例如，当跟踪多个行人时，把已有的轨迹的行人图像集合看作为图像库（gallery），而检测图像看作为查询图像（query），检测结果与已有的目标轨迹的匹配关联过程可以看作在图像库中检索查询图像的过程。由于实例掩模能够精确地描绘出可见物体的边界和分离的邻接关系，多目标跟踪与分割不仅提供像素级的分析，更重要的是鼓励学习比基于边界框（bounding box，bbox）的方法更具区分性的实例特征，以便于更稳健的相似性度量。

多目标跟踪与分割有许多实际应用，如视频监控、人机交互和虚拟现实。这些实际需求引起了人们对这一话题的极大兴趣。除了需要设计复杂的外观模型或运动模型，解决具有挑战性的问题，如尺度变化、光照变化、确定目标的数量和维持各自的身份信息（Identity，ID）外，还需要解决诸如频繁遮挡、相似外观、多目标间的相互影响的问题。

多目标跟踪与分割通常按照“检测-跟踪-分割”的模式，具有目标定位的检测模型，用于将数据关联的外观嵌入跟踪模型以及分割模型。然而，目前的多目标跟踪与分割系统的跟踪性仍受到很大限制。

发明内容

本发明提供一种视频多目标跟踪与分割系统和方法，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种视频多目标跟踪与分割系统，该系统包括：

视频获取模块，用于获取待处理视频，所述待处理视频由多个视频帧组成，所述多个视频帧中包含多个目标；

特征提取模块，与所述视频获取模块连接，用于使用基于3D卷积扩展的多尺度信息整合模块，提取所述多个视频帧的特征；

目标框检测分支，与所述特征提取模块连接，用于基于所述多个视频帧的特征，生成每个视频帧包含的目标的目标框、类别和置信度；

语义分割分支，与所述特征提取模块连接，用于基于所述多个视频帧的特征，生成每个视频帧包含的目标的分割掩膜；

时空嵌入分支，与所述特征提取模块连接，用于基于所述多个视频帧的特征，对所述多个视频帧中的每个目标的分布进行估计，得到每个目标的轨迹分布似然值。

在一实施例中，所述特征提取模块包括金字塔结构的特征提取器，所述特征提取器用于：

基于每个视频帧的4个相邻的视频帧，得到所述每个视频帧对应的4个不同尺度的特征图F₁、F₂、F₃和F₄。

在一实施例中，所述特征提取器包括：

自底向上路径，与所述视频获取模块连接，使用残差网络（Resudual Network，ResNet50）模型作为骨干网络，包括5个串联的卷积块TU₁、TU₂、TU₃、TU₄和TU₅，其中，每个相邻的视频帧输入TU₁后，依次通过TU₂、TU₃、TU₄和TU₅，TU₁、TU₂、TU₃、TU₄和TU₅分别输出所述每个相邻的视频帧的不同尺度的特征Feature₁、Feature₂、Feature₃、Feature₄和Feature₅；

自顶向下路径，与所述自底向上路径连接，包括4个卷积模块TD₄、TD₃、TD₂和TD₁，其中，Feature₅通过1×1卷积后经过上采样，作为TD₄的输入，得到Fe₄；将TD_i的输出上采样至Feature_i-1大小，与通过1×1卷积的Feature_i-1进行跳跃连接，得到Fe_i-1，作为TD_i-2的输入，其中，i为正整数，且2≤i≤4；

通道变换模块，用于将所述4个相邻的视频帧的Fe_j进行通道数叠加，得到Fe_j ^＇，其中，Fe_j的通道数为N_j，Fe_j ^＇的通道数为4N_j；使用两个串联的3D卷积对Fe_j ^＇进行上下文信息获取，得到F_j，其中，F_j的通道数为N_j，j为正整数，且1≤j≤4。

在一实施例中，所述目标框检测分支是用于：

对于每个视频帧的F_j，使用区域生成网络机制得到所述每个视频帧包含的目标的目标框；

根据所述目标框所在的区域，提取特征F_j中对应位置的局部区域特征；

使每个局部区域特征依次经过一个全连接层和一个输出层，得到所述目标框中的目标的类别及置信度；

其中，j为正整数，1≤j≤4。

在一实施例中，所述语义分割分支是用于：

使用三个上采样层将每个视频帧的F₁、F₂、F₃和F₄合并；

使合并后的特征依次经一个全连接层和一个输出层，生成所述每个视频帧包含的目标的分割掩膜。

在一实施例中，所述时空嵌入分支是用于对每个目标进行跟踪，利用每个目标的位置信息和时序信息进行关联检测。

在一实施例中，所述时空嵌入分支包括流-变分编码器。

第二方面，本发明实施例还提供了一种视频多目标跟踪与分割方法。该方法包括：

S10：获取多个训练视频，其中，每个训练视频由多个训练视频帧组成，所述多个训练视频帧中包含多个目标；对每个训练视频进行标注，其中，标注的信息包括每个训练视频帧包含的目标的目标框、类别和置信度，以及目标的分割掩膜；

S20：构建上述任一实施例提供的视频多目标跟踪与分割系统；

S30：以所述多个训练视频为训练集，根据每个训练视频的标注信息和损失函数，对所述视频多目标跟踪与分割系统进行训练；

S40：获取待处理视频，其中，所述待处理视频由多个待处理视频帧组成，所述多个待处理视频帧中包含多个目标；将所述待处理视频输入到训练好的视频多目标跟踪与分割系统中，获得每个视频帧包含的目标的目标框、类别和置信度，以及目标的分割掩膜。

在一实施例中，所述步骤S30包括：

利用所述视频多目标跟踪与分割系统，预测每个训练视频帧包含的目标的目标框、类别和置信度，目标的分割掩膜，以及目标的轨迹分布似然值；

对于每个训练视频帧，使用交叉熵损失函数，计算标注的目标框、类别和置信度与预测的目标框、类别和置信度之间的损失，作为目标框、类别和置信度损失；计算标注的分割掩膜与预测的分割掩膜之间的损失，作为分割掩膜损失；

使用轨迹分布似然值估计轨迹分布损失；

将所述目标框、类别和置信度损失，分割掩膜损失，以及轨迹分布损失的加和作为所述损失函数，迭代优化所述视频多目标跟踪与分割系统。

在一实施例中，在步骤S30中，

所述目标框检测分支、语义分割分支和时空嵌入分支均使用ImageNet数据集上预训练的权重参数进行初始化。

本发明的有益效果为：

1. 本发明中基于变分推理的时空嵌入分支，将时序信息结合空间信息作为关联检测并处理时间动态，即目标运动轨迹。通过时空信息可以学习到更具有区分性的嵌入信息，辅助跟踪算法决定如何检测并且链接目标，使得每一帧检测结果之间的过渡顺畅自然。

2. 本发明使用基于3D卷积扩展的多尺度信息整合模块进行特征提取，充分利用视频的上下文信息和多尺度信息，结合局部-全局信息和上下文信息能够有效地保存目标的边界信息，改善目标轮廓模糊的问题，使得检测结果更加平滑和完整。

3. 本发明对基于“检测-跟踪-分割”模式的算法进行改进，充分挖掘视频目标在不同帧之间的轨迹关系，充分利用上下文信息和多尺度信息，对视频中的多目标对象进行有效的跟踪和分割。

附图说明

图1是本发明实施例提供的一种视频多目标跟踪与分割系统的工作流程图。

图2是本发明实施例提供的一种金字塔结构的特征提取器的结构示意图。

图3是本发明实施例提供的一种f-VAE的工作流程图。

图4是本发明实施例提供的一种视频多目标跟踪与分割方法的流程图。

图5为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多目标跟踪与分割通常按照“检测-跟踪-分割”的模式，具有目标定位的检测模型，用于将数据关联的外观嵌入跟踪模型，以及分割模型。然而，目前的MOTS方法很少涉及到如何从视频片段（Segments）中提取实例特征嵌入信息。跟踪-候选区卷积神经网络（Tracking Region Convolutional Neural Network，TRCNN）模型通过3D卷积扩展了掩膜-候选区卷积神经网络（Mask-Region Convolutional Neural Network，Mask-RCNN）模型，并采用自由量化方案（Region Of Intrest-Alignment，ROI-Align）来提取bbox方案中的实例嵌入信息。由于受卷积感受野的影响，前景特征和背景特征仍然混杂在一起，不利于区分特征的学习。因此，学习稳健的实例关联所必需的区分性实例嵌入信息，可以突破目前在跟踪性能方面的限制。

实施例一

本实施例提出一种视频多目标跟踪与分割系统。该系统包括：视频获取模块、特征提取模块、目标框检测分支、语义分割分支和时空嵌入分支。

视频获取模块用于获取待处理视频，所述待处理视频由多个视频帧组成，所述多个视频帧中包含多个目标。

特征提取模块与所述视频获取模块连接，用于使用基于3D卷积扩展的多尺度信息整合模块，提取所述多个视频帧的特征。

目标框检测分支与所述特征提取模块连接，用于基于所述多个视频帧的特征，生成每个视频帧包含的目标的目标框、类别和置信度。

语义分割分支与所述特征提取模块连接，用于基于所述多个视频帧的特征，生成每个视频帧包含的目标的分割掩膜。

时空嵌入分支与所述特征提取模块连接，用于基于所述多个视频帧的特征，对所述多个视频帧中的每个目标的分布进行估计，得到每个目标的轨迹分布似然值。

在一实施例中，所述特征提取模块包括金字塔结构的特征提取器，所述特征提取器用于：基于每个视频帧的4个相邻的视频帧，得到所述每个视频帧对应的4个不同尺度的特征图F₁、F₂、F₃和F₄。

在一实施例中，所述特征提取器包括：自底向上路径、自顶向下路径和通道变换模块。

自底向上路径与所述视频获取模块连接，使用残差网络ResNet50模型作为骨干网络，包括5个串联的卷积块TU₁、TU₂、TU₃、TU₄和TU₅，其中，每个相邻的视频帧输入TU₁后，依次通过TU₂、TU₃、TU₄和TU₅，TU₁、TU₂、TU₃、TU₄和TU₅分别输出所述每个相邻的视频帧的不同尺度的特征Feature₁、Feature₂、Feature₃、Feature₄和Feature₅。

自顶向下路径与所述自底向上路径连接，包括4个卷积模块TD₄、TD₃、TD₂和TD₁，其中，Feature₅通过1×1卷积后经过上采样，作为TD₄的输入，得到Fe₄；将TD_i的输出上采样至Feature_i-1大小，与通过1×1卷积的Feature_i-1进行跳跃连接，得到Fe_i-1，作为TD_i-2的输入，其中，i为正整数，且2≤i≤4。

通道变换模块用于将所述4个相邻的视频帧的Fe_j进行通道数叠加，得到Fe_j ^＇，其中，Fe_j的通道数为N_j，Fe_j ^＇的通道数为4N_j；使用两个串联的3D卷积对Fe_j ^＇进行上下文信息获取，得到F_j，其中，F_j的通道数为N_j，j为正整数，且1≤j≤4。

在一实施例中，所述目标框检测分支是用于：

对于每个视频帧的F_j，使用区域生成网络机制得到所述每个视频帧包含的目标的目标框，其中，j为正整数，1≤j≤4；

根据所述目标框所在的区域，提取特征Fe_i中对应位置的局部区域特征，其中，i为正整数，且i＜4；

使每个局部区域特征依次经过一个全连接层和一个输出层，得到所述目标框中的目标的类别及置信度。

在一实施例中，所述语义分割分支是用于：

使用三个上采样层将每个视频帧的F₁、F₂、F₃和F₄合并；

可选地，时空嵌入分支以基于变分推理的时空嵌入分支进行目标跟踪，使用目标的位置信息和时序信息进行关联检测。

在一实施例中，所述时空嵌入分支包括流-变分编码器。

在相关技术中，由于没有学习到稳健的实例关联所必需的区分性实例嵌入信息，导致跟踪和分割精度受限，远没有达到预期的结果。而基于时空嵌入信息的变分推理的视频多目标跟踪与分割系统可以将所有视频帧中出现的同一个目标的运动轨迹视为同一个分布，通过估计该分布的似然值优化嵌入信息，使得该信息更具有区分性。图1为本发明实施例提供的一种视频多目标跟踪与分割系统的工作流程图。如图1所示，该系统的工作流程包括步骤S1-S4。

S1：获取待处理的视频。

S2：使用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息。

S3：使用目标框检测分支、语义分割分支分别生成视频中的目标的目标框、类别及置信度和分割掩膜。

S4：以基于变分推理的时空嵌入分支进行目标跟踪，使用目标的位置信息和时序信息进行关联检测。

在步骤S2中，采用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息，该特征信息包含了能识别和区分每一帧视频中目标的嵌入信息。

具体来说，在步骤S2中，将与当前视频帧相邻的4帧视频（即当前视频帧前面的4帧视频）分别输入到金字塔结构的特征提取器中，得到当前视频帧对应的4个不同尺度的特征图F₁,...,F_n, n=4。图2是本发明实施例提供的一种金字塔结构的特征提取器的结构示意图。如图2所示，特征编码器包括自底向上路径、自顶向下路径和跳跃连接。特征编码器对视频真的处理经过以下几个阶段。

S2-1：自底向上路径为编码过程，使用ResNet50模型作为骨干网络，由5个卷积块TU₁、TU₂、TU₃、TU₄和TU₅串联组成。自底向上路径是为了获得原视频帧的不同尺度的特征信息，5个卷积块的分别输出原视频帧的不同尺度的特征信息：Feature₁,Feature₂,...,Feature₅。

S2-2：自顶向下路径为解码过程，有4个卷积模块TD₄、TD₃、TD₂、TD₁，Feature₅通过1×1卷积后作为TD₄的输入；自顶向下路径是为了解码，获得不同尺度的解码后特征。

S2-3：将TD_i，2≤i≤4的输出上采样至Feature_i大小，与通过1×1卷积的Feature_i进行跳跃连接，即对应位置元素相加，得到Fe_i，同时作为TD_i-1的输入。

S2-4：对于每一帧视频，都可以得到4个特征输出Fe₁,...,Fe_n, n=4。将4帧视频相同尺度的特征进行通道数叠加，使用两个串联的3D卷积对每一个尺度的特征进行上下文信息获取，通道数变为原来的1/4（与单帧视频特征通道数相同），得到F₁,...,F_n, n=4。通道数的叠加是为了将4帧相邻视频的特征合并，缩减是为了减少计算量，将合并后的特征通道数减少到1/4。

通过步骤S2得到的特征信息中包含了能识别和区分每一帧视频中目标的嵌入信息。

在步骤S3中，使用两个分支分别生成目标框、类别和置信度，以及分割掩膜。

具体来说，在目标框检测分支中，对于F_j使用区域生成网络（Region ProposalNetwork，RPN）机制得到目标框的检测结果。类别检测分支根据目标框所在的区域，提取特征F_j中对应位置的局部区域特征。1≤j≤4。对于每个局部特征，后面接一个全连接层和一个输出层，输出该目标框中的目标类别及置信度。

在语义分割分支中，对于特征F₁,...,F_n, n=4，使用三个上采样层将四个不同尺度的特征合并。令F₁ ^＇ ₌F₁，对于F_i ^＇,i＜4，进行2倍上采样，输出尺度变为原来的2倍，通道数减少为原来的二分之一，得到F_i ^＂；对于F_i+1通过1×1卷积，通道数减少为原来的二分之一，再与F_i ^＂进行通道数叠加，得到新的F^＇ _i+1。F₄ ^＇就是合并后特征。后面接一个全连接层和一个输出层，输出该视频帧的分割掩膜。

在步骤S4中，以基于变分推理的时空嵌入分支进行目标跟踪，使用目标的位置信息和时序信息进行关联检测。上述步骤都是针对每一帧中的目标进行的，而时空嵌入分支对应的步骤4是针对所有视频帧中同一目标的运动轨迹进行的。

具体来说，区别于图像分割任务，多目标跟踪与分割的难点在于跟踪视频中同一目标的运动轨迹，即同一目标在不同时间的位置信息。识别每一帧图像中的目标可以获得目标的空间位置信息，为了利用时间信息，将流-变分编码器（flow-Variational AutoEncoder，f-VAE）应用到时空嵌入分支。每一帧视频都可以通过特征提取获得特征嵌入信息Fe₁,...,Fe_n, n=4，Fe₄是原视频帧图像尺度的四分之一。将每一帧的Fe₁通过1×1卷积降维后，在通道维度上拼接在一起，获得时空嵌入信息。f-VAEs是囊括流模型和变分自编码器的更一般的框架，相比于原始的生成流（Generative flow，Glow）模型，f-VAE收敛更快，并且能在更小的网络规模下达到同样的生成效果。

图3是本发明实施例提供的一种f-VAE的工作流程图。如图3所示，f-VAE是编码器解码器结构，编码器是卷积和压缩算子的堆叠。具体来说，编码器由五个块（block）组成，并且在每个块之前都进行一次压缩。而每个block由若干步复合而成，每步由3个3x3的卷积和1个1x1的卷积串联组成。

至于解码器（生成器）则是卷积和解压缩算子的堆叠，结构上就是编码器的逆。解码器的最后可以加上激活函数tanh(⋅)，但这也不是必须的。而无条件流的结果是照搬自Glow模型，只是Glow模型的学习深度更深，卷积核的数目更大。

编码器是对输入提取特征，解码器是根据提取的特征重构原图，使用重构图像和原图根据交叉熵损失计算可得损失值1；无条件流对特征继续进行可逆计算，得到一个似然值，根据最大似然估计得到损失值2。将两个损失值相加得到f-VAE的总损失值。

本发明提出了一种基于变分推理的视频多目标跟踪与分割系统，使用3D卷积扩展的多尺度信息整合模块提取所有视频帧的特征信息，使用基于变分推理的时空嵌入分支，将时序信息结合空间信息作为关联检测信息并处理时间动态（即目标的运动轨迹）。通过时空信息辅助跟踪算法决定如何检测并且链接目标。最终形成相应的目标框、分类信息及分割掩膜。

本发明可以实现如下有益效果：

值得注意的是，上述实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例二

本实施例提供一种视频多目标跟踪与分割方法，该方法基于实施例一所述的视频多目标跟踪与分割系统。图4是本发明实施例提供的一种视频多目标跟踪与分割方法的流程图。如图4所示，该方法包括步骤S10-S40。

S10：获取多个训练视频，其中，每个训练视频由多个训练视频帧组成，所述多个训练视频帧中包含多个目标；对每个训练视频进行标注，其中，标注的信息包括每个训练视频帧包含的目标的目标框、类别和置信度，以及目标的分割掩膜。

S20：构建实施例一提供的视频多目标跟踪与分割系统。

S30：以所述多个训练视频为训练集，根据每个训练视频的标注信息和损失函数，对所述视频多目标跟踪与分割系统进行训练。

在一实施例中，所述步骤S30包括：

使用轨迹分布似然值估计轨迹分布损失；

在一实施例中，在步骤S30中，所述目标框检测分支、语义分割分支和时空嵌入分支均使用ImageNet数据集上预训练的权重参数进行初始化。

可选地，在步骤S30中，利用视频多目标跟踪与分割系统，预测出每一帧视频的目标框、目标框所包含目标的类别及置信度、分割掩膜和轨迹分布似然值。图像标注信息有真实的每一帧视频的目标框、目标框所包含目标的类别及置信度和分割掩膜。使用交叉熵损失函数计算每一帧视频的目标框、目标框所包含目标的类别及置信度和分割掩膜之间的损失。使用最大似然值估计计算轨迹分布的损失。将三者加和作为总的损失值，迭代优化模型。在测试时，不需要使用时空嵌入分支估计轨迹分布的似然值。

本发明实施例的视频多目标跟踪与分割方法与实施例一中的视频多目标跟踪与分割系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的视频多目标跟踪与分割系统。

实施例三

图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示，该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个，图5中以一个处理器510为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任一实施例所提供的视频多目标跟踪与分割方法的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，实现本发明任一实施例所提供的视频多目标跟踪与分割方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于计算机程序，用于执行本发明任一实施例所提供的视频多目标跟踪与分割方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频多目标跟踪与分割系统，其特征在于，包括：

时空嵌入分支，与所述特征提取模块连接，用于基于所述多个视频帧的特征，对所述多个视频帧中的每个目标的分布进行估计，得到每个目标的轨迹分布似然值；

其中，所述特征提取模块包括金字塔结构的特征提取器，所述特征提取器用于：

基于每个视频帧的4个相邻的视频帧，得到所述每个视频帧对应的4个不同尺度的特征图F₁、F₂、F₃和F₄；

所述特征提取器包括：

自底向上路径，与所述视频获取模块连接，使用残差网络ResNet50模型作为骨干网络，包括5个串联的卷积块TU₁、TU₂、TU₃、TU₄和TU₅，其中，每个相邻的视频帧输入TU₁后，依次通过TU₂、TU₃、TU₄和TU₅，TU₁、TU₂、TU₃、TU₄和TU₅分别输出所述每个相邻的视频帧的不同尺度的特征Feature₁、Feature₂、Feature₃、Feature₄和Feature₅；

自顶向下路径，与所述自底向上路径连接，包括4个卷积模块TD₄、TD₃、TD₂和TD₁，其中，Feature₅通过1×1卷积后作为TD₄的输入；将TD_i的输出上采样至Feature_i大小，与通过1×1卷积的Feature_i进行跳跃连接，得到Fe_i，同时作为TD_i-1的输入，其中，i为正整数，且2≤i≤4；和

通道变换模块，用于将所述4个相邻的视频帧的Fe_j进行通道数叠加，得到Fe_j ^＇，其中，Fe_j的通道数为N_j，Fe_j ^＇的通道数为4N_j；使用两个串联的3D卷积对Fe_j ^＇进行上下文信息获取，得到F_j，其中，F_j的通道数为N_j，j为正整数，且1≤j≤4；

所述时空嵌入分支包括流-变分编码器，其中，所述包括流-变分编码器包括：

编码器，与所述特征提取模块连接，用于对输入F₁、F₂、F₃和F₄提取特征，得到F₁、F₂、F₃和F₄的特征，其中，所述编码器是卷积和压缩算子的堆叠，所述编码器由五个块组成，并且在每个块之前都进行一次压缩，每个块由若干步复合而成，每步由3个3x3的卷积和1个1x1的卷积串联组成；

解码器，与所述编码器连接，用于根据所述F₁、F₂、F₃和F₄的特征重构原图，其中，所述解码器是卷积和解压缩算子的堆叠，结构上是所述编码器的逆；和

无条件流，与所述编码器连接，用于对所述F₁、F₂、F₃和F₄的特征进行可逆运算，得到所述似然值，其中，所述无条件流的结果照搬自原始的生成流模型。

2.如权利要求1所述的视频多目标跟踪与分割系统，其特征在于，所述目标框检测分支是用于：

其中，j为正整数，1≤j≤4。

3.如权利要求2所述的视频多目标跟踪与分割系统，其特征在于，所述语义分割分支是用于：

使用三个上采样层将每个视频帧的F₁、F₂、F₃和F₄合并；

4.一种视频多目标跟踪与分割方法，其特征在于，包括：

S20：构建如权利要求1-3任意一项所述的视频多目标跟踪与分割系统；

5.如权利要求4所述的视频多目标跟踪与分割方法，其特征在于，所述步骤S30包括：

使用轨迹分布似然值估计轨迹分布损失；

6.如权利要求5所述的视频多目标跟踪与分割方法，其特征在于，在步骤S30中，