CN115100565A

CN115100565A - 一种基于空间相关性与光流配准的多目标跟踪方法

Info

Publication number: CN115100565A
Application number: CN202210680138.5A
Authority: CN
Inventors: 明悦; 孙娟娟; 于文豪; 杨铭
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-23
Anticipated expiration: 2042-06-16
Also published as: CN115100565B

Abstract

本发明提供了一种基于空间相关性与光流配准的多目标跟踪方法。该方法包括：将视频帧图像输入到空间信息与拓扑关系融合网络中，融合不同尺寸的图像特征，输出融合后的特征图；将融合特征图输入至空间信息与拓扑关系融合网络，并连接四个任务头，分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务，以确定目标包围框的大小和位置，生成用于轨迹匹配的外观特征；将外观特征及其置信度作为结合稀疏光流的分层关联算法的输入，关联不同帧图像的检测结果，生成目标跟踪轨迹。本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息，增加网络的表征能力，提高了目标轨迹的稳定性。

Description

一种基于空间相关性与光流配准的多目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种基于空间相关性与光流配准的多目标跟踪方法。

背景技术

目标跟踪技术是计算机视觉中的热门研究方向，多目标跟踪算法在诸多领域有广泛的应用：智能视频监控是智慧城市的重要组成之一，通过对目标的运动进行预测和跟踪，对行人流量进行商业分析或安全分析，进一步可以与行为识别、行为模式分析等进行结合，对异常行为进行预警，在紧急情况出现时进行疏散和轨迹规划，展现出巨大的商业价值和应用价值；多目标跟踪同样用于自动驾驶领域，自动驾驶场景下对视野中的车辆进行跟踪，基于车辆轨迹进行运动预测进而控制车辆的运动模式，近年来车辆的自动驾驶辅助系统趋向于视觉与雷达信息结合的解决方案，使得多目标跟踪的研究更加重要；除了民用领域外，多目标跟踪同样可以用于导弹制导、无人机操控等军用领域，显示出巨大的应用价值。

然而在实际场景下，多目标跟踪算法仍然存在诸多挑战。在智能监控场景下，经常会出现行人外观相似，或行人间互相遮挡、行人与背景间遮挡等情况，这些情况会导致用于表示行人的外观特征发生变化，降低了外观特征区分性；同时，当检测器不能提供正确的检测结果时，跟踪会失效，且长时间未跟踪到的目标再次出现时会发生身份变化。这两类问题是影响轨迹稳定的重要问题。

外观特征是用于代表某个目标的特征向量，具体而言每个检测框都对应于一个外观特征，外观特征的确定是基于目标的外观信息获取的，相似度计算过程中，前后帧间具有相似外观特征的检测框属于同一个身份。在实际场景中，导致外观特征变化的因素主要有两种：外观相似和行人间遮挡。其中，遮挡主要分为感兴趣目标之间的遮挡和背景对目标的遮挡。外观相似发生时，由于当前帧的目标具有相似的外观，其外观特征具有相似性较高，当通过贪心算法匹配时，可能发生匹配错误；当遮挡发生时，感兴趣目标的检测框区域内被引入干扰的外观，导致目标的外观特征发生变化，进而导致关联失败。

若目标的位置信息(或者运动轨迹)在较长时间内丢失，当目标再次出现时，基于位置信息进行数据关联不够准确导致目标身份发生变化。常认为在短时间内目标处于匀速线性运动，但是当目标长时间丢失时，其运动状态可能存在复杂变化，不适合更新线性运动模型。如果当目标长时间丢失时不进行运动模型的更新，则当目标重新出现的时候位置就会出现较大偏差，而更新运动模型同样会引入较大偏差。目标长时间丢失可能是由于漏检导致关联失效，减少漏检能够为匹配阶段保留更多候选项，进而减少目标长时间丢失的发生。

近年来，多目标跟踪技术的研究取得了很大的进展和成就。随着深度学习的发展和硬件设备计算能力的提高，基于深度学习的方法成为多目标跟踪研究中的常用方法。常用的多目标跟踪框架有基于检测的跟踪框架、联合检测与跟踪的框架、和其他框架。

在基于检测的跟踪框架中，首先对输入图片进行目标检测，然后基于检测得到的包围框，从原始图片中裁剪出感兴趣目标，再对感兴趣目标提取特征。这里常用的特征包括外观特征和运动信息等。最后基于提取到的特征进行数据关联并得到轨迹。

基于运动信息关联运动信息包括目标的位置、边界框信息、运动速度和方向等，通常运动信息能够通过卡尔曼滤波、光流和神经网络获取。基于运动信息进行关联，在行人遮挡和外观相似的情况下会有频繁的身份变化，轨迹稳定性不高。

基于深度特征关联深度特征是指用于代表每个行人的固定维度向量，使用残差网络、GoogLeNet等为主干进行提取。近年多使用具有重识别的网络进行深度特征的提取。使用深度特征进行关联时，由于深度特征具有更好的代表性，能够有效地减少关联错误，在复杂场景中行人遮挡和外观变化问题上都更加鲁棒。

基于循环神经网络关联多目标跟踪的一个困难是结合长期外观模型来有效地在严重遮挡条件下对目标轨迹进行评分，使用循环神经网络能够在时间上结合特征，来提供更好的关联。尽管循环神经网络能够更充分地融合轨迹的时序特征，更好地适应时间上的特征变化，但是当目标长时间丢失时无法更新模型，并且循环神经网络，不能进行批训练，训练缓慢。

基于图卷积神经网络关联随着图神经网络的研究发展，图神经网络被应用于多目标跟踪的数据关联步骤，通常将外观特征和位置信息拼接作为图的节点，相似度作为节点之间的边。基于图神经网络的方法中，主要是离线方法，能够在全局进行关联，来减少目标长时间丢失导致的身份变化，但是不满足场景要求

多目标跟踪流程可分为目标检测、特征提取、数据关联。联合检测与跟踪的框架中，目标检测和特征提取被结合在同一个网络中完成，能够减少计算量。而联合检测与跟踪的框架下又可细分为联合检测与外观特征的方法、联合检测与运动信息的方法和其他类型的方法。

联合检测与外观特征的方法联合检测与外观特征的方法中，目标检测的结果和外观特征在一个主干网络中生成，能够大大减少计算量。但是网络中完成检测和外观特征提取两个任务会导致互相制约，采取策略提高外观特征的区分性或检测性能时，可能降低另一任务的性能，从而导致整体性能降低。

联合检测与运动信息的方法联合检测与运动信息的方法中，在同一个主干网络中完成检测与运动信息提取任务，后续基于运动信息关联。运动信息通常是目标位置的偏移，通过预测的位置偏移得到下一帧中预测的位置。尽管基于运动信息进行关联能够使用更少的计算量，但是在目标丢失的情况下运动信息的提取变得困难。并且在运动状态复杂变化的时候，运动信息的提取可能出现错误。而在拥挤场景下，通过运动信息进行关联容易出现频繁的身份变换。

现有技术中的第一种多目标跟踪方法包括：采用联合检测与外观特征的跟踪框架，该跟踪框架通过共享权重减少计算量。具体处理过程包括：目标检测，通过检测得到目标的边界框信息。特征提取，联合检测与外观特征方法中，在整体图像中提取外观特征，再基于目标检测得到的位置信息，选取外观特征，用于检测的部分权重和用于表示外观的部分权重是共享的。

上述现有技术中的第一种多目标跟踪方法的缺点为：在联合检测与外观特征的框架下，检测和外观特征提取在一个网络中完成，受到两个任务间相互制约的影响，外观特征的区分性下降。并且目前对于该框架下的空间信息探索仍有不足，在复杂场景下当外观相似发生时，外观特征区分性会降低导致关联错误；同样当目标被遮挡时，由于目标范围内有干扰信息，外观特征会发生变化，导致区分性下降。

现有技术中的第二种多目标跟踪方法包括：多目标跟踪的数据关联中，首先将检测和轨迹基于外观特征相似度进行关联，完成检测对轨迹的分配，然后基于检测和轨迹间的位置交并比进行关联，完成检测对轨迹的分配，最终决定完整的轨迹输出。

上述现有技术中的第二种多目标跟踪方法的缺点为：多目标跟踪的数据关联中，当目标在视野中丢失时，无法进行关联，并且丢失过程中运动状态可能发生变化，导致基于位置计算交并比时产生关联错误；同时在目标丢失时通过运动预测来估计目标位置时，会随着目标丢失时间的增加而增加错误。这些情况导致当目标长时间丢失后发生身份变化。

发明内容

本发明的实施例提供了一种基于空间相关性与光流配准的多目标跟踪方法，以实现有效地进行复杂场景下的多目标跟踪。

为了实现上述目的，本发明采取了如下技术方案。

一种基于空间相关性与光流配准的多目标跟踪方法，包括：

构建用于多目标跟踪的空间信息与拓扑关系融合网络，该空间信息与拓扑关系融合网络以视频帧图像作为输入，将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络，输出融合后的特征图；

在所述空间信息与拓扑关系融合网络后连接四个任务头，将所述融合后的特征图输入到所述四个任务头，四个任务头使用基于CenterNet的多任务检测策略分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务，确定目标包围框的大小和位置，生成用于轨迹匹配的外观特征；

将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入，所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果，生成目标跟踪轨迹。

优选地，高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联，低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联。

优选地，所述的构建用于多目标跟踪的空间信息与拓扑关系融合网络，该空间信息与拓扑关系融合网络以图像作为输入，将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络，输出融合后的特征图，包括：

利用多尺度空间注意网络和相关性融合网络构建空间信息与拓扑关系融合网络，空间信息与拓扑关系融合网络以图像为输入，通过网络的前半部分对输入图像进行三次下采样，获得三个尺寸的特征图，再对三个尺寸的特征图进行融合；在网络的后半部分，三个尺寸的特征图先与对应尺寸的特征融合，再增强空间信息并引入拓扑信息，每一尺度下的特征图经过多尺度空间注意网络与相关性融合网络后，将输出与输入融合并为对应尺度下融合后的特征图：

F^out＝F^correlation+F^spa*+Fⁱⁿ (1)

其中F^out为对应尺度下输出的特征图，F^correlation为相关性融合网络在对应尺度的输出，F^spa*为多尺度空间注意网络的对应输出，Fⁱⁿ为对应层的特征图输入。

优选地，完成热图生成的任务头使用单通道的热图代表行人中心出现在当前位置的可能性，与网络输出的尺寸对应，对于每个中心坐标为bⁱ＝(xⁱ，yⁱ)的人工标注的结果Ground Truth，将中心坐标尺寸变化到特征图对应位置

热图由以下公式定义：

其中N是目标数量，σ_c是标准差；

热图以每个目标中心为高斯圆中心，渲染出一个高斯圆用于表示对应物体，损失函数基于focal loss定义：

其中

是网络预测的输出，α，β是focal loss中预先设置的参数。

优选地，完成偏移量生成、包围框尺寸生成的任务头检测到的目标包围框根据偏移量和包围框尺寸生成，其中偏移量用于修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题，标签为缩放导致的位置偏移；包围框尺寸任务用于生成检测框的长和宽，标签对应于检测框的长和宽，偏移量矩阵记作

两个通道分别对应于宽和高的偏移量，对于每个目标的GroundTruth(人工标注的结果)对应的中心坐标bⁱ＝(xⁱ，yⁱ)和其在特征图上对应中心坐标

偏移量定义为

包围框尺寸生成输出的包围框尺寸矩阵记作

其通道分别代表对应GroundTruth的左上角坐标和右下角坐标，记作

宽和高定义为

损失函数定义为：

其中

和

为网络预测的输出，λ是加权参数。

优选地，完成外观特征生成的任务头用于生成代表各个目标的外观特征，对于每个目标，用其中心点的向量代表这个目标的外观特征，外观特征分支网络输出为

其中每个目标用其中心的128维向量作为外观特征；

在训练阶段，外观特征任务作为分类任务训练，对于训练集中的K个目标ID，训练过程中网络的输出会再经过一个全连接层，将

映射到K个类别上，再经过Softmax将取值范围限制在[0，1]，用于计算损失的输出表示为：P＝{p(k)，k∈[1，K]}，每个目标ID被One-hot编码为Lⁱ(k)，外观特征分支的损失函数定义为：

其中N为目标数量，K为ID总数；

整体损失由热图损失、边界框损失和外观特征损失共同构成，表示为：

其中ω₁和ω₂是用于平衡训练的参数。

优选地，所述的将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入，所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果，生成目标跟踪轨迹，包括:

所述结合稀疏光流的分层关联算法包括：对于t时刻，定义t时刻的检测输出

和外观特征

其中

包括检测结果的左上角坐标

右下角坐标

和检测置信度

N是第t帧中的目标数量；

定义阈值λ₁和σλ₁，σ∈(0，1)，当

时，认为该目标是可靠的检测结果，当

时认为该目标是不可靠的检测结果，当

时认为该目标是错误检测，不用于数据关联，获取检测结果集合

和不可靠的检测结果

上一时刻的轨迹定义为：

由上述本发明的实施例提供的技术方案可以看出，本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息，增加网络的表征能力，在维持较高检测性能的同时提高外观特征的代表性，进而降低了网络对外观相似和行人间遮挡导致的外观特征变化的敏感度，提高了轨迹的稳定性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种行人轨迹分析应用场景示意图；

图2为本发明实施例提供的一种车辆跟踪应用场景示意图；

图3为本发明实施例提供的一种基于空间相关性与光流配准的多目标跟踪方法的实现原理图；

图4为本发明实施例提供的一种多尺度空间注意网络的结构图；

图5为本发明实施例提供的一种相关性融合网络结构的结构图；

图6为本发明实施例提出的一种结合稀疏光流的分层关联算法的实现原理图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种复杂场景下的基于空间相关性与光流配准的多目标跟踪方法。该方法中设计了用于多目标跟踪的空间信息与拓扑关系融合网络，通过多尺度空间注意网络和相关性融合网络，完成检测与外观特征任务。网络中通过多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息，增加网络的表征能力，在维持较高检测性能的同时提高外观特征的代表性，进而降低了网络对外观相似和行人间遮挡导致的外观特征变化的敏感度，提高了轨迹的稳定性。

本发明实施例的基于空间相关性与光流配准的多目标跟踪方法中还提出结合稀疏光流的分层关联策略。首先，提出基于最佳检测阈值的阈值压制，将检测结果通过阈值划分为高置信度检测和低置信度检测，来增加潜在候选项；然后，提出用于低置信度检测的综合相似度评分，来针对因检测不可靠导致的外观特征区分性低问题；最后，提出结合稀疏光流的IoU(Intersection overUnion,交并比)通过光流配准，通过目标区域内两点进行配准重新估计边界框，减少非线性运动导致的身份变化。有利于缓解长时目标丢失导致的身份变化问题，提高跟踪的性能。

本发明实施例的基于空间相关性与光流配准的多目标跟踪方法可以应用于复杂场景下的行人跟踪，比如，图1所示的行人轨迹分析场景，自动驾驶中的行人避障、智能监控等领域；通过训练数据的更换，也可以完成图2所示的自动驾驶中的车辆跟踪、军事领域中的导弹制导，畜牧业中的动物跟踪等任务。

本发明实施例的基于空间相关性与光流配准的多目标跟踪方法的实现原理图如图3所示，包括如下的处理步骤：

步骤S10、构建用于多目标跟踪的空间信息与拓扑关系融合网络。该空间信息与拓扑关系融合网络以图像作为输入，将上采样和特征融合后的特征通过多尺度空间注意网络与多尺度融合网络，输出融合后的特征图。

步骤S20、在空间信息与拓扑关系融合网络后连接四个任务头，将上述融合后的特征图输入到上述四个任务头，四个任务头使用基于CenterNet的多任务检测策略分别完成热图(Heatmap)生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务，确定目标包围框的大小和位置，生成用于轨迹匹配的外观特征。

步骤S30、将上述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入，结合稀疏光流的分层关联算法关联不同帧图像的检测结果，高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联，低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联，最终生成目标跟踪轨迹。

构建用于多目标跟踪的空间信息与拓扑关系融合网络，该网络可以生成检测结果和对应的外观特征。

上述步骤S10具体包括：利用多尺度空间注意网络和相关性融合网络构建空间信息与拓扑关系融合网络。空间信息与拓扑关系融合网络以图像为输入，输出检测结果与外观特征。在空间信息与拓扑关系融合网络的前半部分，首先对输入图像进行三次下采样，获得不同尺寸的特征图，再对不同尺寸的特征进行融合。在网络的后半部分，三个尺寸的特征图先与对应尺寸的特征融合，再经过多尺度空间注意网络与相关性融合网络，进一步增强空间信息并引入拓扑信息。每一尺度下的特征图经过多尺度空间注意网络与相关性融合网络后，将输出与输入融合并为对应尺度下新的特征图：

F^out＝F^correlation+F^spa*+Fⁱⁿ (1)

其中F^out为对应尺度下输出的特征图，F^correlation为相关性融合网络在对应尺度的输出，F^spa*为多尺度空间注意网络的对应输出，Fⁱⁿ为对应层的特征图输入。不同尺度下的F^out进一步通过上采样恢复到最大尺度的特征图，再分别进行融合，得到输出特征图。

上述步骤S20具体包括：对于空间信息与拓扑关系融合网络输出的特征图，本发明使用CenterNet的检测策略实现检测功能，通过训练一个分类器完成外观特征的提取功能。在空间信息与拓扑关系融合网络后连接四个任务头，分别完成热图(Heatmap)生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务。其中用于Heatmap生成、偏移量生成、包围框尺寸生成的三个任务头分别实现目标中心位置的确定、中心位置矫正和包围框生成任务，并最终组合成为目标包围框。外观特征的任务头实现生成用于轨迹匹配的外观特征认为。四个任务构成三个损失函数并组成最后的整体损失。

由于跟踪目标只有行人，本发明使用单通道的Heatmap，用于代表行人中心出现在当前位置的可能性。为了与网络输出的尺寸对应，对于每个中心坐标为bⁱ＝(xⁱ，yⁱ)的Ground Truth,需要将中心坐标尺寸变化到特征图对应位置

Heatmap由以下公式定义：

其中N是目标数量，σ_c是标准差。Heatmap中以每个目标中心为高斯圆中心，渲染出一个高斯圆用于表示对应物体，损失函数基于focal loss定义：

其中

是网络预测的输出，α，β是focal loss中预先设置的参数。

检测到的目标包围框根据偏移量和包围框尺寸生成，其中偏移量用于更精确地修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题，标签为缩放导致的位置偏移；包围框尺寸任务用于生成检测框的长和宽，标签对应于检测框的长和宽。具体而言，偏移量矩阵记作

偏移量定义为

包围框尺寸生成输出的包围框尺寸矩阵记作

宽和高定义为

损失函数定义为：

其中

和

为网络预测的输出，λ是加权参数，本发明设定为0.15。

外观特征生成分支用于生成代表各个目标的外观特征，对于每个目标，用其中心点的向量代表这个目标的外观特征，外观特征分支网络输出为

其中每个目标用其中心的128维向量作为外观特征。在训练阶段，外观特征任务作为分类任务训练。对于训练集中的K个目标ID，训练过程中网络的输出会再经过一个全连接层，将

映射到K个类别上，再经过Softmax将取值范围限制在[0，1]，用于计算损失的输出可表示为：P＝{p(k)，k∈[1，K]}，每个目标ID被One-hot编码为Lⁱ(k)，外观特征分支的损失函数定义为：

其中N为目标数量，K为ID总数。测试阶段，全连接层及其后面的网络结构会被去掉，并保留

作为外观特征信息。

整体损失由Heatmap损失，边界框损失和外观特征损失共同构成，表示为：

其中ω₁和ω₂是用于平衡训练的参数，基于该公式训练得到最终的模型。

图4为本发明实施例提供的一种多尺度空间注意网络的结构图。多尺度空间注意网络是空间信息与拓扑关系融合网络的关键结构，以特征图作为输入，这里的特征图是网络的中间层输出的特征图，输入特征图记作

C为特征图通道数，W和H为特征图的宽和高。为了缓解因网络前馈过程中，特征图尺寸放缩导致的空间信息损失，本发明将特征图放缩到多个尺度来恢复空间信息。

输入特征图首先经过双线性采样和双线性插值得到不同尺度的特征图：

F^up＝Bi_in(Fⁱⁿ) (7)

F^down＝Bi_sa(Fⁱⁿ) (8)

其中Bi_in表示双线性插值，Bi_sa表示双线性采样，通过插值和采样，可以得到不同尺寸的特征图，包括二倍尺寸的特征图

和二分之一尺寸的

然后对于不同尺寸的特征图进行空间注意的提取。由于通常认为平均池化能够减少估计值方差较大的问题，而最大池化能够减少均值偏移问题，并且沿着通道进行池化已被证明能够有效突出信息区域^[92]，所以本发明中沿通道轴使用两种池化操作，并将它们按照通道拼接为一个描述符。公式化表示为：

F^i，pooling＝Cat(Maxpool(Fⁱ)，Avgpool(Fⁱ))，i∈{in，up，down} (9)

其中Cat表示按照通道拼接。将两个经过池化后得到的单通道输出拼接得到2通道的特征图，然后经过一个可变形卷积进行通道变化，将2通道的池化结果聚合到单通道，最后经过一个Sigmoid函数将取值限制在(0,1)。公式化表示为：

F^{i，attention}＝σ(DCN(F^i，pooling))，i∈{in，up，down} (10)其中σ(·)表示Sigmoid函数，DCN(·)表示可变形卷积。在多个尺度上的空间注意力与原始特征图加权后获得具有突出空间信息的特征图，用于在不同的尺度上提取目标的代表性区域。小尺寸特征图用于丰富大目标的空间信息，而大尺寸特征用于丰富小目标的空间信息。之后，对于三个尺度上的特征图，先将三个尺度恢复为原始特征图的尺寸，再按照通道拼接，通过一个可变形卷积将通道数聚合为原始通道数，公式化表示为：

F^spa*＝Cat(Fⁱⁿ⊙F^{in，attention}，Bi_in(F^down⊙F^{down，attention})，Bi_sa(F^up⊙F^{up，attention}))

(11)

F^spa＝DCN(F^spa*) (12)

其中⊙表示点乘，

F^spa*为多尺度空间信息输出。

本发明实施例提供的一种相关性融合网络结构的结构图如图5所示，相关性融合网络通过相关性计算对像素间的拓扑关系进行建模，来应对拥挤场景下行人间相互遮挡及背景与行人间的遮挡挑战。

如图5所示，像素间的相关性计算是次密集的，相关性计算只在中心像素的半径r范围内计算。由于计算当前像素与场景中全部像素的相关性时，计算量与特征图的尺寸和通道数密切相关，导致大的计算量；并且空间距离较远的像素与当前位置的像素无强遮挡关系，本发明在像素的局部区域内进行相关性计算。相关性计算方式为：对于输入特征图

首先根据相关性计算的半径r进行padding，保证计算前后特征图尺寸不改变，padding方式为镜像padding，即padding的内容为沿边缘对称复制像素，得到

其中每一个像素在通道上具有C维向量，本发明中每个通道上的固定维度的向量称为嵌入，每个嵌入用于表征对应位置的像素点，记作

相似性通过余弦距离定义。对于

中的位置(x，y)，相关性的计算公式为：

其中

为对应位置(x，y)的具有(2r+1)²通道数的相关性响应。通过逐像素计算可以获得相关性响应图：

为了将相关性响应图与输入特征图结合来融合相关性与特征信息，本研究内容将相关性响应图通过一个可变形卷积进行通道变化，同时可变形卷积能够引入更大范围的相关性：

最终输出一个与输入特征图通道数相同的特征图，作为相关性信息。

上述步骤S30具体包括：本发明实施例提出的结合稀疏光流的分层关联算法的实现原理图如图6所示。对于t时刻，首先定义t时刻的检测输出

和外观特征

其中

包括检测结果的左上角坐标

右下角坐标

和检测置信度

检测置信度即目标出现在对应位置的概率，由边界框的中心在Heatmap上对应位置的激活定义，N是第t帧中的目标数量。由于检测结果和外观特征是一一对应的，下面对检测结果的筛选会同时筛选掉对应的外观特征。这里定义阈值λ₁和σλ₁，σ∈(0，1)，当

时，认为该目标是可靠的检测结果，当

时认为该目标是不可靠的检测结果，当

时认为该目标是错误检测，不用于数据关联。首先获取可靠的检测结果集合

和不可靠的检测结果

上一时刻的轨迹定义为：

M是t-1时刻的轨迹总数，轨迹包括其对应的位置和外观特征信息。

图6所示的结合稀疏光流的分层关联算法框架，关联分三个阶段，高置信度检测基于外观特征关联后基于结合稀疏光流的进行关联，低置信度检测基于外观特征和结合稀疏光流的生成综合置信度进行关联，最终生成轨迹，算法细节如下述算法1所述。

分层数据关联依照检测结果的可靠性和相似度计算的可靠程度进行分层，使用轨迹与检测间的外观特征的余弦距离和检测框与轨迹的交并比(IoU)作为相似度。分层关联的第一步，是对可靠的检测结果和轨迹进行关联。第一层关联输入为可靠的检测结果和上一时刻的轨迹。对于每个检测结果，基于其对应的外观特征与每条轨迹的外观特征进行相似度计算，相似度定义为余弦距离：

t时刻的每个可靠检测与t-1时刻的轨迹计算一个相似度，构成相似度矩阵，然后使用匈牙利算法在相似度矩阵进行匹配，将检测结果分配给轨迹。第一次匹配后会获得匹配成功的轨迹集合

未匹配的轨迹集合

和未匹配到的检测集合

和

用于后续关联。

第二层的相似度计算用结合稀疏光流的IoU进行计算，并基于外观特征相似度生成综合相似度矩阵用于轨迹分配。输入为上一步中未匹配到的轨迹

和不可靠的检测

对于

和

的边界框信息，先计算出外观特征的相似性：

其中M表示第一步关联中未关联成功的轨迹数量，N表示不可靠检测的数量。由于检测置信度不高，所以其对应的外观特征的可靠性也不高，但其中部分数值接近1或-1的相似度具有指导性，这里筛选大于0.9的相似度作为强相似评分

相似度低于0.1的相似度作为弱相似评分

然后计算结合稀疏光流的交并比IoU^opt，IoU^opt的具体计算公式在4.1.2节详述。综合相似度由

和IoU^opt结合计算：

其中β＝0.8为加权参数。由于轨迹相似度在0.1以下的为弱相似评分，本发明定义

为不相似评分。对于强相似评分，即外观特征相似度矩阵中数值在0.9以上的位置，其相似度会以相加的形式补充到IoU矩阵对应位置中；而弱相似评分，即相似度数值在0.1以下的位置。则转化为不相关性之后以相减的形式补充到IoU矩阵对应位置中，构成最终的相似度矩阵。与第一层关联类似，在获得综合相似度矩阵之后，使用匈牙利算法在相似度矩阵上进行检测结果与轨迹的分配。第二层关联之后，成功匹配的轨迹添加进

而未匹配成功的轨迹和检测记作

和

其中由于

为不可靠检测

的子集，本身检测置信度较低，所以不作为新轨迹的开始，直接删除。

第三层关联同样基于结合稀疏光流的IoU计算。对

和

先通过稀疏光流估计位置再计算IoU，获得相似度矩阵后使用匈牙利算法进行轨迹分配，最终得到未匹配成功的

和

这一步中未成功关联的检测会被初始化为新的轨迹，并标记状态为unconfirmed，未成功关联的轨迹同样标记状态为unconfirmed，这些轨迹会被在下一帧中作为

与

合并进行关联，如果标记为unconfirmed的轨迹被成功关联了，则将其状态标记为tracked，并划分到

中。对于关联过程中状态为unconfirmed的轨迹在未来30帧的时间中未成功匹配到，则视为轨迹已经消失，删除对应轨迹。

在常用的基于IoU的关联中，常用卡尔曼滤波器先基于轨迹的历史信息进行位置预测，预测得到轨迹在当前帧的位置，然后再计算IoU，IoU的计算公式为：

其中s^tra为基于轨迹历史位置预测到的在当前对应位置的包围框的面积，s^det为检测框在当前帧对应位置的面积，IoU计算的是轨迹和检测相交的区域面积比上相并的区域面积，用于表征轨迹和检测的空间重叠程度。本发明通过稀疏光流的计算来估计轨迹在下一帧的位置。对于第j条轨迹在上一帧的位置

取它边界框的范围内的角点作为预测目标，以边界框内部的角点坐标

为例，给定上一帧的图像P和当前帧的图像I，目标是在当前帧的图像I中找到与图像P中位置为

的点匹配的点

(u，v)是上一帧中的点对应于下一帧点的偏移量。本发明认为如果图像P中以

为中心的小矩形窗口区域与图像I中以

为中心的小矩形窗口区域所有的点都相同，那么这两个点是匹配的。实际上就转化为求解目标函数：

min_u，vE(u，v)＝∑_(x，y)∈ω|T(x，y)-I(x+u，y+v)|² (20)

其中

是以

为中心，r为半径的矩形。求解(u，v)可以获得偏移量：

其中：

I_t(x，y)＝u_kI_x(x+u_k，y+v_k)+v_kI_y(x+u_k，y+v_k)-I(x+u_k，y+v_k)+T(x，y)， (23)

求解后得到轨迹角点在图像I中估计到的位置

本发明在目标区域内取两个角点

和

进行光流计算，得到

和

然后在估计到的位置上重新计算宽高：

其中

和

表示t时刻第j个轨迹所对应的，估计得到的边界框的宽高。基于t时刻边界框中心点坐标和估计的宽高重新计算边界框，最终根据公式19进行IoU的计算。

算法1结合稀疏光流的分层关联流程

综上所述，本发明技术方案带来的有益效果包括：

本发明缓解了现有大多数多目标跟踪算法的面临的2个问题：

1.因外观相似和行人间遮挡导致的外观特征区分性下降问题。本发明提出空间信息与拓扑关系融合网络完成检测和外观特征生成任务。空间信息与拓扑关系融合网络中包含多尺度空间注意网络和相关性融合网络。多尺度空间注意网络捕捉目标更具代表性的区域，相关性融合网络引入拓扑关系，共同提高外观特征区分性，最终获得更准确的数据关联。

2.长时目标丢失导致的身份变化问题。本发明提出的结合稀疏光流的分层关联策略，通过检测阈值压制将检测结果分为高置信度和低置信度检测，引入更多潜在候选项来减少目标消失在视野中的情况，并通过计算综合相似度对低置信度检测进行关联。同时在基于位置信息进行关联前通过稀疏光流进行边界框位置估计，最终获得更稳定的轨迹。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于空间相关性与光流配准的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联，低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联。

3.根据权利要求1所述的方法，其特征在于，所述的构建用于多目标跟踪的空间信息与拓扑关系融合网络，该空间信息与拓扑关系融合网络以图像作为输入，将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络，输出融合后的特征图，包括：

F^out＝F^correlation+F^spa*+Fⁱⁿ (1)

4.根据权利要求1所述的方法，其特征在于，完成热图生成的任务头使用单通道的热图代表行人中心出现在当前位置的可能性，与网络输出的尺寸对应，对于每个中心坐标为bⁱ＝(xⁱ，yⁱ)的人工标注的结果Ground Truth，将中心坐标尺寸变化到特征图对应位置

热图由以下公式定义：

其中N是目标数量，σ_c是标准差；

其中

是网络预测的输出，α，β是focal loss中预先设置的参数。

5.根据权利要求4所述的方法，其特征在于，完成偏移量生成、包围框尺寸生成的任务头检测到的目标包围框根据偏移量和包围框尺寸生成，其中偏移量用于修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题，标签为缩放导致的位置偏移；包围框尺寸任务用于生成检测框的长和宽，标签对应于检测框的长和宽，偏移量矩阵记作