CN116309725A

CN116309725A - 基于多尺度可形变注意力机制的多目标跟踪方法

Info

Publication number: CN116309725A
Application number: CN202310324732.5A
Authority: CN
Inventors: 赵佳琦; 向赫; 周勇; 阿卜杜穆塔利布·埃尔·萨迪克
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-23

Abstract

本发明公开了一种基于多尺度可形变注意力机制的多目标跟踪方法，属于视频监控领域。首先对视频提取具有多尺度特征的检测框；然后在视频帧中检测框选行人；将位置信息与外观特征进行编码，通过空间注意力模块和通道注意力模块提取多尺度的鲁棒特征；再次将得到的检测框与跟踪框的鲁棒特征通过Transformer解码器构造出匹配代价体C；利用匹配代价体C在充分使用低置信度和高置信度检测框的基础上进行二次匹配关联，计算预测值和真实跟踪值之间的损失，利用损失值训练整个网络来得到最终的参数，从而得到行人多目标跟踪视频的跟踪结果。其步骤简单，使用方便，能够高效快捷的对大规模的自然图像数据集中的行人进行多目标跟踪。

Description

基于多尺度可形变注意力机制的多目标跟踪方法

技术领域

本发明涉及一种基于多尺度可形变注意力机制的多目标跟踪方法，适合可对大规模的自然图像数据集中的行人进行多目标跟踪，属于图像处理技术领域。

背景技术

随着深度学习的发展和延伸，深度学习模型在各大领域都取得了一定进展，计算机视觉领域也不例外。而近些年计算机基础任务例如图像分类，目标检测和语义分割任务发展如火如荼，多目标跟踪领域同样也受到了重视。行人多目标跟踪作为计算机视觉任务的一项重大应用，受到了相关专业人士的重视，越来越多的精力投入其中。行人多目标跟踪的方法主要分为两类，一类是采用非深度学习的多目标跟踪方法，另一类是结合了深度学习的多目标跟踪方法。

传统的图像非深度学习多目标方法的基本流程包括：图像预处理、底层特征提取、特征编码、特征汇聚和使用分类器分类四个部分。但是，这种方法对人工提取特征的依赖性较高。人工提取特征既耗时，又需要相关的专业知识。在大数据时代，想要高效且精准地完成图像分类，仅靠人工提取特征是做不到的。此时深度学习模型便大有用武之地。其基本思想就是通过有监督或无监督的方式学习层次化的特征表达，完成对图像从底层到高层的特征描述。深度学习模型，通过逐层训练的方式自主提取图像特征，能够学习到强大的特征表达。因此，基于深度学习模型的多目标跟踪法在进行行人多目标跟踪时能够达到较好的效果。现有的深度学习模型主要建立在卷积神经网络CNN的基础上，得到广泛应用的有AlexNet、VGGNet以及残差网络ResNet。

现有的基于深度学习的多目标跟踪方法还存在以下问题：

(1)无法处理高遮挡和人群密集的环境：部分方法可以处理简单场景下，例如人流稀少，人群密度低，遮挡较少的情况。但现有的多目标跟踪方法无法处理高遮挡和人群密集的环境，原因是多尺度特征没有考虑周全，仅仅采用已有的检测器或者关联方法，这些局部子模块对图像级别以及实例级别多尺度特征利用不够。这会导致获得图像以及行人特征不够鲁棒。同时在匹配时，因为不同帧边界框尺度不同，因此也对匹配产生了干扰。

(2)检测目标与跟踪序列往往是手工设计匹配过程，在匹配的代价体设计中，需要根据数据集调参出外观模型和运动模型的比重。在设计多目标跟踪流程中，往往只是简单地侧重某一方面的信息，因此同一种方法对于不同数据集效果并不理想。

(3)在简单的匹配过程，为了避免产生背景和误检，低分检测框(低置信度的框)往往直接被丢弃，但这些低分的检测框往往是被遮挡的跟踪目标。很多方法没有利用好低置信度的框，因此跟踪结果受限于已经生成的检测框。

发明内容

发明目的：针对现有技术的不足之处，提出了一种基于可形变注意力机制的多目标跟踪方法，其步骤简单，追踪效果好，能够实现对大规模的自然图像数据集中的行人进行多目标实施预测与跟踪。

技术方案：为实现本发明的目的，本发明提供一种基于多尺度可形变注意力机制的多目标跟踪方法，使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪，多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块，Transformer编码器和解码器；其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM；

步骤如下：

对于含有各种尺度行人的多目标跟踪视频，将跟踪视频分解为视频帧的集合，利用提取多尺度特征的检测模块设置用以提取行人信息的具有多尺度特征的检测框；

对于视频帧中被检测框选定的行人，利用可形变注意力机制进行多尺度特征外观的提取；

将提取出的位置信息与外观特征进行编码，通过空间注意力模块和通道注意力模块提取多尺度的鲁棒特征；

将得到的检测框和已经与检测框匹配成功相邻帧中的跟踪框的鲁棒特征通过Transformer解码器，构造出检测框与跟踪框的匹配代价体C；

利用匹配代价体C，在充分使用低置信度和高置信度检测框的基础上，对检测框与跟踪框序列进行二次匹配关联，得到最后匹配结果；

将匹配结果作为预测值，然后计算匹配结果的预测值和数据集训练集中真实跟踪值之间的损失值，根据得到的损失值训练多目标跟踪模型来得到最终的参数，再使用多目标跟踪模型重复上述除训练以外的步骤完成视频的多目标跟踪，最终得到行人多目标跟踪视频的跟踪结果。

其具体步骤如下：

S1、对于给定的一段序列视频，选取时间上连续的两帧图像，分别经过基于Resnet的多尺度检测器，输出该帧图像中的多个边界框和类别

和/>

其中i为边界框在一帧中的数量；边界框B集合{B|(x，y，w，h，c，p)｝即为检测框集合，其中，x为中心点横坐标，y为中心点纵坐标，w为边界框宽度，h为边界框高度，c为类别，p为检测置信度；

S2、得到帧内的检测框

和/>

之后，将这些检测框区域内的图像分别输入re-ID网络中，re-ID网络中通过自注意力，对检测框不同位置的进行注意力加权，自主学习正样本的未被遮挡处的特征，这些特征是最具有代表性的外观特征表示，这样即使面对部分遮挡的环境，依然可以获得最鲁棒的外观特征表示，获得鲁棒的行人特征表示F′；

S3、对帧图像中检测框的位置信息用多层感知机进行编码，最后一起和鲁棒的外观表示F′输入自适应代价网络中得到F″，完成外观特征与信息位置注意力融合，再经过通道自注意力和空间自注意力，得到用于最后的特征匹配的特征F_c；

S4、将S1中第1帧获得的检测框初始化为跟踪框，即将每一个跟踪框赋予独特的身份标识，利用存储器构成的记忆模块将获得的外观特征保存起来，设定阈值T，将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来，然后经过Transformer自注意编码器中得到特征Txd，将当前帧即第t帧经过自编码器得到的特征Txd经过变化后，再经过Transformer解码器后得到匹配的代价体C；

S5、使用匈牙利匹配算法根据代价体C进行第一轮匹配，匹配获得检测框与跟踪框的匹配对P[d，t]，未匹配上的检测框UD以及未匹配上的跟踪框UT，其中P[d，t]中的d代表匹配上的检测框，t代表匹配上的跟踪序列；之后将未被匹配的检测框和未被匹配的跟踪框再次重复步骤S4，得到新的代价体C′，再根据新的代价体C′使用匈牙利算法进行第二轮匹配，再经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框T_i＝t＝{trk|trk∈B}；

S6、得到S5最后的跟踪框T_i＝t＝{trk|trk∈B}后，计算预测跟踪框与真实值的损失，并将整个过程看作是一个分类过程，使用交叉熵损失来重复S1-S5训练多目标跟踪模型，直到达到预先设定的训练轮数，此时得到的网络参数作为最终的多目标跟踪模型参数；根据S5得到的最终训练结果后，逐帧进行S1-S5，最后得到整个视频的跟踪框

这样就完成了行人多目标跟踪。

进一步，步骤S1中，多尺度特征检测框提取具体计算方法如下：

S11、针对给定行人多目标跟踪视频，设一段包含N张彩色图片的序列视频为

其中H为视频图片高度，W为视频图片宽度，N为是视频图片总数，选两张连续的两帧图像：t-1帧图像I_t-1和t帧的图像I_t，t∈N，下面以第一帧和第二帧图像为例；

S12、将第一帧图像和第二帧图像一起输入到基于ResNet网络中进行卷积处理，在ResNet网络的基础上使用FPN特征金字塔来构建出多尺度的行人检测图像特征

第一帧和第二帧图像都会得到四个尺度的特征图，第一帧图像特征记为F₁和第二帧图像特征记为F₂，具体来说：取ResNet网络中对应FPN特征金字塔的2-5层的C2～C5阶段所得到的特征图，其中C2代表下采样2²，C3代表下采样2³，依次类推，将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征，然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图，M5特征图由C5特征图直接经过1x1卷积得到，将M2-M4再经过1x1的卷积得到最终的P2-P4特征图，P5特征图取M5即可；C1虽然分辨率最高但语义特征太少因此不采用C1；最终得到的特征图/>

的尺度由小到大依次为：/>

然后对这些特征图进行预测，得到的边界框再映射回源大小图像上，最终得到行人的定位与分类，也就是一系列边界框{B|(x，y，w，h，c，p)｝。

进一步，步骤S2中，对检测框的多尺度外观特征具体计算方法如下：

S21、对于连续的两帧图像的第一帧的图像I₁∈R^H×w×3和第二帧的图像I₂∈R^H×w×3，取其中的检测框{B₁|(x，y，w，h，c，p)｝和{B₂|(x，y，w，h，c，p)｝，将检测框

切割成小矩形块/>

其中N为检测框被切割成的总块数N＝h×w/P²，然后送入可形变Transformer编码器中进行特征变换，具体的特征变换包括以下步骤：

S21.1对于输入的检测框图像的小矩形块特征r，通过线性嵌入变换将其通道数由3变为D，此时得到小矩形块的初始输入特征，记作x_i，公式如下；

S21.2由于Transformer编码器的并行性，将初始输入特征x_i加入位置编码e_i，最终得到整个检测框的特征表示f，公式如下：

S21.3将得到的整个检测框特征f输入到多尺度可形变注意力中进行处理，再进行基于位移窗口的transformer编码器处理，f^i-1由i-1层的transformer编码器输出，再经过归一化层LN和基于多尺度可形变自注意之后与自身相加得到

将得到的/>

经过归一化层LN和多层感知机MLP处理后与自身相加，最终得到基于窗口的输出f_i，公式如下；

其中，LN表示归一化层，MLP表示多层感知机；MSDA表示基于可形变自注意力，在块与块之间进行公式(4)的可变形自注意计算；公式(4)为可形变的自注意机制的公式，z_q表示查询向量；p_q表示查询向量的位置；x为输入的特征；M为注意力头数；W_k和W_v分别为key和value的投影矩阵；C为通道数；Δp_mqk是位置编码中的相对位置偏移；φ表示softmax函数；W_m表示对注意力施加在value上后的结果进行线性变换从而得到不同头部的输出结果。

进一步，步骤S3中的外观特征与信息位置注意力融合具体方法如下：

S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得Fp，然后和S2得到的鲁棒的行人外观特征F′等比相加合并得到最终的输出特征F″，计算公式如下：

F^p＝MLP([x，y，w，h]) (5)

F″＝F′⊕F^p (6)

其中MLP为多层感知机，x为检测框中心点横坐标，y为中心点纵坐标，w为检测框宽度，h为检测框高度，其中⊕表示元素级相加；

S32、将输出特征F″送到空间注意力模块SAM中，得到空间注意力分数M_s，然后将F″与空间注意力分数M_s相乘，再进入归一化层，与F″相加合得到最终的特征图F_s；

空间注意力模块的具体操作为：首先利用空间注意力模块SAM对特征图F″进行在通道维度上的全局池化GP，从而压缩通道维度，然后再对特征图F″进行通道维度上的平均池化AP，从而压缩通道维度；将压缩通道维度后的两个特征图再在通道维度上拼接起来，得到H×W×2的特征图，然后对拼接的H×W×2特征图进行7x7的卷积操作再经过激活函数，从而得到经过空间注意力模块的特征，公式如下：

M_s＝σ(conυ(concat(Aυgpool(F)，Aυg max(F)))) (9)

其中公式(7)中的F_w，h表示特征图上的每个像素值，

表示在通道方向上取平均值，/>

表示在通道方向上取最大值，concat(·)表示特征值按通道方向上进行拼接，σ(·)表示激活函数，采用sigmoid函数，将函数值映射到0-1之间，M_s表示注意力分数，/>

表示按元素相乘，F_s表示最终的特征图；

S33、将最终的特征图F_s送到通道注意力模块CAM中，得到通道注意力分数M_c，然后将F_s与通道注意力分数M_c相乘，再进入归一化层，与F_s相加合得到最终的特征图F_c；

通道注意力模块CAM的具体操作为：首先对特征图F_s进行在空间维度上的全局池化GP，从而压缩空间尺寸，然后再对特征图F_s进行空间维度上的平均池化AP，从而压缩空间尺寸；然后将两个1×1×c的特征图放入共享参数的MLP中，学习通道维度的特征，得到各个通道的重要性，再将两个通道注意力分数相加，得到1×1×c的特征图，然后再经过激活函数σ(·)，从而得到经过通道注意力模块的特征，公式如下：

M_c(F_s)＝σ(MLP(AυgPool(F_s))+MLP(Maxpool(F_s))) (13)

其中公式(11)中的F_x，y，c表示特征图的每个像素值

表示在每层通道c上取空间维度WH平均值，/>

为表示在每层通道c上取空间维度WH最大值；MLP表示共享参数的多层感知机，σ(·)表示激活函数，采用sigmoid函数，将函数值映射到0-1之间，M_c表示注意力分数，/>

表示按元素相乘，F_c表示最终的特征图。

进一步，步骤S4具体方法如下：

S41、将S3得到的最终的特征图F_c放入记忆模块中，记忆模块为队列结构，将F_c特征依次保存起来，设定阈值T，将t-T到t-1帧的F_c保存起来，当处理第t帧时，则使用记忆模块中的t-T到t-1的特征F_c，处理完第t帧的图像后，将第t帧的特征F_c压入队列中。同时删除t-T帧的F_c；然后经过Transformer自注意编码器中得到特征Txd，将当前帧即第t帧经过自编码器得到的特征Txd经过变化后，再经过Transformer解码器后得到匹配的代价体C；

S42、将当前帧即第t帧经过自编码器得到的特征Txd经过变化的具体步骤为：在第t帧中，将t-T到t-1的特征，放入Transformer自编码器中得到特征Txd，对于跟踪序列，设有N个跟踪序列，将N个跟踪序列的特征F_c放入Transformer自编码器中，然后将这些特征在第一个维度拼接起来，得到(N×T)×d的特征图，对于检测序列，因为只有一帧的检测框，假定检测数量为M个，为了与跟踪序列维度对齐，将检测序列xN，得到NxM个查询，即为N×M×d检测框。

具体的跟踪序列进入Transformer自编码器的过程为：先将Txd特征图通过投影矩阵W_q、W_s和W_υ得到新的特征Q、K和V；然后将K转置与Q进行矩阵乘法，再除以新特征维度的平方根，这样可以保证尺度一致性，同时得到了注意力分数。最后将注意力分数缩放到0-1之间，再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN，最后经过层归一化，得到最终的特征(N×T)×d，公式如下：

Q＝FW_q，K＝FW_k，y＝FW_υ (15)

其中W_q、W_k和W_υ分别为投影矩阵，将Txd维度映射到Txd’维度，Kt是K的转置矩阵，softmax函数将每个值取指数然后进行归一化，这样可以建立不同值之间的联系，同时还可以将分数放缩到0-1之间，

表示按元素相乘；

S43、将S42得到的检测框特征N×M×d与跟踪框特征(N×T)×d放入Transformer解码器中，经过多头自注意力和多头交叉注意力，与层归一化和残差连接最后得到NxM的分配矩阵，分配矩阵中的行与列均为独热向量，因为一个检测目标只能对应一个跟踪目标，一个跟踪目标只能对应一个检测目标，分配矩阵的单位元素为0-1的概率值，分配矩阵即为匹配代价体C。

进一步，步骤S5的生成匹配结果的具体方法如下：

S51、得到匹配代价体C后，使用匈牙利匹配算法根据代价体C进行匹配，获得检测框与跟踪框的匹配对P[d，t]，未匹配上的检测框UD₁以及未匹配上的跟踪框UT₁，其中P[d，t]中的d代表匹配上的检测框，t代表匹配上的跟踪序列；

S52、将S1中p小于0.5的检测框定义为低置信度的检测框D2与未匹配上的跟踪框UT再次经过S2、S3和S4步骤，得到代价体C′，再次根据匈牙利算法根据代价体C′进行匹配，将获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d₂，ut]，未匹配上的检测框UD₂以及未匹配上的跟踪框UT₂，其中P[d₂，ut₁]中的d₂代表匹配上的低置信度的检测框，ut₁代表匹配上的跟踪序列；将未匹配上的跟踪框UT₂从T_t-1中删除，判断这些行人目标离开了视野内，或者被其他行人或者背景遮挡，因此将UT₂放入T_lost；删除的条件是当T_lost中的单位被存放超过ε帧时，同时删除T_lost和UT₂；将未匹配上的检测框UD₂与阈值ε进行比较，大于阈值ε的未匹配上的检测框UD₂初始化为新的跟踪序列T_new，小于阈值ε的未匹配上的检测框UD₂被视为非目标的前景或者背景，因此直接删除；经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框T_i＝t＝{trk|trk∈B}。

进一步，步骤S6中使用交叉熵损失来重复S1-S5训练多目标跟踪模型的具体方法如下：

S61、在每轮训练阶段，得到最后的跟踪结果后，通过计算预测结果T＝{trk₁，trk₂…trk_n}与T_truth＝{trk₁，trk₂…trk_n}真实值的损失，整个过程可以看作是一个分类过程，使用交叉熵损失来训练整个网络，直到达到预先设定的训练轮数，此时得到的网络参数是最后的模型参数。推理阶段，根据S5得到结果后，逐帧进行S1、S2、S3、S4、和S5，最后得到结果即为整个视频的跟踪框

有益效果：

本发明利用可形变注意力机制中自注意力对图像全局性的特征提取，更加注意网络对图像中目标位置与其他物体位置的关系。同时可形变注意力机制能够将使注意力在所有位置不在得到同样的关注，而是从采样的附近开始关注，分配不同的权重，因此使网络训练能够加速收敛。除此之外，还能有效降低计算代价，比普通的卷积神经网络具有更大的感受野，拥有着更强的模型表征能力。同时利用注意力机制中的交叉注意力可天然地完成检测与跟踪的配对，避免后处理操作，使行人多目标跟踪系统变为端到端的了。同时网络采用无锚框的检测方式，利用这种基于锚点的方式，在提取目标物体特征时可以避免得到歧异的特征。注意力同时使用多尺度特征，可以有效的针对自然图像中各种尺度的行人。

附图说明

图1是本发明基于多尺度可形变注意力机制的多目标跟踪方法的网络结构图。

具体实施方式

下面结合附图对本发明的实施例做进一步说明。

如图1所示，本发明公开了一种基于可形变注意力机制的多目标跟踪方法，使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪，多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块，Transformer编码器和解码器；其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM；

具体包括以下步骤：

S1、对于给定行人多目标跟踪视频，

代表一段序列视频，序列视频包含N张彩色图片，其中H为视频图片高度，W为视频图片宽度，N为是视频图片总数，按顺序依次选取t-1帧图像R_t-1和t帧的图像R_t，分别经过基于Resnet的多尺度检测器，输出图像中的边界框和类别/>

其中i为边界框在一帧中的数量。{B|(x，y，w，h，c，p)｝，x为中心点横坐标，y为中心点纵坐标，w为边界框宽度，h为边界框高度，c为类别，p为检测置信度；

S11、对于给定的一段序列视频

选取I₁∈R^H×W×3和I₂∈R^H×W×3两张图片，两张图片在时间上要求是连续的；

S12、将第一帧图像和第二帧图像一起输入到基于ResNet网络中进行卷积处理，在ResNet的基础上使用FPN特征金字塔来构建出多尺度的行人检测图像特征

第一帧和第二帧图像都会得到四个尺度的特征图，第一帧图像特征记为F₁和第二帧图像特征记为F₂，具体做法为：取ResNet中C2～C5阶段所得到的特征图，将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征，然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图，M5特征图由C5特征图直接经过1x1卷积得到，将M2-M4再经过1x1的卷积得到最终的P2-P4特征图，P5特征图取M5即可。C1虽然分辨率最高但语义特征太少，因此不采用C1。最终得到的特征图/>

的尺度由小到大依次为：/>

然后对这些特征图进行预测，得到的边界框再映射回源大小图像上，最终得到行人的定位与分类，也就是一系列边界框{B|(x，y，w，h，c，p)}；

进一步的，步骤S2中，对检测框进行外观特征提取的具体计算方法如下：

S2、得到帧内的检测框

之后，将这些含检测框的图像分别输入re-ID网络中，re-id网络中通过自注意力，对检测框不同位置的进行注意力加权，自主学习正样本的未被遮挡处的特征，这些特征是最具有代表性的外观特征表示，这样即使面对部分遮挡的环境，依然可以获得最鲁棒的外观特征表示。获得鲁棒的行人特征表示F′；

S21、对于上述得到的第一帧的图像I₁∈R^H×W×3和第二帧的图像I₂∈R^H×W×3，取其中的检测框{B₁|(x，y，w，h，c，p)｝和{B₂|(x，y，w，h，c，p)｝，将检测框

切割成小矩形块/>

其中N为检测框被切割成的总块数N＝h×w/P²，然后送入可形变Transformer中进行特征变换，具体的特征变换包括以下步骤：

(1)对于输入的检测框的图像的小矩形块特征r，通过线性嵌入变换将通道数由3变为D，此时得到小矩形块的初始输入特征，记作x_i，公式如下；

(2)由于Transformer的并行性，碎片化的小矩形块直接输入，无法获得块间的位置顺序关系，因此将得到的x_i加入位置编码e_i，最终得到整个检测框的特征表示f，公式如下：

(3)将得到的f输入到多尺度可形变注意力中进行处理，到基于位移窗口的transformer中进行处理，f^i-1经过归一化层LN和基于多尺度可形变自注意之后与自身相加得到

将得到的/>

其中，LN表示归一化层，MLP表示多层感知机；MSDA表示基于可形变自注意力，在块与块之间进行公式(4)的可变形自注意计算；公式(4)为可形变的自注意机制的公式，z_q表示查询向量；p_q表示查询向量的位置；x为输入的特征；M为注意力头数；W_k和W_v分别为key和value的投影矩阵；C为通道数；Δp_mqk是位置编码中的相对位置偏移；φ表示sofimax函数；W_m表示对注意力施加在value上后的结果进行线性变换从而得到不同头部的输出结果；

S3、对检测框的位置信息用多层感知机进行编码，最后一起和鲁棒的外观表示F′送入自适应代价网络中得到F″，经过通道自注意力和空间自注意力，得到最后的特征表示F_c，这个特征F_c将用于最后的特征匹配；

S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得F^p，然后和S2得到的鲁棒的外观特征F′等比相加合并得到最终的输出特征F″，计算公式如下：

F^p＝MLP([x，y，w，h]) (5)

F″＝F′⊕F^p (6)

其中MLP为多层感知机，x为检测框中心点横坐标，y为中心点纵坐标，w为检测框宽度，h为检测框高度。其中⊕表示元素级相加；

S32、经过S31后得到F″，将F″送到空间注意力模块中，得到空间注意力分数M_s，然后将F″与空间注意力分数M_s相乘，再进入归一化层，与F″相加合得到最终的特征图F_s。

空间注意力模块的具体操作为：首先对特征图F″进行在通道维度上的全局池化GP，从而压缩通道维度，然后再对特征图F″进行通道维度上的平均池化AP，从而压缩通道维度；将压缩通道维度后的两个特征图再通道维度上拼接起来，得到H×W×2的特征图，然后对拼接的H×W×2特征图进行7x7的卷积操作再经过激活函数，从而得到经过空间注意力模块的特征，公式如下：

M_s＝σ(conυ(concat(Aυgpool(F)，Aυg max(F)))) (9)

其中公式(7)中的F_w，h表示特征图上的每个像素值，

表示在通道方向上取平均值，/>

表示按元素相乘，F_s表示最终的特征图。

s33、经过S32得到的F_s，将F_s送到通道注意力模块中，得到通道注意力分数M_c，然后将F_s与通道注意力分数M_c相乘，再进入归一化层，与F_s相加合得到最终的特征图F_c。

通道注意力模块的具体操作为：首先对特征图F_s进行在空间维度上的全局池化GP，从而压缩空间尺寸，然后再对特征图F_s进行空间维度上的平均池化AP，从而压缩空间尺寸；然后将两个1×1×C的特征图放入共享参数的MLP中，学习通道维度的特征，得到各个通道的重要性，再将两个通道注意力分数相加，得到1×1×c的特征图，然后再经过激活函数，从而得到经过通道注意力模块的特征，公式如下：

M_c(F_s)＝(MLP(AυgPool(F_s))+MLP(Maxpool(F_s))) (13)

其中公式(11)中的F_x，y，c表示特征图的每个像素值

表示在每层通道c上取空间维度WH平均值，/>

为表示在每层通道c上取空间维度WH最大值。MLP表示共享参数的多层感知机，σ(·)表示激活函数，采用sigmoid函数，将函数值映射到0-1之间，Mc表示注意力分数，/>

表示按元素相乘，F_c表示最终的特征图。

S4、将获得的外观特征保存起来，设定一个阈值T，将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来，然后经过Transformer自注意编码器中得到特征Txd，将当前帧即第t帧经过S2和S3后得到特征d，将这些特征进行变换，经过Transformer解码器后得到匹配的代价体C；

S41、将S3得到F_c特征图放入记忆模块中，记忆模块由一个队列组成，将F_c特征依次保存起来，设定一个阈值T，将t-T到t-1帧的F_c保存起来，当处理第t帧时，则使用记忆模块中的t-T到t-1的特征F_c，处理完第t帧的图像后，将第t帧的特征F_c压入队列中。同时删除t-T帧的Fc。然后经过Transformer自注意编码器中得到特征Txd，将当前帧即第t帧经过S2和S3后得到特征d，将这些特征进行变换，经过Transformer解码器后得到匹配的代价体C。

S42、在第t帧中，将t-T到t-1的特征，放入Transformer自编码器中得到特征Txd，对于跟踪序列，假定有N个跟踪序列，将N个跟踪序列的特征F_c放入Transformer自编码器中，然后将这些特征在第一个维度拼接起来，得到(N×T)×d的特征图，对于检测序列，因为只有一帧的检测框，假定检测数量为M个，为了与跟踪序列维度对齐，将检测序列xN，得到NxM个查询。

具体的跟踪序列进入Transformer自编码器的过程为：先将Txd特征图通过投影矩阵W_q、W_k和W_υ得到新的特征Q、K和V。然后将K转置与Q进行矩阵乘法，再除以新特征维度的平方根，这样可以保证尺度一致性，同时得到了注意力分数。最后将注意力分数缩放到0-1之间，再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN，最后经过层归一化，得到最终的特征(N×T)×d，公式如下：

Q＝FW_q，K＝FW_k，y＝FW_υ (15)

表示按元素相乘。

S5、得到匹配代价体C后，使用匈牙利匹配算法根据代价体C进行第一轮匹配，获得检测与跟踪的匹配对P[d，t]，未匹配上的检测框UD以及匹配上的跟踪框UT，其中P[d，t]中的d代表匹配上的检测框，t代表匹配上的跟踪序列。之后再根据未被匹配的检测框和未被匹配的跟踪框再次进行S4，得到代价体C′，再根据代价体C′使用匈牙利算法进行第二轮匹配，得到最后的跟踪框T_i＝t＝{trk|trk∈B}；

S51、经过S4得到匹配代价体C后，使用匈牙利匹配算法根据代价体C进行匹配。获得检测框与跟踪框的匹配对P[d，t]，未匹配上的检测框UD₁以及未匹配上的跟踪框UT₁，其中P[d，t]中的d代表匹配上的检测框，t代表匹配上的跟踪序列。

S52、然后将S1的低置信度的检测框与未匹配上的跟踪框UT再次经过S2、S3和S4步骤，得到代价体C’后，再次根据匈牙利算法根据代价体c’进行匹配，获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d₂，ut]，未匹配上的检测框UD₂以及未匹配上的跟踪框UT₂，其中P[d₂，ut_i]中的d₂代表匹配上的低置信度的检测框，ut₁代表匹配上的跟踪序列。将未匹配上的跟踪框UT₂从T_t-1中删除，因为这些行人目标可能离开了视野内，但也可能被其他行人或者背景遮挡，因此将UT₂放入T_lost，删除的条件是当T_lost中的单位被存放超过ε帧时，同时删除T_lost和UT₂。将未匹配上的检测框UD₂与阈值ε进行比较，大于阈值ε的未匹配上的检测框UD₂初始化为新的跟踪序列T_new，小于阈值ε的未匹配上的检测框UD₂被视为非目标的前景或者背景，因此直接删除。经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框T_i＝t＝{trk|trk∈B}。

S6、在训练阶段，得到最后的跟踪结果后，我们计算预测结果与真实值的损失，整个过程可以看作是一个分类过程，使用交叉熵损失来训练整个网络，直到达到预先设定的训练轮数，此时得到的网络参数是最后的模型参数。推理阶段，根据S5得到结果后，逐帧进行S1、S2、S3、S4、和S5，最后得到整个视频的跟踪框

，这样就完成了行人多目标跟踪；

S61、在每轮训练阶段，得到最后的跟踪结果后，通过计算预测结果T＝{trk₁，trk₂…trk_n}与T_truth＝{trk₁，trk₂…trk_n}真实值的损失，整个过程可以看作是一个分类过程，使用交叉熵损失来训练整个网络，直到达到预先设定的训练轮数，此时得到的网络参数是最后的模型参数。推理阶段，根据S5得到结果后，逐帧进行S1、S2、S3、S4、和S5，最后得到整个视频的跟踪框

下面对本发明的数据集做进一步的说明：

实验数据集：

本发明的实验使用了MOTChanllenge中的MOT17、MOT20数据集。

MOTChallenge主要由MOT15、MOT16(MOT17)和MOT20组成。MOT15包含22个视频序列，其中11个为训练集和11个为测试集，MOT15数据集收集了以往更老的数据集。MOT16数据集是全新的视频版本，视频和标注是全新制作的，相比于MOT15，MOT16更具有挑战性，因为视频具有更高的行人密度。MOT16包含了14个视频序列，其中7个训练集和7个测试集，使用公共检测器DPMv5]标注。MOT17依然使用的是MOT16数据集的视频，但是被标注了更准确的真值框，同时每段视频使用了三个不同的检测器，Faster-RCNN，DPM和SDP。跟踪器需要配合使用检测器来证明其鲁棒性。MOT20包含8个视频，其中4个训练集和4个测试集，在最拥挤的视频中平均每帧可以达到245个行人。MOTChallenge系列分为公共检测赛道和私有检测赛道，由于现存很多算法的是TBD范式，检测质量严重影响跟踪质量。所以公共赛道要求使用官方提供的检测器来进行多目标跟踪，这样可以更公平地比较算法。而私人检测赛道，则可以使用自己设计的检测器或者是自己设计的多目标跟踪系统，目的是比较出性能最好的多目标跟踪算法，由s1得知，本方法使用的是私人检测赛道。

以上对本发明的实施例所提供的一种基于多尺度可形变注意力机制的多目标跟踪方法进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪，多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块，Transformer编码器和解码器；其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM；

步骤如下：

2.根据权利要求1所述一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，其具体步骤如下：

和/>

其中i为边界框在一帧中的数量；边界框B集合{B|(x，y，w，h，c，p)}即为检测框集合，其中，x为中心点横坐标，y为中心点纵坐标，w为边界框宽度，h为边界框高度，c为类别，p为检测置信度；

S2、得到帧内的检测框

和/>

S3、对帧图像中检测框的位置信息用多层感知机进行编码，最后一起和鲁棒的外观表示F′输入自适应代价网络中得到F″，，完成外观特征与信息位置注意力融合，再经过通道自注意力和空间自注意力，得到用于最后的特征匹配的特征F_c；

S4、将S1中第1帧获得的检测框初始化为跟踪框，即将每一个跟踪框赋予独特的身份标识，利用存储器构成的记忆模块将获得的外观特征保存起来，设定阈值T，，将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来，然后经过Transformer自注意编码器中得到特征Txd，将当前帧即第t帧经过自编码器得到的特征Txd经过变化后，再经过Transformer解码器后得到匹配的代价体C；

S6、得到S5最后的跟踪框T_i＝t＝{trk|trk∈B}后，计算预测跟踪框与真实值的损失，并将整个过程看作是一个分类过程，使用交叉熵损失来重复S1-S5训练多目标跟踪模型，直到达到预先设定的训练轮数，此时得到的网络参数作为最终的多目标跟踪模型参数。

3.根据权利要求2所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S1中，多尺度特征检测框提取具体计算方法如下：

第一帧和第二帧图像都会得到四个尺度的特征图，第一帧图像特征记为F₁和第二帧图像特征记为F₂，具体来说：取ResNet网络中对应FPN特征金字塔的2-5层的C2～C5阶段所得到的特征图，其中C2代表下采样2²，C3代表下采样2³，依次类推，将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征，然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图，M5特征图由C5特征图直接经过1x1卷积得到，将M2-M4再经过1x1的卷积得到最终的P2-P4特征图，P5特征图取M5即可；C1对应金字塔最底层，因此虽然分辨率最高但语义特征太少，故不采用C1；最终得到的特征图/>

的尺度由小到大依次为：

然后对这些特征图进行预测，得到的边界框再映射回源大小图像上，最终得到行人的定位与分类，也就是一系列边界框{B|(x，y，w，h，c，p)}。

4.根据权利要求1所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S2中，对检测框的多尺度外观特征具体计算方法如下：

S21、对于连续的两帧图像的第一帧的图像I₁∈R^H×W×3和第二帧的图像I₂∈R^H×W×3，取其中的检测框{B₁|(x，y，w，h，c，p)}和{B₂|(x，y，w，h，c，p)}，将检测框

切割成小矩形块/>

将得到的/>

5.根据权利要求2所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S3中的外观特征与信息位置注意力融合具体方法如下：

S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得E^p，然后和S2得到的鲁棒的行人外观特征F′等比相加合并得到最终的输出特征F″，计算公式如下：

F^p＝MLP([x，y，w，h]) (5)

其中MLP为多层感知机，x为检测框中心点横坐标，y为中心点纵坐标，w为检测框宽度，h为检测框高度，其中

表示元素级相加；

M_s＝σ(conv(concat(Avgpool(F)，Avgmax(F)))) (9)

其中公式(7)中的F_w，h表示特征图上的每个像素值，

表示在通道方向上取平均值，/>

表示按元素相乘，F_s表示最终的特征图；

M_c(F_s)＝σ(MLP(AvgPool(F_s))+MLP(Maxpoll(F_s))) (13)

其中公式(11)中的F_x，y，c表示特征图的每个像素值

表示在每层通道c上取空间维度WH平均值，/>

表示按元素相乘，F_c表示最终的特征图。

6.根据权利要求5所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S4具体方法如下：

具体的跟踪序列进入Transformer自编码器的过程为：先将Txd特征图通过投影矩阵W_q、W_k和W_v得到新的特征Q、K和V；然后将K转置与Q进行矩阵乘法，再除以新特征维度的平方根，这样可以保证尺度一致性，同时得到了注意力分数。最后将注意力分数缩放到0-1之间，再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN，最后经过层归一化，得到最终的特征(N×T)×d，公式如下：

Q＝FW_q，K＝FW_k，V＝FW_v (15)

其中W_q、W_k和W_v分别为投影矩阵，将Txd维度映射到Txd’维度，Kt是K的转置矩阵，softmax函数将每个值取指数然后进行归一化，这样可以建立不同值之间的联系，同时还可以将分数放缩到0-1之间，

表示按元素相乘；

7.根据权利要求6所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S5的生成匹配结果的具体方法如下：

S52、将S1中p小于0.5的检测框定义为低置信度的检测框D2与未匹配上的跟踪框UT再次经过S2、S3和S4步骤，得到代价体C′，再次根据匈牙利算法根据代价体C′进行匹配，将获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d₂，ut]，未匹配上的检测框UD₂以及未匹配上的跟踪框UT₂，其中P[d₂，ut₁]中的d₂代表匹配上的低置信度的检测框，ut₁代表匹配上的跟踪序列；将未匹配上的跟踪框UT₂从T_t-1中删除，判断这些行人目标离开了视野内，或者被其他行人或者背景遮挡，因此将UT₂放入T_lost；删除的条件是当T_lost中的单位被存放超过∈帧时，同时删除T_lost和UT₂；将未匹配上的检测框UD₂与阈值ε进行比较，大于阈值ε的未匹配上的检测框UD₂初始化为新的跟踪序列T_new，小于阈值ε的未匹配上的检测框UD₂被视为非目标的前景或者背景，因此直接删除；经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框T_i＝t＝{trk|trk∈B}。

8.根据权利要求7所述的一种基于多尺度可形变注意力机制的多目标跟踪方法，其特征在于，步骤S6中使用交叉熵损失来重复S1-S5训练多目标跟踪模型的具体方法如下：