CN114255514A

CN114255514A - 基于Transformer的人体跟踪系统、方法及摄像装置

Info

Publication number: CN114255514A
Application number: CN202111613311.1A
Authority: CN
Inventors: 刘利朋; 曲晓超
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-03-29

Abstract

本发明公开了一种基于Transformer的人体跟踪系统、方法及摄像装置，其包括特征提取模块、特征融合模块、跟踪头模块，还包括模版更新模块；特征提取模块提取的数据分别包括：初始跟踪模板、搜索区域特征、动态特征模版；特征融合模块包括三个自注意力模块和五个交叉注意力模块，对提取特征依次进行多级融合和叠加处理，生成最终的融合特征；跟踪头模块，包括分类分支和位置回归分支，将所述融合特征分别输入分类分支和位置回归分支进行人体跟踪；不仅在一般的场景下有效的提升了人体跟踪的准确性，而且在人体遮挡、复杂人体形变和背景变换等困难的场景下很好地解决了人体跟踪丢失、误跟踪等问题，对于解决实际场景下的人体跟踪问题非常具有针对性。

Description

基于Transformer的人体跟踪系统、方法及摄像装置

技术领域

本发明涉及人体跟踪技术领域，特别是一种基于Transformer的人体跟踪系统及其应用该系统的方法、摄像装置。

背景技术

人体跟踪大致可以分为两种跟踪方式：

(1)基于人体骨架的跟踪

基于人体骨架的跟踪方式这种跟踪方式将跟踪任务切分成两个子任务。首先估计人体姿态关键点，基于人体关键点构建人体骨架，然后通过分析帧序列中人体骨架的对应关系从而建立跟踪轨迹从而实现人体跟踪。这种跟踪方式对人体姿态估计的准确性提出了较高对要求，一旦人体关键点出现偏移，对后续骨架分析将会造成很大对干扰。

(2)基于人体表征的跟踪

直接基于人体表征跟踪的方法是通过提取待跟踪人体和人体搜索区域的特征，并通过特征模版匹配的方式提取帧序列中搜索区域的特征，并基于该特征回归跟踪人体的位置。该方法常用的模版匹配的方式为通过相关滤波建立跟踪模版和搜索区域的相似性，但这种局部线性的匹配方式容易丢失语义信息且容易陷入局部最优，从而限制了跟踪器的准确率。

近来，在视觉领域由于Transformer在NLP领域的突破，大量的视觉任务中通过引入Transformer，也实现了各项指标较大的提升。人体跟踪任务中利用Transformer也可以获取全局感受野及自注意力机制的优势，提升了跟踪的准确率。

但目前的基于Transformer方法主要聚焦在如何利用注意力机制更好地对模版和搜索区域进行特征融合，只是单一地从特征匹配或特征融合的角度对人体跟踪的精度进行提升，忽略了人体跟踪在切实场景下的非常致命的问题:人体表征(身体角度、姿态、遮挡、运动变化、背景变化等)在跟踪中会不断变化。这些随时序变化因素会使人体跟踪候选区域的表征与初始跟踪模版的视觉表征存在差异，如果始终使用初始的人体跟踪模版进行跟踪，容易导致在人体不断变化的场景下出现跟踪失效的问题。

发明内容

本发明为解决上述问题，提供了一种基于Transformer的人体跟踪系统、方法及摄像装置，率先从模型的角度利用Transformer注意力机制的同时，还引入了人体跟踪动态特征模版的思想，能够适应不断变化的场景，从而提升在复杂场景下人体跟踪的鲁棒性，实现更加准确的人体跟踪。

为实现上述目的，本发明采用的技术方案为：

首先，本发明提供一种基于Transformer的人体跟踪系统，其包括：

特征提取模块，该特征提取模块包括三个特征提取网络组成的三胞胎网络，该特征提取网络的输入数据分别包括：初始跟踪模板、搜索区域特征、动态特征模版；输入数据经特征提取后对特征进行融合整理，输出对应的三个提取特征；

特征融合模块，包括三个自注意力模块和五个交叉注意力模块，所述三个提取特征分别经过一个自注意力模块和一个交叉注意力模块后输出初步的融合特征；所述初步的融合特征再经两个交叉注意力模块进行交叉融合，生成两个融合特征；该两个融合特征相叠加生成最终的融合特征；

跟踪头模块，包括分类分支和位置回归分支，将所述融合特征分别输入所述分类分支和所述位置回归分支进行人体跟踪。

本发明采用动态特征模版进行人体跟踪，能够适应不断变化的场景对跟踪模型的影响，提升模型在复杂场景下跟踪的鲁棒性，实现更加准确的人体跟踪。

并且，本发明的系统将特征提取模块设计成了三路的三胞胎网络，并将三路网络提取的特征经三个自注意力模块和五个交叉注意力模块进行三重特征融合，利用Transformer注意力机制进一步提高了人体跟踪的准确率。

优选的，所述特征提取网络包括输入部分、输出部分和中间卷积部分，所述输入部分包括第一卷积层和第一池化层，所述中间卷积部分包括三个基于残差块实现的卷积层，所述输出部分包括全局平均池化层和全连接层；其中，所述中间卷积部分的输出尺寸为输入尺寸的八倍降采样。

本发明的特征提取网络采用的是预训练的ResNet34，并对ResNet34进行了修改，删除最后一个的基于残差块实现的卷积层，并修改卷积参数使得网络输出的特征图尺寸为输入尺寸的八倍降采样，在保证训练的准确率和训练效果的同时，提高了训练效率。

进一步的，所述特征提取模块输出的三个提取特征还进一步使用1x1卷积进行融合整理，再经数据重塑操作后，输出三个提取特征；其中，所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致，为128X128，搜素区域特征的尺寸为256X256；经卷积操作和重塑操作后，所述初始跟踪模版对应的特征尺寸为256x256,所述搜索区域特征对应的特征尺寸为1024x256，所述动态特征模版对应的特征尺寸为256x256。

优选的，所述特征融合模块包括：

第一自注意力模块，用于对所述初始跟踪模版进行自注意力融合，输出第一融合特征；

第二自注意力模块，用于对所述搜索区域特征进行自注意力融合，输出第二融合特征；

第三自注意力模块，用于对所述动态特征模版进行自注意力融合，输出第三融合特征；

第一交叉注意力模块，用于对所述第一融合特征与所述第二融合特征进行交叉注意力融合，输出第四融合特征；

第二交叉注意力模块，用于对所述第三融合特征与所述第二融合特征进行交叉注意力融合，输出第五融合特征；

第三交叉注意力模块，用于对所述第一融合特征、所述第二融合特征及所述第三融合特征进行交叉注意力融合，输出第六融合特征；

第四交叉注意力模块，用于对所述第四融合特征与所述第六融合特征进行再次交叉注意力融合，输出第七融合特征；

第五交叉注意力模块，用于对所述第五融合特征与所述第六融合特征进行再次交叉注意力融合，输出第八融合特征；

叠加模块，用于对所述第七融合特征与所述第八融合特征相叠加，生成最终融合特征。

进一步的，所述自注意力模块由Transformer中多头注意力模块与构成，所述交叉注意力模块由多头注意力模块和多层感知机构成。

采用本发明的融合方案，搜索区域特征的第一次特征交叉融合阶段就将初始跟踪模版和动态特征模版的特征全部融合进来，可以充分地引入人体形变和背景变化下的特征，对于解决人体不断变化下的跟踪起到非常重要的作用。

优选的，所述跟踪头模块的分类分支和位置回归分支均由堆叠的多层感知机构成，各个分支生成的特征向量对应相同分辨率的特征图。还包括模板更新模块；所述跟踪头模块的分类分支对所述融合特征进行人体预测，得到预测置信度；所述模版更新模块对所述预测置信度进行阈值计算，根据阈值计算结果判断是否更新所述动态特征模版；当所述分类分支判断当前动态特征模版需要更新时，则根据所述位置回归分支回归出的人体位置进行模版替换。

本发明能够根据各分支的预测结果进行自动替换动态特征模版，可以自适应地跟踪不同变化的跟踪场景，更加智能化。

所述模版替换具体包括：

通过所述位置回归分支回归出人体位置；

将所述人体位置外扩预设比例，作为模版更新框；

基于所述模版更新框，从搜索区域裁剪出当前动态特征模版；

将所述当前动态特征模版替换初始跟踪模版或者替换原动态特征模版。

采用该模版替换方法，不仅可以保持跟踪表征不变的人体的跟踪准确性，也可解决复杂形变、遮挡等随时序变化的复杂场景，很好地解决了时序变化的人体跟踪问题。

与所述系统相对应的，本发明还提供一种基于Transformer的人体跟踪方法，其包括：

提取初始跟踪模板、搜索区域特征、动态特征模版，并进一步对提取的特征进行融合整理，得到对应的三个提取特征；

所述三个提取特征分别经过一次自注意力融合处理和一次交叉注意力融合处理，得到初步的融合特征；所述初步的融合特征再经交叉注意力融合，生成两个融合特征；该两个融合特征相叠加生成最终的融合特征；

将所述融合特征分别进行分类预测和位置回归，实现人体跟踪。

另外，本发明还提供一种摄像装置，其包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述任一项所述的方法的步骤。

本发明的有益效果是：

本发明的一种基于Transformer的人体跟踪系统、方法及摄像装置，巧妙地将基于注意力机制的特征融合和动态的模版更新引入到人体跟踪模型中，不仅在一般的场景下有效的提升了人体跟踪的准确性，而且在人体遮挡、复杂人体形变和背景变换等困难的场景下很好地解决了人体跟踪丢失、误跟踪等问题，对于解决实际场景下的人体跟踪问题非常具有针对性。此外，本发明提出的方法可以端到端的进行预测人体位置而不需要其他先验信息，保证了对不同大小、比例的人体跟踪的鲁棒性。该方法对于解决现实场景下的人体跟踪具有非常重要的意义。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于Transformer的人体跟踪系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一(人体跟踪系统)

如图1所示，本实施例的一种基于Transformer的人体跟踪系统，其包括：

本实施例的系统将特征提取模块设计成了三路的三胞胎网络，并将三路网络提取的特征经三个自注意力模块和五个交叉注意力模块进行三重特征融合，利用Transformer注意力机制进一步提高了人体跟踪的准确率。

本实施例中，所述特征提取网络包括输入部分、输出部分和中间卷积部分，所述输入部分包括第一卷积层和第一池化层，所述中间卷积部分包括三个基于残差块实现的卷积层，所述输出部分包括全局平均池化层和全连接层；其中，所述中间卷积部分的输出尺寸为输入尺寸的八倍降采样。本实施例的特征提取网络采用的是预训练的ResNet34，并对ResNet34进行了修改，删除最后一个的基于残差块实现的卷积层(最后一个stage)，并修改卷积参数使得网络输出的特征图尺寸为输入尺寸的八倍降采样，在保证训练的准确率和训练效果的同时，提高了训练效率。值得注意的是，本实施例三个特征提取网络是参数共享的。所述特征提取模块输出的三个提取特征还进一步使用1x1cov卷积进行融合整理，再经数据重塑操作后，输出三个提取特征；其中，所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致，为128X128，搜素区域特征的尺寸为256X256，其中动态特征模版由初始跟踪模版进行初始化；经卷积操作和重塑(reshape)操作后，所述初始跟踪模版对应的特征尺寸为256x256,所述搜索区域特征对应的特征尺寸为1024x256，所述动态特征模版对应的特征尺寸为256x256。

本实施例中，所述特征融合模块的输入即丧失特征提取模块处理后输出的三个提取特征；首先，如图1所示，所述特征融合模块包括三路自注意力模块ECA分别对初始跟踪模版、动态特征模版和搜索区域特征进行自注意力融合，再经过三路交叉注意力模块CFA对自注意力融合后的特征进行交叉融合；即，三个数据流分别经过一个自注意力模块ECA(ego-context augment)和一个交叉注意力模块CFA(cross-feature augment)然后输出的特征vector。然后，再经过两个交叉注意力模块CFA进一步地对特征进行交叉融合，输出两个1024x256维的特征vector,然后将两个特征vector进行相加生成最终融合特征vector。具体的，所述特征融合模块包括：

其中，自注意力模块ECA和交叉注意力模块CFA均由堆叠的Transformer结构组成，所述自注意力模块由Transformer中多头(8头)注意力模块与构成，主要用来增强模型的特征表示能力，使模型关注更多的语义信息。所述交叉注意力模块由多头注意力模块和多层感知机MLP构成。

多头注意力模块的表示如下公式：

MultiHead＝Concat(H₁...H_nh,)W^o (2)

公式(1)表示为一般的Attention结构，主要由Q(查询)、K(键值)、V(值)的点积运算构成，其中d_k为K的维度。多头注意力是Attention结构的扩展，公式(3)为第i个头的注意力，其中

W^o为参数矩阵，公式(2)为多头注意力公式，即将每个注意力头的输出进行concat后乘以参数矩阵W^o，其中nh＝8表示注意力头的个数。这里Q即为ECA模块的输入的特征vector，V和K是基于输入特征vector并引入相应的空间位置编码后得到的特征向量。

CFA模块的输入V和K是由不同来源的特征vector引入空间位置编码得到的(可见图1中CFA不同来源的箭头)。本实施例中，对于图1中有三个特征来源的CFA模块，V和K分别是由V₁+V₂和K₁+K₂得到的。中间一路特征(搜索区域特征)在第一次CFA交叉融合时输入的K、V分别有两路来源，一个来源是初始跟踪模版的特征经过自注意力融合后输出的K₁、V₁，另一个来源是动态特征模版的特征经过自注意力融合后输出的K₂、V₂，分别通过V₁+V₂和K₁+K₂得到新的K和V作为第二次CFA交叉融合输入的K、V。

采用本实施例的融合方案，提取的特征首先经过ECA模块得到更加鲁棒和更强表征能力的特征，然后经过第一阶段的CFA将初始模版、搜索区域和动态模版提取的特征进行充分的特征融合，然后经过第二阶段的CFA再次融合，得到的两个特征vector相加输出最终的融合特征，这种先特征强化再逐步特征融合的方式保证了特征的鲁棒性和融合的充分性。搜索区域特征的第一次特征交叉融合阶段就将初始跟踪模版和动态特征模版的特征全部融合进来，可以充分地引入人体形变和背景变化下的特征，对于解决人体不断变化下的跟踪起到非常重要的作用。

本实施例中，所述跟踪头模块的分类分支和位置回归分支均由堆叠的多层感知机MLP构成(三层)，各个分支生成的特征向量对应相同分辨率的特征图，如图1，本实施例中不同分支生成的1024*X的特征向量对应着32x32分辨率的特征图。因此，本实施例的方法可以直接端到端地预测出待跟踪人体的位置，而不像传统技术采用模版匹配的方式需要根据先验知识设定anchor，通过计算anchor偏移得到待跟踪人体位置。本实施例无需先验知识的方式会使预测的人体位置更加的精准。

本实施例还包括模板更新模块；由于人体在跟踪过程中因人体姿态形变、人体遮挡、背景变化等因素的干扰，跟踪过程中的人体表征是复杂多变的。如果始终按照一个模版进行跟踪的话很容易在上述场景下跟踪丢失。其中，所述动态特征模版可以是手动更新的，也可以是自动更新的。本实施例中提出了一种动态自动更新模版的方式，使人体在复杂变化的场景下依然可以鲁棒的跟踪。具体采用以下方案：

所述跟踪头模块的分类分支对所述融合特征进行人体预测，得到预测置信度；所述模版更新模块对所述预测置信度进行阈值计算，根据阈值计算结果判断是否更新所述动态特征模版；当所述分类分支判断当前动态特征模版需要更新时，则根据所述位置回归分支回归出的人体位置进行模版替换。从而能够根据各分支的预测结果进行自动替换动态特征模版，可以自适应地跟踪不同变化的跟踪场景，更加智能化。

其中，所述分类分支输出的预测置信度包括正样本置信度和负样本置信度，当所述正样本置信度低于正样本阈值，且所述负样本置信度大于负样本阈值，则判断为需要更新所述动态特征模版。

如图1右下部分所示，当跟踪头中的分类分支对人体预测的置信度低于设定的阈值时，就会触发模版更新逻辑，将新模版及时更新到动态特征模版中。该新模版是基于当前预测人体框外扩一定比例得到的，所述模版替换具体包括：

通过所述位置回归分支回归出人体位置；

将所述人体位置外扩预设比例，作为模版更新框；

所述模版更新模块中，当跟踪头的分类分支判断当前动态特征模版需要更新时，则根据跟踪头的回归分支回归出的人体位置外扩预设比例作为新的模版更新框，基于新的模版更新框从搜索区域裁剪(crop)出新的动态特征模版，以替换原有的动态特征模版；当跟踪头的分类分支判断当前动态特征模版不需要更新时，则动态特征模版维持原有状态。这样人体跟踪模型可以自适应地跟踪不同变化的跟踪场景，不仅可以保持跟踪表征不变的人体的跟踪准确性，也可解决复杂形变、遮挡等随时序变化的复杂场景，很好地解决了时序变化的人体跟踪问题。

对于跟踪头模块的训练，为了避免同时训练分类分支和位置回归分支使得两者均容易陷入局部最优解，模型训练分为两个阶段：

第一阶段训练模型的位置回归分支，即端到端地训练除分类分支以外的所有参数。第二阶段，冻住除分类分支以外的所有参数，只对分类分支同交叉熵损失进行训练。训练数据由一个triplet对构成，分别对应初始跟踪模版、动态特征模版、搜索区域特征，且分别基于视频中临近帧生成(该过程不做动态模版是否更新对判断)。

在推理阶段，两个模版(初始跟踪模版和动态特征模版)均由第一帧进行初始化，然后提取搜索区域特征并输入到模型中进行前向传播进而生成框位置和置信度，当置信度满足在一定的置信区间或者连续跟踪的帧数超过设定的阈值时，会触发所述模版更新机制，基于当前的预测框在搜索区域上根据一定比例外扩得到更新的动态特征模版，以便下一次特征提取使用。动态特征模版先基于初始跟踪模版进行初始化，后续根据分类分支的置信度动态地更新动态特征模版，整个模版更新的过程是基于模型动态感知的。

实施例二(人体跟踪方法)

本实施例的一种基于Transformer的人体跟踪方法，其包括以下步骤：

将所述融合特征分别进行分类预测和置回归，实现人体跟踪。

所述特征融合具体包括：

所述初始跟踪模版经自注意力融合后输出第一融合特征；

所述搜索区域特征经自注意力融合后输出第二融合特征；

所述动态特征模版经自注意力融合后输出第三融合特征；

所述第一融合特征与所述第二融合特征经交叉注意力融合后输出第四融合特征；

所述第三融合特征与所述第二融合特征经交叉注意力融合后输出第五融合特征；

所述第一融合特征、所述第二融合特征及所述第三融合特征经交叉注意力融合后输出第六融合特征；

所述第四融合特征与所述第六融合特征经再次交叉注意力融合后输出第七融合特征；

所述第五融合特征与所述第六融合特征经再次交叉注意力融合后输出第八融合特征；

所述第七融合特征与所述第八融合特征相叠加，生成最终融合特征。

本实施例的其余步骤和工作过程与第一实施例基本相似，在此不进行赘述。

实施例三(摄像装置)

另外，本实施例还提供一种摄像装置，其包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述任一项所述的方法的步骤。

所述摄像装置包括：手机、数码相机或平板电脑等配置有摄像头的设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于Transformer的人体跟踪系统，其特征在于，包括：

2.根据权利要求1所述的一种基于Transformer的人体跟踪系统，其特征在于：所述特征提取网络包括输入部分、输出部分和中间卷积部分，所述输入部分包括第一卷积层和第一池化层，所述中间卷积部分包括三个基于残差块实现的卷积层，所述输出部分包括全局平均池化层和全连接层；其中，所述中间卷积部分的输出尺寸为输入尺寸的八倍降采样。

3.根据权利要求1或2所述的一种基于Transformer的人体跟踪系统，其特征在于：所述特征提取模块输出的三个提取特征还进一步使用1x1卷积进行融合整理，再经数据重塑操作后，输出三个提取特征；其中，所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致，为128X128，搜素区域特征的尺寸为256X256；经卷积操作和重塑操作后，所述初始跟踪模版对应的特征尺寸为256x256,所述搜索区域特征对应的特征尺寸为1024x256，所述动态特征模版对应的特征尺寸为256x256。

4.根据权利要求1所述的一种基于Transformer的人体跟踪系统，其特征在于，所述特征融合模块包括：

5.根据权利要求4所述的一种基于Transformer的人体跟踪系统，其特征在于，所述自注意力模块由Transformer中多头注意力模块与构成，所述交叉注意力模块由多头注意力模块和多层感知机构成。

6.根据权利要求1所述的一种基于Transformer的人体跟踪系统，其特征在于，所述跟踪头模块的分类分支和位置回归分支均由堆叠的多层感知机构成，各个分支生成的特征向量对应相同分辨率的特征图。

7.根据权利要求1或6所述的一种基于Transformer的人体跟踪系统，其特征在于，还包括模板更新模块；所述跟踪头模块的分类分支对所述融合特征进行人体预测，得到预测置信度；所述模版更新模块对所述预测置信度进行阈值计算，根据阈值计算结果判断是否更新所述动态特征模版；当所述分类分支判断当前动态特征模版需要更新时，则根据所述位置回归分支回归出的人体位置进行模版替换。

8.根据权利要求7所述的一种基于Transformer的人体跟踪系统，其特征在于，所述模版替换具体包括：

通过所述位置回归分支回归出人体位置；

将所述人体位置外扩预设比例，作为模版更新框；

9.一种基于Transformer的人体跟踪方法，其特征在于，包括：

10.一种摄像装置，其特征在于，包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述权利要求9所述的方法的步骤。