CN111563404B

CN111563404B - 用于基于视频的人再识别的全局局部时间表示方法

Info

Publication number: CN111563404B
Application number: CN201911422601.0A
Authority: CN
Inventors: 张史梁; 李佳宁; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-26
Anticipated expiration: 2039-12-31
Also published as: CN111563404A

Abstract

本发明提出了一种适用于基于视频的行人再识别的全局局部时间表示方法。本申请提出的网络分别由DTP卷积和TSA模型组成。DTP由并行扩展的时间卷积组成，用于模拟相邻帧之间的短期时间线索。TSA利用非连续帧之间的关系来捕获全局时间线索。在五个基准数据集上的实验结果表明，所提出的GLTR方法优于目前最先进的方法。

Description

用于基于视频的人再识别的全局局部时间表示方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种视频识别和表示方法及系统。

背景技术

人的再识别是指通过匹配行人的图像或视频序列，在摄像机网络中识别行人，具有智能监控和刑事侦查等多种实际应用。基于图像的人ReID在解决方案和大型基准数据集构建方面都取得了重大进展。近年来，基于视频的行人再识别(video person ReID)的研究受到了广泛关注，因为视频数据的可用性比以往更容易，而且视频数据提供的信息比图像数据更丰富。基于视频的人物ReID能够探索大量的时空线索，有可能解决基于图像的人物ReID面临的一些挑战，区分穿着视觉相似服装的不同人群。

参见图1，某数据集上两个外观相似的不同行人的两个视频序列的插图(本申请出于隐私目的覆盖面部)。相邻帧之间的局部时间线索，例如运动模式或速度，有助于区分这两个行人。相邻帧之间的全局上下文线索可以应用于点遮挡和噪声，如遮挡帧与其他帧的相似性较小。

基于视频的人再识别，现有研究的主要焦点在于时间线索的利用。现有技术根据时间特征学习的方式可分为三种：(1)从附加的CNN(卷积神经网络)输入中提取动态特征，例如，通过光流；(2)通过将视频视为三维数据，例如通过3DCNN(卷积神经网络)提取时空特征。(3)通过时间序列帧级特征，例如通过递归神经网络(RNN)和时间池或权值学习来学习鲁棒的人的表示。

其中，第三种是目前占主导地位的基于视频的行人再识别。具有两个优点：(1)与第一种相比，为图像ReID开发的行人表征技术可以更加容易实现；(2)它避免了光流的估计，因为相邻帧之间的误差仍然不够可靠。目前的研究已经显著提高了现有数据集的性能，但无论在效率还是在时间线索建模方面都存在一定的局限性。例如，RNN模型对于长序列视频的训练是很复杂的。特征时间池不能对视频帧序列进行建模，而视频帧序列能够传递关键的时间信息。通过端到端的CNN学习，探索更高效、更有效的获取时空特征的方法具有重要意义。

本申请的目标是通过嵌入短期和长期的时间线索，从一系列帧特征中学习一种有区别的全局局部时间表示(GLTR)。如图1所示，相邻帧之间的短期时间线索有助于区分视觉上相似的行人。长期的时间线索有助于缓解视频序列中的遮挡和噪声。扩展空间金字塔卷积(Dilated Spatial Pyramid Convolution)是图像分割中常用的一种空间上下文挖掘方法，受其强大而高效的空间上下文建模能力的启发，本申请将扩展空间金字塔卷积(Dilated Spatial Pyramid Convolution)推广到扩展时间金字塔卷积(DTP)卷积中，用于局部时间上下文学习。为了捕捉全局时间线索，引入时间自注意(TSA)模型，利用非连续帧之间的上下文关系。将DTP和TSA应用于帧级特征，通过端到端CNN训练学习GLTR。实验和可视化结果表明，GLTR具有很强的分辨能力和鲁棒性

发明内容

本发明实施例提供了基于视频的人再识别的全局局部时间表示方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

一种基于视频的人再识别的全局局部时间表示方法，包括：

获得视频数据；

处理所述视频数据得到DTP模型数据和TSA模型数据；

对所述DTP模型数据和/或TSA模型数据进行颞锥卷积；

实现基于视频的人再识别的全局局部时间表示。

优选地，

DTP模型数据用于捕获相邻帧之间的局部时间线索；

TSA模型数据利用非连续帧之间的关系来捕获全局时间线索。

优选地，所述得到DTP模型数据和TSA模型数据包括：

画廊视频用

表示，其中/>

查询视频用/>

表示，T^k(T^q)表示序列中的帧数，/>

表示第t帧。如果库视频/>

与基于视频表示的查询的距离最近，则它将被标识为真正片，即：

其中

和/>

分别是gallery video/>

和query video/>

的表示；

本申请的方法由两个子网组成，分别是图像特征提取子网和帧特征聚合子网，来学习一个有区别的视频表示。第一个子网提取T帧的特征，即

其中/>

第二个子网将T frame特征聚合为单个视频表示向量。本申请举例说明第二个子网，这是这项工作的重点在图2。本申请将在下面的段落中简要演示DTP和TSA的计算；

DTP设计用于捕获相邻帧之间的局部时间线索；DTP以F中的帧特征作为输入，输出更新后的帧特征

每个/>

是通过聚集其相邻帧特征来计算的，即

其中

表示DTP模型，f′_t由2×i相邻帧计算；

TSA模型利用非连续帧之间的关系来捕获全局时间线索。它以

为输入，输出时间特征/>

每个/>

是通过考虑/>

内特征之间的上下文关系来计算的，即/>

其中

是TSA模型；

每个f″_t集合了局部和全局时间线索。最后，本申请在

上应用平均池来生成基于视频的行人再识别的固定长度ReID，即

优选地，所述颞锥卷积包括：

假设

是具有时间宽度W的卷积核，当输入帧特征

时，具有扩张率r的扩张卷积的输出/>

可以定义为：

其中

是包含/>

的输出特征的集合；W^(r)表示具有扩张率r的扩张卷积；

膨胀率r表示采样帧特征的时间步长。它决定了被扩张的时间卷积所覆盖的时间尺度；使用r＝2，w＝3，每个输出特征对应于五个相邻帧的时间范围；标准卷积可以看作是r＝1的特例，它覆盖了三个相邻的帧；与标准卷积相比，r≥2的扩张时间卷积具有相同数量的参数可供学习，但在不降低时间分辨率的情况下扩大了神经元的感受野；这种特性使得扩展时间卷积成为一种有效的多尺度时间特征学习策略；

DTP卷积由N个平行的扩张卷积组成，其扩张率逐渐增加以覆盖各种时间范围；对于第n次扩张的颞卷积，将其扩张率r_n设为r_n＝2^n-1，以有效地扩大颞感受野；将N个分支的输出串接为更新的时间特征

即计算/>

其中r_i是第i个扩张的颞叶卷积的扩张率。

优选地，所述TSA模型数据利用非连续帧之间的关系来捕获全局时间线索，其含义为：

TSA是计算T×T大小的注意遮罩M来存储所有帧特征之间的上下文关系；给定输入

TSA首先应用两个卷积层，然后进行批量归一化，然后重新生成特征映射尺寸(Nd/α)×T的B和C；在C和B的转置之间执行矩阵乘法，得到T×T大小的时间注意掩码M；

M用于更新

以嵌入额外的全局时间线索；将/>

输入卷积层，生成一个新的/>

特征映射，其大小为(Nd/α)×T，/>

与M相乘，然后将输入卷积层，将其大小恢复为Nd×T，通过残差连接将得到的特征映射与原/>

融合，得到更新后的时间特征/>

TSA的计算可以表示为/>

其中W表示最后一个卷积核；将W初始化为0以简化剩余连接的优化；α控制TSA中的参数大小；把α设为2；对

进行平均池处理，得到最终的/>

将F，/>

M和f可视化，这些都是在有遮挡的轨迹上计算出来的；DTP通过对相邻特征进行卷积，合理地减少了遮挡；TSA主要通过计算注意遮罩M来减轻遮挡，该注意遮罩M存储的全局上下文关系；对于M，/>

上的平均池可以在概念上表示为：

其中

是t维加权向量。请注意，公式(8)省略了/>

前后的卷积，以简化表达式；m中被遮挡的帧呈现较低的权重，指示其特征在平均汇集期间被抑制。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明提出了全局局部时间表示(GLTR)方法，利用视频序列中的多尺度时间线索进行基于视频的人再识别(ReID)，首先对相邻帧之间的短期时间线索进行建模，然后捕获非连续帧之间的长期关系，从而构造GLTR。具体地说，短期时间线索是由具有不同时间扩张率的平行扩张卷积来表示行人的运动和外观。利用时间自注意模型捕捉视频序列中的长时程关系，以减少视频序列中的遮挡和噪声。短期和长期的时间线索被一个简单的单流CNN聚合为最终的GLTR。GLTR显示了现有的特点，了解身体部分线索或度量学习四个广泛使用的视频再识别数据集。例如，它在没有重新排序的情况下，在MARS数据集上达到8702％的一级精度，比目前的技术水平要好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1：某数据集上两个外观相似的不同行人的两个视频序列的插图；

图2：用于GLTR提取的帧特征聚合子网络的说明，该子网络包括用于局部时间上下文学习的扩展时间金字塔(DTP)卷积和用于开发全局时间线索的时间自关注(TSA)模型；

图3：在有闭塞的轨迹上计算的F，F′，F′，M和F的可视化；

图4：LS-VID数据集中一些静态数据的分析示例；

图5：从人的轨迹中均匀采样的帧；

图6：DTP和两个竞争对手在三个分支数不同的数据集上的Rank1精度，即参数N。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

1基本介绍

本申请在一个新提出的用于人ReID(LS-VID)的大规模视频数据集和四个广泛使用的视频ReID数据集上测试了本申请的方法，这些数据集分别包括PRID、iLIDS VID、MARS和DukeMTMC Video ReID。实验结果表明，GLTR在这些数据集上具有一致的性能优势。它在MARS数据集上实现了8702％的一级准确率，没有重新排名，比最近的PBR使用额外的身体部位线索进行视频特征学习要好2％。它在PRID和DukeMTMC VideoReID上分别达到了9448％和9629％的一级准确率，也超过了目前的技术水平。

GLTR表示是通过简单的DTP和TSA模型提取的一系列帧特征。尽管计算简单且高效，但此解决方案优于许多最近使用复杂设计(如身体部位检测和多流cnn)的方法。尽管计算简单且高效，但此解决方案优于许多最近使用复杂设计(如身体部位检测和多流cnn)的方法。

图2：用于GLTR提取的帧特征聚合子网络的说明，该子网络包括用于局部时间上下文学习的扩展时间金字塔(DTP)卷积和用于开发全局时间线索的时间自关注(TSA)模型。

2相关技术

现有的人再识别方法可以归纳为基于图像的再识别和基于视频的再识别。这一部分简要回顾了与本研究密切相关的基于视频的人物ReID的四类时间特征学习。

时态池被广泛用于聚合所有时间戳上的特征。郑应用max和mean池来获得视频特性。李利用部分线索并学习加权策略来融合从视频帧中提取的特征。苏提出了一种双流结构，共同学习外观特征和零件特征，并通过池策略融合图像级特征。最近的研究中也使用了平均池，将无监督学习应用于基于视频的行人再识别。时间池具有很好的效率，但它独立地提取帧特征，忽略了相邻帧之间的时间顺序。

光流编码相邻帧之间的短期运动。许多方法利用光流来学习时间特征。Simonyan引入了一个双流网络，从叠加的光流中学习空间特征和时间特征。Feichtenhofer利用光流来学习时空特征，并评估两个流之间不同类型的运动交互。Chung介绍了一种用于外观和光流的双流结构，并研究了这两种流的加权策略。Mclaughlin引入光流和RNN来利用长、短期时间线索。光流的一个潜在问题是它对相邻空间包围盒之间存在的空间不对中误差敏感。

递归神经网络(RNN)也被用于基于视频的人的视频特征学习。Mclaughlin首先提取图像级特征，然后引入RNN对跨帧时间线索进行建模。然后，RNN的输出通过时间池进行组合，作为最终的视频特征。Liu提出了一种递归结构来聚合帧级表示并产生序列级人类特征表示。RNN引入了一定数量的全连接层和门来进行时间线索建模，使得训练变得复杂和困难。

三维卷积通过端到端CNN训练直接提取时空特征。最近，deep 3D-CNN被引入到视频表示学习中。Tran提出了用于时空特征学习的C3D网络。邱将三维卷积滤波器分解为空间和时间分量，从而获得性能增益。Li构建了一个紧凑的多尺度3D卷积网络来学习多尺度时间线索。尽管3D-CNN具有良好的性能，但它仍然对空间偏差敏感，需要叠加一定数量的3D卷积核，导致参数开销大，增加了CNN优化的难度。

本申请通过在帧特征上发布DTP和TSA模块来学习GLTR。与现有的时间池策略相比，本申请的方法同时捕获全局和局部时间线索，因此表现出更强的时间线索建模能力。它比RNN更易于优化，并且比光流对失调误差具有更好的鲁棒性。与3D-CNN相比，本申请的模型具有更简单的结构，并且可以很容易地利用为基于图像的人ReID开发的表示。如本申请的实验所示，本申请的方法优于最近的3D CNN模型M3D和递归模型STMP。

3建议方法

3.1公式化(FORMULATION)

基于视频的行人再识别的目标是识别一组视频，该视频与来自包含K个视频的视频集的查询视频大致相同。画廊视频用

表示，其中

查询视频用/>

表示，T^k(T^q)表示序列中的帧数，/>

表示第t帧。如果库视频/>

其中

和/>

分别是gallery video/>

和query video/>

的表示。

其中/>

第二个子网将T frame特征聚合为单个视频表示向量。本申请举例说明第二个子网，这是这项工作的重点在图2。本申请将在下面的段落中简要演示DTP和TSA的计算。

DTP设计用于捕获相邻帧之间的局部时间线索。如图2所示，DTP以F中的帧特征作为输入，输出更新后的帧特征

每个/>

是通过聚集其相邻帧特征来计算的，即

其中

表示DTP模型，f′_t由2×i相邻帧计算。

TSA(temporal self attention，暂时自注意)模型利用非连续帧之间的关系来捕获全局时间线索。它以

为输入，输出时间

特征

每个/>

是通过考虑/>

内特征之间的上下文关系来计算的，即

其中

是TSA模型。

每个f″_t集合了局部和全局时间线索。最后，本申请在

/>

在RNN和3DCNN中，为了生成固定长度的视频特征，通常也使用平均池。每个f″_t中嵌入的全局和局部时间线索保证了f的强分辨能力和鲁棒性。

3.2颞锥卷积(DILATED TEMPORAL PYRAMID CONVOLUTION)

扩展时间卷积：扩展空间卷积以其高效的空间上下文建模能力在图像分割中得到了广泛的应用。在扩展空间卷积的启发下，本申请实现了用于局部时间特征学习的扩展时间卷积。假设

是具有时间宽度W的卷积核，当输入帧特征

时，具有扩张率r的扩张卷积的输出/>

可以定义为：

其中

是包含/>

的输出特征的集合。W^(r)表示具有扩张率r的扩张卷积。

膨胀率r表示采样帧特征的时间步长。它决定了被扩张的时间卷积所覆盖的时间尺度。例如，使用r＝2，w＝3，每个输出特征对应于五个相邻帧的时间范围。标准卷积可以看作是r＝1的特例，它覆盖了三个相邻的帧。与标准卷积相比，r≥2的扩张时间卷积具有相同数量的参数可供学习，但在不降低时间分辨率的情况下扩大了神经元的感受野。这种特性使得扩展时间卷积成为一种有效的多尺度时间特征学习策略。

扩张的时间金字塔卷积：具有不同扩张率的扩张的时间卷积在不同尺度上模拟时间线索。因此，本申请使用并行扩展卷积来建立DTP卷积，以增强其局部时间线索的建模能力。

如图2所示，DTP卷积由N个平行的扩张卷积组成，其扩张率逐渐增加以覆盖各种时间范围。对于第n次扩张的颞卷积，本申请将其扩张率r_n设为r_n＝2^n-1，以有效地扩大颞感受野。本申请将N个分支的输出串接为更新的时间特征

即计算/>

其中r_i是第i个扩张的颞叶卷积的扩张率。

表1:LS-VID数据集和其他基于视频的行人再识别数据集的统计

图3：在有闭塞的轨迹上计算的F，

M和f的可视化。PCA将F，/>

的维数降为1×T进行可视化。很明显，遮挡影响基线特征F，即特征随着遮挡的发生而实质性地改变。DTP和TSA逐渐缓解了/>

和/>

的闭塞，即/>

和/>

中的闭塞帧的特征与其他帧相似。f是在手动移除被遮挡的帧之后生成的。f与f*相当接近，表明GLTR对闭塞具有很强的鲁棒性。

3.3暂时自注意模型(temporal self attention)

自注意：自注意模块最近被用于学习图像分割、动作识别和基于图像的人ReID中的远程空间依赖性。受其在空间上下文建模中的良好表现启发，本申请将“自注意”推广到捕捉非连续帧之间的上下文-时间关系。

暂时自注意：TSA的基本思想是计算T×T大小的注意遮罩M来存储所有帧特征之间的上下文关系。如图2所示，给定输入

TSA首先应用两个卷积层，然后进行批量归一化，然后重新生成特征映射尺寸(Nd/α)×T的B和C。然后，在C和B的转置之间执行矩阵乘法，得到T×T大小的时间注意掩码M。

M用于更新

以嵌入额外的全局时间线索。将/>

输入卷积层，生成一个新的/>

特征映射，其大小为(Nd/α)×T，/>

融合，得到更新后的时间特征/>

TSA的计算可以表示为

其中W表示最后一个卷积核。将W初始化为0以简化剩余连接的优化。α控制TSA中的参数大小。本申请把α设为2。对

进行平均池处理，得到最终的/>

在图3中，本申请将F，

M和f可视化，这些都是在有遮挡的轨迹上计算出来的。DTP通过对相邻特征进行卷积，合理地减少了遮挡。TSA主要通过计算注意遮罩M来减轻遮挡，该注意遮罩M存储如图3所示的全局上下文关系。对于M，/>

上的平均池可以在概念上表示为：

其中

是t维加权向量。请注意，公式(8)省略了/>

前后的卷积，以简化表达式。m在图3中可见，其中被遮挡的帧呈现较低的权重，指示其特征在平均汇集期间被抑制。结合DTP和TSA，GLTR具有很强的鲁棒性。

图5：从人轨迹中均匀采样的帧。每一行在不同的摄像机下显示同一个人的两个序列。与现有的数据集相比，LS-VID提出了更大的变化的照明，场景和背景等。

4实验

4.1数据集

本申请在四个广泛使用的视频ReID数据集和一个新的大规模数据集上测试了本申请的方法。图5描绘了示例图像，表1给出了统计数据。

PRID-2011。共有400个序列，200名行人被两台摄像机拍下。每个序列的长度在5到675帧之间。

伊利兹参考文献。两台摄像机共有600组300名行人。每个序列在23到192帧之间具有可变长度。在前面的工作中实现之后，本申请随机地将这两个数据集分割成列车/测试标识。为了计算平均精度，此过程重复10次。

MARS数据集。该数据集由6台摄像机拍摄。它由17503个1261个身份序列和3248个干扰序列组成。它分为625个训练身份和636个测试身份。使用DPM检测器检测边界框，并使用GMMCP跟踪器跟踪边界框。本申请遵循MARS协议，报告Rank1精度和平均精度(mAP)。

DukeMTMC VideoReID。有702个训练身份，702个测试身份，408个干扰身份。训练集包含369656帧2196个轨迹，测试集包含445764帧2636个轨迹。

LS-VID公司。除上述四个数据集外，本申请还收集了一个新的用于person-ReID(LS-VID)的大规模视频数据集。

原始视频捕获：本申请使用15个摄像头网络，并选择4天进行数据记录。每天上午、中午和下午分别拍摄3小时的视频。本申请的最终原始视频包含180小时视频、12个室外摄像机、3个室内摄像机和12个时隙。

检测与跟踪：采用更快的RCNN进行行人检测。然后，本申请设计了一种特征匹配策略来跟踪每个摄像头中检测到的每个行人。在剔除了一些长度过短的序列后，本申请最终收集了3772个行人的14943个序列，平均序列长度为200帧。

特点：LS-VID中的示例序列如图5所示，统计见表1和图4。LS-VID显示了以下新特性：(1)较长的序列。(2)更精确的行人轨迹。(3)目前最大的视频ReID数据集。(4)定义一个更现实和更具挑战性的ReID任务。

评估协议：由于数据注释昂贵，本申请随机将数据集分成1:3的训练集和测试集，以鼓励更有效的训练策略。本申请进一步划分了一个小的验证集。最后，训练集包含550419个842个身份的包围盒，验证集包含155191个200个身份的包围盒，测试集包含2277075个2730个身份的包围盒。与现有视频再识别数据集(56,48)相似，LS-VID使用累积匹配特征(CMC)曲线和平均平均精度(MAP)作为评价度量。

图6:DTP和两个竞争对手在三个分支数不同的数据集上的Rank1精度，即参数N。

4.2实施细节

本申请采用标准ResNet50作为帧特征提取的骨干。所有的模型都经过训练，并用PyTorch进行微调。采用随机梯度下降法(SGD)对模型进行优化。输入图像的大小调整为256×128个。从每个(B、G和R)通道中减去平均值。对于2D CNN训练，每批包含128个图像。初始学习率设为001，10次后降低10倍。训练在20个阶段后结束。对于DTP和TSA培训，本申请抽样每个序列的16个相邻帧作为每个训练历元的输入。批量设置为10。初始学习率设为001，120次后降低10倍。训练在400个阶段后结束。所有的模型都只训练了softmax损失。

在测试过程中，本申请使用2D CNN从每个视频帧中提取d＝128的dim特征，然后使用图2中所示的网络将帧特征融合到GLTR中。最后将视频特征应用于欧氏距离的人ReID。本申请的所有实验都是用GTX TITAN X GPU、Intel i7 CPU和128GB内存实现的。

4.3消融研究(ABLATION STUDY)

DTP与其他局部时间线索学习策略的比较：除了DTP，本申请还实现了以下策略来学习相邻帧之间的时间线索：(i)不扩张的金字塔时间卷积，和(ii)时间金字塔池。如第二节所述。32，DTP第i金字塔分支的扩张率为ri＝2i-1。为了进行公平的比较，本申请设置了三种分支数目相同的方法，每种方法的接收野大小相同。例如，对于金字塔时间卷积的第三分支，本申请将卷积核的大小设为d×9，而不需要扩展。图6总结了在MARS数据集、DukeMTMCVideoReID和LS-VID验证集上的实验结果。

图6还比较了作为基准的平均池。很明显，三种方法的性能明显优于基线，这表明平均池在捕获帧特征之间的时间线索方面并不有效。当N＝1时，这三种方法的性能相同，即对帧特征F采用d×3大小的卷积核，随着N的增加，三种算法的性能都得到了提高。这意味着引入多重卷积尺度有利于学习时间特征。

同样明显的是，DTP在三个数据集上始终优于其他两个策略。原因可能是时间金字塔池在对时间分辨率进行采样时丢失了某些时间提示。传统的时间卷积方法引入了太多的参数，导致优化困难。DTP中的扩展卷积有效地扩大了时间域，因而对局部时间特征学习有较好的效果。当N≥3时，DTP的性能提升减慢。进一步引入更多的分支，增加了参数的规模，使得优化更加困难。在下面的实验中，本申请选择N＝3作为DTP。

表2:GLTR中单个组件的性能。

表3:LS-VID测试集上不同骨干的GLTR性能。

DTP和TSA相结合的有效性：本部分对DTP和TSA相结合产生的最佳视频特征进行评价。本申请比较了几种不同的方法，并在表2中总结了四个数据集和LS-VID测试集的结果。在表中，“基线”表示ResNet50+平均池。“DTP”和“TSA”分别表示仅使用DTP或TSA的聚合帧特征。“GLTR”结合了DTP和TSA。

表2显示，DTP或TSA的性能比基线好得多，这表明建模额外的局部和全局时间线索可以获得更好的视频特征。DTP模型在MARS数据集上的rank1精度达到8574％，大大优于基线。同样，TSA的性能也大大优于基线。通过结合DTP和TSA，GLTR在五个数据集上始终获得最佳性能。因此，本申请得出结论，联合学习局部和全局时间线索可以获得最佳的视频特征。

不同骨干网：本申请进一步评估了不同骨干网的GLTR的有效性，包括Alexnet、Inception和ResNet50。表3总结了LS-VID试验装置的试验结果。表3显示，在不同的主干上实现，GLTR始终优于基线，这表明本申请的方法在不同的帧特征提取器上工作良好。因此，GLTR可以利用强大的图像表示，并作为基于视频的行人再识别的一般解决方案。由于ResNet50在表3中达到了最好的性能，本申请在下面的实验中采用ResNet50。

4.4与近期方法的比较

/>

表4:与LS-VID测试集的最新工作比较。

LS-VID：本节将几种最新的方法与本申请在LS-VID测试集上的方法进行比较。为了对LS-VID进行比较，本申请用作者提供的代码实现了最近的一些工作，包括针对人reid的时间特征学习方法：M3D和STMP，其他时间特征学习方法：具有外观和光流的双流CNN，LSTM，3D卷积：I3D和P3D，以及最近的一些工作ReID的工作人员：分别是GLAD、HACNN、PBR和DRSA。GLAD和HACNN的视频特征通过平均池提取。本申请重复了PBR和DRSA，提到它们在MARS数据集上的植入。表4总结了比较结果。

表4显示，GLAD和HACNN在基于图像的人ReID中获得了很好的性能，但其性能低于时间特征学习策略M3D和STMP。这表明学习时间线索在基于视频的行人再识别中的重要性。在比较的时间特征学习方法中，最新的M3D取得了最好的性能。在表4中，建议的GLTR达到了最佳性能。它比最近的基于视频的行人再识别的工作STMP和M3D有很大的优势，例如rank1的准确率分别为629％和539％。

/>

图5:LS-VID、MARS和DukeMTMC VideoReID数据集上的person ReID结果图解。每个示例分别显示了通过基线方法(第一个tow)和GLTR(第二个tow)检索到的前5个序列。真正的匹配由红点注释。本申请遮住脸是为了隐私。

MARS数据集：表5报告了与最近在MARS数据集上的工作的比较。GLTR的rank1准确率为8702％，mAP为7847％，分别比STMP、M3D和STA的rank1准确率高262％、263％和072％。注意，STMP引入了一个复杂的递归网络，使用部分线索和三重态损失。M3D(19)使用3DCNN(卷积神经网络)来学习时间线索，因此需要更高的计算复杂度。STA在MARS数据集上实现了竞争性性能，在mAP上的性能优于GLTR。注意，STA引入了多个分支用于零件特征学习，并使用三元组损失来提高性能。与已有的方法相比，该方法在设计简单的基础上，实现了具有竞争力的性能，如利用基本骨干网提取全局特征，利用最大软损耗进行训练。GLTR可以进一步与重新排名策略相结合，进一步将其地图提升至8554％。

PRID和iLIDS-VID：PRID和iLIDS-VID数据集的比较汇总在表6中。结果表明，该方法在rank1精度上具有很强的竞争力。M3D在这两个数据集上也获得了竞争性的性能。其原因可能是M3D共同学习视频序列中的多尺度时间线索，并引入两流结构分别学习空间和时间表示。通过单特征提取流的设计，本申请的方法在两个数据集上都优于M3D。表6还比较了几种时间特征学习方法，RFA-Net、SeeForest、T-CN、CSA和STMP。本申请的方法在rank1精度上大大优于那些工作。

/>

表6:PRID和ILID VID的近期研究对比。

DukeMTMC VideoReID:表7显示了对该数据集的比较。由于DukeMTMC video ReID是最近提出的一个VideoReID数据集，因此只有少数方法报告了它的性能。本申请将在本节中与ETAP Net和STA进行比较。表7中ETAP网的报告性能是在监督基线下实现的。如表7所示，GLTR达到9374％的mAP和9629％的rank1精度，在很大程度上优于ETAP Net。STA在这个数据集上也实现了竞争性能。GLTR在rank1、rank5和rank20精度上仍然优于STA。注意，STA利用额外的身体部位提示和三重态丢失。

小结：以上五个数据集的比较可以说明GLTR在person-ReID视频表示学习中的优势，即通过简单简洁的模型设计达到了竞争性的准确性。本申请还观察到，与其他数据集相比，LS-VID的ReID精度要低得多。例如，LS-VID上的最佳rank1精度为6307％，大大低于MARS数据集上的8702％。这表明，尽管LS-VID收集更长的序列以提供更丰富的空间和视觉线索，但它仍然呈现出更具挑战性的人ReID任务。

本申请在图5中显示了一些人在LS-VID、MARS和Dukemtmcvideored上通过GLTR和ResNet50基线取得的ReID结果。对于每个查询，本申请用这两种方法显示前5个返回的视频序列。可以观察到，所提出的GLTR在识别具有相似外观的人时具有更大的区别性。

表7:DukeMTMC VideoReID的比较。

Claims

1.一种基于视频的人再识别的全局局部时间表示方法，其特征在于，包括：

获得视频数据；

处理所述视频数据得到DTP模型数据和TSA模型数据；

对所述DTP模型数据和/或TSA模型数据进行颞锥卷积；

实现基于视频的人再识别的全局局部时间表示；

所述得到DTP模型数据和TSA模型数据包括：

数据库视频用

表示，其中/>

查询视频用/>

表示，T^k、T^q表示序列中的帧数，/>

表示第t帧；如果数据库视频G与基于视频表示的查询的距离最近，则G将被标识为真正片，即：

其中/>

和f^Q分别是数据库视频G^k和查询视频Q的表示；

所述方法涉及两个子网，分别是图像特征提取子网和帧特征聚合子网，，第一个子网提取T帧的特征，即

其中/>

第二个子网将T帧特征聚合为单个视频表示向量；

每个/>

是通过聚集其相邻帧特征来计算的，即

其中

表示DTP模型，f′_t由2×i个相邻帧计算；

TSA模型利用非连续帧之间的关系来捕获全局时间线索，以

为输入，输出时间特征

每个/>

是通过考虑/>

内特征之间的上下文关系来计算的，即

其中

是TSA模型；

每个f″_t集合了局部和全局时间线索，最后，在

上应用平均池来生成基于视频的行人再识别的固定长度，即

所述颞锥卷积包括：

假设

是具有时间宽度w的卷积核，当输入帧特征

时，具有扩张率r的扩张时间卷积的输出/>

定义为：

/>

其中

是包含/>

的输出特征的集合；W^(r)表示具有扩张率r的扩张时间卷积；

扩张率r表示采样帧特征的时间步长，决定被扩张的时间卷积所覆盖的时间尺度；使用r＝2，w＝3，每个输出特征对应于五个相邻帧的时间范围；标准卷积是rr＝1的特例，覆盖三个相邻的帧；与标准卷积相比，r≥2的扩张时间卷积具有相同数量的参数可供学习，在不降低时间分辨率的情况下扩大了神经元的感受野，使得扩展时间卷积成为一种有效的多尺度时间特征学习策略；

DTP卷积由N个平行的扩张时间卷积组成，其扩张率逐渐增加以覆盖各种时间范围；对于第n次扩张的颞卷积，将其扩张率r_n设为r_n＝2^n-1，以扩大颞感受野；将N个分支的输出串接为更新的特征

即计算/>

/>