CN113343810B

CN113343810B - 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置

Info

Publication number: CN113343810B
Application number: CN202110590381.3A
Authority: CN
Inventors: 陈志鹏; 张旭; 刘春阳; 王鹏; 唐胜; 巩力铜; 曹娟
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-03-21
Anticipated expiration: 2041-05-28
Also published as: CN113343810A

Abstract

本发明提出一种基于时序多样性与相关性的行人重识别模型训练方法，包括以下步骤：获取训练样本数据，所述训练样本数据包括多个包含行人的视频序列；将所述训练样本数据输入至初始模型中采样各所述包含行人的视频序列的多帧视频，并且提取所述多帧视频的帧级别特征，聚合所述帧级别特征得到视频级别特征；基于所述视频级别特征计算视频级别损失；基于所述视频级别损失对所述初始模型的模型参数进行优化，得到行人重识别模型。

Description

基于时序多样性与相关性的行人重识别模型训练和识别方法与装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于时序多样性与相关性的行人重识别模型训练和识别方法与装置。

背景技术

近些年，随着深度学习的高速发展，卷积神经网络(Convolutional NeuralNetwork,CNNs)在人工智能与计算机视觉领域取得了巨大的进展。其中，行人重识别是计算机视觉中的基础任务，在视频监控、安防等领域有着广泛的应用，然而，由于光照变化、视角变化、行人遮挡、行人图像不对齐等因素，行人重识别技术仍然面临巨大的挑战。基于图像的行人重识别技术近年来取得了不错的发展，但是由于图像本身表达信息能力有限，在实际应用中无法取得理想的效果。基于视频的行人重识别可以利用视频序列中的时序信息，可以更加全面地表达行人完整的特征，在实际应用中往往效果更佳。

视频行人重识别领域的巨大进展主要是由人工简历的大规模行人重识别数据集推动。现有的基于视频的行人重识别技术无法充分利用时序线索信息，过多关注了视频帧之间共享区域的相关性，而忽略了非共享区域的多样性，这使得提取到的行人特征区分力不足，特征表达能力有限。这些方法在模型早期便进行多帧之间的特征聚合，这会导致模型过多关注时序特征之间的相关性，而忽略了时序特征之间的多样性，并且提取到的行人特征在遮挡场景下鲁棒性不高，过多关注于背景区域，而无法关注到具体的行人。

发明内容

针对现有技术的不足，本发明的主要目的在于提出一种基于时序多样性与相关性的行人重识别模型训练和识别方法与装置，能够提取到具备区分力和鲁棒性的特征，实现行人的快速准确检索。

为了实现上述目的，本发明提出一种基于时序多样性与相关性的行人重识别模型训练方法，包括：

步骤1、获取训练样本数据，所述训练样本数据包括多个包含行人的视频序列；步骤2、将所述训练样本数据输入至初始模型中采样各所述包含行人的视频序列的多帧视频，并且提取所述多帧视频的帧级别特征，聚合所述帧级别特征得到视频级别特征；步骤3、基于所述视频级别特征计算视频级别损失；步骤4、基于所述视频级别损失对所述初始模型的模型参数进行优化，得到行人重识别模型；

其中，所述步骤2通过如下的计算公式进行聚合所述帧级别特征得到视频级别特征：

f_g＝W·X

其中，X表示帧级别特征，f_g表示视频级别特征，W表示帧级别特征的时序注意力掩码。

上述的模型训练方法，所述步骤2还包括：

步骤21、对所述帧级别特征进行时序均值池化得到时序全局特征；步骤22、将所述帧级别特征和所述时序全局特征经过分别独立的1×1卷积层以进行降维；步骤23、对降维后的所述时序全局特征进行时序均值池化，得到所述视频序列的全局特征；步骤24、利用全局通道维度信息作为指导，得到每一所述多帧视频空间位置的注意力机制指导；步骤25、利用所述注意力机制指导获取对应所述帧级别特征的多样性特征，以得到增强的所述帧级别特征；

所述步骤23及所述步骤24通过如下公式进行：

其中，φ_c表示注意力机制指导，GAP表示全局均值池化，ζ表示Softmax操作，X′和X′_g分别表示降维后的帧级别特征；

所述步骤25通过如下公式进行：

A_c＝σ(W_c(X·φ_c))⊙X

X_c＝X+A_c

其中，A_c表示对应帧级别特征多样性特征，W_c是可学习的1×1卷积层的参数，⊙表示元素间对应位置相乘，X_c表示增强的帧级别特征。

上述的模型训练方法，所述步骤2还包括：

步骤21、将所述帧级别特征F分别经过两个卷积层，生成非线性变换后的帧级别特征Q和M；

步骤22、对所述非线性变换后的帧级别特征M进行时序均值池化，得到时序指导特征M′；

步骤23、将所述时序指导特征M′与转置后的所述非线性变换后的帧级别特征Q矩阵相乘并进行Softmax操作，得到时序注意力掩码W；

所述步骤22及所述步骤23通过如下公式进行：

其中，W表示时序注意力掩码，ζ表示Softmax操作，TAP表示时序均值池化。

上述的模型训练方法，所述视频级别损失利用视频级别的损失函数计算得到，所述损失函数为：

其中，f_i表示第i个视频的特征，f_i+表示与第i个视频互为正样本对的特征，f_i-表示与第i个视频互为负样本对的特征，L_ce表示交叉熵损失函数，L_triplet表示三元组损失函数。

为了实现上述目的，本发明还提出一种基于时序多样性与相关性的行人重识别模型训练装置，包括：

训练数据获取模块，用于获取训练样本数据，所述训练样本数据包括多个包含行人的视频序列；

特征提取模块，用于将所述训练样本数据输入至初始模型中采样各所述包含行人的视频序列的多帧视频，并且提取所述多帧视频的帧级别特征，聚合所述帧级别特征得到视频级别特征；

损失计算模块，用于基于所述视频级别特征计算视频级别损失；

模型生成模块，用于基于所述视频级别损失对所述初始模型的模型参数进行优化，得到行人重识别模型；

其中，通过如下的计算公式进行聚合所述帧级别特征得到视频级别特征：

f_g＝W·X

上述的模型训练装置，所述特征提取模块还包括：

特征增强子模块，用于对所述帧级别特征进行时序均值池化得到时序全局特征；将所述帧级别特征和所述时序全局特征经过分别独立的1×1卷积层以进行降维；对降维后的所述时序全局特征进行时序均值池化，得到所述视频序列的全局特征；利用全局通道维度信息作为指导，得到每一所述多帧视频空间位置的注意力机制指导；利用所述注意力机制指导获取对应所述帧级别特征的多样性特征，以得到增强的所述帧级别特征；

所述特征增强子模块通过如下公式进行：

A_c＝σ(W_c(X·φ_c))⊙X

X_c＝X+A_c

其中，φ_c表示注意力机制指导，GAP表示全局均值池化，ζ表示Softmax操作，X′和X′_g分别表示降维后的帧级别特征；A_c表示对应帧级别特征多样性特征，W_c是可学习的1×1卷积层的参数，⊙表示元素间对应位置相乘，X_c表示增强的帧级别特征。

上述的模型训练装置，所述特征提取模块还包括：

特征聚合子模块，用于将所述帧级别特征X分别经过两个卷积层，生成非线性变换后的帧级别特征Q和M；对所述非线性变换后的帧级别特征M进行时序均值池化，得到时序指导特征M′；将所述时序指导特征M′与转置后的所述非线性变换后的帧级别特征Q矩阵相乘并进行Softmax操作，得到时序注意力掩码W；

所述特征聚合子模块通过如下公式进行：

上述的模型训练装置，所述视频级别损失利用视频级别的损失函数计算得到，所述损失函数为：

为了实现上述目的，本发明还提出一种基于时序多样性与相关性的行人重识别方法，包括：

步骤1、获取包含目标行人的目标视频序列；步骤2、将所述目标视频序列输入至通过上述的训练方法得到的行人重识别模型中，得到所述目标视频序列的视频级别特征；步骤3、计算所述目标视频序列的视频级别特征与视频库中已存视频序列的视频级别特征的相似度；步骤4、输出所述相似度大于等于预设阈值的所述已存视频序列。

为了实现上述目的，本发明还提出一种基于时序多样性与相关性的行人重识别装置，包括：

目标视频获取模块，用于获取包含目标行人的目标视频序列；

特征获取模块，用于将所述目标视频序列输入至通过上述的训练方法得到的行人重识别模型中，得到所述目标视频序列的视频级别特征；

相似度计算模块，用于计算所述目标视频序列的视频级别特征与视频库中已存视频序列的视频级别特征的相似度；

结果输出模块，用于输出所述相似度大于等于预设阈值的所述已存视频序列。

附图说明

图1为本发明一实施例的基于时序多样性与相关性的行人重识别模型训练方法的流程图。

图2为本发明一实施例的特征聚合模块的结构示意图。

图3为本发明一实施例的基于通道维度的帧级别特征增强模块的结构示意图。

图4为本发明一实施例的基于空间维度的帧级别特征增强模块的结构示意图。

图5为本发明一实施例的基于时序多样性与相关性的行人重识别模型训练装置的模块示意图。

图6为本发明一实施例的基于时序多样性与相关性的行人重识别方法的流程图。

图7为本发明一实施例的基于时序多样性与相关性的行人重识别装置的模块示意图。

图8为原图、基线模型与本发明的行人重识别模型的特征可视化对比示意图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

参见图1所示，本发明的实施例提出一种基于时序多样性与相关性的行人重识别模型训练方法，包括：步骤101-步骤104。

步骤101：获取训练样本数据。

其中，训练样本数据包括多个包含行人的视频；该多个包含行人的视频例如来源于多个摄像头所拍摄下的包含行人的视频，需要说明的是，本发明实施例所训练的行人重识别模型是用于对同一行人的识别，所以多个视频中需要包含同一个行人，例如训练样本数据可以包括3个行人，每个行人对应6个视频，而每个行人的6个视频分别来由不同的摄像头所拍摄。另外，以上获取训练数据样本的方式仅为示例性，本发明的实施例还可采取从现有的一些数据集(如ImageNet)来获取训练数据样本。可选地，在本实施例中，对构成训练样本数据的多个包含行人的视频分别进行采样，例如每个视频采样多帧，并且对采样后的多帧视频帧进行例如随机水平翻转、随机擦除等数据增强策略；具体的，例如以步长为8随机采样4帧对于每一个视频作为输入。

步骤102：将训练样本数据输入至初始模型中采样各包含行人的视频序列的多帧视频，并且提取多帧视频的帧级别特征，聚合帧级别特征得到视频级别特征。

其中，为了便于理解模型的训练过程，在具体实现方式上，本发明的实施例选择在ImageNet数据集上预训练的ResNet50作为骨架网络并且作为baseline(基线模型)构建初始模型。具体的，骨架网络的最后一层步长设置为1，以进一步提升初始模型的感受野；另外，初始模型的整个网络的训练使用Adam优化器，例如总共训练150轮次、初始学习率设置为0.0003，并且每40轮下降为原来的0.1。然而，ResNet50作为初始模型仅为示例性，本发明对初始模型的具体类型不作限定，其他卷积神经网络模型也可适用于本发明。

将以上得到的多帧视频输入到初始模型中，其中初始模型的最后一层的分类层之前的输出作为对应视频序列的帧级别特征。

参见图2所示，本发明的实施例提出特征聚合模块(TFI)，用于将获取视频序列的多帧级别特征进行聚合以得到对应的视频级别特征；一般而言，特征聚合模块例如插入到初始模型的最后一层中，用于输出聚合操作得到的视频级别特征。在本实施例中，多帧视频的帧级别特征表示为X＝{f₁，f₂，…，f_T}，其中fi为视频序列中第i帧经过全局最大池化得到的特征。首先，将帧级别特征X分别经过两个独立的卷积层，生成非线性变换之后的两组帧级别特征Q和M，大小是T×C/r，r是维度因子；对一组帧级别特征M执行时序均值池化(TAP)后，得到时序指导特征M′；然后，将时序指导特征M′和转置后的另一组帧级别特征Q进行矩阵相乘操作，再进行Softmax操作之后，便得到时序注意力掩码W。

以上过程可通过如下公式来实现：

其中，TAP表示时序池化操作，ζ表示Softmax操作。

得到时序注意力掩码W之后，对多帧特征进行整合，计算方式如下：

f_g＝W·X

其中，f_g表示视频序列的视频级别特征。

参见图3所示，在本实施例中，针对初始提取的视频序列的帧级别特征，本发明还提出基于通道维度的帧级别特征增强模块(TGFE-C)用于增强所述帧级别特征。具体的，多帧视频的帧级别特征同样表示为X＝{f₁，f₂，…，f_T}，其中fi为视频序列中第i帧的特征，对多帧级别特征进行时序均值池化(TAP)后，得到时序全局特征

然后将X与X_g输入到相关性模块中，以得到帧级别特征与全局特征的相关性，具体步骤为：首先将X与X_g经过两个独立的1×1卷积层，对其进行降维，得到降维后的帧级别特征X′和时序全局特征X′_g，从而可以减少后续的计算量，维度因子为r；接下来，对X′_g进行全局均值池化(GAP)，以得到整个视频序列的全局特征G_c；然后利用全局通道维度信息作为指导，得到全局时序视野上每一帧空间位置的注意力机制指导φ_c。上述过程可通过如下的公式来实现：

其中，GAP表示全局均值池化，ζ表示Softmax操作，公式化为：

其中，i与j分别表示高度和宽度位置。

将帧级别特征X与注意力机制指导φ_c输入到多样性模块中，以进一步挖掘X中的非共享区域的多样性特征。具体地，执行如下操作：

A_c＝σ(W_c(X·φ_c))⊙X

其中，W_c是可学习的1×1卷积(Update-C)的参数，⊙表示进行元素间对应位置的相乘，A_c表示捕获的帧级别的相关性的多样性特征。最后，将A_c通过残差模块连接X，最终的TGFE-C可输出增强的帧级别特征X_c＝X+A_c。

参见图4所示，另外，本发明的实施例还提出基于空间维度的帧级别特征增强模块(TGFE-S)，其结构与上述的基于通道维度的帧级别特征增强模块相类似，仅将其全局均值池化模块替换为基于通道的全局池化模块(GAP-C)即可。需要说明的是，本发明实施例提出的基于通道维度和/或基于空间维度的帧特征增强模块只需要将其分别插入到初始模型的特定阶段，一般而言，帧级别特征增强模块插入到初始模型网络的中间层当中，例如二者为串联或者并联的方式均可，本发明对此不予限制，仅以基于通道维度的帧特征增强模块为示例性说明。

步骤103：基于视频级别特征计算视频级别损失。

本发明的实施例提出视频级别的损失函数对模型进行监督训练，所述视频级别的损失函数为：

其中，f_i表示第i个视频的特征，f_i+表示与第i个视频互为正样本对的特征，f_i-表示与第i个视频互为负样本对的特征；L_CE表示交叉熵损失函数，受行人ID的监督；L_triplet表示三元组损失函数，使得同一行人的特征在特征空间中尽可能靠近，不同行人的特征在特征空间内尽可能远离；L_v的作用为对视频级别特征进行学习。

步骤104：基于视频级别损失对初始模型的模型参数进行优化，得到行人重识别模型。

基于上述步骤，将视频级别特征输入上述的损失函数中，并执行梯度反传，对初始模型的参数进行优化更新，以获得行人重识别模型。在实际训练中，例如训练150轮次，并且每隔10轮次保存一次模型的权重参数。

参见图5所示，基于相同的发明构思，本发明的实施例还提出一种基于时序多样性与相关性的行人重识别模型训练装置200，包括：训练数据获取模块210、特征提取模块220、损失计算模块230及模型生成模块240。

训练数据获取模块210，用于获取训练样本数据，训练样本数据包括多个包含行人的视频序列；

特征提取模块220，用于将训练样本数据输入至初始模型中采样各包含行人的视频序列的多帧视频，并且提取多帧视频的帧级别特征，聚合帧级别特征得到视频级别特征；

损失计算模块230，用于基于视频级别特征计算视频级别损失；

模型生成模块240，用于基于视频级别损失对初始模型的模型参数进行优化，得到行人重识别模型；

其中，通过如下的计算公式进行聚合帧级别特征得到视频级别特征：

f_g＝W·X

于一实施例中，特征提取模块还包括：

特征增强子模块，用于对帧级别特征进行时序均值池化得到时序全局特征；将帧级别特征和时序全局特征经过分别独立的1×1卷积层以进行降维；对降维后的时序全局特征进行时序均值池化，得到视频序列的全局特征；利用全局通道维度信息作为指导，得到每一多帧视频空间位置的注意力机制指导；利用注意力机制指导获取对应帧级别特征的多样性特征，以得到增强的帧级别特征；

特征增强子模块通过如下公式进行：

A_c＝σ(W_c(X·φ_c))⊙X

X_c＝X+A_c

于一实施例中，特征提取模块还包括：

特征聚合子模块，用于将帧级别特征X分别经过两个卷积层，生成非线性变换后的帧级别特征Q和M；对非线性变换后的帧级别特征M进行时序均值池化，得到时序指导特征M′；将时序指导特征M′与转置后的非线性变换后的帧级别特征Q矩阵相乘并进行Softmax操作，得到时序注意力掩码W；

特征聚合子模块通过如下公式进行：

于一实施例中，视频级别损失利用视频级别的损失函数计算得到，所述损失函数为：

通过上述方式完成了对行人重识别模型的训练，下面对所述模型的应用进行说明。参见图6所示，本发明的实施例提出一种基于时序多样性与相关性的行人重识别方法。所述方法包括：步骤301、获取包含目标行人的目标视频序列；步骤302、将目标视频序列输入至通过上述实施例的训练方法得到的行人重识别模型中，得到目标视频序列的视频级别特征；步骤303、计算目标视频序列的视频级别特征与视频库中已存视频序列的视频级别特征的相似度；步骤304、输出相似度大于等于预设阈值的所述已存视频序列。

在对获得的行人重识别模型的实际应用或测试中，首先要获取包含目标行人的目标视频序列，例如其可通过道路侧的摄像头所采集；然后将其输入至通过上述实施例的训练方法得到的行人重识别模型之中，从而得到所述目标视频序列的视频级别特征；接着，将目标视频序列的视频级别特征与视频库已存视频序列的视频级别特征作相似度的比对；最后，基于视频级别特征的相似度比对结果，输出相似度大于等于预设阈值的视频库中的已存视频序列，亦即可通过特征的相似度比对，检索并返回视频库中与目标视频序列的视频级别特征最相似的前几个已存视频序列，具体的距离度量方式例如为欧氏距离，距离越近，则表明该目标视频与已存视频越相似，即相似度越大。

参见图7所示，基于相同的发明构思，本发明的实施例还提出一种基于时序多样性与相关性的行人重识别装置400，包括：目标视频获取模块410、特征获取模块420、相似度计算模块430及结果输出模块440。

目标视频获取模块410，用于获取包含目标行人的目标视频序列；

特征获取模块420，用于将目标视频序列输入至通过上述实施例的训练方法得到的行人重识别模型中，得到目标视频序列的视频级别特征；

相似度计算模块430，用于计算目标视频序列的视频级别特征与视频库中已存视频序列的视频级别特征的相似度；

结果输出模块440，用于输出相似度大于等于预设阈值的已存视频序列。

需要说明的是，所属领域的技术人员可以清楚地了解，为描述的方便和简洁，上述描述的方法、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上，为了验证本发明的实施例提出的方法的有效性，在公开的大规模行人重识别数据集MARS和DuckMTMC-VideoReID上进行实验验证。其中，MARS数据集是基于视频的行人重识别领域最大规模的数据集之一，该数据集共包含1261个行人，采用6个非重叠摄像头采样20715个视频序列，同时所有视频序列中，每个行人至少出现在两个摄像头中，以保证行人视频片段的多样性和全面性。另外，该数据集划分为训练集和测试集，分别包含625个行人和636和行人。DuckMTMC-VideoReID是大规模目标跟踪数据集DukeMTMC的子集，共包含1812个行人和来自8个摄像头的4832个视频片段，也划分训练集与测试集，分别包含2196个视频片段与2636个视频片段。总体上，每段视频有168帧图像。所有数据集的评判准则均为Rank-1准确率与mAP(平均准确率)。

表1

如表1所示，Base表示基线模型(初始模型)，TGFE-C表示基于通道维度的帧级别特征增强模块，TGFE-S表示基于空间维度的帧级别特征增强模块，TFI表示特征聚合模块。基线模型在MARS数据集上实现了88.6％的Rank-1准确率和83.4％的mAP；在基线模型的基础上，加入帧级别特征增强模块(TGFE)之后，模型的准确率有明显提升，Rank-1达到了90.2％的准确率，mAP达到了85.3％的准确率，有2％左右的提升；除此之外，与特征聚合模块(TFI)结合，模型实现了更高的准确率。

另外，参见图8所示，从特征可视化结果来看，本发明实施例提出的方法，可以捕捉到时序多帧之间非共享区域的多样性，显著提升行人特征的区分力和鲁棒性；同时，帧级别特征增强模块包含的多样性结构和相关性结构，利用自注意力机制，能够自适应地将时序全局特征与多帧特征进行交互，并在空间和通道两个维度对帧级别特征进行增强，从而模型可以在不进行多帧特征融合的基础上融入时序信息，既保证了时序特征的相关性，又保证了时序特征的多样性，并且该模块可以插入到任意神经网络的任意层，提升特征表达效果；还有，特征聚合模块设计于模型网络的最后阶段，用于聚合多帧级别特征，可以动态地学习到每一帧特征的重要性，并进行加权融合，在一定程度上可提升特征表达效果。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于时序多样性与相关性的行人重识别模型训练方法，其特征在于，包括：

步骤1、获取训练样本数据，所述训练样本数据包括多个包含行人的视频序列；

步骤2、将所述训练样本数据输入至初始模型中采样各所述包含行人的视频序列的多帧视频，并且提取所述多帧视频的帧级别特征，聚合所述帧级别特征得到视频级别特征；

步骤3、基于所述视频级别特征计算视频级别损失；

步骤4、基于所述视频级别损失对所述初始模型的模型参数进行优化，得到行人重识别模型；

f_g＝W·X

其中，X表示帧级别特征，f_g表示视频级别特征，W表示帧级别特征的时序注意力掩码；

所述步骤2还包括：

步骤21、对所述帧级别特征进行时序均值池化得到时序全局特征；

步骤22、将所述帧级别特征和所述时序全局特征经过分别独立的1×1卷积层以进行降维；

步骤23、对降维后的所述时序全局特征进行时序均值池化，得到所述视频序列的全局特征；

步骤24、利用全局通道维度信息作为指导，得到每一所述多帧视频空间位置的注意力机制指导；

步骤25、利用所述注意力机制指导获取对应所述帧级别特征的多样性特征，以得到增强的所述帧级别特征；

所述步骤23及所述步骤24通过如下公式进行：

φ_c＝ζ(X′·GAP(X′_g))

其中，φ_c表示注意力机制指导，GAP表示全局均值池化，ζ表示Softmax操作，X'和X'_g分别表示降维后的帧级别特征；

所述步骤25通过如下公式进行：

A_c＝σ(W_c(X·φ_c))⊙X

X_c＝X+A_c

其中，A_c表示对应帧级别特征多样性特征，W_c是可学习的1×1卷积层的参数，⊙表示元素间对应位置相乘，X_c表示增强的帧级别特征；

所述步骤2还包括：

步骤26、将所述帧级别特征F分别经过两个卷积层，生成非线性变换后的帧级别特征Q和M；

步骤27、对所述非线性变换后的帧级别特征M进行时序均值池化，得到时序指导特征M'；

步骤28、将所述时序指导特征M'与转置后的所述非线性变换后的帧级别特征Q矩阵相乘并进行Softmax操作，得到时序注意力掩码W；

所述步骤27及所述步骤28通过如下公式进行：

W＝ζ(TAP(M)·Q^T)

2.如权利要求1所述的模型训练方法，其特征在于，所述视频级别损失利用视频级别的损失函数计算得到，所述损失函数为：

3.一种基于时序多样性与相关性的行人重识别模型训练装置，其特征在于，包括：

f_g＝W·X

所述特征提取模块还包括：

所述特征增强子模块通过如下公式进行：

φ_c＝ζ(X′·GAP(X′_g))

A_c＝σ(W_c(X·φ_c))⊙X

X_c＝X+A_c

其中，φ_c表示注意力机制指导，GAP表示全局均值池化，ζ表示Softmax操作，X'和X'_g分别表示降维后的帧级别特征；A_c表示对应帧级别特征多样性特征，W_c是可学习的1×1卷积层的参数，⊙表示元素间对应位置相乘，X_c表示增强的帧级别特征；

所述特征提取模块还包括：

特征聚合子模块，用于将所述帧级别特征X分别经过两个卷积层，生成非线性变换后的帧级别特征Q和M；对所述非线性变换后的帧级别特征M进行时序均值池化，得到时序指导特征M'；将所述时序指导特征M'与转置后的所述非线性变换后的帧级别特征Q矩阵相乘并进行Softmax操作，得到时序注意力掩码W；

所述特征聚合子模块通过如下公式进行：

W＝ζ(TAP(M)·Q^T)

4.如权利要求3所述的模型训练装置，其特征在于，所述视频级别损失利用视频级别的损失函数计算得到，所述损失函数为：

5.一种基于时序多样性与相关性的行人重识别方法，其特征在于，包括：

步骤1、获取包含目标行人的目标视频序列；

步骤2、将所述目标视频序列输入至通过如权利要求1所述的模型训练方法得到的行人重识别模型中，得到所述目标视频序列的视频级别特征；

步骤3、计算所述目标视频序列的视频级别特征与视频库中已存视频序列的视频级别特征的相似度；

步骤4、输出所述相似度大于等于预设阈值的所述已存视频序列。

6.一种基于时序多样性与相关性的行人重识别装置，其特征在于，包括：

特征获取模块，用于将所述目标视频序列输入至通过如权利要求1所述的模型训练方法得到的行人重识别模型中，得到所述目标视频序列的视频级别特征；