CN112800957A

CN112800957A - 视频行人重识别方法、装置、电子设备及存储介质

Info

Publication number: CN112800957A
Application number: CN202110115551.2A
Authority: CN
Inventors: 张宝华; 朱思雨; 谷宇; 张继凯; 黄显武; 刘新
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-14

Abstract

本发明提供一种视频行人重识别方法、装置、电子设备及存储介质，通过重识别模型实现，在重识别模型中引入外观对齐模块，可以使待识别视频中行人的同一身体部位特征位置对齐，进而提高3D卷积核的特征提取能力。而且，通过将同一身体部位特征位置对齐，还可以降低目标对象的外观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征这种情况发生的可能性，可以提高重识别模型的识别精度。

Description

视频行人重识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频行人重识别方法、装置、电子设备及存储介质。

背景技术

由于不断增长的公共安全需要，大规模高质量以及廉价的视频摄像机设备被广泛应用在如机场、地铁、火车站、道路、学校、商场、停车场、剧场等区域。覆盖这些区域的大规模摄像机网络提供了大量的视频数据，用于异常或感兴趣事件检测、目标跟踪、司法部门取证等。但由于视频数量巨大，仅靠人工准确地从摄像机网络中找到感兴趣对象是费时费力的且低效的。因此，利用现代计算机视觉技术，对大量视频数据进行自动分析，可以更快地处理数据并且显著提高监控质量。由于在监控网络中不能都做到视域交叉，而且有建筑物等遮挡、行人位置任意变动，导致行人视频网络中的运动轨迹出现中断，当行人再出现时，需要重新进行关联，这就需要行人重识别方法。

行人重识别方法主要用于跟踪跨摄像头场景所拍摄的无重叠区域内的行人，即在摄像头所拍摄的图像中检取感兴趣的行人图像，然后在跨摄像头场景中检索与感兴趣的行人图像相似的目标。利用该技术查找行人数据库感兴趣的行人图像，可以节省大量的时间和人力。因此，行人重识别方法在智能安防、刑侦工作、搜寻走失人员以及图像检索等方面有良好的应用前景。

行人重识别方法可分为图像行人重识别方法和视频行人重识别方法，视频行人重识别方法中行人在多摄像头视角是一序列图像，因而在视频中可以包含更多时空信息。因此需要使用三维卷积神经网络 (3D Convolutional Neural Networks，3D CNN)中的3D卷积核提取时空信息，虽然3D卷积核善于提取视频中的时空信息，但由于视频行人重识别方法的性能高度依赖于行人外观表示，可能导致在视频行人重识别数据集中存在行人不对齐的问题，严重降低3D卷积核的特征提取能力。而且，由于目标对象的同一身体部位在相邻帧的位置往往不同，且尺寸会变化，目标对象的姿势也会发生变化。因而，目标对象的外观形变时，3D卷积核会将属于目标对象的不同部位的特征混为一个特征，导致3DCNN的识别精度降低。

发明内容

本发明实施例提供一种视频行人重识别方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明实施例提供一种视频行人重识别方法，包括：

获取待识别视频；

将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；

其中，所述重识别模型基于残差网络构建，所述重识别模型中的卷积核为3D卷积核，且所述重识别模型的不同残差块之间包含有外观对齐模块，所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度，将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐；

所述重识别模型基于携带有行人标签的视频样本训练得到。

根据本发明一个实施例的视频行人重识别方法，所述外观对齐模块具体用于：

基于所述第一类输入特征图上每个位置的第一类特征以及所述第一类特征与所述第二类输入特征图上的第二类特征之间的相似度，确定所述第二类输入特征图上相应位置的初始重构特征；

基于非对称映射函数、所述第一类特征以及所述初始重构特征，确定所述第二类输入特征图上相应位置的最终重构特征；

基于所述最终重构特征，确定最终重构得到的第二类输入特征图。

根据本发明一个实施例的视频行人重识别方法，所述重识别模型的不同残差块之间还包含有共分割注意力模块；

所述共分割注意力模块用于基于注意力机制，提取所述第一类输入特征图中包含的配饰特征。

根据本发明一个实施例的视频行人重识别方法，所述共分割注意力模块包括空间注意力层，用于：

计算所述任一视频帧与所述待识别视频中除所述任一视频帧外的其他视频帧中的局部描述符之间的归一化相关性；

基于所述归一化相关性，确定所述任一视频帧的空间掩码；

计算所述空间掩码与所述任一视频帧的第三类输入特征图的乘积结果，以激活所述任一视频帧与所述其他视频帧一致的局部区域。

根据本发明一个实施例的视频行人重识别方法，所述共分割注意力模块还包括通道注意力层，用于：

对所述第三类输入特征图进行全局平均池化，再将生成的特征向量传递给多层感知机；

由所述多层感知机基于sigmoid函数激活输入的所述待识别视频中各视频帧对应的特征向量，确定所述待识别视频中各视频帧对应的通道重要性向量；

将所述待识别视频中所有视频帧对应的通道重要性向量在每个维度上通过平均池化合并在一起，确定全局通道重要性向量；

将所述全局通道重要性向量与所述乘积结果相乘，以确定输出的通道重要性权重向量。

根据本发明一个实施例的视频行人重识别方法，所述重识别模型具体通过如下方法进行训练得到：

调整所述外观对齐模块和所述共分割注意力模块在所述残差网络中的位置，分别得到多个备选重识别模型；

基于携带有行人标签的视频样本，分别对每个备选重识别模型进行训练，并基于每个备选重识别模型的训练结果，确定所述重识别模型。

根据本发明一个实施例的视频行人重识别方法，所述重识别模型在训练过程中采用的损失函数为交叉熵损失结合三重态损失的损失函数。

本发明实施例还提供一种视频行人重识别装置，包括：视频获取模块和行人重识别模块。其中，

视频获取模块用于获取待识别视频；

行人重识别模块用于将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；

所述重识别模型基于携带有行人标签的视频样本训练得到。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频行人重识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频行人重识别方法的步骤。

本发明实施例提供的视频行人重识别方法、装置、电子设备及存储介质，通过重识别模型实现，在重识别模型中引入外观对齐模块，可以使待识别视频中行人的同一身体部位特征位置对齐，进而提高 3D卷积核的特征提取能力。而且，通过将同一身体部位特征位置对齐，还可以降低目标对象的外观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征这种情况发生的可能性，可以提高重识别模型的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频行人重识别方法的流程示意图；

图2是本发明实施例提供的一种重识别模型的结构示意图；

图3是本发明实施例提供的一种视频行人重识别装置的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例中提供的一种视频行人重识别方法的流程示意图，如图1所示，该方法包括：

S1，获取待识别视频；

S2，将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；

所述重识别模型基于携带有行人标签的视频样本训练得到。

具体地，本发明实施例中提供的视频行人重识别方法，其执行主体为服务器，该服务器可以是本地服务器也可以是云端服务器，本地服务器可以是计算机、平板电脑或智能手机等，本发明实施例中对此不作具体限定。

首先执行步骤S1。其中，待识别视频是指需要判断其中各视频帧中是否包含有同一个行人的视频，该待识别视频的时长可以根据需要进行设定，本发明实施例中对此不作具体限定。

然后执行步骤S2。采用的重识别模型可以基于残差网络构建，残差网络中包含有多个残差块，每个残差块中包含有卷积层，卷积层通过相应的卷积核实现卷积。在重识别模型中的卷积核为3D卷积核，且重识别模型的不同残差块之间包含有外观对齐模块，外观对齐模块用于基于待识别视频中任一视频帧对应的第一类输入特征图与任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度，将任一视频帧与相邻视频帧中表示同一身体部位特征的位置进行对齐。

第一类输入特征图是指任一视频帧对应的、输入至外观对齐模块的特征图，第二类输入特征图是指相邻视频帧对应的、输入至外观对齐模块的特征图。相邻视频帧的数量为1或2个，当任一视频帧非待识别视频的首尾视频帧，相邻视频帧可以包括任一视频帧左右两侧相邻的两个视频帧；当任一视频帧为待识别视频的首帧，相邻视频帧为待识别视频中的第二个视频帧；当任一视频帧为待识别视频的尾帧，相邻视频帧为待识别视频中的倒数第二个视频帧。

根据第一类输入特征图以及第二类输入特征图之间的相似度，可以将任一视频帧与相邻视频帧中表示同一身体部位特征的位置进行对齐，即以相似度为指引，搜索相邻视频帧的同一身体部位特征的位置。其中，相似度具体可以是余弦相似度。通过外观对齐模块的引入，可以使待识别视频中行人的同一身体部位特征位置对齐，进而提高 3D卷积核的特征提取能力。而且，通过将同一身体部位特征位置对齐，还可以降低目标对象的外观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征这种情况发生的可能性，可以提高重识别模型的识别精度。

本发明实施例中采用的重识别模型可以通过携带有行人标签的视频样本训练得到，行人标签是通过对视频样本中的行人进行标注得到，视频样本中同一行人采用相同的行人标签进行标注。

本发明实施例中提供的视频行人重识别方法，通过重识别模型实现，在重识别模型中引入外观对齐模块，可以使待识别视频中行人的同一身体部位特征位置对齐，进而提高3D卷积核的特征提取能力。而且，通过将同一身体部位特征位置对齐，还可以降低目标对象的外观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征这种情况发生的可能性，可以提高重识别模型的识别精度。

在上述实施例的基础上，外观对齐模块还可以引入对比注意力学习注意力掩码，以解决部分行人的身体部位缺少的问题。

在上述实施例的基础上，所述外观对齐模块具体用于：

具体地，本发明实施例中首先确定第一类特征以及相应位置上的第二类特征之间的相似度。若待识别视频中包含有T个视频帧，则可以先采样每个视频帧的相邻视频帧，并在非身体部位特征的位置填充 0，共可得到2T个第二类特征图。

在确定相似度之前，可以先将第一类特征以及第二类特征映射到低维空间，具体可以通过线性变换实现。即有：

其中，f(c_i,x_j)表示c_i和x_j之间的余弦相似度，c_i表示第一类输入特征图中位置i处的第一类特征，x_j表示第二类输入特征图中任一位置j处的第二类特征，g(·)表示将特征映射到低维空间的线性变换，语义映射，可以由1×1卷积层实现。s表示比例因子，且有s＞0。

s用于调整余弦相似度的范围，s的取值可以使较高的相似度更高，较低的相似度更低。s的具体取值可以根据需要进行设置，例如可以设置为4。合适的比例因子，可以使外观对齐模块精确定位相邻特征图上的相应区域。

然后，第二类输入特征图上相应位置的初始重构特征可以是初始重构得到的第二类输入特征图上相应位置的响应，该响应可以是第二类输入特征图上所有位置的第二类特征的加权和，以保证初始重构得到的第二类输入特征图包括所有具有相同外观特征的像素。即有：

其中，y_i表示第二类输入特征图上位置i处的初始重构特征。

然后，由于c_i和y_i分别来自第一类输入特征图和初始重构得到的第二类输入特征图，因此可以使用两个非对称映射函数θ(·)和φ(·)先分别将第一类特征以及初始重构特征映射到共享的低维语义空间。结合非对称映射函数，确定出第二类输入特征图上相应位置的最终重构特征。即有：

其中，z_i表示第二类输入特征图上位置i处的最终重构特征，w是通过1×1卷积层实现的可学习的权重矢量，

表示哈达玛积。

此处，为减少计算量，可以将上述卷积层的输出通道数设置为原始输出通道数的1/16，即C/16，C为原始输出通道数。

最后，可以根据最终重构特征确定最终重构得到的第二类输入特征图，将第一类输入特征图以及最终重构得到的第二类输入特征图进行整合，形成临时张量。通过步幅为(3,1,1)的3×3×3卷积层，生成 T帧的输出张量，最终实现3D卷积层对时间关系进行建模。

本发明实施例中，通过外观对齐模块最终重构得到的第二类输入特征图，可以确保任意相邻的特征图的身体部位特征位置对齐。

在上述实施例的基础上，本发明实施例中提供的视频行人重识别方法，所述重识别模型的不同残差块之间还包含有共分割注意力模块；

具体地，由于现有技术中存在的大多数方法均只针对行人的身体部位信息，即外观信息，而忽略了重要的附属信息，例如配饰信息，这也将导致识别精度降低。为此，本发明实施例中在重识别模型的不同残差块之间还引入共分割注意力模块。通过共分割注意力模块，采用注意力机制，提取出任一视频帧对应的第一类输入特征图中包含的配饰特征，有效提高识别精度。

在上述实施例的基础上，本发明实施例中提供的视频行人重识别方法，所述共分割注意力模块包括空间注意力层，用于：

基于所述归一化相关性，确定所述任一视频帧的空间掩码；

具体地，本发明实施例中，空间注意力层的目标是为同一个行人的每个帧估计一个空间掩码，只能通过与所有给定的T个视频帧共同激活该人的空间位置。设视频帧数为T，每个视频帧的索引p和特征图的尺寸为D_L×H_L×W_L(D_L为通道数，H_L为高度，W_L为宽度)。经过卷积层之后得到的特征图进入共分割注意力模块。

为了加快计算速度，将输入特征图通过降维层，使通道数从D_L减少到D_R(D_R远小于D_L)，输出尺寸为D_R×H_L×W_L的特征图。

为了匹配跨帧的局部区域，通过对光照变化具有鲁棒性的归一化互相关操作，将每个视频帧的局部描述符与其他视频帧的局部描述符进行比较。每个帧的空间位置都包含这个比较值C。即有：

其中，C_(n)(i,j)为第n个视频帧中第i行第j列的局部描述符的比较值，

是维度为D_R×H_L×W_L的空间特征图F_n,p在每个空间位置(i,j) (1≤i≤H_L,1≤j≤W_L)的一个D_R维的局部描述符。

给定D_R维的两个局部描述符P、Q，归一化互相关计算公式为：

其中，(μ_P,μ_Q)分别表示局部描述符(P,Q)的平均值，(σ_P,σ_Q)分别表示局部描述符(P,Q)的标准偏差。

通过1×1卷积层以及S型激活函数来汇总任一视频帧的空间掩码，将空间掩码与第三类输入特征图相乘，以激活任一视频帧中与所有T-1个视频帧一致的局部区域。

其中，第三类输入特征图是指任一视频帧对应的、输入至空间注意力层的特征图。

在上述实施例的基础上，本发明实施例中提供的视频行人重识别方法，所述共分割注意力模块还包括通道注意力层，用于：

本发明实施例中，通过共分割注意力模块，能够提取待识别视频内行人的配饰信息，通过视频帧间的局部描述符计算通道重要性权重向量，并将其与空间注意力特征融合，改善配饰信息提取效果，抑制背景特征，有效提高识别精度。

在上述实施例的基础上，本发明实施例中提供的视频行人重识别方法，所述重识别模型具体通过如下方法进行训练得到：

具体地，首先可以构建视频样本，之后采用残差网络框架提取行人特征，在特征提取过程中，将残差网络框架中的2D卷积替换为 3D卷积，提取更多的时空信息。在残差网络的不同残差块之间加入外观对齐模块(Active Appearance Model，AAM)，改进外观对齐模块并调整在网络中的位置，重建对齐的行人外观，提高3D卷积层提取信息的准确性。另外再加入改进的共分割注意力模块(CSAM)，提高行人及其配饰信息，抑制背景信息。提取特征后计算交叉熵损失结合三重态损失的损失函数并用自适应矩估计(Adam)优化算法进行优化，最后对识别结果进行排序，以及计算识别准确率和精度。

训练的具体步骤如下：

第一步：分别把MARS数据集、DukeMTMC-VideoReID数据集和iLIDS-VID数据集作为视频样本集，使用加入外观对齐模块和共分割注意力模块的残差50层网络进行特征提取。

第二步：调整共分割注意力模块和外观对齐模块在残差50层网络中的位置，根据位置不同对重识别模型进行多次训练。

第三步：对比重识别模型的重识别结果和行人标签，并计算交叉熵损失结合三重态损失的损失函数，使用Adam优化算法进行优化，减小相同行人的特征距离。

第四步：设置阈值，对小于阈值的正样本进行排序。

如图2所示，为本发明实施例中提供的重识别模型的结构示意图，图2中重识别模型在对待识别视频进行识别时，包含有stage1、stage2、 stage3以及stage4这四个阶段，重识别模型中可以包含至少一个外观对齐模块(AAM)以及至少一个共分割注意力模块(CSAM)。

综上所述，本发明实施例中提出了基于外观对齐和共分割注意力的视频行人重识别方法，在三个视频行人重识别普遍采用的数据集上都取得了较好的效果。从研究结果来看，因为DukeMTMC-VideoReID 数据集是手工标注的，外观不对齐现象可忽略，因此精度提升相比其他数据集较小，iLIDS-VID数据集取自航空接站大厅，行人不对齐和背景杂乱等问题非常严重，因此精度提升较多。

表1中通过首位识别准确率(Rank1)、前五位识别准确率(Rank5) 和平均精度均值(mAP)来评估性能。以上指标越大，说明识别准确率越高。由表1中数据可以看到，本方法在首位识别准确率(Rank1)、前五位识别准确率(Rank5)和平均精度均值(mAP)等指标和其他方法相比都有明显改善，实验证明该方法是有效的。

表1与相关方法无监督行人重识别结果对比

如图3所示，在上述实施例的基础上，本发明实施例中提供了一种视频行人重识别装置，包括：视频获取模块31和行人重识别模块32。其中，

视频获取模块31用于获取待识别视频；

行人重识别模块32用于将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；

所述重识别模型基于携带有行人标签的视频样本训练得到。

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述外观对齐模块具体用于：

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述重识别模型的不同残差块之间还包含有共分割注意力模块；

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述共分割注意力模块包括空间注意力层，用于：

基于所述归一化相关性，确定所述任一视频帧的空间掩码；

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述共分割注意力模块还包括通道注意力层，用于：

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述重识别模型具体通过如下方法进行训练得到：

在上述实施例的基础上，本发明实施例中提供的视频行人重识别装置，所述重识别模型在训练过程中采用的损失函数为交叉熵损失结合三重态损失的损失函数。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行上述各实施例中提供的视频行人重识别方法，包括：获取待识别视频；将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；其中，所述重识别模型基于残差网络构建，所述重识别模型中的卷积核为3D卷积核，且所述重识别模型的不同残差块之间包含有外观对齐模块，所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度，将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐；所述重识别模型基于携带有行人标签的视频样本训练得到。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例中提供的视频行人重识别方法，包括：获取待识别视频；将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；其中，所述重识别模型基于残差网络构建，所述重识别模型中的卷积核为3D卷积核，且所述重识别模型的不同残差块之间包含有外观对齐模块，所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度，将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐；所述重识别模型基于携带有行人标签的视频样本训练得到。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的视频行人重识别方法，包括：获取待识别视频；将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；其中，所述重识别模型基于残差网络构建，所述重识别模型中的卷积核为3D卷积核，且所述重识别模型的不同残差块之间包含有外观对齐模块，所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度，将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐；所述重识别模型基于携带有行人标签的视频样本训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频行人重识别方法，其特征在于，包括：

获取待识别视频；

所述重识别模型基于携带有行人标签的视频样本训练得到。

2.根据权利要求1所述的视频行人重识别方法，其特征在于，所述外观对齐模块具体用于：

3.根据权利要求2所述的视频行人重识别方法，其特征在于，所述重识别模型的不同残差块之间还包含有共分割注意力模块；

4.根据权利要求3所述的视频行人重识别方法，其特征在于，所述共分割注意力模块包括空间注意力层，用于：

基于所述归一化相关性，确定所述任一视频帧的空间掩码；

5.根据权利要求4所述的视频行人重识别方法，其特征在于，所述共分割注意力模块还包括通道注意力层，用于：

6.根据权利要求3所述的视频行人重识别方法，其特征在于，所述重识别模型具体通过如下方法进行训练得到：

7.根据权利要求1-6中任一项所述的视频行人重识别方法，其特征在于，所述重识别模型在训练过程中采用的损失函数为交叉熵损失结合三重态损失的损失函数。

8.一种视频行人重识别装置，其特征在于，包括：

视频获取模块，用于获取待识别视频；

行人重识别模块，用于将所述待识别视频输入至重识别模型，得到所述重识别模型输出的所述待识别视频的行人重识别结果；

所述重识别模型基于携带有行人标签的视频样本训练得到。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视频行人重识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述视频行人重识别方法的步骤。