CN110163041A

CN110163041A - 视频行人再识别方法、装置及存储介质

Info

Publication number: CN110163041A
Application number: CN201810300886.XA
Authority: CN
Inventors: 邵杰; 欧阳德强; 张永辉; 申恒涛
Original assignee: Tencent Technology Shenzhen Co Ltd; University of Electronic Science and Technology of China
Current assignee: Tencent Technology Shenzhen Co Ltd; University of Electronic Science and Technology of China
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-08-23

Abstract

本发明公开了一种视频行人再识别方法、装置及存储介质，属于图像处理技术领域。所述方法包括：获取第一视频和至少一个第二视频；将第一视频和至少一个第二视频输入到视频行人再识别模型，输出第一全局特征和至少一个第二全局特征，全局特征用于表征视频中人的主体信息及时空细节信息，时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；获取满足预设条件的第二视频。本发明基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

Description

视频行人再识别方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种视频行人再识别方法、装置及存储介质。

背景技术

在现代生活中，公共安全问题逐渐引起用户的广泛关注，各种公共场所包括火车站、机场、商场、医院、体育馆以及住宿小区等人流大的地方，公共安全问题变得尤为重要。目前，这些公共场所的各个区域内均设置有摄像头，当在一个摄像头中发现可疑行人后，通过对其他摄像头拍摄的视频中可疑行人进行再识别，能够保障这些公共场所安全。然而，随着监控区域的逐步增加，摄像头的分布范围越来越广泛，如果采用人工的方式对海量视频中的行人逐一进行再识别，不仅识别效率较低，而且识别成本较高。为了解决识别效率及识别成本问题，可对其他摄像头拍摄的视频行人进行初步再识别，然后再采用人工方式对可能包括该可疑行人的视频进行识别。

相关技术进行视频行人再识别的过程为：获取第一视频和至少一个第二视频，该第一视频和至少一个第二视频由覆盖不用区域的摄像头拍摄得到；调用CNN(Convolutional Neural Network，卷积神经网络)和递归神经网络，将第一视频和至少一个第二视频输入到CNN和递归神经网络中，输出第一视频特征和至少一个第二视频特征，其中，视频特征用于体现视频中行人的主体信息；根据第一视频特征和至少一个第二视频特征，对至少一个第二视频进行识别，得到满足预设条件的视频。

受限于CNN和递归神经网络本身的缺陷，采用CNN和递归神经网络提取的视频特征所包括的视频信息中缺乏对视频行人再识别起关键作用的信息，导致基于视频特征识别得到的视频不够准确。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频行人再识别方法、装置及存储介质。所述技术方案如下：

一方面，提供了一种视频行人再识别方法，所述方法包括：

获取第一视频和至少一个第二视频，所述第一视频和所述至少一个第二视频由覆盖不同区域的摄像头拍摄得到；

调用视频行人再识别模型，将所述第一视频和所述至少一个第二视频输入到所述视频行人再识别模型，输出第一全局特征和至少一个第二全局特征，所述第一全局特征用于表征第一视频中行人的主体信息及时空细节信息，所述至少一个第二全局特征用于表征所述至少一个第二视频中行人的主体信息及时空细节信息，所述时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；

从所述至少一个第二视频中，获取目标视频，所述目标视频为第二全局特征与所述第一全局特征之间的距离满足预设条件的第二视频；

其中，所述视频行人再识别模型用于基于视频的全局特征，从至少一个视频中识别出包括参考视频中特定行人的视频。

另一方面，提供了一种视频行人再识别装置，所述装置包括：

获取模块，用于获取第一视频和至少一个第二视频，所述第一视频和所述至少一个第二视频由覆盖不同区域的摄像头拍摄得到；

处理模块，用于调用视频行人再识别模型，将所述第一视频和所述至少一个第二视频输入到所述视频行人再识别模型，输出第一全局特征和至少一个第二全局特征，所述第一全局特征用于表征第一视频中行人的主体信息及时空细节信息，所述至少一个第二全局特征用于表征所述至少一个第二视频中行人的主体信息及时空细节信息，所述时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；

所述获取模块，用于从所述至少一个第二视频中，获取目标视频，所述目标视频为第二全局特征与所述第一全局特征之间的距离满足预设条件的第二视频；

另一方面，提供了一种服务器，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现视频行人再识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现视频行人再识别方法。

本发明实施例提供的技术方案带来的有益效果是：

基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频行人再识别模型的结构；

图2是本发明实施例提供的一种建立视频行人再识别模型的方法流程图；

图3是本发明实施例提供的双流卷积神经网络的模型结构示意图；

图4是本发明实施例提供的时空注意力模型的结构示意图；

图5是本发明实施例提供的一种视频行人再识别方法的流程图；

图6是本发明实施例提供的一种视频行人再识别的装置结构示意图；

图7是根据一示例性实施例示出的一种用于视频行人再识别的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

随着城市建设和发展，利用众多摄像头快速、准确获取场景中行人的信息，对不同摄像头拍摄的视频行人进行再识别，能够帮助公共安全监管部门了解已发生案件的真相，为公安刑侦和安防监控提供重要指导。视频行人再识别是指对于某一个摄像头中出现的行人，检测其是否在其他摄像头中再次出现。视频行人识别技术融合了计算机图像处理、计算机视觉、模式识别以及人工智能等学科的知识内容，通过对海量视频中的行人进行检测、识别、跟踪及再识别等过程，可实现对特定行人的追踪。然而，一方面，随着监控区域的逐步增加，摄像头的分布范围越来越广泛；另一方面，为了扩大监控区域，每个摄像头的拍摄角度及拍摄区域不同，且行人在公共场所活动具有很大的随机性，每个行人被不同摄像头拍摄到的图像中姿态及背景图像大不相同，这些无形中增加了识别的难度。若仅仅依靠人工方式对海量视频进行识别，不仅成本较高，且效率极端低下，而利用计算机实现的视频识别方法，能够有效地解决这个问题，已成为公共智能化的发展方向。

利用计算机进行视频行人再识别时，通常需要先建立一个视频行人识别模型，该视频识别模型的质量直接影响视频识别结果的准确性。目前，相关技术在建立视频行人再识别模型时，主要采用如下方法：从具有不同覆盖区域的摄像头采集的视频中，选取最能表征视频的至少一帧视频图像，基于卷积神经网络和递归神经网络对每帧视频图像进行低等级的图像特征提取，通过对从每个视频的至少一帧视频图像中提取的图像特征进行平均值计算，得到每个视频的视频特征，进而基于至少一个视频的视频特征训练视频行人再识别模型。采用该种方法并未精确地从视频中学习出更多的视频特征，提取的视频特征所表征的视频中的行人的信息不够丰富，缺乏对视频行人再识别起关键作用的细节信息，导致训练的视频行人再识别模型不够准确，最终影响了视频行人再识别结果的准确性。

为了提高视频行人再识别结果的准确性，本发明实施例提供了一种视频行人再识别模型的建立方法，该方法通过获取至少一个训练样本视频，并将所获取的每个训练样本视频中每帧视频图像输入到初始视频识别模型包括的特征提取模型中，输出每个训练样本视频中每帧视频图像的图像特征，然后，将每个训练样本视频中每帧视频图像的每个特征元素输入到初始行人再视频识别模型包括的初始空间注意力模型，输出每帧视频图像的每个特征元素对应的局部特征，接着，将每个训练样本视频中每帧视频图像的每个局部特征输入到初始视频行人再识别模型包括的初始时间注意力模型，输出每个训练样本视频的全局特征，进而根据每个训练样本视频的全局特征，对初始空间注意力模型和初始时间注意力模型进行训练，得到空间注意力模型和时间注意力模型，该特征提取模型、空间注意力模型及时间注意力模型构成了已训练的视频行人再识别模型。采用该种方法在模型训练过程中，采用时间注意力模型在保留视频中注意的时间结构的同时，采用空间注意力模型在每帧图片上重点关注一些关键区域，使得基于所建立的视频行人再识别模型进行视频识别时，不仅能够把握视频中行人的主体信息，而且能够捕捉到一些关键且易忽视的细节信息，因此，使得所建立的视频行人再识别模型更准确，进一步提高了视频行人再识别结果的准确性。

图1示出了本发明实施例提供的视频行人再识别模型的结构，该视频行人再识别模型包括多组并行网络单元，可对视频中的多帧视频图像并行进行处理，从而大大提高了处理速度。每个网络单元包括一个双流卷积神经网络、一个长短记忆型递归神经网络。

其中，双流卷积神经网络包括两路卷积神经网络。第一路卷积神经网络用于输入视频图像，包括池化层和卷积层；第二路卷积神经网络用于输入视频图像的光流图，包括卷积层、池化层及融合层。

长短记忆型递归神经网络设置有空间注意力模型和时间注意力模型，该空间注意力模型和时间注意力模型可对每帧视频图像进行编码，从而使得长短记忆性递归神经网络进行解码时能够选择性地关注每帧图像的关键区域，从而在视频识别任务中可捕捉到更多的关键细节。

基于图1所示的网络结构，本发明实施例提供了一种建立视频行人再识别方法的流程图，参见图2，本发明实施例提供的方法流程包括：

201、服务器获取至少一个训练样本视频。

其中，至少一个训练样本视频由覆盖不同区域的摄像头对至少一个行人拍摄得到，每个训练样本视频包括至少两帧连续的视频图像。以采用两个摄像头对至少一个行人进行拍摄为例，服务器获取至少一个训练样本视频的步骤如下：

2011、服务器获取由覆盖不同区域的摄像头对至少一个行人拍摄得到的至少一个视频，并将得到的至少一个视频构成视频数据集合。

2012、服务器从视频数据集合中提取对至少一个a个行人的随机采样，得到2a个视频。

其中，a为自然数，可根据服务器的处理能力及识别精度确定。

2013、服务器对2a个视频进行处理，得到2a个均包括k帧连续视频图像的训练样本视频。

由于每个摄像头对同一行人进行追踪拍摄时，拍摄到的视频中包括的视频图像的帧数是不相同的，为了便于后续计算，服务器可对从每个视频中，提取k帧连续的视频图像，组成训练样本视频。通过该种处理方式，最终可得到2a个训练样本视频。其中，K为自然数，可根据服务器的处理能力及识别精度确定。

例如，服务器获取采用两个i-LIDS多镜头摄像头对300个行人追踪拍摄得到的iLIDS-VID视频数据集合，该视频数据集合包括300个行人的600个视频，然后，服务器从600个视频中，提取16帧连续的视频图像，得到600个训练样本视频。

202、服务器获取初始视频行人再识别模型。

其中，初始视频行人再识别模型包括特征提取模型、初始空间注意力模型及初始时间注意力模型等。在本发明实施例中，特征提取模型可以为图1所示的双流卷积神经网络，用于提取输入视频图像的图像特征；初始空间注意力模型和初始时间注意力模型为本发明实施例中需要训练的模型，具体地，初始空间注意力模型中模型参数为W_a、U_a、z_a，初始时间注意力模型的模型参数为W_b、U_b、z_b。

203、服务器将每个训练样本视频中每帧视频图像输入到特征提取模型，输出每个训练样本视频中每帧视频图像的图像特征。

其中，特征提取模型包括双流卷积神经网络等。服务器将每个训练样本视频中每帧视频图像输入到特征提取模型，输出每个训练样本视频中每帧视频图像的图像特征时，可采用如下步骤：

2031、服务器获取每个训练样本视频中每帧视频图像的光流图。

其中，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，可利用图像序列中像素在时间域上的变化，以及相邻帧之间的相关性找到前一帧图像和当前帧图像之间的对应关系，从而计算出相邻帧之间物体的运动信息。一般来说，光流是由场景中前景目标本身的移动、相机的运动，或者两者共同运动所产生的。

服务器通过采用光流算法对视频图像进行处理，可得到视频图像的光流图。其中，光流算法包括Lucas-Kanade光流算法、Farneback光流算法等。以采用Lucas-Kanade光流算法为例，服务器获取视频图像的光流图的过程为：设定光流在局部区域内保持不变，对于任一视频图像，服务器采用最小二乘法计算视频图像中每个像素点的光流，得到该视频图像的光流图。

2032、服务器将每帧视频图像和对应的光流图输入到双流卷积神经网络，输出每帧视频图像的图像特征。

其中，双流卷积神经网络包括两路卷积神经网络，第一路卷积神经网络包括卷积层和池化层，用于对每帧视频图像进行特征提取，第二路卷积神经网络包括卷积层、池化层及融合层，用于对每帧视频图像对应的光流图进行特征提取，并将两路卷积神经网络提取的特征进行融合。服务器通过将每帧视频图像和对应的光流图输入到双流卷积神经网络，最终可输出每帧视频图像的图像特征。每帧视频图像的图像特征包括至少一个特征元素，每个特征元素为图像特征中一个维度的特征。

其中，卷积层包括多个卷积参数，可用于对视频图像进行卷积操作。卷积层的各个卷积参数可直接采用现有技术中已训练的卷积神经网络中卷积层的各个卷积参数，也可以获取大量图像重新进行训练，本发明实施例对此不作具体的限定。池化层包括多个池化参数，可用于对视频图像进行池化操作，该池化操作包括最大池化操作、平均池化操作等。池化层的各个参数可直接采用现有技术中已训练的卷积神经网络中池化层的各个池化参数，也可以获取大量图像重新进行训练，本发明实施例对此不作具体的限定。融合层用于对经过卷积操作和池化操作所提取的特征进行融合，该融合过程可看作是对所提取的各个特征的串联过程。例如，对于任意两张图像，第一张图像经过卷积操作和池化操作提取的特征为v_a，第二张图像经过卷积操作和池化操作所提取的特征为v_b，采用融合层对这两张图像中的特征进行融合时，可直接将两个特征串联在一起，得到融合后的特征v＝{v_a,v_b}。

图3示出了一种双流卷积神经网络，参见图3，第一路卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层及第三池化层等，第二路卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第一融合层、第三卷积层、第三池化层及第二融合层等。基于图3所示的双流卷积神经网络，服务器将视频图像和光流图输入到双流卷积神经网络，得到视频图像的图像特征的过程为：服务器将视频图像输入到第一路卷积神经网络，对视频图像经过第一卷积层、第一池化层、第二卷积层及第二池化层处理得到的第一图像特征分两路处理，一路将第一图像特征输入到第二路卷积神经网络的第一融合层，另一路将第一图像特征输入到第三卷积层和第三池化层进行处理，得到第二图像特征，将第二图像特征输入到第二路卷积神经网络中的第二融合层。同时服务器将光流图输入到第二路卷积神经网络，采用第一个融合层对光流图经过两个第一卷积层、第一池化层、第二卷积层及第二池化层处理得到的第三图像特征和第二图像特征进行融合，输出第四图像特征，将第四图像特征输入到第三卷积层和第三池化层进行处理，输出第五图像特征，采用第二融合层对第二图像特征和第五图像特征进行融合，输出视频图像的图像特征。设定视频图像的图像特征为n个，则视频图像的图像特征可表示为V＝{v₁,v₂,...,v_n}。

204、服务器将每个训练样本视频中每帧视频图像的每个特征元素输入到初始空间注意力模型，输出每帧视频图像的每个特征元素对应的局部特征。

其中，局部特征用于表征包括视频中行人的空间细节信息，空间细节信息用于表征每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度。基于每帧视频图像的图像特征中每个特征元素的重要程度，在进行视频行人再识别时，可采用不同的计算资源进行计算。对于重要程度高的特征元素，可采用更多的计算资源进行计算，对于重要程度低的特征元素，可采用较少的计算资源进行计算。基于空间注意力模型，可对每帧视频图像上关键区域进行重点关注，从而在视频行人再识别任务中能够关注更多的细节信息，以提高视频行人再识别结果的准确性。

服务器将每个训练样本视频中每帧视频图像的每个特征元素输入到初始空间注意力模型，输出每帧视频图像的局部特征时，可采用如下步骤：

2041、服务器根据初始空间注意力模型的模型参数、每帧视频图像的每个特征元素及每个特征元素的隐藏状态，获取每帧视频图像的每个特征元素的第一关联分数。

其中，每个特征元素的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征中相应的特征元素。服务器根据初始空间注意力模型的模型参数、每帧视频图像的每个特征元素及每个特征元素的隐藏状态，可应用公式(1)获取每帧视频图像的每个特征元素的第一关联分数：

其中，t表示当前的状态；i表示训练样本视频中的第i帧视频图像，设定训练样本视频包括的视频图像的帧数为k，则i的取值为[1，k]；j表示图像特征的第j个特征元素，设定从视频图像的图像特征包括的特征元素数量为n，则j的取值为[1，n]；v_ij表示第i帧视频图像上的第j个特征元素；表示第i帧视频图像上的第j个特征元素的第一关联分数；h_t-1包括第j个特征元素的隐藏状态，其存储了样本视频中已输入的所有帧视频图像的图像特征中相应的特征元素。

2042、服务器对每帧图像的每个特征元素的第一关联分数进行归一化计算，得到每帧视频图像的每个特征元素的空间注意力权重值。

当采用公式(1)所示的方法计算出每帧图像的每个特征元素的第一关联分数之后，服务器通过对每帧图像的每个特征元素的第一关联分数进行归一化计算，得到每帧视频图像的每个特征元素的空间注意力权重值。在进行归一化计算时，可采用softmax函数。softmax函数用于在多分类过程中将多个神经元输出，并映射到(0，1)区间内，从而将归一化问题转化为概率问题进行求解。服务器采用softmax函数对每个特征元素的第一关联分数进行归一化计算，得到每帧视频图像的每个特征元素的空间注意力权重值。具体地，每个特征元素的空间注意力权重值如公式(2)所示：

其中，表示第i帧视频图像上的第j个特征元素的空间注意力权重值。

2043、服务器将每帧视频图像的每个特征元素和对应的空间注意力权重值的乘积，作为每帧视频图像的每个特征元素对应的局部特征。

当采用上述步骤2042所示的方法表示出每帧视频图像的每个特征元素的空间注意力权重值，服务器将每帧视频图像的每个特征元素和对应的空间注意力权重值的乘积，作为每帧视频图像的每个特征元素对应的局部特征。具体地，每帧视频图像的每个特征元素对应的局部特征如公式(3)所示：

其中，表示第i帧视频图像上的第j个特征元素的局部特征，j的取值为1,2，…，n；表示第i帧视频图像上的第j个特征元素的空间注意力权重值；v_ij表示第i帧视频图像上的第j个特征元素。

对于一张视频图像而言，其上各个特征元素的空间注意力权重值之和为1，即

当任一训练样本视频中每帧视频图像均采用204所示的方法处理之后，可得到一个长度为n的局部空间矩阵，该矩阵可用公式(4)表示：

如果将公式(3)代入到公式(4)中，则可得到

如果将用V_g表示，将用v_g1表示，将用v_g2表示，…，将用v_gk表示，则转换为V_g＝{v_g1,v_g2,...,v_gk}。

本发明实施例提供的方法采用空间注意力模型对每帧视频图像进行编码，使得递归神经网络进行解码时能够选择性地关注每帧视频图像的局部特征，从而在视频识别任务中能够捕捉到每帧视频图像的更多关键细节，从而提高了所训练的空间注意力模型的识别精度。

205、服务器将每个训练样本视频中每帧视频图像的每个局部特征输入到初始时间注意力模型，输出每个训练样本视频的全局特征。

其中，全局特征用于表征视频中人的主体信息及时空细节信息，时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度，每帧视频图像在视频识别过程中的重要程度体现在时间方面，每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度体现在空间方面，通过在时间方面和空间方面对视频图像进行不同程度的关注，使得包括更多细节的视频图像被着重处理，从而提高了识别结果的准确性。

服务器将每个训练样本视频中每帧视频图像的每个局部特征输入到初始时间注意力模型，输出每个训练样本视频的全局特征时，可采用如下步骤：

2051、服务器根据初始时间注意力模型的模型参数、每个训练样本视频中每帧视频图像的所有局部特征及每帧视频图像的隐藏状态，获取每帧视频图像的第二关联分数。

其中，每帧视频图像的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征。服务器根据初始时间注意力模型的模型参数、每个训练样本视频中每帧视频图像的所有局部特征及每帧视频图像的隐藏状态，可应用公式(5)获取每帧视频图像的第二关联分数：

其中，t表示当前的状态；i表示视频序列中的第i帧视频图像，设定训练样本视频包括的视频图像的帧数为k，则i的取值为[1，k]；表示第i帧视频图像的第二关联分数；v_gi表示第i帧视频图像的全局图像特征，该即

2052、服务器对每帧图像的第二关联分数进行归一化计算，得到每帧视频图像的时间注意力权重值。

当采用公式(5)所示的方法计算出每帧视频图像的第二关联分数之后，服服务器通过对每帧图像的第二关联分数进行归一化计算，得到每帧视频图像的时间注意力权重值。在进行归一化计算时，可采用softmax函数。服务器采用softmax函数对每帧图像的第二关联分数进行归一化计算，得到每帧视频图像的时间注意力权重值。具体地，每帧视频图像的时间注意力权重值如公式(6)所示：

其中，表示视频图像的时间注意力权重值。对于同一帧视频图像的不同图像特征而言，其对应的时间注意力权重值相同。

2053、服务器将每个训练样本视频的每帧视频图像的所有局部特征和对应的时间注意力权重值的乘积，作为每个训练样本视频的全局特征。

当采用上述步骤2052所示的方法表示出每帧视频图像的时间注意力权重值，服务器将每个训练样本视频的每帧视频图像的所有局部特征和对应的时间注意力权重值的乘积，作为每个训练样本视频的全局特征。具体地，每个训练样本视频的全局特征如公式(7)所示：

对于任一训练样本视频而言，其所包括的各个视频图像的时间注意力权重值之和为1，即

采用时间注意力模型，可对视频行人再识别过程中起关键作用的视频图像进行重点关注，从而能够在视频行人再识别任务中获取到更多的细节信息，以提高视频行人再识别结果的准确性。

206、服务器根据每个训练样本视频的全局特征，对初始空间注意力模型和初始时间注意力模型进行训练，得到空间注意力模型和时间注意力模型。

本发明实施例对初始空间注意力模型的训练过程，也即是对该初始空间注意力模型的各个模型参数的训练过程，该初始空间注意力模型的模型参数包括W_a、U_a、z_a等。为了获取到更准确的模型参数，服务器需要进行多次迭代计算，在每次迭代过程中对于每帧视频图像而言，初始空间注意力模型中的模型参数都是相同的，在不同次迭代过程中，对于同一帧图像而言，初始空间注意力模型中的模型参数是不同的。

相应地，本发明实施例对初始时间注意力模型的训练过程，也即是对该初始时间注意力模型的各个模型参数的训练过程，该初始时间注意力模型的模型参数包括W_b、U_b、z_b等。为了获取到更准确的模型参数，服务器需要进行多次迭代计算，在每次迭代过程中对于每帧视频图像而言，初始时间注意力模型中的模型参数都是相同的，在不同次迭代过程中，对于同一帧视频图像而言，初始时间注意力模型中的模型参数是不同的。

具体地，服务器根据每个训练样本视频的全局特征，对初始空间注意力模型和初始时间注意力模型进行训练，得到空间注意力模型和所述时间注意力模型时，可采用如下步骤：

2061、服务器将每个训练样本视频的全局特征输入到预先构建的目标损失函数中。

服务器获取每个训练样本视频的每帧视频图像的全局特征，并计算每个训练样本视频包括的所有帧视频图像的全局特征的平均值，从而得到每个训练样本视频的视频特征。图4示出了本发明实施例所示的空间注意力模型及时间注意力模型的示意图，由图4可知，服务器采用空间注意力模型对训练样本视频中的每帧视频图像进行编码，得到每帧视频图像上每个特征元素的局部特征，并将其输入到LSTM(Long Short-Term Memory，长短记忆网络)中，采用时间注意力模型对训练样本视频中每帧视频图像的局部特征进行编码，得到训练样本视频中每帧视频图像的全局特征，接着，服务器计算每个训练样本视频包括的所有帧视频图像的全局特征的平均值，得到每个训练样本视频的视频特征。

其中，目标损失函数的构建过程如下：

以从覆盖区域不同的两个摄像头中获取的两个训练样本视频为例，服务器根据两个训练样本视频的视频特征，确定的目标损失函数如公式(8)所示：

Q(v_a,v_b)＝E(v_a,v_b)+L(v_a)+L(v_b) (8)

其中，v_a、v_b表示两个训练样本视频；Q(v_a,v_b)表示两个训练样本视频对应的目标损失函数；E(v_a,v_b)表示v_a、v_b之间的距离；L(v_a)表示训练样本视频v_a的目标函数；L(v_b)表示训练样本视频v_b的目标函数。

具体地，其中，表示v_a、v_b为两个摄像头采集到的同一行人的训练样本视频时，v_a、v_b之间的欧式距离；为v_a、v_b为两个摄像头采集到的不同行人的训练样本视频时，v_a、v_b之间的欧式距离；γ表示一个已知参数。

对于任一训练样本视频，其目标函数为公式(9)：

其中，v表示视频特征；L(v)表示目标函数；λ₁、λ₂为正则化系数；S_i为softmax的权重矩阵。

对于训练样本视频v_a，其目标函数为：

对于训练样本视频v_b，其目标函数为：

上述虽然以两个训练样本视频确定目标损失函数为例，但该目标损失函数同样适用于至少两个训练样本视频。对于至少两个训练样本视频，其目标损失函数只需对两个训练样本视频对应的目标损失函数进行扩展，具体地，可将两个训练样本视频之间的距离，扩展为至少两个训练样本视频中任意两个训练样本视频之间的距离，将两个训练样本视频的目标函数扩展为至少两个训练样本视频的目标函数。

实际上，该目标损失函数中包括初始空间注意力模型的模型参数、初始的时间注意力模型的模型参数及softmax的权重矩阵等需要训练的参数，通过对目标损失函数进行训练，可得到初始空间注意力模型以及初始时间注意模型的模型参数，从而实现对初始空间注意力模型和初始时间注意力模型的训练。

2062、服务器基于目标损失函数的函数值，对初始空间注意力模型和初始时间注意力模型的模型参数进行调整，得到空间注意力模型和时间注意力模型。

服务器基于目标损失函数的函数值，对初始空间注意力模型和初始时间注意力模型的训练过程为：

20621、服务器为初始空间注意力模型和初始时间注意力模型的模型参数设置一个初始值，基于所设置的各个参数的初始值，计算目标损失函数的函数值。

通常不同行人的视频特征之间的距离相比于同一行人的视频特征之间的距离要大，且不同行人的视频特征之间的距离相差不会较大，如果一一计算不同摄像头下不同行人的视频特征之间的距离，不仅计算量和计算时间较长，且采用这种方式训练的模型进行视频识别时识别精度没有明显的提高，因此，本发明实施例提供的方法在基于所设置的各个参数的初始值，计算目标损失函数的函数值时，对于不同行人的视频特征之间的距离无需计算多次，仅计算一次即可。

20622、如果得到的函数值不满足阈值条件，服务器对始空间注意力模型和初始时间注意力模型的模型参数进行调整，并继续计算目标损失函数的函数值，直至得到的函数值满足阈值条件。

其中，阈值条件可由服务器根据识别精度进行设置。当得到的函数值不满足阈值条件，服务器采用BP(Back Propagation，反向传播)算法对初始空间注意力模型和初始时间注意力模型的模型参数进行调整，基于调整后的各个参数的参数值继续计算目标损失函数的函数值，直至计算后的函数值满足阈值条件。其中，BP算法主要由信号的正向传播和误差的反向传播两个过程组成，经过信号正向传播和误差反向传播，权重和阈值的调整反复进行，一直进行到预先设定的学习训练次数，或者输出误差减小到允许的程度。

20623、服务器获取满足阈值条件时各个参数的参数值，并将满足阈值条件时各个参数的参数值所对应的初始空间注意力模型和初始时间注意力模型，作为训练得到的空间注意力模型和时间注意力模型。

基于所训练的空间注意力模型、时间注意力模型及特征提取模型，服务器得到视频行人再识别模型。由于采用本发明实施例提供的方法所训练的空间注意力模型、时间注意力模型能够在视频行人再识别过程中关注更多的细节信息，因而采用包括该空间注意力模型、时间注意力模型的视频行人再识别模型进行视频行人再识别时，识别结果更准确。

在本发明的另一个实施例中，为使所训练的视频行人再识别模型精确、可靠，服务器对已训练的视频行人再识别模型进行测试，该测试过程为：

第一步，服务器获取至少一个第一测试样本视频和至少一个第二测试样本视频。

其中，至少一个第一测试样本视频和所述至少一个第二测试样本视频由覆盖不用区域的摄像头拍摄得到，且每个第一测试样本视频和每个第二测试样本视频均包括至少一帧连续的视频图像。

第二步，服务器将至少一个第一测试样本视频和至少一个第二测试样本视频输入到视频识别模型中，输出至少一个第三全局特征和至少一个第四全局特征。

其中，至少一个第三全局特征用于表征至少一个第一测试样本视频中行人的主体信息及时空细节信息，至少一个第四全局特征用于表征至少一个第二测试样本视频中行人的主体信息及时空细节信息。

第三步，对于任一第一测试样本视频，服务器获取第一测试样本视频的第三全局特征与每个第二测试样本视频的第四全局特征之间的距离。

在计算第一测试样本视频的第三全局特征与每个第二测试样本视频的第四全局特征之间的距离时，可先计算第一测试样本视频包括的所有帧视频图像的第三全局特征的平均值，作为第一测试样本视频的视频特征，同理，还需要计算每个第二测试样本视频包括的所有帧视频图像的第四全局特征的平均值，作为每个第二测试样本视频的视频特征，进而计算第一测试样本视频的视频特征和每个第二测试样本视频的视频特征之间的距离。

第四步，服务器按照距离由小到大的顺序，对至少一个第二测试样本视频进行排序，得到排序结果。

第五步，服务器获取包括第一测试样本视频中的指定行人的第二测试样本视频在排序结果中的排位。

第六步，服务器根据包括至少一个第一测试视频中的指定行人的所有第二测试视频的排位，获取每一排位上的概率计算结果。

本发明实施例提供了一种视频行人再识别方法，参见图5，本发明实施例提供的方法流程包括：

501、服务器获取第一视频和至少一个第二视频。

其中，第一视频和至少一个第二视频由覆盖不同区域的摄像头拍摄得到。

502、服务器调用视频行人再识别模型，将第一视频和至少一个第二视频输入到视频行人再识别模型，输出第一全局特征和至少一个第二全局特征。

其中，视频行人再识别模型用于基于视频的全局特征，从至少一个视频中识别出包括参考视频中特定行人的视频。第一全局特征用于表征第一视频中行人的主体信息及时空细节信息，至少一个第二全局特征用于表征至少一个第二视频中行人的主体信息及时空细节信息，时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度。

对于重要程度高、对视频行人再识别起重要作用的视频图像及视频图像上的关键区域，服务器将更多的计算资源应用到该帧视频图像及视频图像的关键区域上，并对其进行重点关注，从而能够从该帧视频图像中提取出更多的细节信息。

503、服务器从至少一个第二视频中，获取目标视频。

其中，目标视频为第二全局特征与第一全局特征之间的距离满足预设条件的第二视频。服务器从至少一个第二视频中，获取目标视频时，可采用如下步骤：

5031、服务器获取第一全局特征与每个第二全局特征之间的距离。

在计算第一视频的第一全局特征与每个第二视频的第二全局特征之间的距离时，可先计算第一视频包括的所有帧视频图像的第一全局特征的平均值，作为第一视频的视频特征，同理，还需要计算每个第二视频包括的所有帧视频图像的第二全局特征的平均值，作为每个第二视频的视频特征，进而计算第一视频的视频特征和每个第二视频的视频特征之间的距离。

5032、服务器按照与第一全局特征之间的距离由小到大的顺序，对至少一个第二视频进行排序。

实施执行时，服务器按照与第一视频的视频特征之间的距离由小到大的顺序，对至少一个第二视频进行排序。

5033、服务器根据每一排位上的概率计算结果，从至少一个第二视频中，获取目标视频。

其中，每一排位上的概率计算结果表征每一排位上的第二视频包括第一视频中的特定行人的概率。

以摄像头A中出现的行人为目标，在与摄像头A为非重叠视域的摄像头B中寻找与目标行人最相似的行人，以完成跨摄像头的视频行人再识别。应用本发明实施例提供的方法，步骤如下：

1、从ILIDS-VID数据集中采集视频，随机将300个行人分成两组，一组用于训练，一组用于测试，每组包括150个行人的300个视频，从每个视频中提取16帧连续的视频图像，组成训练样本视频；

2、将每个训练样本视频中每帧视频图像和光流图输入到双流卷积神经网络中，得到每帧视频图像的图像特征；

3、将每个训练样本视频中每帧视频图像的图像特征输入到视频行人再识别模型中，输出每个训练样本视频的全局特征；

4、根据300个训练样本视频的全局特征和目标损失函数进行迭代计算，得到视频行人再识别模型；

5、根据另一组行人的300个视频，对已训练的视频行人再识别模型进行测试。

6、基于测试后的视频行人再识别模型进行视频行人再识别。

本发明实施例提供的方法，基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

参见图6，本发明实施例提供了一种视频行人再识别装置，该装置包括：

获取模块601，用于获取第一视频和至少一个第二视频，该第一视频和至少一个第二视频由覆盖不同区域的摄像头拍摄得到；

处理模块602，用于调用视频行人再识别模型，将第一视频和至少一个第二视频输入到视频行人再识别模型，输出第一全局特征和至少一个第二全局特征，第一全局特征用于表征第一视频中行人的主体信息及时空细节信息，至少一个第二全局特征用于表征至少一个第二视频中行人的主体信息及时空细节信息，时空细节信息用于表征每帧视频图像及每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；

获取模块601，用于从至少一个第二视频中，获取目标视频，目标视频为第二全局特征与第一全局特征之间的距离满足预设条件的第二视频；

其中，视频行人再识别模型用于基于视频的全局特征，从至少一个视频中识别出包括参考视频中特定行人的视频。

在本发明的另一个实施例中，该装置还包括：

获取模块601，用于获取至少一个训练样本视频，至少一个训练样本视频由覆盖不同区域的摄像头拍摄得到，每个训练样本视频包括至少两帧连续的视频图像；

获取模块601，用于获取初始视频识别模型，初始视频识别模型包括特征提取模型、初始空间注意力模型及初始时间注意力模型；

处理模块602，用于将每个训练样本视频中每帧视频图像输入到特征提取模型，输出每个训练样本视频中每帧视频图像的图像特征，每帧视频图像的图像特征包括至少一个特征元素；

处理模块602，用于将每个训练样本视频中每帧视频图像的每个特征元素输入到初始空间注意力模型，输出每帧视频图像的每个特征元素对应的局部特征，局部特征用于表征包括视频中行人的空间细节信息，空间细节信息用于表征每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；

处理模块602，用于将每个训练样本视频中每帧视频图像的每个局部特征输入到初始时间注意力模型，输出每个训练样本视频的全局特征；

训练模块，用于根据每个训练样本视频的全局特征，对初始空间注意力模型和初始时间注意力模型进行训练，得到空间注意力模型和时间注意力模型。

在本发明的另一个实施例中，特征提取模型包括双流卷积神经网络，处理模块602，用于获取每个训练样本视频中每帧视频图像的光流图；将每帧视频图像和对应的光流图输入到双流卷积神经网络，输出每帧视频图像的图像特征；

其中，双流卷积神经网络包括两路卷积神经网络，第一路卷积神经网络包括卷积层和池化层，用于对每帧视频图像进行特征提取，第二路卷积神经网络包括卷积层、池化层及融合层，用于对每帧视频图像对应的光流图进行特征提取，并将两路卷积神经网络提取的特征进行融合。

在本发明的另一个实施例中，处理模块602，用于根据初始空间注意力模型的模型参数、每帧视频图像的每个特征元素及每个特征元素的隐藏状态，获取每帧视频图像的每个特征元素的第一关联分数，每个特征元素的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征中相应的特征元素；对每帧图像的每个特征元素的第一关联分数进行归一化计算，得到每帧视频图像的每个特征元素的空间注意力权重值；将每帧视频图像的每个特征元素和对应的空间注意力权重值的乘积，作为每帧视频图像的每个特征元素对应的局部特征。

在本发明的另一个实施例中，处理模块602，用于根据初始时间注意力模型的模型参数、每个训练样本视频中每帧视频图像的所有局部特征及每帧视频图像的隐藏状态，获取每帧视频图像的第二关联分数，每帧视频图像的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征；

对每帧图像的第二关联分数进行归一化计算，得到每帧视频图像的时间注意力权重值；

将每个训练样本视频的每帧视频图像的所有局部特征和对应的时间注意力权重值的乘积，作为每个训练样本视频的全局特征。

在本发明的另一个实施例中，训练模块，用于将每个训练样本视频的全局特征输入到预先构建的目标损失函数中；基于目标损失函数的函数值，对初始空间注意力模型和初始时间注意力模型的模型参数进行调整，得到空间注意力模型和时间注意力模型。

在本发明的另一个实施例中，获取模块601，用于获取第一全局特征与每个第二全局特征之间的距离；按照与第一全局特征之间的距离由小到大的顺序，对至少一个第二视频进行排序；根据每一排位上的概率计算结果，从至少一个第二视频中，获取目标视频，每一排位上的概率计算结果表征每一排位上的第二视频包括第一视频中的特定行人的概率。

在本发明的另一个实施例中，该装置还包括：

获取模块601，用于获取至少一个第一测试样本视频和至少一个第二测试样本视频，至少一个第一测试样本视频和至少一个第二测试样本视频由覆盖不用区域的摄像头拍摄得到；

处理模块602，用于将至少一个第一测试样本视频和至少一个第二测试样本视频输入到视频行人再识别模型中，输出至少一个第三全局特征和至少一个第四全局特征，至少一个第三全局特征用于表征至少一个第一测试样本视频中行人的主体信息及时空细节信息，至少一个第四全局特征用于表征至少一个第二测试样本视频中行人的主体信息及时空细节信息；

获取模块601，用于对于任一第一测试样本视频，获取第一测试样本视频的第三全局特征与每个第二测试样本视频的第四全局特征之间的距离；

排序模块，用于按照距离由小到大的顺序，对至少一个第二测试样本视频进行排序，得到排序结果；

获取模块601，用于获取包括第一测试样本视频中的指定行人的第二测试样本视频在排序结果中的排位；

获取模块601，用于根据包括至少一个第一测试视频中的指定行人的所有第二测试视频的排位，获取每一排位上的概率计算结果。

综上，本发明实施例提供的装置，基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

图7是根据一示例性实施例示出的一种用于视频行人再识别的服务器。参照图7，服务器700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述视频行人再识别方法中服务器所执行的功能。

服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理，一个有线或无线网络接口750被配置为将服务器600连接到网络，和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本发明实施例提供的服务器，基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图5所示的视频行人再识别方法。

本发明实施例提供的计算机可读存储介质，基于视频行人再识别模型对每帧视频图像的关键区域进行重点关注，从而在视频行人再识别中能够捕捉一些关键且容易忽略的细节信息，进而基于所捕捉的细节信息进行视频行人再识别，提高了识别结果的准确性。

需要说明的是：上述实施例提供的视频行人再识别装置在进行视频行人再识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将视频行人再识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频行人再识别装置与视频行人再识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频行人再识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一视频和所述至少一个第二视频输入到所述视频行人再识别模型之前，还包括：

获取至少一个训练样本视频，所述至少一个训练样本视频由覆盖不同区域的摄像头拍摄得到，每个训练样本视频包括至少两帧连续的视频图像；

获取初始视频行人再识别模型，所述初始视频行人再识别模型包括特征提取模型、初始空间注意力模型及初始时间注意力模型；

将每个训练样本视频中每帧视频图像输入到所述特征提取模型，输出每个训练样本视频中每帧视频图像的图像特征，所述每帧视频图像的图像特征包括至少一个特征元素；

将每个训练样本视频中每帧视频图像的每个特征元素输入到所述初始空间注意力模型，输出每帧视频图像的每个特征元素对应的局部特征，所述局部特征用于表征包括视频中行人的空间细节信息，所述空间细节信息用于表征每帧视频图像的图像特征中每个特征元素在视频识别过程中的重要程度；

将每个训练样本视频中每帧视频图像的每个局部特征输入到所述初始时间注意力模型，输出每个训练样本视频的全局特征；

根据每个训练样本视频的全局特征，对所述初始空间注意力模型和所述初始时间注意力模型进行训练，得到所述空间注意力模型和所述时间注意力模型。

3.根据权利要求2所述的方法，其特征在于，所述特征提取模型包括双流卷积神经网络，所述将每个训练样本视频中每帧视频图像输入到所述特征提取模型，输出每个训练样本视频中每帧视频图像的图像特征，包括：

获取每个训练样本视频中每帧视频图像的光流图；

将每帧视频图像和对应的光流图输入到所述双流卷积神经网络，输出每帧视频图像的图像特征；

其中，所述双流卷积神经网络包括两路卷积神经网络，第一路卷积神经网络包括卷积层和池化层，用于对每帧视频图像进行特征提取，第二路卷积神经网络包括卷积层、池化层及融合层，用于对每帧视频图像对应的光流图进行特征提取，并将两路卷积神经网络提取的特征进行融合。

4.根据权利要求2所述的方法，其特征在于，所述将每个训练样本视频中每帧视频图像的每个特征元素输入到所述初始空间注意力模型，输出每帧视频图像的局部特征，包括：

根据所述初始空间注意力模型的模型参数、每帧视频图像的每个特征元素及每个特征元素的隐藏状态，获取每帧视频图像的每个特征元素的第一关联分数，所述每个特征元素的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征中相应的特征元素；

对每帧图像的每个特征元素的第一关联分数进行归一化计算，得到每帧视频图像的每个特征元素的空间注意力权重值；

将每帧视频图像的每个特征元素和对应的空间注意力权重值的乘积，作为每帧视频图像的每个特征元素对应的局部特征。

5.根据权利要求2所述的方法，其特征在于，所述将每个训练样本视频中每帧视频图像的每个局部特征输入到所述初始时间注意力模型，输出每个训练样本视频的全局特征，包括：

根据所述初始时间注意力模型的模型参数、每个训练样本视频中每帧视频图像的所有局部特征及每帧视频图像的隐藏状态，获取每帧视频图像的第二关联分数，所述每帧视频图像的隐藏状态包括每个训练样本视频中已输入的所有帧视频图像的图像特征；

6.根据权利要求2所述的方法，其特征在于，所述根据每个训练样本视频的全局特征，对所述初始空间注意力模型和所述初始时间注意力模型进行训练，得到所述空间注意力模型和所述时间注意力模型，包括：

将每个训练样本视频的全局特征输入到预先构建的目标损失函数中；

基于所述目标损失函数的函数值，对所述初始空间注意力模型和所述初始时间注意力模型的模型参数进行调整，得到所述空间注意力模型和所述时间注意力模型。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述从所述至少一个第二视频中，获取目标视频，包括：

获取所述第一全局特征与每个第二全局特征之间的距离；

按照与所述第一全局特征之间的距离由小到大的顺序，对所述至少一个第二视频进行排序；

根据每一排位上的概率计算结果，从所述至少一个第二视频中，获取所述目标视频，所述每一排位上的概率计算结果表征每一排位上的第二视频包括所述第一视频中的特定行人的概率。

8.根据权利要求7所述的方法，其特征在于，所述根据每一排位上的概率计算结果，从所述至少一个第二视频中，获取所述目标视频之前，还包括：

获取至少一个第一测试样本视频和至少一个第二测试样本视频，所述至少一个第一测试样本视频和所述至少一个第二测试样本视频由覆盖不用区域的摄像头拍摄得到；

将所述至少一个第一测试样本视频和所述至少一个第二测试样本视频输入到所述视频行人识别模型中，输出至少一个第三全局特征和至少一个第四全局特征，所述至少一个第三全局特征用于表征所述至少一个第一测试样本视频中行人的主体信息及时空细节信息，所述至少一个第四全局特征用于表征所述至少一个第二测试样本视频中行人的主体信息及时空细节信息；

对于任一第一测试样本视频，获取所述第一测试样本视频的第三全局特征与每个第二测试样本视频的第四全局特征之间的距离；

按照距离由小到大的顺序，对所述至少一个第二测试样本视频进行排序，得到排序结果；

获取包括所述第一测试样本视频中的指定行人的第二测试样本视频在所述排序结果中的排位；

根据包括所述至少一个第一测试视频中的指定行人的所有第二测试视频的排位，获取每一排位上的概率计算结果。

9.一种视频行人再识别装置，其特征在于，所述装置包括：

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的视频行人再识别方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至8中任一项所述的视频行人再识别方法。