CN112633089B

CN112633089B - 一种视频行人重识别方法、智能终端及存储介质

Info

Publication number: CN112633089B
Application number: CN202011438232.7A
Authority: CN
Inventors: 戴齐飞; 俞正中; 杨俊亭; 赵勇; 李福池
Original assignee: Shenzhen Apical Technology Co ltd
Current assignee: Shenzhen Apical Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-01-09
Anticipated expiration: 2040-12-11
Also published as: CN112633089A

Abstract

本发明公开了一种视频行人重识别方法、智能终端及存储介质，所述方法包括：获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将视频序列的长度设置为固定序列长度，得到输入特征图；将输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征；提取特征图的全局信息，并获取最适合行人分类的相似度形式；将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息；通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果，达到更高的识别准确率。

Description

一种视频行人重识别方法、智能终端及存储介质

技术领域

本发明涉及视频行人重识别技术领域，尤其涉及一种视频行人重识别方法、智能终端及存储介质。

背景技术

安防监控技术有利于维护社会稳定，保护居民安全，在城市内安装大量的高清摄像头已成为必要环节，视频行人重识别是通过计算机视觉技术来处理视频监控领域里的行人序列，其步骤主要由如下阶段组成，分别是：采样行人视频样本，使其成为不影响后续推断的固定长度的序列；运用特征提取技术，将高维度难以分辨标签的图像像素映射到低维度嵌入空间中，使其更容易做比较；提取到的优良特征不一定最适合做分类，因此添加度量学习损失函数模块，将相同类别行人的向量距离拉近，将不同类别行人的特征距离拉开；通过特征向量比较行人之间的相似性分数，然后从数据库中找到所有此类别行人。

然而大量的摄像头如果只靠人眼逐一排查事件，不但工作量巨大，而且哪怕是经过专业训练的人员也会疲倦，导致误判，因此亟需现代化的技术帮助警方筛选摄像头的数据以便进行后续的辅助判断。行人重识别就是这种专业技术，它运用深度学习理论，解决一台摄像机下特定行人的图像或者视频数据，如何在分辨率、角度、型号完全不同的其他摄像机下被成功检索的难题。

现有的行人重识别是做单张行人图片的匹配问题，但由于摄像头或行人自身角度的问题，往往会出现侧面甚至是背面的行人图像，亦或是遮挡严重的单个图像，这类行人由于缺少信息会导致不论是机器还是人类专家都很难去判断类别，因此基于图像的行人重识别会导致显而易见的缺陷。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种视频行人重识别方法、智能终端及存储介质，旨在解决现有技术中无法判断缺少信息的行人图像类别的问题。

为实现上述目的，本发明提供一种视频行人重识别方法，所述视频行人重识别方法包括如下步骤：

获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，得到输入特征图；

将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征；

提取所述特征图的全局信息，并获取最适合行人分类的相似度形式；

将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息；

通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果。

可选地，所述的视频行人重识别方法，其中，所述获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，具体包括：

获取监控摄像机中大规模视频行人重识别数据集和多目标多摄像机的视频行人跟踪数据集中的视频序列；

经过限制性随机采样算法将不同长度的视频序列拆分成个数固定的视频块，选取视频块中的一帧图像以固定视频序列长度，输出固定大小的输入特征图。

可选地，所述的视频行人重识别方法，其中，所述固定大小的输入特征图的参数包括：批数据个数、时间轴长度、通道数、图像高度和图像宽度。

可选地，所述的视频行人重识别方法，其中，所述将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征，具体包括：

将所述输入特征图通过矩阵变换将图像维度进行调整，通过二维卷积分别处理空间信息和时间信息；

将空间信息和时间信息相乘进行融合，得到融合时空信息的注意力模块来提取关键特征。

可选地，所述的视频行人重识别方法，其中，所述提取所述特征图的全局信息，并获取最适合行人分类的相似度形式，具体包括：

将所述特征图进行变化后计算全局相似度矩阵，与原矩阵进行矩阵操作，最终输出与输入相同大小的特征图；

通过筛选模块过滤冗余的相似度，筛选相似度形式，得到最适合行人分类的相似度形式。

可选地，所述的视频行人重识别方法，其中，所述将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息，具体包括：

通过矩阵运算将相似度矩阵大小进行变换；

将经过SPP操作融合的多尺度特征大小代替原始的空间信息，降低相似度矩阵的维度。

可选地，所述的视频行人重识别方法，其中，所述通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果，具体包括：

经过卷积层和池化层处理得到易于处理的特征向量，通过后接全连接网络获得分类向量，并通过分类损失进行约束；

将得到的特征向量通过度量学习进行约束，获得易于区分相同行人与不同行人的特征，训练得到行人识别模型；

获取真实的行人视频样本，并将真实的行人视频样本输入到所述行人识别模型后输出行人类别的识别结果。

可选地，所述的视频行人重识别方法，其中，所述行人类别的识别结果根据比较当前行人与其他行人的相似性分数进行判断。

此外，为实现上述目的，本发明还提供一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频行人重识别程序，所述视频行人重识别程序被所述处理器执行时实现如上所述的视频行人重识别方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，其中，所述存储介质存储有视频行人重识别程序，所述视频行人重识别程序被处理器执行时实现如上所述的视频行人重识别方法的步骤。

本发明通过获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，得到输入特征图；将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征；提取所述特征图的全局信息，并获取最适合行人分类的相似度形式；将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息；通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果。本发明通过端到端的训练与推断视频行人重识别网络，实现更细粒度的特征提取，使得视频行人重识别算法能够在真实监控摄像机上高效部署，达到更高的准确率。

附图说明

图1是本发明视频行人重识别方法的较佳实施例的流程图；

图2是本发明视频行人重识别方法的较佳实施例的整个执行过程的流程示意图；

图3是本发明视频行人重识别方法的较佳实施例中步骤S10的流程图；

图4是本发明视频行人重识别方法的较佳实施例中步骤S20的流程图；

图5是本发明视频行人重识别方法的较佳实施例中步骤S30的流程图；

图6是本发明视频行人重识别方法的较佳实施例中步骤S40的流程图；

图7是本发明视频行人重识别方法的较佳实施例中步骤S50的流程图；

图8为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的视频行人重识别方法，如图1和图2所示所示，所述视频行人重识别方法包括以下步骤：

步骤S10、获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，得到输入特征图。

具体的过程请参阅图3，其为本发明提供的视频行人重识别方法中步骤S10的流程图。

如图3所示，所述步骤S10包括：

S11、获取监控摄像机中大规模视频行人重识别数据集和多目标多摄像机的视频行人跟踪数据集中的视频序列；

S12、经过限制性随机采样算法将不同长度的视频序列拆分成个数固定的视频块，选取视频块中的一帧图像以固定视频序列长度，输出固定大小的输入特征图。

具体地，本发明的所述视频行人重识别方法通过智能终端来执行，所述智能终端包括高清摄像头(用于获取视频行人序列)或者可以获取高清摄像机的图像，好包括存储器(用于存储图片、程序和结果)和处理器(用于通过执行所述存储器存储的程序以实现上述的方法)。

如图2所示，所述智能终端从大规模视频行人重识别数据集中获取长度不同的视频序列，然后通过限制性随机采样算法，得到在训练集以及测试集中固定长度的样本，适应后续神经网络的输入要求，最终输出固定为(B，T，C，H，W)大小的视频序列，也作为后续神经网络初始的输入特征图。

即输入是大规模视频行人重识别数据集MARS(运动分析和重识别数据集)和DukeMTMC-VideoReID(DukeV，多目标多摄像机的视频行人跟踪数据集)中的视频序列，经过限制性随机采样策略(算法)，也就是将不同长度的视频序列拆分成个数固定的视频块，然后通过只选取视频块中的一帧图像达到固定视频序列长度的目的，满足后续全连接网络需要固定输入尺寸的条件，最终经过处理的输入图像视频序列大小为(B，T，C，H，W)，其中，B、T、C、H和W分别代表批数据个数、时间轴长度、通道数、图像高度、图像宽度。

本发明提出一个端到端的综合特征学习和度量学习的视频行人重识别基础框架，在大规模视频行人数据集MARS上有一个初步的结果，作为后续模型比较和参照的对象，将各个算法部分模块化，针对对应的单独模块逐个解决问题，因此能够更好地组合每个模块，从而提高算法整体的性能。

步骤S20、将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征。

具体过程请参阅图4，其为本发明提供的视频行人重识别方法中步骤S20的流程图。

如图4所示，所述步骤S20包括：

S21、将所述输入特征图通过矩阵变换将图像维度进行调整，通过二维卷积分别处理空间信息和时间信息；

S22、将空间信息和时间信息相乘进行融合，得到融合时空信息的注意力模块来提取关键特征。

具体地，上面说到输入为初始大小(B，T，C，H，W)的特征(输入图像视频序列，即特征图)，为了避免使用三维的卷积核，因为三维的卷积核会比二维卷积核增加很多参数量和计算量，首先将特征图变为(B*T，C，H，W)，即通过矩阵变换将大小进行调整，这样就和普通的(B，C，H，W)大小的特征图处理方法相同了，也就不再需要三维卷积了，然后做空间注意力操作，通过权重矩阵指示空间像素的重要性程度，权重值在0-1之间，再与输入特征逐元素相乘即可得到大小不变的经过筛选的特征图；。还有条分支将特征图变为(B*C，T，H，W)，像前面处理空间部分一样这里只处理T时间部分，最后再将空间信息和时间信息相乘进行融合，即可得到融合时空信息的注意力模块来提取关键特征，并且输出的特征图和输入相同都为(B，T，C，H，W)。

也就是说，通过将输入图像序列通过Reshape(数组变换)操作从(B，T，C，H，W)分别转换到(B*T，C，H，W)和(B*C，T，H，W)大小，来达到在不使用三维卷积的前提下，仅仅通过二维卷积分别处理时间和空间信息，最后再将二者融合，其中时空特征的提取嵌入注意力机制，即增强有用信息的幅度，抑制干扰性的噪声。其中空间(H，W)处理部分和二维注意力一样，通过权重的大小反映出不同位置特征的重要性程度，但由于视频多了时间维度，因此让T维度处理方式和C维度相同，之后再通过Reshape操作，使输出大小为(B，T，C，H，W)和输入图像相同，成为即插即用模块。

本发明提出基于时空互相影响的并行注意力机制，可以解决时空维度分离的缺陷，并且尽量减少模型的参数，在不运用三维卷积的情况下，仅仅用二维卷积配合处理时空信息，达到超越三维处理方法性能的目的。

步骤S30、提取所述特征图的全局信息，并获取最适合行人分类的相似度形式。

具体过程请参阅图5，其为本发明提供的视频行人重识别方法中步骤S30的流程图。

如图5所示，所述步骤S30包括：

S31、将所述特征图进行变化后计算全局相似度矩阵，与原矩阵进行矩阵操作，最终输出与输入相同大小的特征图；

S32、通过筛选模块过滤冗余的相似度，筛选相似度形式，得到最适合行人分类的相似度形式。

具体地，上面的部分只是提取了些局部特征，需要在之后添加Non-local模块来提取全局信息，首先将输入的特征图变换为(B*C，T，H，W)，因为该模块同时处理T，H，W三个维度信息。接下来计算全局相似度矩阵，其大小为(T*H*W，T*H*W)，代表某个位置和其它所有不同位置特征的相似程度，然后与原矩阵进行矩阵操作，最终也是输出与输入相同大小的特征图；但是其中并没有对相似度的形式进行筛选，只是单纯用内积计算相似度，所以计算相似度矩阵的过程中，在里面嵌入一个只有一层隐含层且神经元个数比较少的全连接神经网络，类似降噪自编码器的结构，只不过这里是过滤掉冗余的相似度而不是噪声。通过以上处理，不但能获取全局特征，也能够获取更有利于判别行人类别的有效特征。

也就是说，Non-local方法也需要保证输入和输出维度相同，其中输入需要变换为(B*C，T，H，W)以便同时处理时间和空间。对于相似度计算，运用内积公式这是高斯形式的相似度公式，其中X_i和X_j分别是输入信号两个不同位置的响应，T符号代表矩阵转置；这种形式和全连接神经网络不相同，因为全连接只需要学习参数W，而相似度还需要学习乘法形式，因此需要对相似度形式进行筛选，做法类似于去噪自编码器，只不过这里不是噪声而是冗余的相似度，并且保证模块里的输入输出也不变，最终能筛选出最适合分类行人标签的相似度，提取优良特征。

本发明通过改进Non-local方法，保留其可以提取全局信息的优点，并且在不引入过多计算量的前提下，筛选最适合分类行人类别的相似性度量，去除冗余，从而使模型能判断出更有效的行人特征。

步骤S40、将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息。

具体过程请参阅图6，其为本发明提供的视频行人重识别方法中步骤S40的流程图。

如图6所示，所述步骤S40包括：

S41、通过矩阵运算将相似度矩阵大小进行变换；

S42、将经过SPP操作融合的多尺度特征大小代替原始的空间信息，降低相似度矩阵的维度。

具体地，Non-local模块提升精度的代价是其复杂度很高，因此在Non-local模块做矩阵运算时，通过将相似度矩阵的大小变为(T*H*W，T*P)，其中P就是经过SPP操作融合的多尺度特征大小，代替原始的H*W空间信息，这样将会节省大量的矩阵计算量，并且能更好处理不同尺度的特征。

也就是说，设计高效的模块，需要从含有大量计算量的Non-local模块思考，可以运用SPP(Spatial Pyramid Pooling)多尺度结构以及矩阵变换技巧减少复杂度。经过三维卷积以及Reshape操作，Non-local模块中的Key和Value部件的维度大小分别是(C，T*H*W)和(T*H*W，C)，因此通过矩阵乘法后相似度矩阵为(T*H*W，T*H*W)大小，如果把Key输出的特征变换为(C，T*P)大小向量，此时的P代表着经过SPP操作后的向量维度，则相似度矩阵的维度将会减少到(T*H*W，T*P)，为了保持输入输出平衡，也对Value部件后执行SPP操作，变换为(T*P，C)维度，这样再经历矩阵乘法时，根据矩阵乘法公式，将会把中间的维度抵消，输出又会和输入的大小相同为(T*H*W，C)。通过以上这种做法，利用矩阵变换的特性，可以适当地减少中间尺寸，从而降低了矩阵乘法的计算复杂度，并确保了输入和输出大小的一致性。

本发明通过设计更高效的视频行人重识别算法，因为Non-local模块的全局性特点，其计算量也是最大的，因此通过SPP模块以及矩阵变换的技巧，在Non-local结构中减少大量的计算量，并且由于SPP模块具有多尺度特性，贴合行人重识别任务中不同大小的属性特征，因此能保持精度。

步骤S50、通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果。

具体过程请参阅图7，其为本发明提供的视频行人重识别方法中步骤S50的流程图。

如图7所示，所述步骤S50包括：

S51、经过卷积层和池化层处理得到易于处理的特征向量，通过后接全连接网络获得分类向量，并通过分类损失进行约束；

S52、将得到的特征向量通过度量学习进行约束，获得易于区分相同行人与不同行人的特征，训练得到行人识别模型；

S53、获取真实的行人视频样本，并将真实的行人视频样本输入到所述行人识别模型后输出行人类别的识别结果。

具体地，经过了前面模块的处理，以及一系列的卷积层、池化层，获得了更能代表原始信息且非常易于处理的特征向量，接下来一条分支是通过后接全连接网络获得分类向量，用来指示这一段视频序列的行人更可能是数据库中的哪一位，用IDLoss分类损失进行约束；另一条分支直接将得到的特征向量用TripletLoss度量学习来约束，获得更易于区分相同行人与不同行人的特征，之后就需要训练模型达到预期的结果；一旦得到了训练好的行人识别模型，当真实的行人视频样本输入行人识别模型时，就可以通过比较该行人与其它行人的相似性分数来判断行人到底属于哪一个类别。

本发明整合以上思路，设计良好的特征提取网络，并与度量学习下的损失函数进行共同训练，达到平衡模型精度与速度，接近并超越现有最好水平的目的。

例如，本发明中，输入是从监控摄像机(例如高清摄像机)获取的大规模行人视频序列；经过限制性随机采样策略，训练集获取长度固定为8的样本；基于ResNet50结构，构建初始的卷积神经网络用以提取深度特征；在CBAM注意力模块的基础上，提出PSTA模块，引出额外一条提取时间信息的路径，然后再通过乘法模式将时空维度融合，真正像三维世界一样将时空整体处理；针对卷积操作非全局性的局限，运用Non-local方法获取视频的全局信息，使网络视野更广；针对Non-local模块相似度部分只是单纯的内积运算，不能筛选出最适合行人标签分类的形式，提出ALS模块来滤除冗余的相似性；行人重识别算法因为要应用到现实的监控设备中，对于实时性要求较高，通过将SPP模块嵌入Non-local部件中，再配合上矩阵乘法抵消中间通道，达到减少计算量的目的；最终原始序列会映射成维度更低的优良行人特征向量形式用于识别行人类别，再通过度量学习损失函数Triplet Loss将向量改进得更加适合分类，就完成了视频行人重识别整体的训练与推断流程。

本发明实现了端到端的训练与推断视频行人重识别网络，并实现更细粒度的特征提取，使得视频行人重识别算法能够在真实监控摄像机上高效部署，达到更高的准确率。

进一步地，如图8所示，基于上述视频行人重识别方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图8仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有视频行人重识别程序40，该视频行人重识别程序40可被处理器10所执行，从而实现本申请中视频行人重识别方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述视频行人重识别方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中视频行人重识别程序40时实现以下步骤：

其中，所述获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，具体包括：

其中，所述固定大小的输入特征图的参数包括：批数据个数、时间轴长度、通道数、图像高度和图像宽度。

其中，所述将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征，具体包括：

其中，所述提取所述特征图的全局信息，并获取最适合行人分类的相似度形式，具体包括：

其中，所述将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息，具体包括：

通过矩阵运算将相似度矩阵大小进行变换；

其中，所述通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果，具体包括：

其中，所述行人类别的识别结果根据比较当前行人与其他行人的相似性分数进行判断。

本发明还提供一种存储介质，其中，所述存储介质存储有视频行人重识别程序，所述视频行人重识别程序被处理器执行时实现如上所述的视频行人重识别方法的步骤。

综上所述，本发明提供一种视频行人重识别方法、智能终端及存储介质，所述方法包括：获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，得到输入特征图；将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征；提取所述特征图的全局信息，并获取最适合行人分类的相似度形式；将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息；通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果。本发明通过端到端的训练与推断视频行人重识别网络，实现更细粒度的特征提取，使得视频行人重识别算法能够在真实监控摄像机上高效部署，达到更高的准确率。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视频行人重识别方法，其特征在于，所述视频行人重识别方法包括：

通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果；

所述将所述输入特征图通过矩阵变换处理得到空间信息和时间信息，将空间信息和时间信息相乘进行融合，得到融合时空信息后提取关键特征，具体包括：

将空间信息和时间信息相乘进行融合，得到融合时空信息的注意力模块来提取关键特征；

所述提取所述特征图的全局信息，并获取最适合行人分类的相似度形式，具体包括：

通过筛选模块过滤冗余的相似度，筛选相似度形式，得到最适合行人分类的相似度形式；

提取了局部特征，之后添加Non-local模块提取全局信息，将输入的特征图变换为(B*C，T，H，W)，其中，B、T、C、H和W分别代表批数据个数、时间轴长度、通道数、图像高度、图像宽度，同时处理T，H，W三个维度信息，计算全局相似度矩阵，其大小为(T*H*W，T*H*W)，代表某个位置和其它所有不同位置特征的相似程度，与原矩阵进行矩阵操作，输出与输入相同大小的特征图；

所述将相似度矩阵大小进行变换，将经过操作融合的多尺度特征大小代替原始的空间信息，具体包括：

通过矩阵运算将相似度矩阵大小进行变换；

2.根据权利要求1所述的视频行人重识别方法，其特征在于，所述获取监控摄像机中的大规模行人的视频序列，经过限制性随机采样算法将所述视频序列的长度设置为固定序列长度，具体包括：

3.根据权利要求1或2所述的视频行人重识别方法，其特征在于，所述固定大小的输入特征图的参数包括：批数据个数、时间轴长度、通道数、图像高度和图像宽度。

4.根据权利要求1所述的视频行人重识别方法，其特征在于，所述通过分类损失和度量学习训练得到行人识别模型，将真实的行人视频样本输入到所述行人识别模型后，输出行人类别的识别结果，具体包括：

5.根据权利要求4所述的视频行人重识别方法，其特征在于，所述行人类别的识别结果根据比较当前行人与其他行人的相似性分数进行判断。

6.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频行人重识别程序，所述视频行人重识别程序被所述处理器执行时实现如权利要求1-5任一项所述的视频行人重识别方法的步骤。

7.一种存储介质，其特征在于，所述存储介质存储有视频行人重识别程序，所述视频行人重识别程序被处理器执行时实现如权利要求1-5任一项所述的视频行人重识别方法的步骤。