CN110457985A

CN110457985A - 基于视频序列的行人再识别方法、装置及计算机设备

Info

Publication number: CN110457985A
Application number: CN201910484746.7A
Authority: CN
Inventors: 裴继红; 于亚威; 谢维信; 杨烜
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-11-15
Anticipated expiration: 2039-06-05
Also published as: CN110457985B

Abstract

本申请涉及一种基于视频序列的行人再识别方法、装置、计算机设备及存储介质，其中该方法包括：构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络；将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵；通过所述行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。本发明可以根据基于视频序列时间的动态时间规整算法可以直观的去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度。

Description

基于视频序列的行人再识别方法、装置及计算机设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于视频序列的行人再识别方法、装置、计算机设备及存储介质。

背景技术

目前，在多摄像机视频监控领域中，常常需要将在某一视场中已经出现过的行人在其他视场中再次检测识别出来，这一过程称为行人再识别。在多摄像机智能视频监控系统中，行人再识别有很重要的意义。在行人再次被检测识别时，其所处的环境如监控场景、光照条件以及行人本身的位姿等都发生了变化，如何在行人场景等条件变化的情况下，快速、准确的将行人在其他视场中检测识别出来成为行人再识别的关键。

在传统技术中，单帧的行人再识别研究如基于表征学习，度量学习和局部特征的行人再识别方法还是主流。因为相对来说数据集比较小，耗时较少。但是通常单帧图像的信息是有限的，如果遇到遮挡，目标本身的位姿及光照等条件影响，则会对再识别造成很大的误差。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息，还考虑了帧与帧之间的运动等时空信息。

基于视频序列的方法主要思想是利用CNN来提取空间特征的同时利用递归循环网络(Recurrent neural networks,RNN)来提取时序特征。图像序列中的每张图像都经过一个共享的CNN提取出图像空间内容特征，之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。目前，大部分基于视频序列行人再识别方法是把序列信息全部输给网络，让网络学习有用的信息，并没有直观的去解释为什么多帧信息的有效性，并且不能很好地衡量视频序列之间的相似度。

发明内容

基于此，有必要针对上述技术问题，提供一种可以根据基于视频序列时间的动态时间规整算法直观的去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度的基于视频序列的行人再识别方法、装置、计算机设备及存储介质。

一种基于视频序列的行人再识别方法，所述方法包括：

构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络；

将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵；

通过所述行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

在其中一个实施例中，在所述构建残差网络的步骤之前还包括：

获取原始数据集进行数据准备，通过结构化稀疏表示后的行人目标序列。

在其中一个实施例中，所述构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络的步骤还包括：

构建基于视频序列的特征映射Resnet50网络模型；

将不同目标不同序列测试数据以及同一目标不同序列测试数据分别输入到所述Resnet50网络模型中进行测试；

根据测试的结果对模型中的参数进行调整直至测试结果符合要求，得到训练好的Resnet50网络模型。

在其中一个实施例中，所述将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵的步骤还包括：

将包含至少一张图像的视频目标序列输入到所述特征提取网络中；

对于每一个所述视频目标序列中的一张图像，通过所述特征提取网络生成一个对应的特征向量；

将每一个所述视频目标序列映射为一个特征矩阵。

在其中一个实施例中，所述通过所述行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离的步骤还包括：

分别计算出查询序列和待匹配序列的长度；

将所述待匹配序列做变换，得到变换后的多个待匹配视频序列；

依次计算所述查询序列与所述多个待匹配视频序列的DTW距离。

在其中一个实施例中，所述依次计算所述查询序列与所述多个待匹配视频序列的DTW距离的步骤包括：

计算所述查询序列和待匹配视频序列的距离矩阵；

计算所述查询序列和待匹配视频序列的过渡距离矩阵；

根据所述距离矩阵和过渡距离矩阵计算所述查询序列和待匹配视频序列的累计距离矩阵；

根据所述累计距离矩阵计算所述查询序列和待匹配视频序列的DTW距离；

通过重复执行上述计算步骤得到所述查询序列与所述多个待匹配视频序列的DTW距离。

在其中一个实施例中，在所述依次计算所述查询序列与所述多个待匹配视频序列的DTW距离步骤之后还包括：

将所述查询序列与所述多个待匹配视频序列的DTW距离的最小值作为所述查询序列和待匹配序列的最终距离；

分别计算查询序列和所有待匹配序列的距离。

一种基于视频序列的行人再识别装置，基于视频序列的行人再识别装置包括：

模型训练模块，所述模型训练模块用于构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络；

特征提取模块，所述特征提取模块用于将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵；

度量计算模块，所述度量计算模块用于通过所述行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项方法的步骤。

上述基于视频序列的行人再识别方法、装置、计算机设备及存储介质，通过构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络；将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵；通过所述行人目标序列的特征矩阵根据基于序列序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。本发明可以根据基于视频序列时间的动态时间规整算法可以直观的去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度。将行人目标序列的再识别问题转化为序列特征矩阵之间的一致性度量问题。实验结果表明，该算法在MARS数据集上表现出良好的性能。

附图说明

图1为一个实施例中基于视频序列的行人再识别方法的应用场景图；

图2为一个实施例中基于视频序列的行人再识别方法的流程示意图；

图3为另一个实施例中基于视频序列的行人再识别方法的流程示意图；

图4为再一个实施例中基于视频序列的行人再识别方法的流程示意图；

图5为又一个实施例中基于视频序列的行人再识别方法的流程示意图；

图6为又一个实施例中基于视频序列的行人再识别方法的流程示意图；

图7为又一个实施例中基于视频序列的行人再识别方法的流程示意图；

图8为一个实施例中所用到的MARS数据集的示意图；

图9为一个实施例中所构建的wide resnet50网络结构的示意图；

图10为一个实施例中wide resnet50网络训练过程中参数调试的示意图；

图11为一个实施例中由图像序列生成对应图像序列特征矩阵的示意图；

图12为一个实施例中DTW算法的遍历过程示意图；

图13为一个实施例中输出实验结果的实验结果示意图；

图14为一个实施例中基于视频序列的行人再识别装置的结构框图；

图15为另一个实施例中基于视频序列的行人再识别装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

本发明实施例所提供的基于视频序列的行人再识别方法可应用到如图1所示的应用环境中。计算机设备110通过网络与数据库120连接，数据库120中包括存储有数据集。其中，该计算机设备110包括：个人电脑、大型计算机等任意一种计算机设备。计算机设备110通过网络获取数据库120中存储的数据集。具体方法是先构建Resnet50残差网络，将数据集中的训练样本送入到网络中，训练完成后，将训练网络转变为特征提取网络。之后将数据集中的测试样本依次送往到特征提取网络提取特征，可以得到测试样本中序列的特征矩阵。最后，根据DTWT算法得到查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

在一个实施例中，如图2所示，提供了一种基于视频序列的行人再识别方法，以该方法应用于图1中的计算机设备中为例进行说明，该方法包括：

步骤202，构建残差网络，通过数据集中的训练样本对残差网络进行训练得到特征提取网络；

步骤204，将数据集中的测试样本输入到特征提取网络中得到测试样本中行人目标序列的特征矩阵；

步骤206，通过行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

具体地，本实施例提出的基于视频序列的行人再识别方法包括：先构建wideresnet50残差网络，将MARS数据集中的训练样本送入到网络中，训练完成后，将训练网络转变为特征提取网络，之后将MARS数据集中的测试样本依次送往到特征提取网络提取特征，可以得到测试样本中序列的特征矩阵，最后根据DTWT算法得到查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

其中，对于DTWT算法，当计算两个视频序列的距离时，将长度较小的序列(长度为M)做变换，得到变换后的M个视频序列，再计算这M个视频序列和长度较长序列的DTW距离，求出的最小值作为这两个序列的距离。

其中，DTW算法是根据查询序列和待匹配序列的距离矩阵求出过渡距离矩阵，然后求出累积距离矩阵，最后根据累积距离矩阵求出序列与待匹配序列的DTW距离。相对于现有的基于视频序列的行人再识别方法，本实施例中的基于视频序列时间的动态时间规整算法可以直观的去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度，在MARS数据集上表现出良好的性能，特别适合于处理视频序列中，同一行人的不同目标序列有相似的步幅特征和步态特征，而不同行人的目标序列有较大差别的步幅特征和步态特征这种情况。

在一个实施例中，在构建残差网络的步骤之前还包括：获取原始数据集进行数据准备，通过结构化稀疏表示后的行人目标序列。

具体地，参考图8示出了本实施例中所用到的MARS数据集，其中MARS数据集包含train，query和gallery这三个大类，train用来训练wide resnet50网络，query用来测试环节的查询，gallery用作测试环节查询的库。train包含625个行人编号，总共有8298个行人序列。query包含626个行人编号，总共有1980个行人序列。gallery包含622个行人编号，总共有9330个行人编号。train，query和gallery这三类，总共有1251个行人编号，总共有19608个行人序列，其中每个序列有2—920张图片，平均每个序列有59.5张图片。

在输出基于视频序列的行人再识别结果的步骤中，为了评价所提出的行人重识别方法的性能，通常将数据库中的行人分为训练集和测试集两个部分，在测试时，第1个摄像机所拍摄的数据作为查找集，而第2个或其他摄像机中的行人数据作为候选集。目前常用的评价标准主要是CMC曲线(cumulated matching characteristic)，CMC曲线是一种top-k的击中概率，主要用来评估闭集中rank的正确率。当查找的对象在候选集中进行距离比较之后，将候选集中的行人按照距离的远近由小到大进行排序，要查找的行人排序越靠前，则算法的效果越好。

MARS数据集总共有1980个行人序列，即共进行1980次查询和排序，每次查询中目标行人序列的排序结果用r＝(r₁,r₂,...,r₁₉₈₀)表示，那么CMC曲线可以表示为：

当R＝1,5,10,20时，分别代表行人序列重识别的top1，top5，top10和top20的准确率。

query表示检索序列集，假设包含N个序列，q_i表示第i个query，则数据集记作：Q＝{q₁,q₂,...,q_i,...,q_N}。gallery表示图片库，假设包含M个序列，g_i表示第i个序列，则数据集记作：G＝{g₁,g₂,...,g_i,...,g_M}。假设q_i对应的ID/行人在G出现的次数记为对于每个查询过程：q_i提取特征矩阵后依次和G中每个序列的特征矩阵进行DTWT计算，得出距离，按照距离大小对gallery进行升序排列，排序后的gallery数据集记为G_qi，q_i命中的图片组成的数据集，记为是的子集。假设在中的排位记为r_j，在中的排位记为对所有query序列重复这个过程，得到准确率计算公式如下：

图13是本实施例输出的实验结果，其中包含查询的mAP和top1，top5，top10和top20排名，“resnet50+DTWT”来自于本实施例中的算法。

在上述实施例中，通过构建残差网络，通过数据集中的训练样本对残差网络进行训练得到特征提取网络；将数据集中的测试样本输入到特征提取网络中得到测试样本中行人目标序列的特征矩阵；通过行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。上述实施例可以根据基于视频序列时间的动态时间规整算法可以直观的去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度。将行人目标序列的再识别问题转化为序列特征矩阵之间的一致性度量问题。实验结果表明，该算法在MARS数据集上表现出良好的性能。特别适合于处理视频序列中，同一行人的不同目标序列有相似的步幅特征和步态特征，而不同行人的目标序列有较大差别的步幅特征和步态特征这种情况。

在一个实施例中，如图3所示，提供了一种基于视频序列的行人再识别方法，该方法中构建残差网络，通过数据集中的训练样本对残差网络进行训练得到特征提取网络的步骤还包括：

步骤302，构建基于视频序列的特征映射Resnet50网络模型；

步骤304，将不同目标不同序列测试数据以及同一目标不同序列测试数据分别输入到Resnet50网络模型中进行测试；

步骤306，根据测试的结果对模型中的参数进行调整直至测试结果符合要求，得到训练好的Resnet50网络模型。

具体地，在本实施例中实现了构建基于视频序列的特征映射wide resnet50网络构建。其中，wide resnet50网络结构如图9所示，wide resnet50有2个基本的block，一个是Identity Block，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是Conv Block，输入和输出的维度是一样的，所以不能连续串联，它的作用本来就是为了改变特征向量的维度。本实施例中输入的图片统一调整尺寸为224*224，训练阶段中这是个分类网络，分类的类别数为训练集中的行人编号数625。特征提取阶段，本发明会把网络最后的Average pool和全连接层去掉，输入一张图片，则会输出一个2048维的特征向量。

具体地，参考图10为本实施例中wide resnet50网络模型具体的参数调整示意图。将不同目标不同序列测试数据以及同一目标不同序列测试数据分别输入到Resnet50网络模型中进行测试；根据测试的结果对模型中的参数进行调整直至测试结果符合要求，得到训练好的Resnet50网络模型。

在本实施例中，实现了网络模型的构建，并通过对网络模型的训练将训练网络转换为特征提取网络，为后续的特征提取步骤做好准备。

在一个实施例中，如图4所示，提供了一种基于视频序列的行人再识别方法，该方法中将数据集中的测试样本输入到特征提取网络中得到测试样本中行人目标序列的特征矩阵的步骤还包括：

步骤402，将包含至少一张图像的视频目标序列输入到特征提取网络中；

步骤404，对于每一个视频目标序列中的一张图像，通过特征提取网络生成一个对应的特征向量；

步骤406，将每一个视频目标序列映射为一个特征矩阵。

在本实施例中实现了基于wide resnet50残差网络的行人目标序列特征矩阵的生成。具体地，参考图11为本实施例中由图像序列生成序列的特征矩阵示意图，将包含n张图片的视频目标序列f输入到残差网络中去，然后针对每一个目标序列中的一张图像f_i，可以通过基于wide resnet50的特征映射网络生成一个对应的2048维特征向量x_i＝[x_(i,1),x_(i,2),...,x_(i,2047),x_(i,2048)]^T，将每个结构化的分立目标序列映射为一个特征矩阵F，特征矩阵的大小为2048×n。

在一个实施例中，如图5所示，提供了一种基于视频序列的行人再识别方法，该方法中通过行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离的步骤还包括：

步骤502，分别计算出查询序列和待匹配序列的长度；

步骤504，将待匹配序列做变换，得到变换后的多个待匹配视频序列；

步骤506，依次计算查询序列与多个待匹配视频序列的DTW距离。

具体地，基于视频序列时间的动态时间规整算法可以直观地去解释多帧信息的有效性，同时可以很好地衡量两个视频序列的相似度，DTWT算法的输入是行人目标序列的特征矩阵，输出是序列间的距离d＝DTWT(S_p,S_q)，S_p和S_q分别代表目标序列的特征矩阵。

进一步地，实现基于视频序列时间的动态时间规整算法的步骤包括：

查询序列的特征矩阵待匹配序列之一的特征矩阵其中代表行人目标序列p的第i张图片的2048维特征向量，代表行人目标序列q的第i张图片的2048维特征向量，特征向量由wideresnet50残差网络输出所得。求出行人目标查询序列的特征矩阵S_p和待匹配行人目标序列的特征矩阵S_q的长度(包含图片的个数)分别为N和M，N＝length(S_p)，M＝length(S_q)，其中length函数是求序列的长度(假设M≤N)。

由假设知，M≤N，将长度较小的序列(待匹配序列的特征矩阵S_q)做变换，得到待匹配序列S_q变换后的M个视频序列其中代表S_q变换M次后得到的M个特征矩阵的集合，代表S_q变换t个单位后得到的特征矩阵，其中mod代表求余函数，t＝0,1,2,...,N-2,N-1。

根据查询序列(长度为N)与待匹配的M个序列依次算出DTW距离，求出最值其中DTW为动态时间规整算法的函数，输入行人目标序列的特征矩阵，输出为这个目标序列之间的距离。

在一个实施例中，如图6所示，提供了一种基于视频序列的行人再识别方法，该方法中依次计算查询序列与多个待匹配视频序列的DTW距离的步骤包括：

步骤602，计算查询序列和待匹配视频序列的距离矩阵；

步骤604，计算查询序列和待匹配视频序列的过渡距离矩阵；

步骤606，根据距离矩阵和过渡距离矩阵计算查询序列和待匹配视频序列的累计距离矩阵；

步骤608，根据累计距离矩阵计算查询序列和待匹配视频序列的DTW距离；

步骤610，通过重复执行步骤602-步骤608得到查询序列与多个待匹配视频序列的DTW距离。

在一个实施例中，如图7所示，提供了一种基于视频序列的行人再识别方法，该方法在依次计算查询序列与多个待匹配视频序列的DTW距离步骤之后还包括：

步骤702，将查询序列与多个待匹配视频序列的DTW距离的最小值作为查询序列和待匹配序列的最终距离；

步骤704，分别计算查询序列和所有待匹配序列的距离。

具体地，在本实施例中实现了动态时间规整算法(DTW)，包括如下步骤：

首先，求出查询序列和待匹配序列间的距离矩阵。

假设给定N个图像样本序列和M个图像测试序列，则样本序列和测试样本通过wideresnet50残差网络后得到的特征矩阵分别为X＝[x₁,x₂,...,x_M]和Y＝[y₁,y₂,...,y_N]，同时给定样本序列与测试序列之间特征向量的距离公式为：

其中i＝1,2,...,M,j＝1,2,...,N，x_i,y_j分别为样本序列和测试序列中的第i个和第j个图片所对对应的2048维特征向量，x_i＝[x_(i,1),x_(i,2),...,x_(i,2047),x_(i,2048)]^T，y_i＝[y_(i,1),y_(i,2),...,y_(i,2047),y_(i,2048)]^T 分别为x_i,y_j特征向量的第k个值，可以得到序列X和序列Y的距离矩阵d为:

然后，求出查询序列和待匹配序列间的过渡距离矩阵。

序列X和序列Y的距离矩阵d_temp为:

其中，inf为python中的无穷大值，inf_1和inf_2为inf组成的向量，inf_1的大小为1×N，inf_2的大小为M×1。

接着，求出查询序列和待匹配序列间的累积距离矩阵。

根据公式：

D(i,j)＝d(i,j)+min{d_temp(i,j+1),d_temp(i+1,j),d_temp(i,j)}

其中，i＝1,2,...,M,j＝1,2,...,N，i和j分别从1递增到M和N，d(i,j)为距离矩阵d的第i行第j列对应的元素值，d_temp(i,j+1)为累积距离矩阵d_temp的第i行第(j+1)列对应的元素值，d_temp(i+1,j)为累积距离矩阵d_temp的第(i+1)行第j列对应的元素值，d_temp(i,j)为累积距离矩阵d_temp的第i行第j列对应的元素值。最后得到累积距离矩阵S为：

由累积距离矩阵求出查询序列和待匹配序列的DTW距离。

其中，结合参考图12，DTW算法的核心就是要找到一个最合适的D(i,j)扭曲曲线，其中i＝1,2,...,M,j＝1,2,...,N，扭曲曲线使得归整路径的距离最小，归整路径的距离最小值是累积距离矩阵S的最后一行最后一列的值D_(M,N)，D_(M,N)作为两个图像子序列的相似性距离。

通过重复执行上述步骤即可求出查询序列和待匹配序列集的DTW距离。

由公式知待匹配序列S_q变换后的M个视频序列，则依据DTW算法，查询序列的特征矩阵S_p可以与待匹配序列的M个视频序列算出M个距离d＝{d₁,d₂,...,d_M-1,d_M}。

查询序列与其他待匹配序列依次算出DTWT距离。具体地，根据上述步骤中得到的M个距离，最小值作为查询序列S_p和待匹配序列S_q的最终距离d_p,q＝min{d₁,d₂,...,d_M-1,d_M}。

最后，计算查询序列与所有待匹配序列的距离。

根据图8可知query包含626个行人编号，总共有1980个行人序列。gallery包含622个行人编号，总共有9330个行人编号。查询序列一共1980个，所有待匹配序列一共9330个，查询序列的每一个需要和gallery中的9330个序列一一进行DTWT度量，最终query中的1980个序列在gallery中的DTWT距离集合为：Distance_{query→gallery}＝{D₁,D₂,...,D₁₉₈₀}，其中,D_i是query中第i个序列在gallery中的DTWT距离集合，i＝1,2,...,1980。

D_i＝{DTWT(query_i,gallery₁),DTWT(query_i,gallery₂),...,DTWT(query_i,gallery₉₃₃₀)}其中，query_i代表query中第i个序列的特征矩阵，gallery_j代表gallery中第j个序列的特征矩阵，j＝1,2,...,9330。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种基于视频序列的行人再识别装置1400，该装置包括：

模型训练模块1401，用于构建残差网络，通过数据集中的训练样本对残差网络进行训练得到特征提取网络；

特征提取模块1402，用于将数据集中的测试样本输入到特征提取网络中得到测试样本中行人目标序列的特征矩阵；

度量计算模块1403，用于通过行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离，输出基于视频序列的行人再识别结果。

在一个实施例中，如图15所示，提供了一种基于视频序列的行人再识别装置1400，该装置还包括数据准备模块1404，用于：

在一个实施例中，模型训练模块1401还用于：

构建基于视频序列的特征映射Resnet50网络模型；

在一个实施例中，特征提取模块1402还用于：

将包含至少一张图像的视频目标序列输入到特征提取网络中；

对于每一个视频目标序列中的一张图像，通过特征提取网络生成一个对应的特征向量；

将每一个视频目标序列映射为一个特征矩阵。

在其中一个实施例中，度量计算模块1403还用于：

分别计算出查询序列和待匹配序列的长度；

将待匹配序列做变换，得到变换后的多个待匹配视频序列；

依次计算查询序列与多个待匹配视频序列的DTW距离。

在一个实施例中，度量计算模块1403还用于：

计算查询序列和待匹配视频序列的距离矩阵；

计算查询序列和待匹配视频序列的过渡距离矩阵；

根据距离矩阵和过渡距离矩阵计算查询序列和待匹配视频序列的累计距离矩阵；

根据累计距离矩阵计算所述查询序列和待匹配视频序列的DTW距离；

通过重复执行上述计算步骤得到查询序列与多个待匹配视频序列的DTW距离。

在一个实施例中，度量计算模块1403还用于：

将查询序列与多个待匹配视频序列的DTW距离的最小值作为查询序列和待匹配序列的最终距离；

分别计算查询序列和所有待匹配序列的距离。

关于基于视频序列的行人再识别装置的具体限定可以参见上文中对于基于视频序列的行人再识别方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频序列的行人再识别方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以上各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频序列的行人再识别方法，所述方法包括：

2.根据权利要求1所述的基于视频序列的行人再识别方法，其特征在于，在所述构建残差网络的步骤之前还包括：

3.根据权利要求1所述的基于视频序列的行人再识别方法，其特征在于，所述构建残差网络，通过数据集中的训练样本对所述残差网络进行训练得到特征提取网络的步骤还包括：

构建基于视频序列的特征映射Resnet50网络模型；

4.根据权利要求1所述的基于视频序列的行人再识别方法，其特征在于，所述将数据集中的测试样本输入到所述特征提取网络中得到所述测试样本中行人目标序列的特征矩阵的步骤还包括：

将每一个所述视频目标序列映射为一个特征矩阵。

5.根据权利要求1所述的基于视频序列的行人再识别方法，其特征在于，所述通过所述行人目标序列的特征矩阵根据基于视频序列时间的动态时间规整算法计算查询序列和待匹配序列的距离的步骤还包括：

分别计算出查询序列和待匹配序列的长度；

6.根据权利要求5所述的基于视频序列的行人再识别方法，其特征在于，所述依次计算所述查询序列与所述多个待匹配视频序列的DTW距离的步骤包括：

计算所述查询序列和待匹配视频序列的距离矩阵；

计算所述查询序列和待匹配视频序列的过渡距离矩阵；

7.根据权利要求5所述的基于视频序列的行人再识别方法，其特征在于，在所述依次计算所述查询序列与所述多个待匹配视频序列的DTW距离步骤之后还包括：

分别计算查询序列和所有待匹配序列的距离。

8.一种基于视频序列的行人再识别装置，其特征在于，所述基于视频序列的行人再识别装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。