CN110619268A

CN110619268A - 基于时空分析与深度特征的行人再识别方法及装置

Info

Publication number: CN110619268A
Application number: CN201910727543.6A
Authority: CN
Inventors: 曲寒冰; 祁子梁; 董良; 赵传虎
Original assignee: BEIJING NEW TECHNOLOGY APPLICATION INST
Current assignee: BEIJING NEW TECHNOLOGY APPLICATION INST
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-12-27
Anticipated expiration: 2039-08-07
Also published as: CN110619268B

Abstract

一种基于时空分析与深度特征的行人再识别方法及装置，在行人再识别应用中，由于在实际的大规模视频监控场景中对行人图像进行全局搜索存在复杂性和不合理性，并且为了进一步提高识别准确率和识别速度，本发明提出结合时空信息分析和深度特征提取的方法。首先通过分析得到行人的移动速度符合γ分布，再通过该分布来对行人的时空信息作进一步分析，得到行人的时空先验概率；然后在大规模数据集上结合实际采集图像训练卷积神经网络，提取深度特征计算视觉时空概率；最后结合上述两种概率判断两幅图像是否为相同行人。实现了在实际的大规模视频监控应用场景从海量的监控或采集数据中既能有效地提高行人再识别的识别效率，又能保持较高的行人再识别精度，达到了高效准确的行人再识别效果。

Description

基于时空分析与深度特征的行人再识别方法及装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于时空分析与深度特征的行人再识别方法和装置。

背景技术

行人再识别也叫行人重识别，就是在跨摄像机跨场景条件下，对不同时刻拍摄的行人图像进行识别，从而判断是否为同一行人，即识别出跨摄像机跨场景下的行人是否为同一个人。随着社会中监控网络的不断完善，以及智慧城市，智能安保，智能监控等领域需求的增长，行人再识别研究吸引了工业界和学术界许多的研究者。

尽管人脸识别技术目前已发展得较为成熟，在很多场景与产品中都已有落地的应用，但是人脸识别技术的应用具有一定局限性：首先，人脸识别技术只能用到人体的人脸信息，其他的重要信息得不到充分的利用，例如：衣着、姿态、行为等；其次，人脸识别技术在应用时必须要有清晰的正面人脸照片，即对图像细节要求比较高，在很多场景下无法满足这些条件，例如：低头侧脸、背对镜头、模糊身形、帽子遮挡等。

而行人再识别(Person Re-ID)技术正好能够弥补人脸识别技术的这些不足之处，Person Re-ID能够根据行人的穿着、体态、行为等信息认知行人，对行人目标进行跨摄像机跟踪。这将人工智能(Artificial Intelligence，AI)的认知水平提高到了一个新的阶段，现在Person Re-ID已成为AI领域的重要研究方向。但由于监控场景的多样复杂性和行人的非合作性，使得行人再识别研究仍存在许多挑战，识别精度和识别效率均有待于进一步提高。

行人再识别即行人图像的再识别，其过程和行人图像的检测过程是不一样的。行人图像的检测过程只需要在图像或者视频帧当中区别出前景(即行人部分)和背景(即非行人部分)，并把前景部分分割出来即可。而行人图像的再识别通常是在行人图像的检测的基础上，通过进一步判断、识别，给出不同图像是否为相同行人的结果，也因此行人图像的再识别技术比行人图像的检测技术出现要晚。

行人再识别的研究从所用特征的提取方法上可以分为人工设计特征方法和深度学习方法两种。人工设计特征方法的研究方向主要包括特征提取表达和相似性度量学习。特征的性能直接对行人再识别的结果产生影响，特征提取表达的研究就是通过设计表达能力强、鲁棒性好的特征来提升再识别准确性。良好的度量方法可以进一步提升识别效果，该类方法的主要思想是通过学习一个映射矩阵，将特征从原始特征空间映射到另一个具有高区分度的特征空间，使得在原始特征空间难区分甚至不可分的特征变得容易区分。这种方法在一定程度上降低了对特征的要求，提高了识别算法的鲁棒性，但是这些人工设计特征方法不能达到令人满意的效果，而且设计和应用的难度都比较大。

随着计算机硬件的发展，计算能力的不断提升，以及大规模数据集的出现，深度学习开始应用于包括计算机视觉领域在内的各个领域，并取得了优异表现。自从在2012年的ImageNet竞赛中获胜，深度学习开始了快速的发展，Lenet5，Alexnet，VGGnet，GoogLenet，Resnet等优秀的卷积神经网络(Convolutional neural network，CNN)模型不断被提出，网络的结构越来越深，网络性能也不断提升。由于深度学习在计算机视觉领域展现出了优越的性能，以及非深度学习方法的局限性，深度学习方法被应用于行人再识别课题的研究。但由于行人再识别问题本身的复杂性导致目前的基于深度学习的行人再识别方法在实际应用中依然存在一定的局限性，识别效率还不能令人满意，识别精度也有待于进一步提高。并且在实际的城市视频监控场景中，由于摄像机众多、行人数量庞大、监控数据海量，也大大增大了提高行人再识别的准确率和识别效率的难度。

尽管当前许多的行人再识别研究是基于行人图像进行的，但是其目的是为了对视频监控中的行人目标进行再识别分析。基于图像的行人再识别一般只关注实际场景中行人的图像信息，而实际应用场合中，例如在视频监控、城市监管、刑事安防中，行人图像往往是在跨摄像机跨场景下、由远离目标的摄像设备进行采集的，不同摄像设备之间存在差异，所采集图像中行人的细节特征不明显，由于服装或姿势的变化，行人图像的不同类别可能是相似的，但相同种类的行人图像并不是非常相似，识别难度大；另一方面，由于行人流量大，监控时间跨距长，背景复杂，所得到的监控数据是往往是海量的，使得所采集的行人图像数据非常庞大；这些实际困难导致如果采用基于行人图像的复杂算法提高行人再识别的识别精度必然会面临运算复杂、增加系统运行开销的问题，直接导致识别效率低下以及系统成本的上升；而如果为了降低系统成本或者单纯追求提高识别速度指标，又往往伴随着系统识别精度的下降。因此，如何在实际的大规模视频监控应用场景从海量的监控或采集数据中既能有效地提高行人再识别的识别效率，又能保持较高的行人再识别精度成为亟待解决的技术问题。

发明内容

本发明针对上述问题，提出了一种采用基于时空分析与深度特征的行人再识别方法与装置，引入实际场景中行人的时空信息，提高识别效率，基于深度特征分析，提高识别精度，以解决在实际的大规模视频监控应用场景从海量的监控或采集数据中既能有效地提高行人再识别的识别效率，又能保持较高的行人再识别精度的技术问题。

为解决上述技术问题，根据本发明的一个方面，提供了一种基于时空分析与深度特征的行人再识别方法，所述方法包括以下步骤：

S1、由多个摄像机采集图像或视频数据；

S2、对所采集的图像或视频数据中的行人图像进行预处理，对行人图像像素尺寸进行调整，使图像向量化之后能够输入CNN模型网络进行计算；

S3、采用包括两个权重共享的CNN模型孪生网络，以所采集的图像或视频数据中的行人图像和作为输入，所述两个权重共享的CNN模型孪生网络分别对输入的行人图像进行处理得到提取的第一深度特征和第二深度特征，所述提取的第一深度特征和第二深度特征包括图像自身的深度特征；通过对所述提取的第一深度特征和第二深度特征进行计算得到视觉相似度值；

S4、采用一个多层感知机(MLP)计算时空相似度；所述多层感知机的结构为两个全连接层，即第一全连接层FC1和第二全连接层FC2，并且在第一全连接层FC1后连接ReLU非线性激活函数，在第二全连接层FC2后连接sigmoid非线性激活函数，输出为两幅行人图像的时空相似度值；

S5、采用包括一个2×1的第三全连接层FC3的决策判断装置，将所述视觉相似度分支网络和时空相似度分支网络的输出结果，即视觉相似度值和时空相似度值输入到第三全连接层FC3；所述第三全连接层FC3连接一个sigmoid非线性层来计算得到两幅实际行人图像属于同一个行人的视觉时空概率。

优选地，所述图像或视频数据的每一帧图像都包括3种信息：图像自身的视觉信息为I_(i,_j)，表示第i个摄像机中的第j幅图像的视觉信息；图像的时间信息为T_(i,_j)，表示第i个摄像机中的第j幅图像的时间戳；图像的位置信息即摄像机的位置信息为L_i，表示第i个摄像机的位置。

优选地，所述两个权重共享的CNN模型孪生网络在训练时，把训练行人图像输入到孪生网络结构中，进行前向传播计算，所述训练行人图像经过权重共享的CNN模型处理后得到对应的训练行人图像深度特征，所使用的CNN模型权重共享，并且模型结构相同，所得到的特征维数相等，能够直接用于特征相似度的计算；然后，计算损失并进行反向传播，从而调整网络权重；经过反复多次的网络权重调整过程，获得训练好的孪生网络模型。

优选地，所述两个权重共享的CNN模型孪生网络在使用时，将预处理得到的实际行人图像输入到已经训练好的权重共享的CNN模型孪生网络模型中进行前向传播计算，得到实际行人图像的深度特征；最后，进行特征相似度的计算，得到两幅实际行人图像的视觉相似度值。

优选地，所述时空相似度分支网络的输入为(Δt,Δd)，所述输入分别通过式(3)、(4)计算得到：

Δt＝T_(c1,j1)-T_(c2,j2) (3)

Δd＝|L_c1-L_c2| (4)

其中，摄像机获得的不同时刻的两幅行人图像记为I_(c1,_j1)和I_(c2，_j2)，所述两幅行人图像对应的时间信息分别为T_(c1，_j1)和T_(c2，_j2)，位置信息分别为L_c1和L_c2。

根据本发明的一个方面，提供了一种基于时空分析与深度特征的行人再识别装置，包括：

多个摄像机，采集图像或视频数据；

预处理单元，对所采集的图像或视频数据中的行人图像进行预处理，对行人图像像素尺寸进行调整，使图像向量化之后能够输入CNN模型网络进行计算；

视觉相似度分支网络，包括两个权重共享的CNN模型孪生网络，以所采集的图像或视频数据中的行人图像和作为输入，所述两个权重共享的CNN模型孪生网络分别对输入的行人图像进行处理得到提取的第一深度特征和第二深度特征，所述提取的第一深度特征和第二深度特征包括图像自身的深度特征；通过对所述提取的第一深度特征和第二深度特征进行计算得到视觉相似度值；

时空相似度分支网络，包括一个多层感知机(MLP)；所述多层感知机的结构为两个全连接层，即第一全连接层FC1和第二全连接层FC2，并且在第一全连接层FC1后连接ReLU非线性激活函数，在第二全连接层FC2后连接sigmoid非线性激活函数，输出为两幅行人图像的时空相似度值；

决策判断装置，包括一个2×1的第三全连接层FC3，所述视觉相似度分支网络和时空相似度分支网络的输出结果，即视觉相似度值和时空相似度值输入到第三全连接层FC3；所述第三全连接层FC3连接一个sigmoid非线性层来计算得到两幅实际行人图像属于同一个行人的视觉时空概率。

优选地，所述图像或视频数据的每一帧图像都包括3种信息：图像自身的视觉信息为I_(i,j)，表示第i个摄像机中的第j幅图像的视觉信息；图像的时间信息为T_(i,j)，表示第i个摄像机中的第j幅图像的时间戳；图像的位置信息即摄像机的位置信息为L_i，表示第i个摄像机的位置。

Δt＝T_(c1,j1)-T_(c2,j2) (3)

Δd＝|L_c1-L_c2| (4)

优选地，所述两个权重共享的CNN模型孪生网络中的CNN模型使用Resnet-50网络模型为原始模型，所述CNN模型在训练时，采用行人数据集的1×1×M×N维的全连接层代替所述原始模型中最后的全连接层以及该层之后的网络，其中M是特征维数，N是数据集中的行人个数；全连接层后为非线性层，非线性激活函数为如式(1)所示的Softmax函数，非线性层输出行人图像属于每个类别的概率；最后通过计算式(2)的交叉熵损失函数来得到网络的训练损失；

其中，式(1)、(2)中T代表类别数，j为图像类别；a_j为网络全连接层输出的该幅图像属于j类图像的可能性值。s_j为a_j在所有可能性中所占的比例，也就是属于j类图像的概率值；p_j就是S_j，即计算时用S_j替代p_j。y_i是一个1×T的向量，只在i处为1，其它T-1处为0；i和k均为取值从1到T的参数；a_k为网络全连接层输出的该幅图像属于k类的可能性值，e是e指数；E是网络反向传播的损失值，用E来调整网络的权重。

优选地，所述时空相似度分支网络在训练过程中，通过连接二元交叉熵函数来计算损失，调整所述第一全连接层FC1和第二全连接层FC2的权重参数。

优选地，行人速度的概率密度服从Gamma分布(伽马分布)；Gamma分布的概率密度函数如式(5)所示：

v＝Δd/Δt (6)

其中，式中参数α称为形状参数(shape parameter)，所述形状参数决定了概率密度曲线的形状；而1/β称为尺度参数(scale parameter)，主要决定密度曲线有多陡；t为行人速度，v表示Δd/Δt的计算结果。

优选地，行人的时空先验概率为式(7)所示：

其中，

G()为Gamma分布概率密度函数；

式(7)、(8)中G(v)为gamma概率密度值；

优选地，所述两幅实际行人图像属于同一个行人的视觉时空概率表示为P(Δt，Δd，S)，即P(Δt，Δd，S)是深度网络所得到的视觉时空概率值，其中S只表示视觉相似度；

从而得到两幅实际行人图像中的行人为同一个行人的概率计算公式为：

式(9)中，等号左侧表示属于同一个行人的概率；P(v)是时空先验概率值；P(Δt，Δd，S)是深度网络所得到的视觉时空概率值。

本发明的有益效果：

1、在基于视频的行人再识别中，充分利用行人的时空信息，帮助在海量的监控视频中进行行人再识别，避免在城市大规模监控视频中进行全局搜索所带来的复杂性，识别效率高。

2、对行人速度分布进行时空建模分析，能够有效预测某个特定行人在另外摄像机中出现的时空概率，大大提高了识别的效率。

3、提出充分利用视频监控中行人图像的时空信息和图像本身的视觉信息的思想，结合这两种信息，有效地提高行人再识别的识别效率，又能保持较高的行人再识别精度。可以达到在城市布控摄像机网络下快速检索特定目标，进而判断其运行轨迹的目的。

4、对于图像内容本发明提出使用Visual-Spatio-CNN进行特征提取表达，然后比对视觉时空特征的相似度，得到图像之间的视觉时空概率，保持高效的同时提高识别准确度。

5、根据行人的行走速度分析，剔除了行人不可能出现的摄像机，减少了排查范围，缩小了提取图像深度信息的计算量，提升了整体工作效率。

6、能够实现在城市布控摄像机网络下快速检索特定目标，进而判断特定目标运行轨迹的目的。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。通过结合附图对本发明的实施例进行详细描述，本发明的上述和其它目的、特征、优点将更加清楚。

图1是行人再识别的完整基础流程图；

图2是神经网络结构框图；

图3是特征图展示；

图4是MLP的具体结构图；

图5是摄像机拓扑结构示意图；

图6是行人速度概率密度分布。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

行人再识别的完整基础流程如图1所示。首先，由多个摄像机(图中示例性地给出A、B两个摄像机)采集图像或视频；然后，经上述多个摄像机采集的图像或视频输入行人检测模块，再进行特征提取和特征相似性度量；最终得出相似性排序结果。

图2是神经网络结构框图。由多个摄像机采集图像或视频(图中示例性地给出了相机a、b两个摄像机采集的照片，本领域技术人员应该理解所述摄像机的数量大于或等于2个)，实际使用中，摄像机的数量为N(分别记为第1、2、…、i、…、N个摄像机)，从所述摄像机采集图像，每个摄像机中的图像都包括3种信息：图像自身的视觉信息为I_(i,j)，表示第i个摄像机中的第j幅图像的视觉信息，图像的时间信息为T_(i,j)，表示第i个摄像机中的第j幅图像的时间戳，图像的位置信息即摄像机的位置信息为L_i，表示第i个摄像机的位置。行人再识别通过计算两幅行人图像的相似度来判断所述两幅图像的行人中是否存在属于同一个行人的情形，或者给出它们属于同一行人的概率。

通过在两个不同位置的摄像机我们可以获得不同时刻的两幅行人图像，记为I_(c1,j1)和I_(c2，j2)，所述两幅行人图像对应的时间信息分别为T_(c1，j1)和T_(c2，j2)，位置信息分别为L_c1和L_c2。

所述行人再识别系统的整体网络结构可以分为两个分支网络，即视觉相似度分支网络和时空相似度分支网络，其中视觉相似度分支网络以所采集的两幅行人图像I_(c1,j1)和I_(c2，j2)作为输入，采用孪生网络结构得到图像之间的视觉相似度，网络结构中采用CNN模型来对图像进行处理，得到图像的深度特征。

如图2所示，网络结构包括两个权重共享的CNN模型孪生网络(ResNet)。

所述两个权重共享的CNN模型孪生网络在训练时，首先，输入由实际场景中多个摄像机采集图像或视频得到行人图像，并对行人图像进行预处理，预处理过程中根据所选用的CNN模型，对行人图像像素尺寸进行调整，使图像向量化之后可以输入CNN模型网络进行计算；然后，把行人图像输入到孪生网络结构中，进行前向传播计算，行人图像经过权重共享的CNN模型处理后得到对应的图像特征，由于所使用的CNN模型权重共享，并且模型结构相同，因此所得到的特征维数相等，可以直接用于特征相似度的计算。最后，计算损失并进行反向传播，从而调整网络权重。如图2所示，上下两个权重共享的CNN模型孪生网络分别对输入的行人图像进行处理得到提取的特征，分别表示为特征a和特征b。所述特征a和特征b分别是摄像机a和摄像机b所采集的行人图像的特征，所述行人图像特征包括图像自身的深度特征。通过识别图像自身的深度特征可以提高特征对比的准确性，从而提高识别精度。通过对特征a和特征b进行计算得到视觉相似度值，即可获得所述输入的行人图像的视觉相似度。

所述两个权重共享的CNN模型孪生网络在使用时，也就是计算视觉时空概率的时候，首先输入任意两张行人图像到孪生网络结构中，同样经过预处理步骤。然后，将预处理得到的行人图像输入到已经训练好的权重共享的CNN模型孪生网络模型中进行前向传播计算，得到图像的特征。最后，进行特征相似度的计算，得到两幅图像视觉相似度值。与训练时一样，上下两个权重共享的CNN模型孪生网络分别对输入的行人图像进行处理得到提取的特征，分别表示为特征a和特征b。所述特征a和特征b分别是行人图像的特征，所述行人图像特征包括图像自身的深度特征。实际使用时，通过识别输入图像自身的深度特征可以提高特征对比的准确性，从而提高识别精度。通过对特征a和特征b进行计算得到视觉相似度值，即可获得所述输入的行人图像的视觉相似度。

本发明计算所得到特征图如图3所示，图3中深色区域代表激活响应值。所述特征提取方法效果可靠。

本发明中的CNN模型训练时使用ImageNet比赛中采用的大规模数据集，通过预训练，得到训练好的CNN网络模型，由于所选用的模型不同，得到的用于对图像进行表示的特征维数也不相同，本实施方式中以Resnet-50网络为例进行说明。CNN模型在训练时，去掉原始模型中最后的全连接层以及该层之后的网络，同时添加符合本发明行人数据集的1×1×M×N维的全连接层，其中M是特征维数，N是数据集中的行人个数。全连接层后为非线性层，非线性激活函数选用如公式(1)所示的Softmax函数，非线性层输出行人图像属于每个类别的概率。最后通过计算式(2)的交叉熵损失函数来得到网络的训练损失。

如图2所示，时空相似度分支为一个多层感知机(Multi-Layer Perception，MLP)。图4所示为MLP的具体结构图。该多层感知机的结构为两个全连接层FC1和FC2，并且在FC1后连接ReLU非线性激活函数，在FC2后连接sigmoid非线性激活函数，输出为两幅图像的时空相似度值。该分支的输入为(Δt,Δd)，所述输入分别通过式(3)、(4)计算得到：

Δt＝T_(c1,j1)-T_(c2,j2) (3)

Δd＝|L_c1-L_c2| (4)

其中，摄像机获得的不同时刻的两幅行人图像记为I_(c1,_j1)和I_(c2，j2)，所述两幅行人图像对应的时间信息分别为T_(c1，j1)和T_(c2，j2)，位置信息分别为L_c1和L_c2。

训练过程中时空相似度分支最后通过连接二元交叉熵函数来计算损失，调整两个全连接层的权重参数。

图5为摄像机拓扑结构示意图。在进行时空分析时，可以设定每个摄像机的地理位置及其拓扑结构是已知的，本实施方式中采用基于欧式距离的一阶拓扑结构为例进行说明，结构形式如图5所示。

本发明通过对行人行走速度分布进行了合理的分析，得到在实际应用场合中，尽管行人行走速度有快有慢，不尽相同，但是基本都在一定的数值范围之内，一般地，行人的行走速度范围为4km/h—7km/h，速度特别慢的行人和速度特别快的行人都非常少。因此可以设定行人速度的概率密度服从Gamma分布(伽马分布)。Gamma分布的概率密度函数如式(5)所示：

v＝Δd/Δt (6)

实际使用中，需要取得符合我们已知先验的gamma分布，即需要取得符合行人速度分布的参数α和β，并且α和β可以有多种取值方式。这里以α＝3.5、β＝0.5为例进行说明，该参数下的gamma概率密度曲线如图6所示。可以看到在4—7之间取得较大的概率密度值，符合行人行走的速度分布。因此得到行人的时空先验概率为式(7)所示：

G()为Gamma分布概率密度函数

式(7)、(8)中G(v)为gamma概率密度值，

最后，整个网络在使用时去掉所有的损失层，两个分支的输出结果输入到一个2×1的全连接层FC3。然后FC3连接一个sigmoid非线性层来得到这两幅图像属于同一个行人的视觉时空概率，表示为P(Δt，Δd，S)，其中S只表示视觉相似度。

从而得到行人为同一个行人的概率计算公式为：

式(9)中，P(v)是时空先验概率值；P(Δt，Δd，S)是深度网络所得到的视觉时空概率值。

采用时空相似度分支网络计算时空先验概率的意义在于，可以根据行人的行走速度，剔除那些行人不可能出现的摄像机，减少排查范围，缩小视觉相似度分支网络提取图像深度信息的计算量。在获得行人图像之后，首先根据位置和时间信息计算行人行走速度，根据先验或者图5中都可以得到行人行走速度基本不可能超过20km/h，因此对不符合此先验的图像不再进行特征提取和筛选。其次，使用训练好的网络对图像提取特征，并计算其视觉时空相似度。然后根据速度的概率密度分布得到其时空先验概率。时空先验概率的结合大大减少了视觉相似度分支网络的比对工作量，整体提升了工作效率和识别准确率。

并且，对于行人再识别来说从海量的行人图像中进行全局搜索不仅会浪费较多的计算资源，同时在时间效率上也变得很低，因此需要在把行人图像输入神经网络进行训练之前进行分析筛选。只是用对应分布进行筛选的话，仅仅利用到了时空信息，且对时空信息进行判断时偏向于分布的均值中心，对于分布在距离中心较远的样本考虑较少，但是又不能完全排除存在行人在监控的中间某个位置停留的情况。因此在训练视觉时空网络时，在网络中添加了时空信息分支。把那些属于相同行人的图像但是速度分布在距离中心点较远的样本在训练时也考虑进去，即它们的存在会影响卷积神经网络权重的调整，从而提升网络的稳定性。通过综合视觉相似度和时空相似度记性决策判断，可以有效地提高行人再识别的识别效率，同时又能保持较高的行人再识别精度，从而达到在城市布控摄像机网络下快速检索特定目标，进而判断其运行轨迹的目的。

至此，已经结合附图所示的优选实施方法描述了本发明的技术方案，但是，本领域技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于时空分析与深度特征的行人再识别方法，其特征在于：包括以下步骤：

S1、由多个摄像机采集图像或视频数据；

S4、采用一个所述多层感知机(MLP)计算时空相似度；所述多层感知机的结构为两个全连接层，即第一全连接层FC1和第二全连接层FC2，并且在第一全连接层FC1后连接ReLU非线性激活函数，在第二全连接层FC2后连接sigmoid非线性激活函数，输出为两幅行人图像的时空相似度值；

2.一种如权利要求1所述的基于时空分析与深度特征的行人再识别方法，其特征在于：

所述图像或视频数据的每一帧图像都包括3种信息：图像自身的视觉信息为I_(i,j)，表示第i个摄像机中的第j幅图像的视觉信息；图像的时间信息为T_(i,j)，表示第i个摄像机中的第j幅图像的时间戳；图像的位置信息即摄像机的位置信息为L_i，表示第i个摄像机的位置。

3.一种如权利要求1所述的基于时空分析与深度特征的行人再识别方法，其特征在于：

所述两个权重共享的CNN模型孪生网络在训练时，把训练行人图像输入到孪生网络结构中，进行前向传播计算，所述训练行人图像经过权重共享的CNN模型处理后得到对应的训练行人图像深度特征，所使用的CNN模型权重共享，并且模型结构相同，所得到的特征维数相等，能够直接用于特征相似度的计算；然后，计算损失并进行反向传播，从而调整网络权重；经过反复多次的网络权重调整过程，获得训练好的孪生网络模型。

4.一种如权利要求3所述的基于时空分析与深度特征的行人再识别方法，其特征在于：

所述两个权重共享的CNN模型孪生网络在使用时，将预处理得到的实际行人图像输入到已经训练好的权重共享的CNN模型孪生网络模型中进行前向传播计算，得到实际行人图像的深度特征；最后，进行特征相似度的计算，得到两幅实际行人图像的视觉相似度值。

5.一种如权利要求1所述的基于时空分析与深度特征的行人再识别方法，其特征在于：

所述时空相似度分支网络的输入为(Δt,Δd)，所述输入分别通过式(3)、(4)计算得到：

Δt＝T_(c1,j1)-T_(c2,j2) (3)

Δd＝|L_c1-L_c2| (4)

其中，摄像机获得的不同时刻的两幅行人图像记为I_(c1,j1)和I_(c2，j2)，所述两幅行人图像对应的时间信息分别为T_(c1，j1)和T_(c2，j2)，位置信息分别为L_c1和L_c2。

6.一种基于时空分析与深度特征的行人再识别装置，其特征在于：包括：

多个摄像机，采集图像或视频数据；

7.一种如权利要求6所述的基于时空分析与深度特征的行人再识别装置，其特征在于：

8.一种如权利要求6所述的基于时空分析与深度特征的行人再识别装置，其特征在于：

9.一种如权利要求8所述的基于时空分析与深度特征的行人再识别装置，其特征在于：

10.一种如权利要求6所述的基于时空分析与深度特征的行人再识别装置，其特征在于：

Δt＝T_(c1,j1)-T_(c2,j2) (3)

Δd＝|L_c1-L_c2| (4)