CN109472191A

CN109472191A - 一种基于时空上下文的行人重识别与追踪方法

Info

Publication number: CN109472191A
Application number: CN201811081523.8A
Authority: CN
Inventors: 杨曦; 汤英智; 王楠楠; 高新波; 宋彬; 杨东; 吴郯; 郭浩远
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-03-15
Anticipated expiration: 2038-09-17
Also published as: CN109472191B

Abstract

本发明涉及一种基于时空上下文的行人重识别与追踪方法，包括：训练Mask RCNN网络；利用训练后的Mask RCNN网络处理原始图片集，得到训练集、测试集和查找集；利用训练集训练卷积神经网络；利用训练后的卷积神经网络对测试集和查找集进行处理，以从测试集中获取第一预设数量的图片，以对目标行人进行重识别。本发明使用目标检测算法和实例分割算法对图片进行预处理，去除背景干扰信息，能够进一步提高模型精度，提升行人重识别方法的准确率。同时，本发明解决了目前行人重识别算法缺乏追踪功能的问题，提出了基于步行速度的区域预测算法，结合Mask RCNN降低了追踪计算复杂度，达到实时追踪，提高了追踪效率。

Description

一种基于时空上下文的行人重识别与追踪方法

技术领域

本发明图像处理技术领域，具体涉及一种基于时空上下文的行人重识别与追踪方法。

背景技术

行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别算法在公共安全领域起着十分重要的作用，应用于在监控视频中快速检索并追踪目标，从而弥补在人脸信息缺失的情况下对身份辨认不足的缺陷。行人重识别的任务是跨摄像头检索，即在某一摄像头中出现的目标需要从其他的摄像头被检索到。

目前行人重识别算法主要可以分为两类：一类是基于图像的行人重识别算法，另一类是基于视频的行人重识别算法。目前基于图像的行人重识别算法通过引入poseestimation(姿态估计)，将人体分割为多个部分，并将其分别放入卷积神经网络中进行学习，再利用卷积神经网络对行人进行重识别；基于视频的行人重识别算法一般先使用卷积神经网络提取行人特征，之后再将行人特征放入卷积神经网络中学习视频序列的行人特征。

但是，在基于图像的行人重识别算法的研究中常用的DukeMTMC-reID数据库中只有约3万张图片(其中共有1400多个行人)，导致没有足够的数据用来训练基于图像的行人重识别算法的卷积神经网络，从而影响其重识别准确率；对于基于视频的行人重识别算法需先后放入卷积神经网络和循环神经网络中进行训练，导致这类算法的复杂度高，且所需训练时间较长。

并且，在某些现有的追踪方法中，大多使用长短时记忆网络(循环神经网络的一种)来预测行人的位置，且该追踪方法使用的是传统的手工特征提取方式提取行人信息，准确率较低，训练耗费时间长，导致追踪效率低。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于时空上下文的行人重识别与追踪方法。

本发明的一个实施例提供了一种基于时空上下文的行人重识别与追踪方法，包括：

训练Mask RCNN网络；

利用训练后的Mask RCNN网络处理原始图片集，得到训练集、测试集和查找集；

利用所述训练集训练卷积神经网络；

利用训练后的卷积神经网络对所述测试集和所述查找集进行处理，从所述测试集中获取第一预设数量的图片，以对目标行人进行重识别，之后对所述目标行人进行追踪。

在本发明的一个实施例中，对所述目标行人进行追踪，包括：

根据所述第一预设数量的图片得到N个第二图片序列；

根据训练后的Mask RCNN网络处理所述N个第二图片序列，以对所述目标行人进行跟踪。

在本发明的一个实施例中，根据所述第一预设数量的图片得到N个第二图片序列，包括：

根据图片属性和时间顺序，将所述第一预设数量的图片划分为N个第一图片序列；

对所述第一图片序列进行补全处理，以得到第二图片序列，其中，所述第二图片序列的数量为N个。

在本发明的一个实施例中，根据训练后的Mask RCNN网络处理N个所述第二图片序列，以对所述目标行人进行跟踪，包括：

获取所述第二图片序列中的第M-1帧图片至第M帧图片；

利用训练后的Mask RCNN网络提取所述第M-1帧图片至所述第M帧图片中所有行人及所述行人的位置信息；

计算所有所述行人与所述目标行人的欧式距离，确定与所述目标行人的欧式距离最小的所述行人，以得到第一待跟踪行人；

根据所述第M-1帧图片至所述第M帧图片中的第一待跟踪行人的位置信息，获取所述第二图片序列中的第M+1帧图片的预测区域；

利用训练后的Mask RCNN网络对所述预测区域进行检测，完成对所述目标行人的跟踪。

在本发明的一个实施例中，利用训练后的Mask RCNN网络对所述预测区域进行检测，完成对所述目标行人的跟踪，包括：

利用训练后的Mask RCNN网络对所述预测区域进行检测，获取所述预测区域中所有第二待跟踪行人；

判断所述预测区域中第二待跟踪行人的人数，若所述第二待跟踪行人的人数为一人，则将所述第二待跟踪行人确定为所述目标行人，若所述第二待跟踪行人的人数为多人，则计算所有所述第二待跟踪行人与所述目标行人的欧式距离，将与所述目标行人的欧式距离最小的所述第二待跟踪行人确定为所述目标行人，完成对所述目标行人的跟踪。

在本发明的一个实施例中，利用训练后的Mask RCNN网络处理原始图片集，包括：

获取原始图片集；

利用训练后的Mask RCNN网络的实例分割层提取所述原始图片集中行人的轮廓信息；

根据所述轮廓信息对所述原始图片集进行填黑处理。

在本发明的一个实施例中，利用所述训练集训练卷积神经网络，包括：

从所述训练集中选取第二预设数量的图片；

对所述第二预设数量的图片进行镜像翻转处理和/或裁剪处理和/或拉伸处理和/或遮挡处理，得到预设图片子集；

利用所述预设图片子集训练卷积神经网络。

在本发明的一个实施例中，利用训练后的卷积神经网络对所述测试集和所述查找集进行处理，从所述测试集中获取第一预设数量的图片，包括：

利用训练后的卷积神经网络的全局平均池化层，提取所述测试集的行人特征和所述查找集的行人特征；

计算所述测试集的行人特征和所述查找集的行人特征之间的欧式距离，以从所述测试集中获取第一预设数量的图片。

与现有技术相比，本发明的有益效果：

本发明的行人重识别方法是一种时空上下文(视频)的行人重识别方法，其使用了目标检测算法和实例分割算法(Mask RCNN)对图片进行预处理，去除了背景干扰信息，能够进一步提高模型精度，提升行人重识别方法的准确率。同时，本发明解决了目前行人重识别算法缺乏追踪功能的问题，提出了基于步行速度的区域预测算法，结合Mask RCNN降低了追踪计算复杂度，达到实时追踪，提高了追踪效率。

附图说明

图1为本发明实施例提供的一种基于时空上下文的行人重识别与追踪方法的流程示意图；

图2为本发明实施例提供的另一种基于时空上下文的行人重识别与追踪方法的流程示意图；

图3为本发明实施例提供的训练后的Mask RCNN网络检测之前的原始图片集中行人图片的示意图；

图4为本发明实施例提供的训练后的Mask RCNN网络检测之后的原始图片集中行人图片的示意图；

图5为本发明实施例提供的一种填黑处理的图片示意图；

图6为本发明实施例提供的一种第M-1帧图片的示意图；

图7为本发明实施例提供的一种第M帧图片的示意图；

图8为本发明实施例提供的一种第M+1帧图片的示意图；

图9为本发明实施例提供的一种基于时空上下文的行人重识别与追踪方法的结果示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请同时参见图1和图2，图1为本发明实施例提供的一种基于时空上下文的行人重识别与追踪方法的流程示意图，图2为本发明实施例提供的另一种基于时空上下文的行人重识别与追踪方法的流程示意图。一种基于时空上下文的行人重识别与追踪方法，该方法包括：

步骤一、训练Mask RCNN网络；

具体地，将Faster RCNN网络中的RoI Pooling层替换为RoI Align层，并在FasterRCNN网络中的最后一层之后添加并列的FCN层(即mask层，用于实例分割)，即可得到MaskRCNN网络。

具体地，使用数据库对Mask RCNN网络进行训练，并将Mask RCNN网络中的backbone设置为X_32x8d-FPN，backbone为网络基础框架。

例如，本发明实施例采用训练Mask RCNN网络的数据库为ImageNet5K，ImageNet5K为斯坦福大学公布的公开数据库。

本发明实施例的Mask RCNN网络是基于Faster RCNN网络提出的，Mask RCNN网络在有效地寻找目标的同时能够完成高质量的语义分割，同时，Mask RCNN网络的结构比较容易实现和训练。

步骤二、利用训练后的Mask RCNN网络处理原始图片集，得到第二图片集；

具体地，获取原始图片集，其中原始图片集中包括了多张由不同视频中得到的携带有行人的图片。

请同时参见图3和图4，图4中的person指行人，handbag指手提包。具体地，将原始图片集中所有的图片输入至训练后的Mask RCNN网络，利用训练后的Mask RCNN网络中的目标检测层(object detection)提取原始图片集中所有图片中的目标信息，训练后的MaskRCNN网络通过该目标信息确定所检测的目标是否为行人，若为行人，则利用训练后的MaskRCNN网络中的实例分割层(instance segment)所述原始图片集中所有图片中行人的轮廓信息。

具体地，根据轮廓信息对原始图片集进行填黑处理；

请参见图5，进一步地，将提取轮廓信息的原始图片集中的所有图片均转化为RGB数组形式，根据每个图片的轮廓信息，将轮廓外进行填黑处理，填黑处理后的原始图片集即为第二图片集；

优选地，将原始图片集中每个图片中轮廓外的像素值全部设置为[0,0,0]。

进一步地，第二图片集包括训练集、测试集和查找集，训练集、测试集和查找集均包括多张图片，且训练集、测试集和查找集中的图片数量可以相等，也可以不相等，测试集和查找集中的图片均包括目标行人，其中，训练集用于对卷积神经网络进行训练，测试集用于对目标行人进行重识别和跟踪，查找集用于对卷积神经网络进行测试，并分别将训练集、测试集和查找集具有相同行人的图片保存在一个文件夹中。

利用训练后的Mask RCNN网络对行人进行目标信息和轮廓信息的提取，并对行人图片进行了填黑处理，从而去除了行人之外的干扰信息，使得后续训练得到的卷积神经网络能够更注重行人信息的提取，从而提高了重识别准确率。

利用训练后的Mask RCNN网络对行人进行轮廓信息的检测与提取，与其他使用轮廓、形状、纹理、区域等特征的方法相比极大提高了行人轮廓重识别的准确率，提升了追踪效果。

步骤三、对训练集进行图片预处理；

为了更好的提高所训练的卷积神经网络的检测准确率，本实施例还可以对训练集中的图片进行预处理，从而增加训练集中的图片数量，从而提高卷积神经网络的鲁棒性和检测准确率。

具体地，从训练集中选取第二预设数量的图片；

进一步地，第二预设数量的图片可以为训练集中的部分图片，也可以为训练集中的全部图片。

具体地，对第二预设数量的图片进行镜像翻转处理和/或裁剪处理和/或拉伸处理和/或遮挡处理，得到预设图片子集；

进一步地，可以对所选取的第二预设数量的图片只进行镜像翻转处理，或者只进行裁剪处理，或者只进行拉伸处理，或者只进行遮挡处理，也可以选取镜像翻转、裁剪处理、拉伸处理和遮挡处理中的任意两种处理方法对第二预设数量的图片进行处理，且对该任意两种处理方法的处理顺序没有要求；也可以选取镜像翻转、裁剪处理、拉伸处理和遮挡处理中的任意三种处理方法对第二预设数量的图片进行处理，且对该任意三种处理方法的处理顺序没有要求；也可以选取镜像翻转、裁剪处理、拉伸处理和遮挡处理中的所有处理方法对第二预设数量的图片进行处理，且对第二预设数量的图片进行镜像翻转、裁剪处理、拉伸处理和遮挡处理的顺序没有要求。

将经过处理的第二预设数量的图片放入训练集中，且保留训练集中全部原始图片，以对训练集中的图片进行扩充，形成扩充后的训练集，即预设图片子集。

优选地，第二预设数量的图片可以为训练集中的所有图片，也可以为训练集中的部分图片。

当训练集中的图片数量足够多时，可以不对训练集进行图片预处理时，当不对训练集进行图片预处理时，则直接利用训练集对卷积神经网络进行训练。

步骤四、利用训练集训练卷积神经网络；

具体地，首先搭建卷积神经网络，本实施例是以VGG19网络为基础搭建resnet50卷积神经网络，该卷积神经网络由16个卷积块组成，每个卷积块包括三层卷积层，且每个卷积块的第一卷积层的卷积核大小为1x1，第二卷积层的卷积核大小为3x3，第三卷积层的卷积核大小为1x1，并对该卷积神经网络进行步长为2的下采样，且使用全局平均池化层代替倒数第二层的全连接层，利用softmax函数将卷积神经网络的最后一层的全连接层维度更改为训练集中行人的数目。同时通过短路机制在每3层卷积层之间加入一个残差单元，其中残差单元表示为：

其中，x_l为第l个残差单元的输入，x_l+1为第l个残差单元的输出，F(x_l,W_l)为残差函数，h(x_l)＝x_l，表示恒等映射，f(y_l)为ReLU激活函数。

进一步地，设置卷积神经网络的损失函数(loss function)为交叉熵函数，该损失函数表示为：

H_y′(y)＝-∑_iy′_ilog(y_i)。

其中，H_y′(y)为损失函数，y_i′为实际标签中的第i个值，y_i为softmax函数中的第i个值。很显然，当y_i越准确，结果越小，最后通过求取平均值即能得到本实施例的损失函数值，即loss值。

本发明的基于时空上下文的行人重识别与追踪方法中所采用的卷积神经网络并非唯一的卷积神经网络，熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

进一步地，利用Adam优化器设置该卷积神经网络的训练梯度下降函数。

具体地，将预设图片子集中的所有图片输入至卷积神经网络中，利用预设图片子集中的所有图片对卷积神经网络进行训练，等待训练完成，从而得到训练后的卷积神经网络。

进一步地，若未对训练集中的第二预设数量的图片进行镜像翻转处理和/或裁剪处理和/或拉伸处理和/或遮挡处理，则直接将步骤二得到的训练集中的所有图片的大小设定为预订尺寸，之后利用数据加载函数(dataloader)读取训练集中的图片，将数据加载函数读取的图片输入至卷积神经网络中，利用训练集中的图片对卷积神经网络进行训练，等待训练完成，从而得到训练后的卷积神经网络。

优选地，训练神经网络的图片的批大小(batch_size)设置为64，训练循环次数(epochs)设置为100。

优选地，预订尺寸为224×224×3像素。

步骤五、从测试集中获取第一预设数量的图片；

具体地，利用训练后的卷积神经网络对测试集和查找集进行处理，以从测试集中获取第一预设数量的图片；

进一步地，将测试集和查找集输入至训练后的卷积神经网络中，并利用训练后的卷积神经网络的全局平均池化层，提取测试集中所有图片的行人特征和查找集中所有图片的行人特征。

优选地，测试集和查找集中的每个图片对应一个数组，且一个数组的大小为n维。例如，n为2048维。

进一步地，计算测试集的行人特征和查找集的行人特征之间的欧式距离，从测试集中获取第一预设数量的图片，以对目标行人进行重识别。

利用欧式距离计算测试集中每张图片的行人特征与查找集中每张图片的行人特征的距离，针对查找集中的每张图片，从测试集中挑选第一预设数量的图片，其中得到的第一预设数量的图片为与查找集中的行人特征的欧式距离最小的图片，其中，欧式距离计算公式为：

其中，d为欧式距离，x_1pi为测试集中第p张图片的行人特征，x_2qi为查找集中第q张图片的行人特征，且p、q均为正整数。

例如，第一预设数量为100-200。

进一步，从第一预设数量的图片中挑选出具有目标行人的图片，以确定目标行人。

例如，通过人眼观察从第一预设数量的图片中挑选出具有目标行人的图片。

利用训练后的Mask RCNN网络对原始图片集进行涂黑处理，去除了行人之外的干扰信息，并得到训练集、测试集和查找集，并利用训练集对卷积神经网络进行训练，从而实现对测试集中的目标行人进行重识别，利用训练后的Mask RCNN网络对原始图片集进行涂黑处理，使得神经网络能够更注重行人信息的提取，提高了重识别准确率。

步骤六、对目标行人进行跟踪；

具体地，根据第一预设数量的图片得到N个第二图片序列，其中，N为正整数；

由于提取测试集时可能并未将一个摄像头下的所有帧均提取出来，一般是每隔一定数量帧数提取一张图片，导致测试集中的图片帧是不连续的，为了便于目标行人的追踪，需要将一个摄像头下所有的图片帧进行补全。

进一步地，根据图片属性和时间顺序，将第一预设数量的图片划分为N个第一图片序列；

其中，图片属性即判断第一预设数量的图片中的哪些图片属于同一个摄像头拍摄的，将属于同一个摄像头拍摄的图片归为一类，并将同一个摄像头拍摄的图片按照时间顺序进行排列，一个摄像头拍摄的图片按照时间顺序排列完成之后的图片序列即为一个第一图片序列，若第一预设数量的图片中包括有N-1个摄像头拍摄的图片，同时在某摄像头中目标行人在两个不同时间段中出现过，则可得到N个第一图片序列。

进一步地，对每个第一图片序列进行补全处理，以得到每个第一图片序列对应的第二图片序列，其中，第二图片序列的数量为N个；

根据每个第一图片序列所属的摄像头，近而从该摄像头中调取出具备第一图片序列中的行人的所有图片，按照时间顺序将第一图片序列进行补全处理，将补全处理后的第一图片序列作为第二图片序列，每个第一图片序列对应一个第二图片序列，因此第二图片序列的数量为N个。

具体地，根据训练后的Mask RCNN网络处理N个第二图片序列，以对所述目标行人进行跟踪；

进一步地，获取第二图片序列中的第M-1帧图片至第M帧图片，其中，第二图片序列由第1帧图片至第Q帧图片组成，0＜M＜Q，M和Q均为正整数，Q为总帧数；

进一步地，利用训练后的Mask RCNN网络提取第M-1帧图片至第M帧图片中所有行人及所述行人的位置信息；

请同时参见图6和图7。将第M-1帧图片至第M帧图片输入至训练后的Mask RCNN网络，利用训练后的Mask RCNN网络检测第M-1帧图片至第M帧图片中出现的所有行人，利用Mask RCNN网络检测时会相应得到边界框，该边界框可以将行人框选出来，通过该边界框即可确定该行人的位置信息。

进一步地，计算所有所述行人与所述目标行人的欧式距离，确定与所述目标行人的欧式距离最小的所述行人，以得到第一待跟踪行人，其中，第一待跟踪行人和所述目标行人的欧式距离最小；

分别计算第M-1帧图片至第M帧图片中出现的所有行人与目标行人的欧式距离，将欧式距离最小的行人作为第一待跟踪行人，其中，目标行人为通过步骤五所重识别的目标行人，并记录该第一待跟踪行人在第M帧图片至第M帧图片中的位置信息。

进一步地，根据所述第M-1帧图片至所述第M帧图片中的第一待跟踪行人的位置信息，获取所述第二图片序列中的第M+1帧图片的预测区域；

根据该第一待跟踪行人在第M-1帧图片至第M帧图片中的位置信息，确定第一待跟踪行人出现在第M+1帧图片中的中心点，根据第M+1帧图片中的中心点确定预测区域，其中预测区域包括第一待跟踪行人，且预测区域的大小可以为边界框大小的B倍；

优选地，B为1.5至2倍。

请参见图8。例如，当M为2时，利用中心点计算公式确定第3帧图片的中心点，根据第3帧图片中的中心点确定第3帧图片的预测区域，且预测区域的大小可以为边界框大小的1.5倍或2倍，其中，中心点计算公式为：

其中，b_1x为第1帧图片中心点的横坐标，b_1y为第1帧图片中心点的纵坐标，b_2x为第2帧图片中心点的横坐标，b_2y为第2帧图片中心点的纵坐标，b_3x为第3帧图片中心点的横坐标，b_3y为第3帧图片中心点的纵坐标，(b_1x，b_1y)为第1帧图片的中心点，(b_2x，b_2y)为第2帧图片的中心点，(b_3x，b_3y)为第3帧图片的中心点。

进一步地，利用训练后的Mask RCNN网络对预测区域进行检测，完成对所述目标行人的跟踪；

利用训练后的Mask RCNN网络对预测区域进行检测，获取预测区域中所有第二待跟踪行人，第二待跟踪行人为出现在预测区域中的所有行人；

判断预测区域中第二待跟踪行人的人数，若第二待跟踪行人的人数为一人，则将第二待跟踪行人确定为目标行人，若第二待跟踪行人的人数为多人，则计算所有第二待跟踪行人与目标行人的欧式距离，则将与目标行人的欧式距离最小的第二待跟踪行人确定为目标行人，并根据上述方法确定第M+2帧图片至第Q帧图片的目标行人，从而完成对目标行人的跟踪。

利用训练后的Mask RCNN网络对预测区域进行检测，从而实现了基于行人步行速度进行区域预测的策略，与其他的使用卷积神经网络预测目标行人的位置信息的方法相比，降低了追踪问题的时空复杂度。同时，使用训练后的Mask RCNN网络对行人进行轮廓信息检测与提取，提高了行人轮廓重识别的准确率，提升了追踪效果，并且由于区域预测策略的提出，极大地缩小了Mask RCNN网络检测的范围，提高了Mask RCNN网络检测的速度。

本发明实施例提出的利用区域预测策略实现目标行人的追踪方法，降低了计算复杂度，提高了重识别与追踪的效率。

该追踪方法实现了不同摄像头的追踪能力，拓展了追踪范围，使得对目标行人的追踪更加具有时效性和实时性。

实验一

请参加图9，实验一截取的为DukeMTMC-reID数据库中的一段视频，并利用本发明的方法对目标行人进行行人重识别与追踪，通过追踪效果可以看出在连续的帧上本发明的方法能够达到实时的重识别与追踪。

DukeMTMC-reID数据库是DukeMTMC数据库中的一个子集，DukeMTMC-reID数据库从原8个摄像头拍下总计85分钟高质量的视频中每120帧截取一个行人，总记得到了1404个至少在两个不同的摄像头出现过的行人，剩下的408个行人，只在一个摄像头下出现过。本发明上述中的在至少两个摄像头下出现的1404个行人中，随机选择了702个行人用于卷积神经网络的训练，剩下的702个行人用于之后卷积神经网络和MaskRCNN网络的性能的评价与测试。DukeMTMC-reID数据库中的图片为128×256像素。

实验二

实验二共涉及MARS数据库、PRID 2011和DukeMTMC-reID数据库。

MARS数据库是一个基于视频的行人重识别的公共数据库，其是Market-1501数据库的扩充，MARS数据库在清华校园内用了6个几乎同步的摄像头进行拍摄，其中5个摄像头为1080×1920的HD摄像头，一个摄像头为640×480的SD摄像头。在MARS数据库中，有1261个不同的行人，并且这1261个行人都至少在2个不同的摄像头中出现过，MARS数据库中的数据量很大，可以为卷积神经网络的训练提供足够的数据，从而提高鲁棒性。MARS数据库中的图片为128×256像素。

PRID 2011数据库是一个基于视频的行人重识别的公共数据库。PRID2011数据库由A、B两个静态监视摄像头拍摄，一共有749个ID，在A摄像头中，共有385个行人，在B摄像头中，共有749个行人，并且，ID为1-200的200个行人在A和B摄像头中都可以检索到。PRID2011的图片为64×128像素。

评价标准：实验二使用的评价标准为累积匹配曲线，Rank1、Rank5、Rank10和Rank100分别代表模型预测返回结果前1、前5、前10、前100中包含目标的准确率。

表1行人重识别准确率(进行填黑处理)

	Rank1	Rank5	Rank10	Rank100
					MARS	82.6	88.4	91.2	97.1
DukeMTMC-reID	76.43	87.25	90.4847	96.8
					PRID 2011	78.2	82.2	87.1	97.6

表2行人重识别准确率(未进行填黑处理)

	Rank1	Rank5	Rank10	Rank100
					MARS	65.6	78.4	82.9	92.1
DukeMTMC-reID	70.1	82.3	87	93.8
					PRID 2011	74.2	85.2	92.1	95.0

从表1和表2的对比可以看到，由于使用了填黑处理，在MARS数据库的Rank 1上有了17％的性能提升，在DukeMTMC-reID数据库上的Rank1有了6.43％的性能提升，在PRID2011数据库的Rank 1上有了4％的性能提升。在重识别时间消耗上，20秒之内可以完成3365张图片的重识别工作，追踪时每0.003秒可以完成一帧的检测，达到了实时重识别与追踪的效果。

本发明实施例的行人重识别方法是一种基于视频的行人重识别方法，其能够利用足够的数据量去对卷积神经网络进行训练，能够进一步提高本发明实施例的行人重识别方法的准确率，且本发明使用目标检测算法与实例分割算法提高模型精度，提出区域预测算法，降低了追踪计算复杂度，达到实时追踪，提高了追踪效率。

本发明实施例提出的行人重识别和追踪方法是基于视频的行人重识别算法，相比基于图片的行人重识别算法拥有更多的数据量。

本发明实施例不仅能对目标行人进行重识别，还能够对目标行人进行追中，解决了目前仅能对目标行人进行重识别，而不能对目标行人进行跟踪的问题。

本发明实施例利用训练后的Mask RCNN网络对行人进行目标信息和轮廓信息的提取，并对行人图片进行了填黑处理，从而去除了行人之外的干扰信息，使得后续训练得到的卷积神经网络能够更注重行人信息的提取，从而提高了重识别准确率。

本发明实施例利用训练后的Mask RCNN网络对原始图片集进行涂黑处理，去除了行人之外的干扰信息，并得到训练集、测试集和查找集，并利用训练集对卷积神经网络进行训练，从而实现对测试集中的目标行人进行重识别，利用训练后的Mask RCNN网络对原始图片集进行涂黑处理，使得神经网络能够更注重行人信息的提取，提高了重识别准确率。

本发明实施例利用训练集对卷积神经网络进行训练，并利用训练后的Mask RCNN提取行人信息，提高了行人重识别的准确率。在进行行人重识别后，利用训练后的MaskRCNN网络对预测区域进行检测，从而实现了基于行人步行速度进行区域预测的策略，与其他的使用循环神经网络预测目标行人的位置信息的方法相比，降低了追踪问题的时空复杂度。同时，使用训练后的Mask RCNN网络对行人进行轮廓信息检测与提取，提高了行人轮廓重识别的准确率，提升了追踪效果，并且由于区域预测策略的提出，极大地缩小了MaskRCNN网络检测的范围，提高了Mask RCNN网络检测的速度。

本发明实施例的行人重识别与追踪方法不仅可以应用于单个摄像头，还可以应用于多个摄像头的行人重识别和追踪，并且可以应用于在公共场所中寻找走失人群的工作，且可以应用于刑侦方面，在人脸信息缺失导致无法进行人脸识别的情况下使用本发明实施例的行人重识别与追踪方法辅助查找追踪犯罪分子。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于时空上下文的行人重识别与追踪方法，其特征在于，包括：

训练Mask RCNN网络；

利用所述训练集训练卷积神经网络；

2.根据权利要求1所述的重识别与追踪方法，其特征在于，对所述目标行人进行追踪，包括：

根据所述第一预设数量的图片得到N个第二图片序列；

3.根据权利要求2所述的重识别与追踪方法，其特征在于，根据所述第一预设数量的图片得到N个第二图片序列，包括：

4.根据权利要求2所述的重识别与追踪方法，其特征在于，根据训练后的Mask RCNN网络处理N个所述第二图片序列，以对所述目标行人进行跟踪，包括：

获取所述第二图片序列中的第M-1帧图片至第M帧图片；

5.根据权利要求4所述的重识别与追踪方法，其特征在于，利用训练后的Mask RCNN网络对所述预测区域进行检测，完成对所述目标行人的跟踪，包括：

6.根据权利要求1所述的重识别与追踪方法，其特征在于，利用训练后的Mask RCNN网络处理原始图片集，包括：

获取原始图片集；

根据所述轮廓信息对所述原始图片集进行填黑处理。

7.根据权利要求1所述的重识别与追踪方法，其特征在于，利用所述训练集训练卷积神经网络，包括：

从所述训练集中选取第二预设数量的图片；

利用所述预设图片子集训练卷积神经网络。

8.根据权利要求1所述的重识别与追踪方法，其特征在于，利用训练后的卷积神经网络对所述测试集和所述查找集进行处理，从所述测试集中获取第一预设数量的图片，包括：