CN112668493A

CN112668493A - 基于gan和深度学习的换装行人再识别定位跟踪系统

Info

Publication number: CN112668493A
Application number: CN202011616646.4A
Authority: CN
Inventors: 郭捷; 曹昊天; 肖鹏宇; 袁鑫; 兰焜耀; 邱卫东; 黄征
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-16
Anticipated expiration: 2040-12-30
Also published as: CN112668493B

Abstract

一种基于GAN和深度学习的换装行人再识别定位跟踪系统，包括：行人目标检测模块、行人属性识别模块、换装样本生成模块、换装行人再识别模块、步态识别模块和定位跟踪模块，本发明针对已有技术体系的松散性和效果不稳定的特点，将行人目标检测、基于GAN网的换装样本生成，换装行人再识别、行人属性识别、步态识别等技术模块有机结合，彼此配合，实现了对换装行人的识别、属性提取、跟踪定位等功能，并具有完整的系统架构和可视化界面。

Description

基于GAN和深度学习的换装行人再识别定位跟踪系统

技术领域

本发明涉及的是一种信息安全领域的技术，具体是一种基于GAN和深度学习的换装行人再识别定位跟踪系统，旨在于提升换装情况下行人再识别的准确度，在实际情况下可大幅度提升长时间、跨设备、换装行人情况下行人身份分析、定位与跟踪的准确度，可提供详细的分析结果与记录。

背景技术

视频监控系统越来越多地应用到如机场、地铁站、学校、大型购物中心、十字路口等公共场所当中，不仅可用于公共安全事件的预防、应急、取证和备案，也为事后的回溯与重建提供了数据基础。行人再识别技术作为信息安全领域的一个新兴研究热点，是智能视频监控领域最具挑战性的问题之一，它描述的是在多摄像头无重叠视域监控环境下，通过一系列的图像处理和模式识别技术，判定出现在某个摄像头中感兴趣的目标人物是否在其他摄像头中出现过。

由于监控视频的目标图像分辨率低，不同场景中存在着光照变化、视角变化、行人姿态变化、复杂背景变化、身体遮挡，以及不同摄像头的不同参数问题，都使得行人再识别技术遇到了很大的挑战。而且在目前的行人再识别领域，默认行人在不同摄像头下都统一着装，并未换装，而且统一的着装是行人再识别的重要判别依据。但在现实应用中，目标可能会出现换装的情况，利用现有的算法对换装行人进行检测，识别率较低。

发明内容

本发明针对现有技术存在的所述不足，提出一种基于GAN和深度学习的换装行人再识别定位跟踪系统，针对已有技术体系的松散性和效果不稳定的特点，将行人目标检测、基于GAN网的换装样本生成，换装行人再识别、行人属性识别、步态识别等技术模块有机结合，彼此配合，实现了对换装行人的识别、属性提取、跟踪定位等功能，并具有完整的系统架构和可视化界面。

本发明是通过以下技术方案实现的：

本发明涉及的一种基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，包括：行人目标检测模块、行人属性识别模块、换装样本生成模块、换装行人再识别模块、步态识别模块和定位跟踪模块，其中：行人目标检测模块从监控视频流中提取出行人的位置信息并提取出只包含一个行人的帧级图片，行人属性识别模块通过内置的神经网络经训练后提取出帧级图片中拥有预设行人属性特征的可能性，由此识别出帧级图片中行人所拥有的属性特征并存入数据库，换装样本生成模块基于数据库中已有的行人图片数据和行人属性数据对帧级图片进行换装换姿态处理，并得到样本扩充图片作为训练集以提高换装行人再识别模块的行人再识别的准确率；换装行人再识别模块对帧级图片进行再识别并得到该行人的身份数据，步态识别模块将帧级图片转化为一系列行人步态剪影并进行步态特征计算以识别出该行人的身份信息，经与换装行人再识别模块识别出的身份数据进行综合，并使用综合的结果进行二次行人身份识别以提高识别的准确率，定位跟踪模块根据二次行人身份识别的结果和来自行人目标检测模块的已知的监控点中行人出现的时序，对行人的活动轨迹进行定位与跟踪。

技术效果

本发明整体解决了现有技术无法长时间、跨设备条件下换装行人再识别的缺陷；与现有技术相比，本发明以历史监控视频数据作为输入，能够在短时间内定位指定行人并跟踪其轨迹,在不增加人工监管与硬件设备的条件下，即可对监控视频下的人员进行长时间、大范围、高可信度的定位与跟踪，显著提升了多视角、多装束情况下的换装行人的识别准确率，并能够进行行人轨迹分析与行人关系分析，且本发明识别效率较高，灵活性强，模型更新方便，各模块模型可根据使用情况定期进行强化训练，提高系统性能。

附图说明

图1为本发明系统逻辑结构框图；

图2为实施例步态识别模块测试结果示意图。

具体实施方式

本实施例涉及的一种基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，包括：行人目标检测模块、行人属性识别模块、换装样本生成模块、换装行人再识别模块、步态识别模块和定位跟踪模块，其中：行人目标检测模块从监控视频流中提取出行人的位置信息并提取出只包含一个行人的帧级图片，行人属性识别模块通过内置的神经网络经训练后提取出帧级图片中拥有预设行人属性特征的可能性，由此识别出帧级图片中行人所拥有的属性特征并存入数据库，换装样本生成模块基于数据库中已有的行人图片数据和行人属性数据对帧级图片进行换装换姿态处理，并得到样本扩充图片作为训练集以提高换装行人再识别模块的行人再识别的准确率；换装行人再识别模块对帧级图片进行再识别并得到该行人的身份数据，步态识别模块将帧级图片转化为一系列行人步态剪影并进行步态特征计算以识别出该行人的身份信息，经与换装行人再识别模块识别出的身份数据进行综合，并使用综合的结果进行二次行人身份识别以提高识别的准确率，定位跟踪模块根据二次行人身份识别的结果和来自行人目标检测模块的已知的监控点中行人出现的时序，对行人的活动轨迹进行定位与跟踪。

所述的换装行人再识别模块通过内置的深度神经网络经训练后计算出目标行人的身份特征向量值，并计算与数据库中保存的所有行人的特征向量值的距离，当该距离在设定的阈值范围内，则认为是同一个人。

所述的步态识别模块通过内置的深度神经网络经训练后计算出行人步态剪影的特征向量值，并计算与数据库中保存的所有行人的特征向量之间的距离，当该距离在设定的阈值范围内，则认为是同一个人。

所述的定位与跟踪，具体是指：系统部署完毕后，所分析的是来自各监控点监控区域内的历史监控视频，因而可以知晓每一段监控视频的监控点位置信息和拍摄视频的时间信息，当识别出视频中行人的身份信息后，便可以利用所知晓的监控点的位置信息，定位到行人出现的区域位置，再结合所知道的时间信息得到行人的行动轨迹。

所述的行人目标检测模块包括：数据处理单元、数据标记单元以及图像分割单元，其中：数据处理单元从视频数据库中读取的历史视频数据，数据处理单元与数据标记单元相连并传输初步处理后用于行人目标检测的图像数据，数据标记单元根据数据处理单元输出的行人坐标数据(包含左上、左下、右上、右下四个点)在原图像中进行裁剪处理得到行人图像，图像分割单元将分割后的行人图像作为其输出数据并分别输出至行人属性识别模块、换装样本生成模块和步态识别模块。

所述的初步处理是指：对于视频流中的每一帧图像，将图像转化为PILImage格式，按照最小尺寸为800像素、最大尺寸为1333像素规范图像大小，再转化为Tensor格式，进一步转化为BGR255格式，最后按照PIXEL_MEAN＝[102.9801,115.9465,122.7717]和PIXEL_STD＝[1.,1.,1.]参数进行归一化处理。并识别其中的行人，对每一个识别到的行人输出一个行人矩形框坐标(X₁,Y₁,X₂,Y₂)。将视频中每一帧包含的矩形框坐标作为该帧对应的数组[a₁,a₂,…]的一个成员a_i＝(X_i1,Y_i1,X_i2,Y_i2)。按此方法得到的一段视频的所有数组，按照帧的先后顺序排列加入数组，作为本视频对应的一个json格式文件。

所述的分割是指：利用视频对应的json文件里每一帧对应数组的成员(即若干个行人矩形框坐标)，使用opencv提供的对图像按坐标截取方法，获得从图片中截出的行人矩形框图像，并按视频和帧序号另行编号保存。

所述的行人目标检测模块中的数据标记单元对在视频中标出类别为行人的检测物体并基于边界框分支与类别分支的结果，在边界框分支与类别分支后加入了一条时空接触关系分支。

所述的行人目标检测模块的数据处理单元内部最后包含边界框回归分支、类别回归分支与实例分割分支，图像分割单元根据边界框回归分支与类别回归分支的结果，通过行人接触关系判别公式判定同时出现在视频中的行人两两之间是否存在接触关系，具体为：S＝A∧(B∨C)，其中：S为是否存在接触关系，A为二者高度比例是否大于0.7，B为二者是否有重叠，C为二者距离是否小于一人宽，∧为“并”逻辑操作，∨为“或”逻辑操作。

所述的换装样本生成模块通过DG-Net网络进行行人图像对抗生成，该DG-NET网络的鉴别器产生动态概率标签；该换装样本生成模块将动态概率标签更新为：D＝0.9D(G(a_i，s_i))+0.1D_a，即将原概率权重修改为0.90，添加一个权重0.10的属性概率。该属性概率标签通过对于换装前后图片年龄段(占比40％)、性别(占比30％)、眼镜(占比15％)、饰品(占比15％)四个与行人外观特征(衣物)相关度不大的属性的变化比例来提供概率。通过添加该属性概率，行人标签确认更加准确，使得训练前中期对抗损失相较原网络增大，从而促进网络训练效果更加优秀。

所述的行人属性识别模块包括：数据读取单元、模型训练单元和模型处理单元，其中：数据读取单元、模型训练单元与模型处理单元相连并分别输入读取的图片数据和输出训练后的属性提取模型，模型处理单元采用训练后的属性提取模型，从输入数据中提取出的行人属性数据并输出至JSON文件中。

所述的属性提取模型是指：使用DeepMAR算法，利用PETA数据集中的训练集训练后的模型。

所述的训练是指：利用PETA提供的数据集和相应的属性信息，输入至DeepMAR算法中，利用DeepMAR本身的神经网络架构，通过比较模型对于PETA数据集中的图片的识别结果和PETA提供的相应的属性信息，对模型的参数进行优化，从而实现模型的训练。

所述的DeepMAR算法基于PyTorch实现，本实施例通过修改PyTorch实现代码，针对于以前取样35种属性作为向量输入的情况，将取样函数修改为将全部的105种的属性都进行取样。修改神经网络中的输入维度和输出维度，将神经网络调整为能够接受105维的向量输入，并实现一个能够输出一个105维向量的神经网络。

所述的行人属性数据包括：行人的年龄、性别，服装颜色、款式，头发的颜色、长短以及是否携带有配饰或其他物件等属性。

所述的换装样本生成模块包括：图片特征编码单元、特征对抗生成单元和图片特征解码单元，其中：图片特征编码单元将来自行人目标识别模块分割出的行人图片的行人图片读入图片特征编码单元，并经规范处理后通过行人图片编码器对规范处理后的规范输入图像进行提取特征及编码后得到图片特征并输出至图片特征解码单元，特征对抗生成单元生成高斯噪声并输入内置的对抗生成网络以对抗生成网络训练方式得到行人前景特征并输出至图片特征解码单元，图片特征解码单元使用图片特征编码单元中已经训练好的行人图片编码器，将输入图片图片属性特征中的前景特征图中的某些向量替换为行人特征对抗生成单元生成的输出向量，并将替换后的特征图和未被替换部分的特征图重组为一张行人换装图片，作为整个换装样本生成模块的输出，输出至换装行人再识别模块。

所述的编码是指：将单张128*64的行人图像，利用特征提取的算法和模型进行姿态、前景和背景信息的提取，得到图片对应的若干特征图。

所述的图片特征是指：将行人图片视为姿态、前景和背景三部分，对每一部分利用算法或训练好的模型进行提取，得到图片对应的二维分布的特征值，即特征图。

所述的规范处理是指：将大小不同的实际行人图像进行灰度处理和归一化，转换为128*64的规范输入图像。

所述的行人图片编码器是指：一系列提取行人图像姿态、前景和背景三种特征的算法或神经网络训练出的模型的集合，具体组成为Openpose人体关键点提取算法和基于ResNetv2的前景背景特征提取模型。

所述的提取特征是指：对单张输入图像，通过Openpose算法提取人体的18个通过关键点，以生成18张基于每个关键点的特征图，即提取出行人姿态特征。通过激活函数为ReLu，损失函数为tripletloss的ResNetv250层神经网络，学习率设为0.00002，在已标注的Market-1501数据集上训练120000轮获得特征提取模型，生成前景信息和背景信息对应的特征图，即提取出行人前景特征和行人背景特征。

所述的换装行人再识别模块包括：模型训练单元、数据读取单元、模型处理单元和匹配结果单元，其中：模型训练单元读取换装样本生成模块生成的数据集中的图片，并进行相应的预处理后以前述数据集中的训练集为训练集对再识别模型进行训练，数据读取单元读取经由行人目标检测获取的行人图片，通过行人数据库保存并输出至模型处理单元，模型处理单元与匹配结果单元相连并输出经过模型处理后的图片特征，匹配结果单元的输出作为本模块的输出数据，与数据库中的特征进行匹配，输出行人图片的识别结果。

所述的预处理是指：将图片resize为384*192的图片，以0.5的概率对每张图片进行翻转，之后将每张图片转换为Tensor数据类型，并以[0.485,0.456,0.406],[0.229,0.224,0.225]的参数对其进行归一化

所述的再识别模型是指：使用PCB算法，按照换装样本生成模块生成数据集中的训练集训练后的模型

所述的步态识别模块包括：数据读取单元、模型训练单元、模型处理单元和匹配结果单元，其中：数据读取单元根据来自行人再识别模块的行人轮廓信息将彩色行人图片转换为背景为黑色行人人体为白色的步态剪影图构成数据集，输出至模型训练单元，模型训练单元读取步态剪影数据集中的图片，并进行相应的预处理后随机选取步态剪影图片系列构成训练集对步态识别模型进行训练，并将训练得到的步态识别模型输出至模型处理单元，模型处理单元根据训练后的步态识别模型对来自数据读取单元的信息进行步态提取，得到步态特征并输出至匹配结果单元，匹配结果单元将通过计算模型输出的步态特征向量与系统数据库中的行人步态特征向量间的距离进行匹配得到步态识别结果。

所述的定位跟踪模块包括：数据处理单元和数据分析单元，其中：数据处理单元根据来自特征提取模块、换装行人再识别模块和步态识别模块的行人身份信息，将行人特征分门别类存入数据库，并依据不同的权重融合来自换装行人再识别模块的行人图片的识别结果和来自步态识别模块的步态识别结果，将融合结果输出至数据分析单元，数据分析单元依据融合结果进行分析，得出行人的运动轨迹、行人间的相互关系结果。

所述的分析是指：确定每段历史监控视频中行人的身份后，依据系统部署时已知的监控点位置和监控视频拍摄的时间，可以绘制出行人的行动轨迹，根据本发明设计的行人接触关系判别公式，系统可以判断出视频中行人间的接触关系，并在neo4j图数据库中进行记录，利用这些关系，系统可在指定确诊目标行人后，分析出其对应的密切接触者，并记录下接触者的行动轨迹、外貌特征、出现时间、经过区域、次级接触者等相关信息，辅助社区工作人员进行人员排查。

本实施例基于上述系统的基于深度学习的对换装行人的再识别与定位跟踪方法，具体步骤包括：

S1)读取监控视频数据并输入行人目标检测模块检测是否有行人，将检测到行人的行人图片输出，否则继续读取视频数据进行检测。

S2)行人属性识别模块经模型训练后从行人图片提取出该行人的属性，具体为：

S2.1)模型训练：

1)读取数据集中的图片，先将其resize为224*224的图片，以0.5的概率对每张图片进行水平翻转，之后将每张图片转换为Tensor数据类型，并以[0.485,0.456,0.406],[0.229,0.224,0.225]的参数对其进行归一化，将处理过后的图片随机划分为train_set和test_set两个子集。

2)设置学习率为0.001，训练轮次epoch为150，每个批次中训练样本的数量batchsize为32。

3)使用基于ResNet50的DeepMAR进行训练，DeepMAR模型生成了一个last_conv_stride为2的resnet50神经网络，这个神经网络由4个layer组成，每一个layer的参数分别为(Bottleneck,64,3)、(Bottleneck,64,4,stride＝2)、(Bottleneck,64,6,stride＝2)、(Bottleneck,64,3,stride＝2)。这个网络用于训练DeepMAR模型。

4)将train_set中的图片和对应的标签向量输入ResNet50中，利用ReLU激活函数和Cross Entropy Loss损失函数比较输出和标签向量之间的差异并更新参数来来优化训练ResNet50网络。

S2.2)数据读取：读取行人图片和行人数据库，并进行预处理。

S2.3)模型提取：

1)使用训练好的模型提取读取图片的行人属性；

2)将序列中置信度超过阈值的属性录入行人数据库中，这就是行人属性识别的匹配结果；

S3)行人换装样本生成模块根据数据库中的行人衣着数据生成一系列的换装图片作为样本扩充，并与行人图片一同输入换装行人再识别模块，换装行人再识别模块经图片特征解码和特征对抗生成实现身份识别，具体为：

S3.1)图片特征解码：

1)针对姿态信息，使用openpose模型提取出18个人体关节关键点keypoint，根据每个关键点生成对应的特征图。

2)针对前景和背景信息，使用ResNet v2神经网络进行编码器模型训练，参数设置为：输入数据高度height为128，宽度weight为64。网络层数为50，激活函数为ReLu，损失函数为triplet loss。设学习率为0.00002，训练轮次为120000轮。在网络卷积层训练之前，将姿态信息的18个keypoint合并(concat)到提取的特征图中，以指导前景和背景的提取。

3)得到背景128维特征向量，前景224维特征向量，姿态128*64特征图，共18个通道(对应18个keypoint)。此时编码器模型训练完成。

将以上特征向量和特征图作为输入样本，对解码器模型进行训练。解码器模型使用28层的U-Net神经网络，生成一张与编码器输入相同大小的128*64的图片。

S3.2)特征对抗生成：

1)使用DCGAN生成模型，由高斯噪声生成一个前景特征。模型使用DCGAN网络，包含4个步长卷积层，其维数从第一层4*4依次长宽倍增至第四层的32*32，损失函数为leakReLu函数。该模型将128*64的高斯噪声通过随机生成变为128*64*3的输出前景特征向量。

2)使用DCGAN判别模型进行判别。DCGAN的判别模型与生成模型结构对称，它将生成的特征向量作为输入判别生成的图像类别。通过与原图片进行对比计算结构相似性(SSIM)，判别模型能够帮助生成模型继续训练。

3)每两次DCGAN生成模型训练后更新对比一次判别模型，学习率0.0002，训练轮次为120000轮。训练完成后，使用该模型生成维数为128*64*3的行人前景特征向量。

S3.3)图片特征解码：

1)使用图片特征编码单元中训练好的行人属性特征编码器，将输入图片通过图片特征编码单元输出的图片属性特征中的前景特征向量替换为行人特征对抗生成单元的输出向量。

2)解码器将特征向量和特征图重组为行人换装图片样本，作为整个换装样本生成模块的输出。

S4)换装行人再识别模块经模型训练后对步骤S3得到行人换装图片样本进行特征提取并与预存特征进行匹配，再将匹配结果输出至定位跟踪模块，具体为：

S4.1)数据处理：

1)对数据集中128*64大小的图片进行预处理，将其resize为384*192的图片；

2)以0.5的概率对每张图片进行翻转，之后将每张图片转换为Tensor数据类型，并以[0.485,0.456,0.406],[0.229,0.224,0.225]的参数对其进行归一化。

S4.2)模型训练：

1)设置学习率为0.02，训练轮次epoch为60，每个批次中训练样本的数量batchsize为64，使用ResNet50进行训练。

2)ResNet50神经网络GAP(General Average Pooling)前的下采样层丢弃掉，并将GAP替换为一个卷积池层，得到大小为24*8的tensor T。

3)按照水平方向分割成6个大小为4*8的tensor，平均池化后得到6个列向量g，再使用1*1的卷积核对列向量g进行降维，得到低维列向量h。

4)将每个列向量h置入一个分类器中，分类器由一个FC全连接层和Softmax层组成，在训练过程中分类器预测输入图像的特征，并通过交叉熵损失对其进行监督。最后生成yaml配置文件和pth模型。

5)使用pth模型提取特征，生成mat数据文件。使用的pth模型文件为最后一轮训练后得到的模型，mat数据文件中包含了换装数据集中每张图片的feature、label和camera特征，其中feature特征是6个2048维的向量。每个批次的样本数量batchsize仍设为64。

S4.3)模型处理：

1)使用与之前训练模型相同的方式提取行人图片的特征。

2)将提取得到的行人特征与mat数据文件相比对，比对层面包括：特征feature、标签label及摄像头camera，在本系统中暂时不考虑label和camera的影响，最终会得到一个按照置信度从大到小排列的序列。

S4.4)匹配结果：

1)按照模型处理单元的处理结果，将序列中置信度最高的图片在换装数据集中取出，这就是行人图片的匹配结果。

S5)步态识别模块经模型训练后从行人图片中提取出步态特征并将识别出的行人的身份信息输出至定位跟踪模块，具体为：

S5.1)模型训练：

1)读入步态数据集中的步态剪影，对数据集中320*240大小的图片进行预处理，将其resize为64*64的图片。

2)提取每一个图片的CNN特征，使用多特征集合池化的方式整合一个集合的步态信息，同时使用注意力机制，利用全局信息为每个帧级特征图学习诸葛元素的attention图，以对其进行细化，以此提高集合池化的性能。

3)使用水平金字塔映射，即将水平金字塔池化的最后池化之后的1*1卷积层替换为全连接层，对每个合并要素使用独立的全连接层，将集合池化得到的特征要素映射到区分性空间。

4)使用Triplet Loss作为损失函数进行步态识别的模型训练，得到步态识别模型。

S5.2)数据读取：

1)将检测出包含有行人的图片转化为步态剪影图片

2)就步态剪影图片以人体中间线为中轴进行裁剪，并resize为64*64大小的图片

S5.3)模型处理：使用训练好的模型提取处理后的步态剪影图片的步态特征，得到256*31*2＝15872维的特征向量

S5.4)匹配结果：

1)将所得步态特征与数据库中的步态特征进行比对，在满足所设阈值的条件下，特征向量之间距离最小的便是识别出的结果。若与数据库中的所有特征向量之间的距离均大于所设阈值，则说明该行人的步态特征并未存入数据库。

S6)定位跟踪模块通过将换装行人再识别模块与步态识别模块的识别结果按权重进行整合得到最终的行人身份认证信息，以此作为依据分析行人的行动轨迹，并对各行人之间的关系进行分析与记录。同时，由行人属性识别模块提取出的行人属性，将作为对行人的描述标签存入数据库，以此作为进一步跟踪定位与数据分析的重要依据。

经过具体实际实验，在Ubuntu 16.04.6LTS，CUDA Version 9.0.176，CUDNN7.1.4，Pytorch 1.0的具体环境设置下，对行人目标检测模块使用python3 source_code/object_detection/maskrcnn-person2/maskrcnn-benchmark/predict.py进行测试，可得到的实验数据为：

表1行人目标检测模块测试结果

对行人属性识别模块，使用python3 source_code/pedestrian_attribute_recognition/train_deepmar_resnet50.py进行训练，使用python3 source_code/pedestrian_attribute_recognition/test.py进行测试，可得到如下实验结果：

表2行人属性识别模块测试结果

对换装行人再识别模块，使用python3 source_code/person_reID/train.py--gpu_ids 0--name dgduke--train_all--batchsize 32--data_dir data/DG_Duke/pytorch--lr 0.01–PCB

进行训练，并在训练完毕后使用python3 source_code/person_reID/test.py--gpu_ids 0--name dgduke--test_dir data/DG_Duke/pytorch--batchsize 64--which_epoch 59–PCB进行测试，可得到的换装行人再识别的实验数据如下所示：

表3换装行人再识别模块测试结果，其中，未经过本系统换装模块优化后的实验数据如下所示：

表4未经换装模块优化的模型的测试结果

经过本系统换装模块优化后的实验数据如下所示：

表5经过换装模块优化的模型的测试结果

对步态识别模块，使用python3 source_code/gait_recognition/train.py进行训练，并使用python3 source_code/gait_recognition/test.py进行测试，可得到如图2所示结果。

相比现有技术，本发明在边界框分支与类别分支后进行了延伸，仅会有类别为行人的检测物体会在视频中标出。同时，基于边界框分支与类别分支的结果，本发明在其后加入了一条时空接触关系分支。行人属性识别模块中，DeepMAR原始的PyTorch实现，在输出的时候只选择了前35项属性的属性值进行训练和判断，从而缺少了很多诸如衣服颜色、衣服款式等在PETA数据集本身的标注中存在且对于本项目更为关键的属性。所以本发明修改了原始的PyTorch实现代码，使得DeepMAR可以训练输出105个完备的属性，从而更好的适应了该项目的需求，同时本发明将标签进行了翻译，使得输出标签以中文的形式表达，提高了可视化的效果。行人换装模块内行人图像对抗生成任务中，DG-Net网络的鉴别器提供一个动态概率标签D(G(a_i，s_i))，代表了对于不同标签的概率预测。在这个流程中，本模块对动态概率标签进行了修改。

综上，本发明在不增加人工监管与硬件设备的条件下，即可对监控视频下的人员进行长时间、大范围、高可信度的定位与跟踪，显著提升了多视角、多装束情况下的换装行人的识别准确率，并能够进行行人轨迹分析与行人关系分析。本发明以历史监控视频数据作为输入，能够在短时间内定位指定行人并跟踪其轨迹。识别效率较高，灵活性强，模型更新方便，各模块模型可根据使用情况定期进行强化训练，提高系统性能。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征在于，包括：行人目标检测模块、行人属性识别模块、换装样本生成模块、换装行人再识别模块、步态识别模块和定位跟踪模块，其中：行人目标检测模块从监控视频流中提取出行人的位置信息并提取出只包含一个行人的帧级图片，行人属性识别模块通过内置的神经网络经训练后提取出帧级图片中拥有预设行人属性特征的可能性，由此识别出帧级图片中行人所拥有的属性特征并存入数据库，换装样本生成模块基于数据库中已有的行人图片数据和行人属性数据对帧级图片进行换装换姿态处理，并得到样本扩充图片作为训练集以提高换装行人再识别模块的行人再识别的准确率；换装行人再识别模块对帧级图片进行再识别并得到该行人的身份数据，步态识别模块将帧级图片转化为一系列行人步态剪影并进行步态特征计算以识别出该行人的身份信息，经与换装行人再识别模块识别出的身份数据进行综合，并使用综合的结果进行二次行人身份识别以提高识别的准确率，定位跟踪模块根据二次行人身份识别的结果和来自行人目标检测模块的已知的监控点中行人出现的时序，对行人的活动轨迹进行定位与跟踪。

2.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的再识别是指：换装行人再识别模块通过内置的深度神经网络经训练后计算出目标行人的身份特征向量值，并计算与数据库中保存的所有行人的特征向量值的距离，当该距离在设定的阈值范围内，则认为是同一个人；该换装行人再识别模块包括：模型训练单元、数据读取单元、模型处理单元和匹配结果单元，其中：模型训练单元读取换装样本生成模块生成的数据集中的图片，并进行相应的预处理后以前述数据集中的训练集为训练集对再识别模型进行训练，数据读取单元读取经由行人目标检测获取的行人图片，通过行人数据库保存并输出至模型处理单元，模型处理单元与匹配结果单元相连并输出经过模型处理后的图片特征，匹配结果单元的输出作为本模块的输出数据，与数据库中的特征进行匹配，输出行人图片的识别结果。

3.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的步态识别模块通过内置的深度神经网络经训练后计算出行人步态剪影的特征向量值，并计算与数据库中保存的所有行人的特征向量之间的距离，当该距离在设定的阈值范围内，则认为是同一个人；该步态识别模块包括：数据读取单元、模型训练单元、模型处理单元和匹配结果单元，其中：数据读取单元根据来自行人再识别模块的行人轮廓信息将彩色行人图片转换为背景为黑色行人人体为白色的步态剪影图构成数据集，输出至模型训练单元，模型训练单元读取步态剪影数据集中的图片，并进行相应的预处理后随机选取步态剪影图片系列构成训练集对步态识别模型进行训练，并将训练得到的步态识别模型输出至模型处理单元，模型处理单元根据训练后的步态识别模型对来自数据读取单元的信息进行步态提取，得到步态特征并输出至匹配结果单元，匹配结果单元将通过计算模型输出的步态特征向量与系统数据库中的行人步态特征向量间的距离进行匹配得到步态识别结果。

4.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的行人目标检测模块包括：数据处理单元、数据标记单元以及图像分割单元，其中：数据处理单元从视频数据库中读取的历史视频数据，数据处理单元与数据标记单元相连并传输初步处理后用于行人目标检测的图像数据，数据标记单元根据数据处理单元输出的行人坐标数据在原图像中进行裁剪处理得到行人图像，图像分割单元将分割后的行人图像作为其输出数据并分别输出至行人属性识别模块、换装样本生成模块和步态识别模块。

5.根据权利要求4所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的数据标记单元对在视频中标出类别为行人的检测物体并基于边界框分支与类别分支的结果，在边界框分支与类别分支后加入了一条时空接触关系分支；该数据处理单元内部最后包含边界框回归分支、类别回归分支与实例分割分支，图像分割单元根据边界框回归分支与类别回归分支的结果，通过行人接触关系判别公式判定同时出现在视频中的行人两两之间是否存在接触关系，具体为：S＝A∧(B∨C)，其中：S为是否存在接触关系，A为二者高度比例是否大于0.7，B为二者是否有重叠，C为二者距离是否小于一人宽，∧为“并”逻辑操作，∨为“或”逻辑操作。

6.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的行人属性识别模块包括：数据读取单元、模型训练单元和模型处理单元，其中：数据读取单元、模型训练单元与模型处理单元相连并分别输入读取的图片数据和输出训练后的属性提取模型，模型处理单元采用训练后的属性提取模型，从输入数据中提取出的行人属性数据并输出至JSON文件中；

所述的属性提取模型是指：使用DeepMAR算法，利用PETA数据集中的训练集训练后的模型；

所述的训练是指：利用PETA提供的数据集和相应的属性信息，输入至DeepMAR算法中，利用DeepMAR本身的神经网络架构，通过比较模型对于PETA数据集中的图片的识别结果和PETA提供的相应的属性信息，对模型的参数进行优化，从而实现模型的训练；

7.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的换装样本生成模块包括：图片特征编码单元、特征对抗生成单元和图片特征解码单元，其中：图片特征编码单元将来自行人目标识别模块分割出的行人图片的行人图片读入图片特征编码单元，并经规范处理后通过行人图片编码器对规范处理后的规范输入图像进行提取特征及编码后得到图片特征并输出至图片特征解码单元，特征对抗生成单元生成高斯噪声并输入内置的对抗生成网络以对抗生成网络训练方式得到行人前景特征并输出至图片特征解码单元，图片特征解码单元使用图片特征编码单元中已经训练好的行人图片编码器，将输入图片图片属性特征中的前景特征图中的某些向量替换为特征对抗生成单元生成的输出向量，并将替换后的特征图和未被替换部分的特征图重组为一张行人换装图片，作为整个换装样本生成模块的输出，输出至换装行人再识别模块；

所述的编码是指：将单张行人图像，利用特征提取的算法和模型进行姿态、前景和背景信息的提取，得到图片对应的若干特征图；

8.根据权利要求7所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的换装样本生成模块通过DG-Net网络进行行人图像对抗生成，该DG-NET网络的鉴别器产生动态概率标签；该换装样本生成模块将动态概率标签更新为：D＝0.9D(G(a_i，s_i))+0.1D_a，即将原概率权重修改为0.90，添加一个权重0.10的属性概率，该属性概率标签通过对于换装前后图片年龄段、性别、眼镜、饰品的属性的变化比例来提供概率。

9.根据权利要求7所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的行人图片编码器是指：Openpose人体关键点提取算法和基于ResNetv2的前景背景特征提取模型；

所述的提取特征是指：对单张输入图像，通过Openpose算法提取人体的18个通过关键点，以生成18张基于每个关键点的特征图，即提取出行人姿态特征，通过激活函数为ReLu，损失函数为tripletloss的ResNetv250层神经网络，学习率设为0.00002，在已标注的Market-1501数据集上训练120000轮获得特征提取模型，生成前景信息和背景信息对应的特征图，即提取出行人前景特征和行人背景特征；

所述的预处理是指：将图片resize为384*192的图片，以0.5的概率对每张图片进行翻转，之后将每张图片转换为Tensor数据类型，并以[0.485,0.456,0.406],[0.229,0.224,0.225]的参数对其进行归一化。

10.根据权利要求2所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的再识别模型是指：使用PCB算法，按照换装样本生成模块生成数据集中的训练集训练后的模型。

11.根据权利要求1所述的基于GAN网和深度学习的对换装行人的再识别与定位跟踪系统，其特征是，所述的定位跟踪模块包括：数据处理单元和数据分析单元，其中：数据处理单元根据来自特征提取模块、换装行人再识别模块和步态识别模块的行人身份信息，将行人特征分门别类存入数据库，并依据不同的权重融合来自换装行人再识别模块的行人图片的识别结果和来自步态识别模块的步态识别结果，将融合结果输出至数据分析单元，数据分析单元依据融合结果进行分析，得出行人的运动轨迹、行人间的相互关系结果；

12.根据权利要求1-11中任一权利要求所述系统的基于深度学习的对换装行人的再识别与定位跟踪方法，其特征在于，包括：

S1)读取监控视频数据并输入行人目标检测模块检测是否有行人，将检测到行人的行人图片输出，否则继续读取视频数据进行检测；

S2)行人属性识别模块经模型训练后从行人图片提取出该行人的属性，具体为：模型训练，读取行人图片和行人数据库，并进行预处理后通过模型提取特征；

S3)行人换装样本生成模块根据数据库中的行人衣着数据生成一系列的换装图片作为样本扩充，并与行人图片一同输入换装行人再识别模块，换装行人再识别模块经图片特征解码和特征对抗生成实现身份识别；

S4)换装行人再识别模块经模型训练后对步骤S3得到行人换装图片样本进行特征提取并与预存特征进行匹配，再将匹配结果输出至定位跟踪模块；

S5)步态识别模块经模型训练后从行人图片中提取出步态特征并将识别出的行人的身份信息输出至定位跟踪模块；

S6)定位跟踪模块通过将换装行人再识别模块与步态识别模块的识别结果按权重进行整合得到最终的行人身份认证信息，以此作为依据分析行人的行动轨迹，并对各行人之间的关系进行分析与记录；同时，由行人属性识别模块提取出的行人属性，将作为对行人的描述标签存入数据库，以此作为进一步跟踪定位与数据分析的重要依据。