CN110263697A

CN110263697A - 基于无监督学习的行人重识别方法、装置及介质

Info

Publication number: CN110263697A
Application number: CN201910521467.3A
Authority: CN
Inventors: 汪洋; 丁丽琴; 任畑斯
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-20

Abstract

一种基于无监督学习的行人重识别方法、装置及介质，获取目标图像和对比图像，通过一基于无监督学习的行人重识别模型，识别对比图像中是否存在目标图像中的行人；输出识别结果；行人重识别模型建立步骤：根据有标签的源数据集对视觉分类器进行初始训练，得到视觉分类器；利用初始训练后的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；根据匹配概率和时空信息得到贝叶斯融合模型；贝叶斯融合模型根据对比目标行人图像对无标签的目标数据集中的行人图像进行相似度匹配，获取相似度评分；根据预设阈值对相似度评分进行排序，获取排序结果；检测到当前模型训练优化次数小于或等于预设优化阈值，对视觉分类器进行参数更新。

Description

基于无监督学习的行人重识别方法、装置及介质

技术领域

本发明涉及计算机视觉技术，具体涉及一种基于无监督学习的行人重识别方法、装置及介质。

背景技术

随着数字化城市的建设，我们的道路、生活工作区域已经遍布摄像头，如何有效利用这些摄像头所产生的海量数据推动城市治安、犯罪刑侦、智能交通等领域的发展，是未来所面临的一个重大挑战。为此，我们需要发展跨摄像头的多目标监测跟踪系统，智能联动多摄像头，充分利用其提供的信息从而实现智能安防、智能交通。

行人重识别(Person re-identification)也称行人再识别，指在已有的可能来源与非重叠摄像机视域的视频序列中识别出目标行人，其利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨摄像设备下的该行人图像，旨在弥补目前固定的摄像头的视觉局限，并可与行人检测或行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域，其在跨摄像头的多目标监测跟踪系统中，对对目标行人的准确匹配起到了基础支撑作用。

由于不同摄像设备之间的差异，同时行人兼具刚性和柔性的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。传统的行人重识别主要分为大致两类：1.研究行人对象的特征表示方法，提取更具有鲁棒性的鉴别特征对行人进行表示，重点在于设计鲁棒性可靠的行人图像特征表示模型，即能够区分不同行人，同时能够不受光照和视角变化的影响。2.使用距离度量学习方法，通过学习一个有判别力的距离度量函数，使得同一个人的图像间距离小于不同行人图像间的距离，其关注的是找到有效的行人特征相似度的度量准则，即距离度量学习本质是学习一个特征的映射空间，使得对于不同的场景，可以通过数据学习适合特定场景的映射子空间。

近年来，深度学习得到了快速的发展，越来越多的研究者将行人重识别的研究与深度学习结合在一起，深度学习不仅能应用于提取高层特征，也为度量学习的研究带来了革新，加之研究方法的成熟以及较大规模的数据集的出现，深度学习在行人重识别领域越来越受研究者们青睐。现有的基于深度学习的行人重识别方法大多数属于有监督学习，通过对有标签的训练集进行学习再在同源的测试集上进行性能测试。然而，训练数据的获取需要大量人力物力进行数据标定，在真实世界场景下，行人重识别方法需要面对的是海量行人数据，够提供如此庞大并且与之匹配的训练集是存在困难的。同时随着监控网络的进一步扩大，用于监督学习的训练数据的标定也会随之变得更加困难，因为在一个摄像头出现的行人大概率是不出现在另一个摄像头。在这日益变化的庞大数据中较为高效准确地定位到所搜寻的目标行人是行人重识别方法所面临的挑战之一，显然，基于监督学习的行人重识别模型都不能达到所期望的性能，因而亟需一种基于无监督学习的行人重识别方案。

发明内容

本发明主要解决的技术问题是在真实世界场景下，当面对海量的行人数据时，由于缺乏与之规模对等的训练集，基于监督学习的行人重识别模型都不能达到所期望的性能，为此需要提供一种无监督学习的行人重识别方案，使得基于无监督学习的行人重识别的性能得到提升。

根据第一方面，一种实施例中提供一种基于无监督学习的行人重识别方法，包括：

图像获取步骤：获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像；

识别步骤：用于通过一基于无监督学习的行人重识别模型，识别所述对比图像中是否存在所述目标图像中的行人；

结果输出步骤：输出识别结果；

其中，所述基于无监督学习的行人重识别模型通过以下步骤建立：

分类器建立步骤：建立原始视觉分类器；

初始训练步骤：根据有标签的源数据集对原始视觉分类器进行初始训练，得到初始训练后的视觉分类器；其中，所述源数据集是行人图像集；

迁移学习步骤：根据迁移学习方法，利用当前的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；其中，所述目标数据集是从进行行人重识别的摄像头网络中获取的行人图像集；其中，所述匹配概率是在所述摄像头网络中，两张行人图像判定为同一目标行人的概率；所述时空信息是在所述摄像头网络中，同一目标行人在给定两个摄像头间迁移时间的分布函数，其中，所述分布函数根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差得到；

融合模型获取步骤：基于贝叶斯定理，根据所述匹配概率和所述时空信息得到贝叶斯融合模型；

相似度匹配步骤：所述贝叶斯融合模型根据对比目标行人图像对所述无标签的目标数据集中的行人图像进行相似度匹配，获取相似度评分；其中，所述无标签的目标数据集中包括所述对比目标行人图像中的目标行人；

排序步骤：根据所述相似度评分进行排序，以获取排序结果；

优化步骤：检测到当前模型训练优化次数小于或等于预设优化阈值，对视觉分类器进行参数更新步骤，并将更新后的参数输入至当前的视觉分类器重新从迁移学习步骤执行；

检测到当前模型训练优化次数大于预设优化阈值，获取当前的视觉分类器及时空信息，以作为基于无监督学习的行人重识别模型；

其中所述参数更新步骤包括：

三元组获取步骤：根据预设阈值及所述排序结果获取三元组及融合模型的排序差异评分，其中所述三元组包括一个正样本行人图像、一个负样本行人图像及一个原始样本行人图像；其中所述正样本行人图像是排名在所述预设阈值前的样本行人图像，所述负样本行人图像是排名在所述预设阈值后的样本行人图像，其中所述融合模型的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；

学习网络预测步骤：基于排序学习网络对所述三元组中的三张行人图像进行相似度评分，以获取排序学习网络预测的排序差异评分；其中，所述排序学习网络是当前的视觉分类器基于三重神经网络构建的；其中所述排序学习网络预测的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；

学习网络训练步骤：根据交叉熵损失函数、所述融合模型的排序差异评分及所述排序学习网络预测的排序差异评分，对所述排序学习网络进行训练，完成对当前的视觉分类器的参数更新。

根据第二方面，一种实施例中提供一种基于无监督学习的行人重识别装置，包括：

图像获取模块，用于获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像；

基于无监督学习的行人重识别模块，用于通过基于无监督学习的行人重识别模型来识别所述对比图像中是否存在所述目标图像中的行人；

输出模块，用于输出识别结果；

其中所述基于无监督学习的行人重识别模块中的行人重识别模型通过以下步骤建立：

分类器建立步骤：建立原始视觉分类器；

迁移学习步骤：根据迁移学习方法，利用所当前的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；其中，所述目标数据集是从进行行人重识别的摄像头网络中获取的行人图像集；其中，所述匹配概率是在所述摄像头网络中，两张行人图像判定为同一目标行人的概率；所述时空信息是在所述摄像头网络中，同一目标行人在给定两个摄像头间迁移时间的分布函数，其中，所述分布函数根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差得到；

其中所述参数更新步骤包括：

三元组获取步骤：根据所述排序结果获取三元组及融合模型的排序差异评分，其中所述三元组包括一个正样本行人图像、一个负样本行人图像及一个原始样本行人图像；其中所述融合模型的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；

根据第三方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上任一项所述方法。

本申请的有益效果是：

本申请提供的一种基于无监督学习的行人重识别方法，包括：图像获取步骤：获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像；识别步骤：用于通过一基于无监督学习的行人重识别模型，识别所述对比图像中是否存在所述目标图像中的行人；结果输出步骤：输出识别结果；其中，所述基于无监督学习的行人重识别模型通过以下步骤建立：分类器建立步骤：建立原始视觉分类器；初始训练步骤：根据有标签的源数据集对原始视觉分类器进行初始训练，得到初始训练后的视觉分类器；其中，所述源数据集是行人图像集；迁移学习步骤：根据迁移学习方法，利用当前初始训练后的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；其中，所述目标数据集是从进行行人重识别的摄像头网络中获取的行人图像集；其中，所述匹配概率是在所述摄像头网络中，两张行人图像判定为同一目标行人的概率；所述时空信息是在所述摄像头网络中，同一目标行人在给定两个摄像头间迁移时间的分布函数，其中，所述分布函数根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差得到；融合模型获取步骤：基于贝叶斯定理，根据所述匹配概率和所述时空信息得到贝叶斯融合模型；相似度匹配步骤：所述贝叶斯融合模型根据对比目标行人图像对所述无标签的目标数据集中的行人图像进行相似度匹配，获取相似度评分；其中，所述无标签的目标数据集中包括所述对比目标行人图像中的目标行人；排序步骤：根据预设阈值对所述相似度评分进行排序，以获取排序结果；优化步骤：检测到当前模型训练优化次数小于或等于预设优化阈值，对视觉分类器进行参数更新步骤，并将更新后的参数输入至当前的视觉分类器重新从迁移学习步骤执行；检测到当前模型训练优化次数大于预设优化阈值，获取当前的视觉分类器及当前的时空信息，以作为基于无监督学习的行人重识别模型；其中所述参数更新步骤包括：三元组获取步骤：根据所述排序结果获取三元组及融合模型的排序差异评分，其中所述三元组包括一个正样本行人图像、一个负样本行人图像及一个原始样本行人图像；其中所述融合模型的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；学习网络预测步骤：基于排序学习网络对所述三元组中的三张行人图像进行相似度评分，以获取排序学习网络预测的排序差异评分；其中，所述排序学习网络是当前的视觉分类器基于三重神经网络构建的；其中所述排序学习网络预测的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；学习网络训练步骤：根据交叉熵损失函数、所述融合模型的排序差异评分及所述排序学习网络预测的排序差异评分，对所述排序学习网络进行训练，完成对当前的视觉分类器的参数更新。通过视觉分类器来估算出时空信息，并基于所述时空信息和视觉分类器得到了贝叶斯融合模型，用贝叶斯融合模型反过来提升训练所述视觉分类器的参数，进行迭代循环，视觉分类器又能继续增强融合模型，形成一个闭环，所述预设的优化阈值让这个闭环循环多次，让视觉分类器无限逼近融合分类器，由所述视觉分类器和获取的时空信息得到了一个在目标场景即目标摄像头网络中也很强大的无监督行人重识别模型，实现了无监督行人重识别且能逼近有监督学习的性能。

本申请提供的一种基于无监督学习的行人重识别装置，包括：图像获取模块，用于获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像；基于无监督学习的行人重识别模块，用于通过基于无监督学习的行人重识别模型来识别所述对比图像中是否存在所述目标图像中的行人；输出模块，用于输出识别结果；其中所述基于无监督学习的行人重识别模块中的行人重识别模型通过上述的步骤实现优化步骤通过视觉分类器来估算出时空信息，并基于所述时空信息和视觉分类器得到了贝叶斯融合模型，用贝叶斯融合模型反过来提升训练所述视觉分类器的参数，进行迭代循环，视觉分类器又能继续增强融合模型，形成一个闭环，所述预设的优化阈值让这个闭环循环多次，让视觉分类器无限逼近融合分类器，由所述视觉分类器和获取的时空信息得到了一个在目标场景即目标摄像头网络中也很强大的无监督行人重识别模型，实现了无监督行人重识别且能逼近有监督学习的性能。

附图说明

图1是本发明实施例一提供的一种基于无监督学习的行人重识别方法流程示意图；

图2是本发明实施例一提供的基于无监督学习的行人重识别模型建立的流程示意图；

图3是本发明实施例一提供的分类器建立的流程示意图；

图4是本发明实施例一提供的图像特征提取网络结构图；

图5是本发明实施例一提供的卷积块结构图；

图6是本发明实施例一提供的恒等映射块结构图；

图7是本发明实施例一提供的卷积块与随机区域失活的混合块结构图；

图8是本发明实施例一提供的恒等映射块与随机区域失活的混合块结构图；

图9是本发明实施例一提供的原始视觉分类器的结构图；

图10是本发明实施例一提供的初始训练方法流程示意图；

图11是本发明实施例一提供的迁移学习方法流程示意图；

图12是本发明实施例一提供的排序方法流程示意图；

图13是本发明实施例一提供的参数更新方法流程示意图；

图14是本发明实施例一提供的排序学习网络结构图；

图15是本发明实施例一提供的另一种无监督学习的行人重识别方法流程示意图；

图16是本发明实施例二提供的一种基于无监督学习的行人重识别装置结构图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

在进行行人重识别时，行人重识别数据集是由一系列监控摄像头拍摄得到，并用检测算法将行人抠出，做行人的匹配。在这些数据集中，人脸是十分模糊的，无法作为匹配特征，而且由于多个摄像头拍摄视角不同，同个人可能被拍到正面、侧面、背面或顶部等，具有不同的视觉特征，不同的行人又有不同的视觉特征。有监督学习用已知某种或某些特性的样本作为训练集，以建立一个数学模型(如模式识别中的判别模型，人工神经网络法中的权重模型等)，再用已建立的模型来预测未知样本。有监督学习对在实际面对现实行人重识别中，会因缺少与真实海量行人数据规模对等的训练集而导致预测性能不高。

在现有技术中，使用无监督学习方法包括：一是使用重排序方法实现无监督学习，常用的重排序方法为K近邻算法，其基本原理：为了判定未知样本的类别，以全部训练样本作为代表点，计算未知样本与所有训练样本的距离，并以最近邻者的类别作为决策未知样本类别的唯一依据。由此可以看出该方法存在的缺陷：(1)当样本数量不均衡时，占比重较大的某类别样本将会影响对未知数据的类别判断；(2)该方法需要存储全部的训练样本集，并且随着训练集的增大，该方法的时间成本将会越来越高。二是使用迁移学习实现无监督学习，首先利用源数据集对行人重识别模型进行训练，然后使用迁移学习实现跨数据集的行人重识别，但该方法所提取的图像特征不可靠导致网络的泛化能力不足，面对真实世界的海量行人数据时，其性能较为一般，准确率较低。分类器的泛化能力决定了系统能否正确完成检测和分类。泛化能力是指机器学习算法对新鲜样本的适应能力，学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。现有技术中的基于无监督学习行人重识别技术中给予学习算法的数据是未被标记的，因此没有直接的方法来评估算法产生的准确性，在一定数据集上其分类的性能远低于有监督学习。

在本发明实施例中，针对上述问题，提出了一种基于无监督学习的行人重识别方法，旨在更好地解决面临真实世界日益变化的海量数据时如何实施行人重识别的问题，在数据集上能更好的逼近有监督学习方法，达到更好的行人重识别效果。

实施例一

请参考图1，图1是本发明实施例一提供的一种基于无监督学习的行人重识别方法流程示意图。

一种基于无监督学习的行人重识别方法，包括图像获取步骤S11、识别步骤S12及结果输出步骤S13，下面具体说明。

图像获取步骤S11：获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像。

在本发明实施例中，所述目标图像和所述对比图像是从不同的视频流中获取的行人视频图像，在行人重识别过程中，监控视频中根据行人的行走过程拍摄连续多帧图像，而视频图像通常为对所述连续多帧图像进行行人检测获得的行人图像。其中，目标图像就是我们进行行人重识别过程中待识别的目标行人的图像，对比图像中的行人可以为数据库中已经存储有图像的行人，也可以是视频流中采集到的行人图像，本发明对此不作具体限定。需要说明的是，所述目标图像和所述对比图像可以是多张的行人图像，例如是针对目标行人A，所述目标图像可以是一张，而所述对比图像可以是多张，而目标行人是多个时，包括目标行人A和B，所述目标图像可以是多张，所述对比图像可以是多张，本发明对此不作具体限定。将目标图像与对比图像进行对比，以从对比图像中找到与目标图像中的行人为同一人的图像。示例性的，使用行人重识别技术进行逃犯A追踪时，所述目标图像是该逃犯A的图像，所述目标图像的获取可以是该逃犯A被某一个摄像头拍摄到的图像，也可以是数据库中预存有的该逃犯A的图像，然后根据拍摄到该逃犯A的摄像头所在区域，例如是该逃犯A是在北京拍摄到的，则获取北京这一区域内的多个摄像头拍摄的行人图像，以作为对比图像，当然也可以获取其他区域的行人图像，本发明对此不作具体限定。

在本发明实施例中，在实际应用中，一般获取到的图像中不仅仅包括行人，还有背景环境图，例如建筑或动物等。因此，在获取到目标行人的图像或数据库中的图像后，首先对图像进行预处理，将图像中的背景像素去除，以提取出前景像素，也即行人图像。所述目标图像和所述对比图像可以是摄像头拍摄的照片或视频图像经过去背景像素方法后得到的行人图像，所述去背景像素方法包括运动目标检测、图像分割等，去背景像素方法为现有技术，本发明对此不再赘述。

在本发明实施例中，因行人的运动，行人与摄像头的距离不同，角度不同，导致拍摄得到的行人图像中行人的大小不同，为此进行行人检测的获得的行人图像尺寸不同，因此所述预处理还可以包括归一化处理，对待识别的行人图像进行归一化处理，可以是根据预设的尺寸，将对比图像中的每一图像的尺寸均调整为所述预设的尺寸大小。对目标图像和对比图像除了进行归一化处理之外，还可以进行其他图像预处理，本发明对此不作具体限定。

识别步骤S12：用于通过一基于无监督学习的行人重识别模型，识别所述对比图像中是否存在所述目标图像中的行人。在一实施例中，参见图2，所述基于无监督学习的行人重识别模型的建立步骤包括：分类器建立步骤S21、初始训练步骤S22、迁移学习步骤S23、融合模型获取步骤S24、相似度匹配步骤S25、排序步骤S26及优化步骤S27。

在本发明实施例中，所述基于无监督学习的行人重识别模型中保存了优化训练好的视觉分类器和时空信息，所述时空信息可以看做是摄像头网络的拓扑结构信息，所述时空信息即所述无标签数据集对应的摄像头网络的拓扑结构信息，将步骤S11获取得到的目标图像和对比图像输入所述视觉分类器，所述视觉分类器结合所述时空信息对所述对比图像进行识别。

需要说明的是，行人图像是摄像头拍摄到的，摄像头之间有一定的距离，行人的移动有一定的速度限制，因此行人在摄像头间的移动时间就会呈现出一定规律，比如，AB摄像头间有10米，假设人行走速度1m/s，如果AB摄像头在2s内捕捉到了两张行人图片，则这两张行人图片不可能是同一个人的，因此我们可以利用摄像头拓扑约束来提升行人重识别的准确率。但是我们无法获取摄像头的拓扑结构，即无法获得AB摄像头之间的距离。而本申请基于无监督学习的行人重识别模型通过迁移学习可以获取得到时空信息进而得到目标摄像头网络的拓扑结构，并且能通过贝叶斯定理将摄像头网络的拓扑结构与视觉分类器进行融合，得到贝叶斯融合模型。

在本发明实施例中，所述基于无监督学习的行人重识别模型通过以下步骤建立：

分类器建立步骤S21：建立原始视觉分类器。

在一实施例中，参见图3，所述分类器建立步骤S21包括特征提取网络构造步骤S31和孪生神经网络构造步骤S32。

特征提取网络构造步骤S31：构造基于残差网络的图像特征提取网络。

孪生神经网络构造步骤S32：基于所述图像特征提取网络构造孪生神经网络，得到原始视觉分类器，其中，所述原始视觉分类器包括两个共享权重的图像特征提取网络、距离度量层以及全连接层。

在另一实施例中，参见图4，图4是本发明实施例一提供的图像特征提取网络结构图。参见图5，图5是本发明实施例一提供的卷积块结构图。参见图6，图6是本发明实施例一提供的恒等映射块结构图。参见图7，图7是本发明实施例一提供的卷积块与随机区域失活的混合块结构图。所述图像特征提取网络包括第一部分、第二部分残差块一、第三部分残差块二、第四部分残差块三及第五部分残差块四。所述第一部分包括卷积层、归一化层、激活函数层及最大池化层。所述第二部分残差块一包括一个卷积块和两个恒等映射块。所述第三部分残差块二包括一个卷积块和三个恒等映射块。所述第四部分残差块三包括一个卷积块和五个恒等映射块。所述第五部分残差块四包括一个卷失混合块、两个恒失混合块和平均池化层，其中所述卷失混合块是卷积块与随机区域失活的混合块，所述恒失混合块是恒等映射块与随机区域失活的混合块，其中随机区域失活不应用在跳跃连接部分。

在本发明实施例中，所述视觉分类器包括两个共享权重的图像特征提取网络、距离度量层以及全连接层。参见图8，图8是本发明实施例一提供的原始视觉分类器的结构图。将目标行人图像输入一个图像特征提取网络中，将对比图像的数据集中的一个对比图像输入另一个图像特征提取网络，所述两个图像特征提取网络共享权重，并分别输出相应的特征信息，之后进行相似度评分，根据所述相似度评分判断输入的对比图像是否含有目标图像中的行人。

在本发明实施例中，构造基于孪生网络的相似度匹配网络，该网络由两个共享权重的图像特征提取网络、距离度量层以及全连接层组成。该网络使用两个完全相同的图像特征提取网络分别得到两个特征向量，使用余弦距离计算两个特征向量的相似度，然后利用全连接层和分类器进行二分类，判断两个图像特征提取网络的输入是否为同一类别的图像。

在本发明实施例中，随机失活就是在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性(co-dependence)从而实现神经网络的正则化。设计一个性能更好的图像特征提取网络包括卷失混合块是卷积块与随机区域失活的混合块和恒等映射块与随机区域失活的混合块，其中，随机区域失活是指对区域内的节点进行失活，失活的还是神经元，在本发明实施例中使用的是区域神经元失活，意即根据特征图随机选定一些区域内的神经元进行失活。相比传统随机失活算法(随机点失活)，该方法使某个区域失活，使得卷积神经网络在训练过程中可以找寻到更加通用的类内深度特征，进而卷积神经网络的泛化能力得以提升。提升的原因在于图像的每个像素点是空间相关的，因而区域失活更加适用于该特性。所述图像特征提取网络配合下列初始训练步骤S22中聚类损失函数，对卷积神经网络的类间特征判别能力的加强，使得卷积神经网络的性能得以提升。

初始训练步骤S22：根据带有标签的源数据集对原始视觉分类器进行初始训练，得到初始训练后的视觉分类器；其中，所述源数据集是行人图像集。

在另一实施例中，参见图9，所述初始训练步骤S22还包括输入步骤S41、特征信息获取步骤S42、相似度判别步骤S43及结果输出步骤S44；

输入步骤S41：将带有标签的源数据集中的两张行人图像分别输入所述两个共享权重的图像特征提取网络；

特征信息获取步骤S42：针对每一张行人图像，分别提取所述第三部分残差块二、所述第四部分残差块三及所述第五部分残差块四输出的深度特征信息；

相似度判别步骤S43：将所述两张行人图像各自的所述深度特征信息传递给所述距离度量层，以结合聚类损失函数进行相似度判别；

在本发明实施例中，聚类损失函数只是用来对残差网络进行训练，用于评估上述提到的初步视觉分类器输出的结果与实际值的差异，以提升残差网络的特征提取能力。使用现有的行人数据集作为带标签的源数据集，将带标签的源数据集结合聚类损失函数对孪生网络进行训练，得到初始化的视觉分类器。所述损失函数定义如下：

Loss＝L_softmax+λL_聚类 (1)

其中，公式(1)代表总的损失函数，由交叉熵损失函数L_softmax和聚类损失函数L_聚类两部分组成，其中λ一般取0.003。本发明对此不作具体限定。公式(2)是交叉熵损失函数，y_i代表真实的行人类别的概率分布，P_i代表所预测的行人类别的概率分布，i代表每批次输入样本图片的序号。d代表每批次输入的样本图片的数量。公式(3)是聚类损失函数，k代表符合筛选条件的特征值数目，u_i,h是指大于设定阈值的特征值，u₁,...,u_m代表KPCA方法所得到的特征值，维度为m。β是一个超参数，一般取0.95，本发明对此不作具体限定。大特征值代表了一般的图像特征，相反，小特征值则代表了噪声、未带标签的数据等。此外，通过舍弃小特征值可以减轻未带标签的数据所带来的负面影响。公式(3)中的特征值则是根据公式(4)得到的，是指根据KPCA原理得到的协方差矩阵，代表的特征向量，u_i代表的特征值。n代表每批次所预测的同类别样本图片的数量。代表每批次中某样本(该样本的预测类别由c表示)的中心平均观测量，即其中H^c包含了所预测的同类别样本的全部深度特征，h_c代表该类别的真实样本的均值。κ(·)是高斯核函数，定义：其中γ一般取0.3至0.5，本发明对此不作具体限定。

在本发明实施例中，聚类损失函数采用了聚类算法中的核主成分分析法(KPCA)的相关思想，首先通过对卷积神经网络所提取的深度特征进行核主成分分析，然后对深度特征矩阵进行降维得到其特征值矩阵。最后使用符合条件的特征值构成聚类损失函数。该方法通过优化类内方差，可以使卷积神经网络在训练过程中获得更好的类间特征判别能力。

在本发明实施例中，只有获得较为可靠的行人特征信息，才能为后边的行人匹配部分提供有力的支撑，为此本发明设计了一个性能较好的视觉特征提取网络，所述视觉特征提取网络中的残差网络添加了随机区域失活层，结合聚类损失函数，使得残差网络的性能提升，可以使得视觉特征提取网络更好的学习特征的差别，提升模型的泛化能力，使得提取到的图像特征更加抽象化，更具表征能力，并结合孪生神经网络(Siamese network)得到一个初步的视觉分类器，基于所述孪生神经网络，提出了特征分层融合策略，使得用于相似度匹配的深度特征更加全面，更具可靠性，减轻特征提取过程中所带来的信息丢失问题。

结果输出步骤S44：利用所述全连接层进行二分类，输出判别结果，完成对当前的视觉分类器的初始训练。

在本发明实施例中，像残差网络这样深层的卷积神经网络，可以为我们提供了不同深度的特征信息，而丰富的特征信息对于视觉分类器至关重要。在这里我们提出了分层融合策略，我们将第三部分残差块二、第四部分残差块三及第五部分残差块四所输出的不同深度不同尺寸的深度特征信息分别提取出来，传递给距离度量层进行相似度判别，根据线性加权系数(如公式所示)输出最终判别结果。

其中α_i代表第i层的加权系数，S_i代表第i层的相似度评分，Score就是该图像最终的相似度评分。在本发明实施例中，为使特征更具可靠性，提出了特征分层融合策略，将残差网络不同层的特征分别提取出来进行融合得到一个更为可靠的特征，特征分层融合是指将残差网络的不同层间的特征分别提取出来组合成一个新的特征，因为这样可以获得行人图像的更多浅层和深层的特征信息，所以分层融合策略增加了特征的可靠性。在本发明实施例中通过实验测试得到，取第三部分残差块二、第四部分残差块三及第五部分残差块四所输出的特征信息可以得到较好的性能提升，所以i从第三层开始，本发明对此不作具体限定。

迁移学习步骤S23：根据迁移学习方法，利用当前的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；需要说明的是在初始训练步骤S22之后，所述当前的视觉分类器就是初始训练后的视觉分类器，而在优化步骤S27之后，进行循环训练时，所述当前的视觉分类器就是根据当前优化次数进行参数优化后的视觉分类器；其中，所述目标数据集是从进行行人重识别的摄像头网络中获取的行人图像集；其中，所述匹配概率是在所述摄像头网络中，两张行人图像判定为同一目标行人的概率；所述时空信息是在所述摄像头网络中，同一目标行人在给定两个摄像头间迁移时间的分布函数，其中，所述分布函数根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差得到。

在本发明实施例中，迁移学习(Transfer learning)顾名思义就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。在源数据集上预训练，在目标数据集上微调，从而使得源数据集上的模型能够适应目标场景。实际操作上就是将一层层网络中每个节点的权重从一个训练好的网络迁移到一个全新的网络里，而不是从头开始，为每个特定的任务训练一个神经网络。而本发明实施例中，就是使用带标签的源数据集训练视觉分类器，得到初始训练后的视觉分类器，然后将该始训练后的视觉分类器迁移到新的无标签的目标数据集中，对无标签的目标数据集进行学习。

在另一实施例中，参见图10，所述迁移学习步骤S23包括匹配概率获取步骤S51和时空信息获取步骤S52。

匹配概率获取步骤S51：根据迁移学习方法，利用当前的视觉分类器对无标签的目标数据集进行学习，判断出两张行人图像中是否包含同一目标行人，得到匹配概率；

时空信息获取步骤S52：在两张图像中包含同一目标行人时，根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差，得到时空信息。

在本发明实施例中，在初始训练步骤S22之后，所述当前的视觉分类器就是初始训练后的视觉分类器，使用当前的初始训练后的视觉分类器对无标签的目标数据集进行迁移学习，而在优化步骤S27之后，进行循环训练时，所述当前的视觉分类器就是根据当前优化次数进行参数优化后的视觉分类器；使用当前的参数优化后的视觉分类器对无标签的目标数据集进行迁移学习，判断输入的两张行人图像是否包含同一行人，所述两张行人图像来自无标签的目标数据集。若两张行人图像包含同一行人，根据拍摄两张行人图像的摄像机编号，以及拍摄两张行人图像的时间差，构建在包含同一行人的条件下，关于摄像机编号和时间差的概率分布函数，也即为时空信息，具体过程如下：我们将C_i摄像头所拍摄的图像看作是目标行人图像，C_j/C_k摄像头所拍摄的图像则可以看作是对比图像，摄像头网络的拓扑结构所提供的信息可以定义为：P{τ_ij,C_i,C_j|x_i＝x_j}；其中，x_i是由摄像头C_i在t_i时所拍摄的行人图像，同理，x_j是由摄像头C_j在t_j时所拍摄的行人图像，需要说明的是，现有的移动终端中在拍摄照片时可以保存拍摄的时间和地点，则在收集一个移动中的终端的数据时，x_i是由移动终端在地点C_i在t_i时所拍摄的行人图像，同理，x_j是由移动终端在地点C_j在t_j时所拍摄的行人图像；本发明以视频监控的摄像头为例进行说明，τ_ij＝|t_i-t_j|代表了在包含同一目标的行人图像对的条件下，关于时间间隔τ_ij，以及摄像头编号(C_i，C_j)的概率分布。为了计算出P{τ_ij,C_i,C_j|x_i＝x_j}的值，我们首先要判断两张行人图像是否包含同一目标行人，然而，在无标签的目标数据集中，我们是无法获得关于行人图像的编号。因此，我们可以用之前训练得到的视觉分类器，对无标签的目标数据集中的行人图像进行识别，根据目标行人图像集进行一个大致的分类，得到匹配概率，若一对行人图像x_i，x_j是同一类，然后根据拍摄这对行人图像的相机编号以及拍摄时间间隔进行归类，据此，我们可以得到当摄像机编号为C_i，C_j，时间间隔为τ_ij时的统计次数n，最后根据总的图片对数N，我们就可以得到P{τ_ij,C_i,C_j|x_i＝x_j}的统计量：n/N。

在本发明实施例中，我们统计一个数据集中所有的时间间隔，给定一个新的时间间隔(两个新的行人图片对应的两个时空点算出来的)，我们能够用极大似然估计，用在这个时间间隔前后一定范围(比如100帧)的时间间隔的出现频率(＝目标范围时间间隔数量/总的时间间隔数量)，作为新时间差出现的概率，也就是两个时空点是同一人产生的概率。根据两个时空点对应的两张行人图像是否属于同一个人，来决定两个时空点是否属于同一个人，而两张行人图像是否属于同一个人则由视觉分类器进行识别得出的匹配概率。

融合模型获取步骤S24：基于贝叶斯定理，根据所述匹配概率和所述时空信息得到贝叶斯融合模型。

在本发明实施例中，所述贝叶斯融合模型采用了现有技术中由Jianming Lv等人提出的贝叶斯融合模型。由于计算P{τ_ij,C_i,C_j|x_i＝x_j}时我们使用到了视觉分类器所提供的信息，因而结合视觉分类器和摄系头网络拓扑结构所提供的信息可以将融合模型定义如下：P{x_i＝x_j|v_i,v_j,τ_ij,C_i,C_j}。其中，x_i是由摄像头C_i在t_i时所拍摄的行人图像，同理，x_j是由摄像头C_j在t_j时所拍摄的行人图像，τ_ij＝|t_i-t_j|。v_i，v_j分别是x_i和x_j的视觉特征向量。通过公式P{x_i＝x_j|v_i,v_j,τ_ij,C_i,C_j}可以得到摄像机网络的拓扑结构，即行人时空信息，将该信息应用在视觉分类器中，可以让视觉分类器学习到该对应的摄像头网络的拓扑结构，进而可以根据行人图像的摄像机信息判断，该行人下次将会在哪个摄像头出现。融合模型就是视觉分类器与行人时空信息的结合，通过使用行人时空信息可以提高视觉分类器准确度。

然而，由于视觉分类器将行人编号和相似度评分分别输出，因而将会导致视觉分类器产生这样一个问题：它虽然将一对图片判定为相似，但却给出两个不一致的行人ID。所以，融合模型改写如下：P{Θ(x_i)＝Θ(x_j)|v_i,v_j,τ_ij,C_i,C_j}，其中，Θ(x_i)代表x_i中的行人的ID，Θ(x_j)代表x_j中的行人的ID。根据贝叶斯定理可得，

在这里，我们对P{τ_ij,C_i,C_j|Θ(x_i)＝Θ(x_j)}做了近似处理，只关注视觉分类器对任一对图片的相似度评分，若相似度评分超过阈值则认为该对图片中的行人是同一ID。

相似度匹配步骤S25：所述贝叶斯融合模型根据对比目标行人图像对所述无标签的目标数据集中的行人图像进行相似度匹配，获取相似度评分；其中，所述无标签的目标数据集中包括所述对比目标行人图像中的目标行人。

在本发明实施例中，所述贝叶斯融合模型是所述当前训练好的视觉分类器和所述时空信息的结合，所述视觉分类器能根据所述时空信息对所述无标签的目标数据集进行相似度匹配，完成一个初步标记分类，得到相似度评分。

排序步骤S26：根据所述相似度评分进行排序，以获取排序结果。

在本发明实施例中，在进行了相似度匹配步骤S25后，由所述贝叶斯融合模型完成了对所述无标签的目标数据集的一个初步标记分类，在另一实施例中，参见图11，在进行了相似度匹配步骤S25后，所述排序步骤S26包括依次排序步骤S61和矩阵获取步骤S62。

依次排序步骤S61：根据所述相似度评分高低对所述无标签的目标数据集中的行人图像进行依次排序；

矩阵获取步骤S62：获取排序矩阵作为排序结果，其中，所述排序矩阵中每一行的第一个为原始样本行人图像，其对应所述对比目标行人图像。

在本发明实施例中，使用贝叶斯融合模型根据目标行人图像对无标签的目标数据集中的行人图像(目标数据集包含目标行人图像)进行相似度匹配，将目标数据集中的行人图像与目标行人图像的相似度评分进行排序得到一个排序矩阵，其尺寸为目标行人图像的数目×目标数据集的行人图像数目，其中，排序矩阵中的每一行中的第一个为目标行人图像本身，即原始样本行人图像。我们依据排序结果，假设预设阈值为10，则将排名前10的样本行人图像视为正样本行人图像，剩余的行人图像为负样本行人图像。

优化步骤S27：检测到当前模型训练优化次数小于或等于预设优化阈值，对视觉分类器进行参数更新步骤，并将更新后的参数输入至当前的视觉分类器重新从初始训练步骤执行；

检测到当前模型训练优化次数大于预设优化阈值，获取所述时空信息及当前的视觉分类器，以作为基于无监督学习的行人重识别模型。

在本发明实施例中，通过设置预设的优化阈值，来实现一个迭代循环过程，在没有达到预设的优化阈值时，从初始训练步骤S21不断的循环，以使得视觉分类器根据排序差异评分进行再优化。即利用无标签的目标数据集进一步优化视觉分类器进而提升融合模型的性能，使得视觉分类器和融合模型可以相互促进，不断得到优化。

参见图12，其中所述参数更新步骤S28包括三元组获取步骤S71、学习网络预测步骤S72和学习网络训练步骤S73。

三元组获取步骤S71：根据预设阈值及所述排序结果获取三元组及融合模型的排序差异评分，其中所述三元组包括一个正样本行人图像、一个负样本行人图像及一个原始样本行人图像；其中所述正样本行人图像是排名在所述预设阈值前的样本行人图像，所述负样本行人图像是排名在所述预设阈值后的样本行人图像，其中所述融合模型的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到。

在本发明实施例中，在根据融合模型的排序差异评分得到了排序结果后，从所述排序结果中获取得到所述排序矩阵，根据所述排序矩阵获取得到三元组数据，使用三元组就是通过组合的方式均衡正负样本。正样本可以和不同的负样本进行组合，通过设定三元组的数量，就可以实现对负样本进行过采样，解决了传统重排序方法所来的样本数量不均衡问题。

在本发明实施例中，在进行相似度匹配步骤S25后，我们得到了原始样本行人图像的相似度评分、正样本行人图像的相似度评分及负样本行人图像的相似度评分。对正样本组(由原始样本行人图像与正样本行人图像组成)与负样本组(由原始样本行人图像与负样本行人图像组成)分别进行相似度评价得到预测的相似度评分，那么由此可以得到融合模型的排序差异评分：采用sigmoid函数的形式对排序差异进行了量化，其中，φ_p代表正样本组的相似概率，φ_n代表负样本组的相似概率。

学习网络预测步骤S72：基于排序学习网络对所述三元组中的三张行人图像进行相似度评分，以获取排序学习网络预测的排序差异评分；其中，所述排序学习网络是当前的视觉分类器基于三重神经网络构建的；其中所述排序学习网络预测的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到。

在本发明实施例中，为解决传统重排序方法所带来的样本数量不均衡以及样本存储问题，我们使用了在线学习的策略，利用三重卷积神经网络结构并结合空间金字塔池化层得到了一个较为可靠的排序学习网络实现在线学习。依据排序学习的思想设计了一个改进的三重神经网络(triplet network)，该三重神经网络可以利用无标签的目标数据集进一步优化视觉分类器进而提升贝叶斯融合模型的性能，使得视觉分类器和融合模型可以相互促进，不断得到优化。现有的在线学习方法大多应用于传统的支持向量机(SVM)算法中，主要有两种典型的在线学习神经网络模型：一种是基于在线学习的参数更新模型；另一种是基于增加隐藏层神经元的结构更新模型。

在另一实施例中，所述学习网络预测步骤S72包括第一输入步骤S81、特征信息获取步骤S82、整合步骤S83、第二输入步骤S84、传输步骤S85及评分步骤S86。

第一输入步骤S81：将所述三元组中的三张行人图像分别作为所述排序学习网络的三个输入。

特征信息获取步骤S82：针对每一行人图像，分别提取所述第三部分残差块二、所述第四部分残差块三及所述第五部分残差块四输出的特征信息。

整合步骤S83:针对每一行人图像，将所述特征信息整合新的特征信息。

第二输入步骤S84：将所述新的特征信息输入至所述空间金字塔池化层。

传输步骤S85：针对原始样本行人图像与正样本行人图像或原始样本行人图像与负样本行人图像，将所述空间金字塔池化层输出的维度一致的信息传输给所述距离度量层和所述全连接层。

评分步骤S86：根据全连接层输出的数据得到排序学习网络预测的排序差异评分。

在本发明实施例中，参见图13，是本发明实施例一提供的排序学习网络结构图，图13可以看做是两个视觉分类器，即有两个孪生网络，只不过这两个孪生网络分别有一个分支使用了原始样本行人图像，因而这两个分支可以简化为一个，即两个孪生网络有一个共用的分支，用于输入原始样本行人图像，在排序学习网络训练时，两个视觉分类器的参数都得到了优化，则最后取优化好的视觉分类器，因这两个视觉分类器的权重是一致的，所以保存任一个视觉分类器的模型加时空信息即得到了本申请的无监督学习的行人重识别模型。该排序学习网络将三元组的三张行人图片分别通过特征提取网络得到不同深度下的特征信息，这里依然采所述第三部分残差块二、所述第四部分残差块三及所述第五部分残差块四输出的特征信息，然后将每张图片对应的三组特征信息整合成新的特征信息，将新的特征信息输入到空间金字塔池化层，得到维度一致的新的原始样本行人图像、正样本行人图像与负样本行人图像的多维特征信息。对正样本组(由原始样本行人图像与正样本行人图像组成)与负样本组(由原始样本行人图像与负样本行人图像组成)分别进行相似度评价得到预测的相似度评分，那么由此可以得到排序学习网络预测的排序差异评分：采用sigmoid函数的形式对排序差异进行了量化。其中，代表正样本组的相似概率，代表负样本组的相似概率。

学习网络训练步骤S73：根据交叉熵损失函数、所述融合模型的排序差异评分及所述排序学习网络预测的排序差异评分，对所述排序学习网络进行训练，完成对当前的视觉分类器的参数更新。

在本发明实施例中，使用交叉熵损失函数对排序学习网络进行训练，进而优化视觉分类器，提升融合模型的性能。交叉熵损失函数定义如下：其中，P代表融合模型的排序差异评分，代表排序学习网络预测的排序差异评分。评分函数P和是为了让排序学习网络学习正样本行人图像与负样本行人图像间的差异，使用交叉熵损失函数对图13中排序学习网络进行训练，使得图13中的视觉分类器已经训练好的孪生网络的模型参数继续得以优化，最后获取参数优化好的视觉分类器，即所述视觉分类器中的权重、偏置参数及连接等都已经优化完成，能够更好区分正样本行人图像与负样本行人图像。它只需要正样本组(原始样本与正样本，即p，positive)的相似度评分和负样本组(原始样本与负样本，即n，negative)的相似度评分，排序差异评分是根据相似度评分及交叉熵损失函数可以得到。

在本发明实施例中，通过设置合适的优化次数，循环以上过程，排序学习网络通过学习正样本行人图像与负样本行人图像间的排序差异，使得已经训练好的孪生网络的模型参数继续得以优化。如此不断更新视觉分类器的模型参数使其得到优化，最后得到一个性能较好的融合模型。将最终优化好的视觉分类器模型提取并保存，通过输入数据集，结合之前获取到的行人时空信息(也可看作摄像头拓扑结构信息)，模型就可以进行行人重识别。优化的是视觉分类器的权重、偏置参数。行人时空信息也会在迭代优化过程中进行更新，不过这个更新在实验中观察到其变化很小。实际使用保存的模型就是优化好的视觉分类器模型(包含了行人时空信息)，排序学习网络只是为了再次训练视觉分类器，进而提高准确度。

参见图14，是本发明实施例一提供的另一种无监督学习的行人重识别方法流程示意图。首先将初始化数据集即所述有标签的源数据集输入至视觉分类模块中，进行一个初始训练后得到一个初始训练后的视觉分类器，然后将无标签的目标数据集输入所述初始训练后的视觉分类器，获取得到时空信息和匹配概率，为每个行人图像分配输出一个ID，根据贝叶斯定理，由所述视觉分类器和所述时空信息得到一个融合模块，所述融合模块对所述无标签的目标数据集进行学习识别，输出排序结果，检测当前的优化次数是否大于预设优化阈值，在大于设定阈值时，输出当前的视觉分类器和得到的时空信息得到了无监督学习的行人重识别模型；在所述优化次数不大于设定阈值时，基于在线学习模块，根据交叉熵损失函数、所述融合模型的排序差异评分及所述排序学习网络预测的排序差异评分，对所述排序学习网络进行训练，完成对当前的视觉分类器的参数更新，然后再从视觉分类器迁移学习步骤开始进行，将无标签的目标数据集进一步优化视觉分类器进而提升融合模型的性能，使得视觉分类器和融合模型可以相互促进，不断得到优化。

结果输出步骤S13：输出识别结果。

在本发明实施例中，所述视觉分类器结合所述时空信息对所述对比图像进行识别后，根据相似度评分，将评分高的对比图像输出，评分高的对比图像中极大概率包含着所述目标图像中的行人。

具体的，将目标图像与对比图像分别输入至所述基于无监督学习的行人重识别模型，所述基于无监督学习的行人重识别模型中优化好的视觉分类器结合了时空信息，将所述目标图像与对比图像进行对比，计算出相似度评分，识别所述对比图像中是否存在所述目标图像中的行人，然后输出识别结果。

本发明的仿真实验采用本发明与其他基于无监督学习的行人重识别方法在两个数据集上的性能表现进行对比分析。

表1是本发明与其他基于无监督学习的行人重识别方法在两个数据集上的性能表现的统计表。

表1中的“源数据集”代表用来初始化视觉分类器的数据集，“目标数据集”代表所选用的测试集，“Rank1”代表相似度得分最高的行人图像即为正确行人的概率，“Rank5”代表相似度得分最高的前5个行人图像中包含正确行人的概率，“Rank10”代表相似度得分最高的前10个行人图像中包含正确行人的概率，“TF”是采用与本发明不同方法体系的无监督学习行人重识别方法。从表1可以看出，本发明方法明显优于另一种方法。

表1

实施本发明实施例具有如下特点：

通过视觉分类器来估算出时空信息，并基于所述时空信息和视觉分类器得到了贝叶斯融合模型，用贝叶斯融合模型反过来提升训练所述视觉分类器的参数，进行迭代循环，视觉分类器又能继续增强融合模型，形成一个闭环，所述预设的优化阈值让这个闭环循环多次，让视觉分类器无限逼近融合分类器，由所述视觉分类器和获取的时空信息得到了一个在目标场景即目标摄像头网络中也很强大的无监督行人重识别模型，实现了无监督行人重识别且能逼近有监督学习的性能。本发明对现有无监督学习的行人重识别方法架构进行了改进，首先提出了一个改进的图像特征提取网络，使得提取到的图像特征更加抽象化，更具表征能力，相比原特征提取网络在Market1501和GRID数据集上有大约2％的Rank1性能提升。本文在孪生网络处提出了特征分层融合策略，使得用于相似度匹配的深度特征更加全面，更具可靠性，减轻特征提取过程中所带来的信息丢失问题。本文提出了一个改进的排序学习网络，解决了传统重排序网络所面临的样本不均衡与样本存储问题，而现有的排序学习网络并没有考虑使用分层特征，本发明通过改进该排序学习网络，使其充分利用分层特征，并使得整个网络结构一脉相承。改进的排序学习网络使用空间金字塔池化方法，使得分层特征维度一致，在获得更多的特征信息的同时统一了维度，使得最终的融合模型的性能在Market1501和GRID数据集上有大约3％的Rank1性能提升。

实施例二

参见图15，图15是本发明实施例二提供的一种基于无监督学习的行人重识别装置结构图。

一种基于无监督学习的行人重识别装置，包括：

图像获取模块21，用于获取目标图像和对比图像，其中所述目标图像和所述对比图像均为行人图像；

基于无监督学习的行人重识别模块22，用于通过基于无监督学习的行人重识别模型来识别所述对比图像中是否存在所述目标图像中的行人；

输出模块23，用于输出识别结果；其中所述基于无监督学习的行人重识别模块中的行人重识别模型通过以下步骤建立：分类器建立步骤：建立原始视觉分类器；初始训练步骤：根据有标签的源数据集对原始视觉分类器进行初始训练，得到初始训练后的视觉分类器；其中，所述源数据集是行人图像集；迁移学习步骤：根据迁移学习方法，利用当前的视觉分类器对无标签的目标数据集进行学习，获取匹配概率和时空信息；其中，所述目标数据集是从进行行人重识别的摄像头网络中获取的行人图像集；其中，所述匹配概率是在所述摄像头网络中，两张行人图像判定为同一目标行人的概率；所述时空信息是在所述摄像头网络中，同一目标行人在给定两个摄像头间迁移时间的分布函数，其中，所述分布函数根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差得到；融合模型获取步骤：基于贝叶斯定理，根据所述匹配概率和所述时空信息得到贝叶斯融合模型；相似度匹配步骤：所述贝叶斯融合模型根据对比目标行人图像对所述无标签的目标数据集中的行人图像进行相似度匹配，获取相似度评分；其中，所述无标签的目标数据集中包括所述对比目标行人图像中的目标行人；排序步骤：根据预设阈值对所述相似度评分进行排序，以获取排序结果；优化步骤：检测到当前模型训练优化次数小于或等于预设优化阈值，对视觉分类器进行参数更新步骤，并将更新后的参数输入至当前的视觉分类器重新从迁移学习步骤执行；检测到当前模型训练优化次数大于预设优化阈值，获取当前的视觉分类器及时空信息，以作为基于无监督学习的行人重识别模型；其中所述参数更新步骤包括：三元组获取步骤：根据所述排序结果获取三元组及融合模型的排序差异评分，其中所述三元组包括一个正样本行人图像、一个负样本行人图像及一个原始样本行人图像；其中所述融合模型的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；学习网络预测步骤：基于排序学习网络对所述三元组中的三张行人图像进行相似度评分，以获取排序学习网络预测的排序差异评分；其中，所述排序学习网络是当前的视觉分类器基于三重神经网络构建的；其中所述排序学习网络预测的排序差异评分是基于所述三元组中原始样本行人图像与正样本行人图像的相似度评分和原始样本行人图像与负样本行人图像的相似度评分得到；学习网络训练步骤：根据交叉熵损失函数、所述融合模型的排序差异评分及所述排序学习网络预测的排序差异评分，对所述排序学习网络进行训练，完成对当前的视觉分类器的参数更新。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于无监督学习的行人重识别方法,其特征在于，包括：

结果输出步骤：输出识别结果；

分类器建立步骤：建立原始视觉分类器；

其中所述参数更新步骤包括：

2.如权利要求1所述的基于无监督学习的行人重识别方法，其特征在于，所述分类器建立步骤包括：

构造基于残差网络的图像特征提取网络；

基于所述图像特征提取网络构造孪生神经网络，得到原始视觉分类器，其中，所述原始视觉分类器包括两个共享权重的图像特征提取网络、距离度量层以及全连接层。

3.如权利要求2所述的基于无监督学习的行人重识别方法，其征在于，所述图像特征提取网络包括第一部分、第二部分残差块一、第三部分残差块二、第四部分残差块三及第五部分残差块四；

所述第一部分包括卷积层、归一化层、激活函数层及最大池化层；

所述第二部分残差块一包括一个卷积块和两个恒等映射块；

所述第三部分残差块二包括一个卷积块和三个恒等映射块；

所述第四部分残差块三包括一个卷积块和五个恒等映射块；

所述第五部分残差块四包括一个卷失混合块、两个恒失混合块和平均池化层，其中所述卷失混合块是卷积块与随机区域失活的混合块，所述恒失混合块是恒等映射块与随机区域失活的混合块。

4.如权利要求3所述的基于无监督学习的行人重识别方法，其征在于，所述初始训练步骤还包括：

将带有标签的源数据集中的两张行人图像分别输入所述两个共享权重的图像特征提取网络；

针对每一张行人图像，分别提取所述第三部分残差块二、所述第四部分残差块三及所述第五部分残差块四输出的深度特征信息；

将所述两张行人图像各自的所述深度特征信息传递给所述距离度量层，以结合聚类损失函数进行相似度判别；

利用所述全连接层进行二分类，输出判别结果，完成对原始视觉分类器的初始训练。

5.如权利要求1所述的基于无监督学习的行人重识别方法，其征在于，所述迁移学习步骤包括：

根据迁移学习方法，利用当前的视觉分类器对无标签的目标数据集进行学习，判断出两张行人图像中是否包含同一目标行人，得到匹配概率；

在两张图像中包含同一目标行人时，根据拍摄两张行人图像的摄像头编号以及拍摄所述两张行人图像的时间差，得到时空信息。

6.如权利要求3所述的基于无监督学习的行人重识别方法，其征在于，所述排序步骤包括：

根据所述相似度评分高低对所述无标签的目标数据集中的行人图像进行依次排序；

获取排序矩阵作为排序结果，其中，所述排序矩阵中每一行的第一个为原始样本行人图像，其对应所述对比目标行人图像。

7.如权利要求6所述的基于无监督学习的行人重识别方法，其征在于，所述排序学习网络包括三个共享权重的所述图像特征提取网络、空间金色字塔池化层、所述距离度量层以及所述全连接层。

8.如权利要求7所述的基于无监督学习的行人重识别方法，其征在于，所述学习网络预测步骤包括：

将所述三元组中的三张行人图像分别作为所述排序学习网络的三个输入；

针对每一行人图像，分别提取所述第三部分残差块二、所述第四部分残差块三及所述第五部分残差块四输出的特征信息；

针对每一行人图像，将所述特征信息整合新的特征信息；

将所述新的特征信息输入至所述空间金字塔池化层；

针对原始样本行人图像与正样本行人图像或原始样本行人图像与负样本行人图像，将所述空间金字塔池化层输出的维度一致的信息传输给所述距离度量层和所述全连接层；

根据全连接层输出的数据得到排序学习网络预测的排序差异评分。

9.一种基于无监督学习的行人重识别装置，其特征在于，包括：

输出模块，用于输出识别结果；

分类器建立步骤：建立原始视觉分类器；

其中所述参数更新步骤包括：

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要1至8中任意一项所述的方法。