CN113536928A

CN113536928A - 一种高效率的无监督行人重识别方法和装置

Info

Publication number: CN113536928A
Application number: CN202110661203.5A
Authority: CN
Inventors: 丁贵广; 沈乐琦; 何涛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-22
Anticipated expiration: 2041-06-15
Also published as: CN113536928B

Abstract

本发明提出一种高效率的无监督行人重识别方法，包括：获取摄像网络采集的行人图片；对行人图片进行预处理并生成训练图片集；对训练图片集中的训练图片进行随机分组以得到多个小批次的数据，由每个批次的数据中的训练图片得到训练图片对应的图片特征；计算图片特征中两两图片特征之间的相似度并由此生成相似度矩阵；根据相似度矩阵，使用关系蒸馏的方式计算损失函数，根据损失函数以权重滑动平均的方法更新模型，得到高精度的复杂模型；从高精度复杂模型，进一步知识蒸馏得到高精度轻量模型；根据最终得到的高精度轻量模型提取识别图片样本的特征，进行行人检索。本申请提出的方法使用无标注的数据，减少了人工标注的成本，提高了识别精度。

Description

一种高效率的无监督行人重识别方法和装置

技术领域

本发明涉及无监督学习和行人重识别领域技术领域，尤其涉及一种高效率的无监督行人重识别方法。

背景技术

行人重识别是指在多个摄像头下行人匹配的技术。通过输入一张查询的行人图片，在行人底库中检索出相同的目标行人。其中底库，是由多个不同的摄像头所采集的行人图片构成的。每张图片通过模型提取其向量表示的多维特征。目标行人和底库行人的特征之间计算相似度，检索出目标行人。

目前的研究工作已经在有监督的场景下有非常好的性能，有监督学习指在有标签的数据集上训练。而有监督训练的模型，在新的场景中不能正常工作。因为其中存在着场景的差异，在旧场景训练的模型很难应用在新的场景上。新旧的场景间存在着非常大的差异，地点是不同的，摄像设备不同和设备安装的位置也不同，数据采集的时间导致的季节不同等等。在实际应用里出现上述差异，都需要技术人员在新的场景重新收集数据并进行标注。

但是人工标注需要大量的资源。行人重识别的标注不同于分类任务，在分类任务中，类别是已知的，每张图片在其中选择对应的类别。但是在行人重识别任务里，行人的数量是未知的，这让标注更加困难。在实际应用中，通常是收集现场的数据，使用无监督或者迁移学习的方式，在该无标注的数据上训练模型。使用通用的无监督或迁移学习的方式，拉近新旧场景的数据分布，无法得到有效的模型。目前行人重识别主流的无监督或迁移学习方案，都采用了聚类算法，给无标注的数据赋予伪标签，然后仍然采用有监督的方式训练。但是聚类算法获得的伪标签和真实的标注有一定的误差，其伪标签的质量低并且存在噪声，影响最终的精度。

随着摄像网络的普及，每时每刻都在收集数据。行人重识别技术可以分析该数据，用于建设智慧城市。该技术可以实现智能视频监控，用于通缉犯的追踪，失踪人口查找，行人轨迹分析等。并且该技术非常容易迁移到车辆重识别等其他应用，比如，在车牌被遮挡时，准确的查出目标车辆。在工业界和学术界中，行人重识别都是非常值得关注的领域。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种无监督行人重识别方法，以实现使用无标注的数据训练模型，减少了人工标注的成本。

本发明的第二个目的在于提出一种无监督行人重识别装置。

本发明的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种无监督行人重识别方法，包括以下步骤：

获取摄像网络采集的行人图片；

对所述行人图片进行预处理，根据预处理后的所述行人图片生成训练图片集；

对所述训练图片集中的训练图片进行分组以得多个随机组成小批次的数据，将每个随机组成小批次的数据中的训练图片分别输入到预先训练的权重滑动平均模型，以得到所述训练图片对应的图片特征；

计算所述图片特征中两两图片特征之间的相似度，根据所述两两图片特征之间的相似度生成相似度矩阵；

根据所述相似度矩阵，使用关系蒸馏的方式计算损失函数，根据所述损失函数以权重滑动平均的方法更新模型，得到高精度复杂模型；

由所述高精度复杂模型，进一步知识蒸馏得到高精度轻量模型；

根据最终得到的高精度轻量模型提取识别图片样本的特征，进行行人检索。

本申请公开的高效率的无监督行人重识别方法，只需要使用无标注的数据集，采取无监督的方式进行训练；输入行人图片，利用该方法训练好的高精度模型提取其特征，和行人底库的特征计算相似度并利用检索方法，得到和输入所匹配的行人；本申请结合了权重滑动平均，知识蒸馏等技术；不使用聚类算法及伪标签，避免了伪标签质量的问题。直接通过挖掘行人之间的关系，获得高精度高效率的模型；并且通过蒸馏，将具有高精度参数量大的模型，压缩至参数量小的模型，减小实际应用时的开销。

可选地，在本申请的一个实施例中，获取摄像网络采集的行人图片，包括：

在多个时间段内，不同的光线条件下，采集监控视频，并从所述监控视频中检测出所述行人图片。

可选地，在本申请的一个实施例中，对所述行人图片进行预处理，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

对所述行人图片数据进行数据增强处理，包括随机水平翻转图片操作、随机图片剪裁操作、随机图片色彩扰动操作和图片上下左右填充操作中的一种或者多种。

可选地，在本申请的一个实施例中，还包括：

训练基础模型和权重滑动平均模型，所述训练基础模型和所述权重滑动平均模型具有相同的网络结构，其中，基础模型的权重参数为θ，权重滑动平均模型的参数为θ'，权重滑动平均的参数为α，其中α∈[0,1]，在每一批次输入给模型后，所述基础模型正常更新权重，所述权重滑动平均模型按照θ'←αθ'+(1-α)θ更新权重。

可选地，在本申请的一个实施例中，根据下述公式计算损失函数：

其中，基础模型得到的相似度矩阵为M_base，权重滑动平均模型得到的相似度矩阵记为M_average。

为达上述目的，本申请第二方面实施例提出本发明一种无监督行人重识别装置，包括以下模块：

第一获取模块，用于获取摄像网络采集的行人图片；

处理模块，用于对所述行人图片进行预处理，根据预处理后的所述行人图片生成训练图片集；

第二获取模块，用于对所述训练图片集中的训练图片进行分组以得多个随机组成小批次的数据，将每个随机组成小批次的数据中的训练图片分别输入到预先训练的权重滑动平均模型，以得到所述训练图片对应的图片特征；

生成模块，用于计算所述图片特征中两两图片特征之间的相似度，根据所述两两图片特征之间的相似度生成相似度矩阵；

第一更新模块，用于根据所述相似度矩阵，使用关系蒸馏的方式计算损失函数，根据所述损失函数以权重滑动平均的方法更新模型，得到高精度复杂模型；

第二更新模块，由所述高精度复杂模型，进一步知识蒸馏得到高精度轻量模型；

识别模块，根据最终得到的高精度轻量模型提取识别图片样本的特征，进行行人检索。

本申请公开的无监督行人重识别装置，使用无标注的数据训练模型，减少了人工标注的成本，在实际应用中，能节省大量的人力物力，降低项目的开销成本；改变了主流无监督或迁移学习的行人重识别方法，不采用聚类算法，不存在伪标签的噪声问题，直接学习行人的特征；采用了权重滑动平均的方法，稳定了训练模型，并且提出关系自蒸馏方法，通过输入之间的相似度矩阵计算损失，挖掘行人之间的关系，更好的提取行人特征；使用知识蒸馏方法，将高精度的大模型，压缩成小模型，并且保留了原始的精度，降低部署时的开销。

可选地，在本申请的一个实施例中，所述第一获取模块，具体用于：

可选地，在本申请的一个实施例中，所述处理模块具体用于：

对所述行人图片数据进行数据增强处理和归一化处理；

为达上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的一种无监督行人重识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的无监督行人重识别方法的流程示意图；

图2是本申请实施例的高效率的行人重识别方法示意图；

图3是本申请实施例的基于关系蒸馏的无监督训练的行人重识别方法示意图；

图4是本申请实施例的装置模块的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的无监督行人重识别方法。

如图1所示，本发明第一方面实施例提出了一种无监督行人重识别方法，包括以下步骤：

步骤S10、获取摄像网络采集的行人图片；

步骤S20、对所述行人图片进行预处理，根据预处理后的所述行人图片生成训练图片集；

步骤S30、对所述训练图片集中的训练图片进行分组以得多个随机组成小批次的数据，将每个随机组成小批次的数据中的训练图片分别输入到预先训练的权重滑动平均模型，以得到所述训练图片对应的图片特征；

步骤S40、计算所述图片特征中两两图片特征之间的相似度，根据所述两两图片特征之间的相似度生成相似度矩阵；

步骤S50、根据所述相似度矩阵，使用关系蒸馏的方式计算损失函数，根据所述损失函数以权重滑动平均的方法更新模型，得到高精度复杂模型

步骤S60由所述高精度复杂模型，进一步知识蒸馏得到高精度轻量模型；

步骤S70、根据最终得到的高精度轻量模型提取识别图片样本的特征，进行行人检索。

本申请公开的高效率的无监督行人重识别方法，本申请是只需要使用无标注的数据集，采取无监督的方式进行训练；输入行人图片，利用该方法训练好的高精度模型提取其特征，和行人底库的特征计算相似度并利用检索方法，得到和输入所匹配的行人；本申请结合了权重滑动平均，知识蒸馏等技术；不使用聚类算法及伪标签，避免了伪标签质量的问题。直接通过挖掘行人之间的关系，获得高精度高效率的模型；并且通过蒸馏，将具有高精度参数量大的模型，压缩至参数量小的模型，减小实际应用时的开销。

在本申请的一个实施例中，具体而言，使用摄像网络中的每个摄像头，采集行人图片包括：

调研部署场景的摄像网络，在多个时间段内，不同的光线条件下，得到监控视频；再利用已有的行人检测方法，检测出视频中的行人，并保存行人图片作为后面的训练数据集。

在本申请的一个实施例中，具体而言，如附图2所示，高效率的行人重识别方法包括：

(1)使用摄像网络中的每个摄像头，采集行人图片；

(2)将训练图片使用一系列数据增强的方法，处理为256*128长宽的图片，输入到模型；

(3)使用(2)得到的训练数据，组成批量为512的图片组，一起输入到采用权重滑动平均方法的复杂模型中，输出对应特征；

(4)该512个特征，两两之间计算相似度，得到相似度矩阵，使用所提出的关系蒸馏计算损失，用于更新模型的权重；

(5)上述步骤得到，参数量大、所需计算资源多的高精度复杂模型，进一步采用知识蒸馏，将复杂模型压缩至开销小的轻量模型。该开销小的高精度轻量模型就是最终部署所采用的模型。

具体而言，对原始图片进行数据增强，得到256*128长宽的训练图片包括：

对得到的原始行人图片进行预处理，先将图片收缩为256*128大小的图片，随机对其进行水平翻转，在上下左右均填充10个像素，再随机剪裁出尺寸为256*128长宽的图片，并且随机的修改图像的亮度，对比度和饱和度；一系列的数据增强之后，获得了更加丰富的训练样本，可以获得更加鲁棒的模型；针对行人重识别的特点，现实的行人非常容易被其他物体所遮挡，对上面得到的图片随机擦除一块矩形区域，产生局部遮挡的效果。

在本申请的一个实施例中,进一步而言，获取摄像网络采集的行人图片，包括：

在本申请的一个实施例中,进一步而言，对所述行人图片进行预处理，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

在本申请的一个实施例中,进一步而言，还包括：

在本申请的一个实施例中,进一步而言，根据下述公式计算损失函数：

其中，基础模型得到的相似度矩阵为M_base，权重滑动平均模型得到的相似度矩阵记为M_average；使用该关系蒸馏计算损失函数，让平稳性高，鲁棒性好的权重滑动平均模型指导基础模型；最终，权重滑动平均模型即为后续所使用的的高精度复杂模型。

具体而言，如附图3所示，训练图片按批次输入到权重滑动平均复杂模型得到特征包括：

该发明的主干网络可以基于任何有监督的行人重识别网络，为了介绍本专利，我们假设使用的是ResNet-152作为主干网络；在无监督训练时，我们采用了权重滑动平均的方法，稳定模型的训练过程，让模型对行人图片可以提取更加鲁邦的特征；在训练过程中，我们有两个模型，一个是基础模型，另一个是权重滑动平均模型。其中基础模型，在随机梯度下降的优化中，进行正常的梯度反向传播；而权重滑动平均模型，在训练时不进行梯度更新，其权重由基础模型更新。

前向传播的流程如下：将数据增强后的图片，按照512张组成不同批次，分批次分别输入基础模型和权重滑动平均模型。两模型的模型网络结构是一致的，分别输出512个特征，其中512个特征分别对应其输入的行人图片。对同一个模型输出的特征，两两之间计算相似度，设图片A的特征为f_A,图片B的特征为f_A，图片A和B的相似度为

由此，可以得到两个512*512的相似度矩阵。

具体而言，获得了高精度的复杂模型ResNet-152，通常参数量大的模型有着更高的精度。但是在实际部署中，资源是受限制的，本申请在部署开销和模型精度上进行取舍；这里我们还是使用损失函数，将高精度复杂模型知识蒸馏为更轻量的模ResNet-50，并且轻量模型依旧有着很好的性能；使用该蒸馏策略，比直接训练轻量模型，有着更高的精度。

具体而言，蒸馏的流程如下：固定复杂模型的参数，复杂模型在蒸馏时权重不更新；得到的训练图片，分别输入复杂模型和轻量模型，计算相似度矩阵和损失函数；梯度反向传播时，只更新轻量模型的权重；该高精度轻量模型即为最后部署的模型。

如图4所示，本申请第二方面实施例提出本发明一种无监督行人重识别装置，包括以下模块：

第一获取模块，用于获取摄像网络采集的行人图片；

第二更新模块由所述高精度复杂模型，进一步知识蒸馏得到高精度轻量模型；

本申请公开的无监督行人重识别装置使用无标注的数据训练模型，减少了人工标注的成本，在实际应用中，能节省大量的人力物力，降低项目的开销成本；改变了主流无监督或迁移学习的行人重识别方法，不采用聚类算法，不存在伪标签的噪声问题，直接学习行人的特征；采用了权重滑动平均的方法，稳定了训练模型，并且提出关系自蒸馏方法，通过输入之间的相似度矩阵计算损失，挖掘行人之间的关系，更好的提取行人特征；使用知识蒸馏方法，将高精度的大模型，压缩成小模型，并且保留了原始的精度，降低部署时的开销。

在本申请的一个实施例中,进一步而言，所述第一获取模块，具体用于：

在本申请的一个实施例中,进一步而言，所述处理模块具体用于：

对所述行人图片数据进行数据增强处理和归一化处理；

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的一种无监督行人重识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种无监督行人重识别方法，其特征在于，包括以下步骤：

获取摄像网络采集的行人图片；

对所述训练图片集中的训练图片进行分组以得多个随机组成小批次的数据，将每个随机组成的小批次数据中的训练图片分别输入到预先训练的权重滑动平均模型，以得到所述训练图片对应的图片特征；

2.如权利要求1所述的方法，其特征在于，获取摄像网络采集的行人图片，包括：

3.如权利要求2所述的方法，其特征在于，对所述行人图片进行预处理，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

4.如权利要求2或3所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，根据下述公式计算损失函数：

6.一种无监督行人重识别装置，其特征在于，包括：

第一获取模块，用于获取摄像网络采集的行人图片；

7.如权利要求6所述的方法，其特征在于，所述第一获取模块，具体用于：

8.如权利要求7所述的方法，其特征在于，所述处理模块具体用于：

对所述行人图片数据进行数据增强处理和归一化处理；

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于摄像头关系的自监督行人重识别。