CN113822262B

CN113822262B - 一种基于无监督学习的行人重识别方法

Info

Publication number: CN113822262B
Application number: CN202111412831.6A
Authority: CN
Inventors: 贺菁菁; 徐晓刚; 王军; 何鹏飞; 曹卫强; 朱亚光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-15
Anticipated expiration: 2041-11-25
Also published as: CN113822262A

Abstract

本发明公开了一种基于无监督学习的行人重识别方法，在特征存储器中只保存聚类得到的类中心，采用分组采样的方式获取小样本集，并结合难例挖掘的方法更新存储器中的特征向量和特征提取网络模型参数，实现了在无标签数据集上的伪标签自动生成，增强了模型对于噪声数据的鲁棒性，大大减小了存储器对于内存空间的高额要求。本发明剔除了离群样本点对聚类中心的干扰，避免了随机采样导致的过拟合等问题，在小样本迭代过程中不更改数据标签，降低了标签跳变等噪声数据对于模型稳定性的影响，加速了模型的收敛，提高行人重识别模型在不同场景下的泛化能力。

Description

一种基于无监督学习的行人重识别方法

技术领域

本发明涉及机器学习领域，尤其是涉及一种基于无监督学习的行人重识别方法。

背景技术

在行人重识别（Person Re-identification，re-ID）任务中，利用无标签数据进行无监督学习的方法得到了广泛关注和应用。目前主流的方式是训练一个深度神经网络模型，提取行人的特征表示，再利用一个特征存储器，将行人特征向量进行实例级的存储，同时使用聚类方法为存储器中的样本生成伪标签，最后利用伪标签进行有监督的分类模型训练，更新存储器中的特征，达到模型参数更新和调整的效果。在无监督Re-ID中，实例级的特征存储器需较大的内存空间，且带有噪声的伪标签对于特征提取和分类模型都会产生消极的影响，导致模型产生过拟合，减弱泛化能力。同时，聚类得到的集群大小不同也使模型在更新过程类之间产生不一致性，当更新小集群中的所有实例时，在大集群中只能更新一小部分实例特性，难以学习到稳定的样本特征，限制了实际应用效果。

发明内容

为解决现有技术的不足，实现在无标签数据集上的伪标签自动生成，增强模型对于噪声数据的鲁棒性，大大减小存储器对于内存空间的高额要求，通过难例挖掘的方法加快模型参数更新速度，提高训练效率，结合分组采样减少类之间的不一致性，提升模型应用的泛化能力的目的，本发明采用如下的技术方案：

一种基于无监督学习的行人重识别方法，包括如下步骤：

S1，构建用于提取行人特征向量的无监督re-ID深度神经网络并初始化；包括骨干网络、全连接层，初始化深度神经网络参数、超参数、迭代训练的第一迭代终止条件参数和第二迭代终止条件参数；

S2，通过深度神经网络，获取无标签的行人图像数据作为训练集，得到对应的行人特征向量，通过聚类，将行人特征向量对应的行人图像数据，划分为多个类别，同一类行人图像数据拥有同一个伪标签，标记不归属于任何类别的行人图像数据的伪标签，通过每个类中对应的行人特征向量，获取各类中心的特征向量，进行存储并初始化；

S3，通过伪标签，重新获取训练集的行人特征向量，排除不归属于任何类的行人图像数据对应的行人特征向量；

S4，对重新获取的行人特征向量，进行分组采样，将得到的小批量样本，与存储的类中心特征向量的距离，计算分类损失，并迭代更新无监督re-ID深度神经网络和存储的类中心特征向量，直到达到第一收敛条件，包括如下步骤：

S41，对重新获取的行人特征向量，进行分组采样，得到小批量样本；

S42，以伪标签作为监督信息，计算小批量样本与存储的类中心特征向量之间的分类损失函数，使小批量样本中，根据行人图像数据提取的行人特征向量，与存储的类中心特征向量越近，与其他类中心特征向量越远；

S43，从当前迭代次数中的小批量样本中，找到其所属的部分类中，距离类中心特征向量最远的行人图像数据，通过动量法，叠加到最远的行人图像数据对应存储的原类中心特征向量上，进行一次存储器中类中心特征向量的参数更新，得到新的特征存储器中的类中心特征向量，从而实现在每一次迭代中，在线更新存储的部分类中心原本的类特征向量；

S44，若第一迭代终止条件未达到，则继续重复执行S4，若达到，则进入S5；

S5，若第二迭代终止条件未达到，则返回S2，若达到，则结束流程；

S6，通过训练好的深度神经网络，获取行人图像数据，将提取行人特征向量，与存储的类中心特征向量比对，找出属于同一类的图像数据序列，达到图像检索的效果。

进一步地，所述S41的分组采样，包括如下步骤：

S411，根据重新获取的行人特征向量

进行分类；

S412，随机重排类中的行人图像数据，在类内部，将属于同一个类的行人图像数据顺序打乱，这样同一个类中的样本点，不再是以添加到类时的先后顺序为排列依据，具有一定的随机性；

S413，将类中的行人图像数据分组并添加到分组列表，针对类别列表中的每一类，以预先设置的正整数S ≥ 1进行组内的划分，并将划分后的组分别添加到分组列表中，这样分组列表中每组最多为S个样本；

S414，随机重排分组列表，将分组列表随机打乱顺序，此操作之后，同一个组中的仍然属于同一类，但是相邻两组之间不一定再属于同一类别，得到最终的分组后的采样列表，根据预设的批尺寸，得到小批量样本。

进一步地，所述S411中，随机重排所有类，根据重新获取的行人特征向量

进行分类，并按类别分组，属于同一个类的行人特征向量对应的行人图像数据为一组，保存入类别列表中，再将类别列表按组打乱顺序，由于是以类别为单位，所以属于同一个类中的顺序保持不变。

进一步地，所述S42的损失函数：

其中，q表示行人图像数据对应的行人特征向量，c ⁺表示行人图像数据所存储的所属类中心的特征向量，c _i表示第i类的类中心特征向量，N表示类别数，L _q越小表示q与类c ⁺越相近，与其他类越远，τ为模型超参数。

进一步地，所述S43包括如下步骤：

S431，计算小批量样本中，所有行人图像数据的行人特征向量，到其存储的所属类中心的特征向量的距离，行人图像数据所属的类中心，由聚类得到的伪标签决定；

S432，从小批量样本属于同一类的行人图像数据中，找到距离类中心最远的行人图像数据对应的行人特征向量

；

S433，使用

和动量值

，通过动量法，叠加到对应的原类中心特征向量上，从而更新存储的对应类的中心特征向量

：

；

S434，通过深度神经网络的反向参数传递计算，在每一次迭代中更新深度神经网络的参数，由于mini batch中不可能包含所有的类别，所以在一次迭代中，只更新minibatch中包含的部分聚类中心。

进一步地，所述S2包括如下步骤：

S21，通过初始化后的无监督re-ID深度神经网络前向传播方式，获取无标签行人图像数据集中，每个行人图像数据的行人特征向量；

S22，通过聚类算法和距离计算方法，得到行人特征向量样本簇，作为每个行人图像数据的伪标签i，拥有同一个伪标签的行人图像数据视为同一类

，其中

x _j表示伪标签为i的行人图像数据，将不归属于任何类别的行人图像数据的伪标签标记为-1；

S23，通过计算每个类中行人特征向量的均值，得到类中心特征向量，不属于任何类的样本不参与类中心的计算，存储所有类中心特征向量并初始化，

，N表示类别数。

进一步地，所述S23中的类中心特征向量，从类

中的行人图像数据对应的行人特征向量中，随机挑选一个得到。

进一步地，所述S3遍历所有的行人图像数据，若行人图像数据的伪标签为-1，则忽略，若不为-1，则将该行人图像数据，加入新的训练集中，根据新的训练集，重新得到对应的行人特征向量

，从而排除掉离群样本点。

进一步地，所述特征向量的距离，采用jaccard距离计算方法，通过DBSCAN聚类算法，将jaccard计算得到的距离矩阵，按距离的远近进行聚类，距离相近的点全部归类为一类；距离其他点都比较远的点单独为一类。

进一步地，所述S2中的聚类，采用K（K=30）近邻聚类算法。

本发明的优势和有益效果在于：

本发明的技术方案，针对无监督re-ID任务中存储实例特征消耗存储空间大、类的参数更新不一致导致的模型训练难等缺陷，设计了存储器只保存类中心的方式，大大缓解了保存所有样本特征的空间消耗，并针对性的提出类中心的实时有监督的更新方法；在以所述第二迭代次数的更新过程中，通过不更改样本的标签标注数据，使数据标签更稳定，缓解了传统无监督re-ID训练时标注数据不稳定导致的难以稳定的学习到样本特征的问题；在训练过程中剔除了离群点对类的影响，采用分组采样的方式获取mini batch中的样本，避免了随机采样导致的过拟合等问题，分组采样大大降低了噪声数据对于模型稳定性的影响，有利于加速模型的收敛。

附图说明

图1是本发明方法中迭代训练的步骤流程图。

图2是本发明方法中的分组采样的步骤流程图。

图3是本发明方法的随机重排分组列表示意图。

图4是本发明方法的行人重识别检索流程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种基于无监督学习的行人重识别方法，在存储器中只保存聚类得到的类中的一个实例特征值，在存储器的特征更新阶段，将属于同一个类别的样本特征分组采样，并用难例挖掘的方法更新存储器特征，包括下述步骤：

步骤一：初始化用于提取行人特征向量的深度神经网络参数和其他超参数，包括用于控制迭代训练收敛条件的第一迭代终止条件参数和第二迭代终止条件参数。

首先构建一个无监督re-ID神经网络模型，例如卷积神经网络CNN模型，并进行初始化。具体的，该神经网络模型至少包含骨干网络，例如Resnet50，保留到网络最后一个全连接层，维数可以是1024或者2048或者256，此处得到的即为行人的特征向量。

行人重识别：是指通过将视频或者图像中要查询的行人图片向量化，与数据库中已有的图片进行比对，找出属于同一个ID的图片序列，达到图像检索的效果。这里，所述模型可以通过在线进行迭代训练后，存储并可在线进行检索识别时使用甚至数据更新。

初始化模型包括：将所述模型的骨干网络进行初始化，主要是参数的初始化，还包括用于控制迭代终止的第一、第二迭代参数，其中，第一迭代终止条件为mini batch训练的迭代次数，可以是200或者400，第二迭代终止条件是所有样本重新开始训练的迭代次数，可以是50或者100。

步骤二：使用深度神经网络提取得到行人样本数据

的特征向量

，对特征向量聚类得到类中心和样本伪标签，将类中心存入存储器中对其进行初始化，包括如下步骤：

首先，使用深度神经网络得到所有行人的特征向量；

具体地，利用所述初始化后的无监督re-ID神经网络模型前向传播方式，获取所述无标签数据集中每个样本（例如图片）的特征向量。

其次，使用聚类算法和距离计算方法K（K=30）近邻得到行人特征向量样本簇，从而得到每个样本数据的伪标签，拥有同一个伪标签的样本视为同一类

，其中

x _j伪标签为i，特别地，不归属于任何类别的样本标签标记为-1；

样本集数量通常较大，在万级以上，为了便于描述，以较小的数据量10进行说明举例。假设数据样本集为[x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀]，其中每个样本是一个人体图像的特征向量。将这些样本，经过聚类算法后得到了3个类别C₁,C₂,C₃（也有可能会聚类得到4个或5个类别等，类别数量由算法自动生成，这里假设得到了3个），属于C₁的样本为[x₁,x₄,x₈]，属于C₂的样本为[x₂,x₉]，属于C₃的样本为[x₃,x₆,x₇,x₁₀]，不属于任何类别的单独样本为x₅。这种情况下，[x₁,x₄,x₈]就是同一个类，都属于C₁，剩下的C₂\C₃同理，x₅的伪标签为-1。

具体地，利用聚类算法，对数据集中的所有样本的所述特征向量进行聚类，将所述特征向量所在的该无标签的数据集，划分为多个类别，将对应特征向量的样本划分到不同的聚集/聚类中，并获取对应各类的类中心，每个类中心有一个中心向量。

最后，通过计算每个类中所包含特征向量的均值，得到类中心，特别地，类中心也可以从类

中样本随机挑选一个得到，且不属于任何类的样本不参与类中心的计算；将所有类中心放入存储器中，则存储器中有

个类

。

例如：聚类算法为DBSCAN，距离计算方式为jaccard，对所有的所述特征向量进行聚类后得到N个类别，每个类别有一个类中心，类中心可以通过计算归属于同一类别的所有样本的均值，或者随机挑选一个样本点的特征向量得到，保存这些中心向量到存储器中。

将无标签的该数据集中的所有样本划分到所述N个类别中，并分配所属类别的标签给所有样本。

jaccard是一种确定的、具体的算法，他可以计算得到向量之间的距离。假设待计算距离的样本有4个，分别为[x₁,x₂,x₃,x₄]，其中每个样本是一个向量，这里假设向量是5维的（实际上是128或256或512等比较大的），则样本向量就是如下形式的x1=[0.1,0.3,0.3,0.2,0.3]。

利用jaccard算法计算样本的距离，则得到了一个4*4的矩阵，表示样本两两之间的距离计算结果，例如结果是：

[1.0 , 0.3, 0.02, 0.03]，

[0.3 , 1.0, 0.01 , 0.04]，

[0.02 , 0.01 , 1.0 , 0.23]，

[0.03 , 0.04 , 0.23 , 1.0]。

DBSACN聚类：DBSACN利用上面jaccard计算得到的距离矩阵，按照距离的远近进行聚类，距离相近的点全部归类为一类；距离其他点都比较远的点单独为一类。

步骤三：利用上述步骤二中得到的样本伪标签，重新得到行人训练数据的特征向量集合

，排除掉离群样本点：若样本的伪标签为-1，即为离群点，则忽略不计；若样本的伪标签不为-1，则加入到

中。

遍历所有的行人样本，若该样本的伪标签为-1，则忽略，若不为-1，则将该样本的特性向量加入新的训练样本集中，将新的样本集的行人特征向量

作为步骤四的输入。

例如：聚类算法DBSCAN得到的样本中，未分类的样本定义为离群点，标签为-1；在构建用于训练的新数据集时，排除掉离群样本点：若样本的标签为-1，即为离群点，则忽略不计；若样本的标签不为-1，则加入到新的训练样本集中。

步骤四：从上述步骤三中得到行人特征向量

中，使用分组采样得到小批量样本，通过与存储器中的所有类中心的距离计算分类损失，并迭代更新无监督re-ID神经网络参数和存储器的类中心特征向量，直到达到第一收敛条件，如图2所示，包括如下步骤：

首先，从新的特征向量

中执行分组采样得到mini batch个小批量样本，包括如下步骤：

（1）随机重排所有类：将新训练数据集中的特征向量按类别进行分组，属于同一个类的样本为一组，保存入类别列表中，再将该列表打乱顺序。由于是以类别为单位，所以属于同一个类中的列表顺序保持不变。

（2）在每个类中，随机重排所有的样本：在类内部，将属于同一个类的样本顺序打乱，这样同一个类中的样本点不再是以添加到类时的先后顺序为排列依据，具有一定的随机性。

（3）将每个类中的样本分组，添加到分组列表：针对类列表中的每一类，以预先设置的正整数

进行组内的划分，并将划分后的组分别添加到新的分组列表，这样分组列表中每组最多为

个样本。

（4）随机重排分组列表：将分组列表随机打乱顺序，此操作之后，同一个组中的仍然属于同一类，但是相邻两组之间不一定再属于同一类别。

具体地，先对所有的类

随机打乱后重新排列，接着在每个类

的内部针对属于该类的样本随机打乱后重排，再将每个类

中的样本数按照正整数

（

）的个数进行分组，并按组添加到分组列表

中，直到将所有的类都处理完成后，再将分组列表

按组随机打乱后重新排列，得到最终的分组后的采样列表。

如图3所示，以C1、C2、C3这3个类为例，属于同一个类的样本有相同的灰度，数字表示在类中的原始位置序号。首先对3个类进行随机重排，得到新的类排序；之后，针对每个类，将类内的样本随机重排，可见类内的顺序会被打乱；再将类内打乱样本进行分组，图中每个组内以S=3为例，实现了分组操作；最后，将分组后的列表进行随机重排，得到最终的采样列表。

其次，依据上述已知的样本伪标签作为监督信息，计算小批量样本与存储器中所有类之间的分类损失函数，损失函数

通过如下公式计算的得到：

其中，

表示样本

所属存储器中的类特征向量，

越小表示样本

与类

越相近，与其他类越远，

为模型超参数；

再次，从当前迭次中的小样本集中，找到所属的部分类别中距离类中心最远的样本点，通过动量法叠加到样本点对应的存储器中原来的类特征向量上，进行一次存储器中类中心向量的参数更新，得到新的特征存储器中的类特征向量，从而实现在每一次迭代中，在线更新存储器中部分聚类中心原本的类特征向量，通过以下步骤来实现：

（1）计算mini batch中所有样本到存储器中所属类中心的距离，例如欧式距离，样本所属的类中心由所述聚类得到的伪标签决定。

（2）从mini batch属于同一类的样本中，找到所述距离中最小的一个样本

，

为距离类中心最远的样本对应的特征向量。

（3）使用所述

和动量值

，通过动量法，叠加到对应类中心原本的特征向量上，从而更新存储器中对应类的特征值

：

以特征维度是5进行举例，即在上一个mini batch计算时，类中心的特征向量

为一个5个浮点数的行向量，这里假设：

按照上述挑选规则得到的距离类中心最远的样本点

的特征向量也同样是一个包含5个浮点数的行向量：

是预先设置的超参数，假设为0.2，则在当前步骤中得到的新的类中心向量为：

（4）通过所述分类网络的反向参数传递计算，在每一次迭代中更新所述深度神经网络的参数。由于mini batch中不可能包含所有的类别，所以在一次迭代中，只更新minibatch中包含的部分聚类中心。

最后，若第一迭代终止条件未达到，例如：是否已经达到了预定的第一迭代次数，则继续重复执行该步骤，若达到，则进入下一个步骤。

例如：具体可以取出样本输入数据、样本标签、分类等各项数据，计算输入数据、使用损失函数计算标签、分类损失等，调用反向传播进行梯度下降的优化，统计损失函数的累计值以及分类的正确模型，每次迭代完成时计算正确率等。由此，调用反向传播可以对所述模型的参数进行一次更新。

步骤五：若第二迭代终止条件未达到，则从所述步骤二重新开始，并依次执行步骤二、步骤三、步骤四，直到达到迭代终止条件，具体包括：

更新完参数之后，若第二迭代次数达到次数限制，则流程结束，输出模型；若第二迭代次数未达到次数限制，则记录训练好的无监督re-ID神经网络模型，继续重复执行步骤二、步骤三、步骤四。

特别地，在每次迭代中，都会重新聚类和分配样本标签，聚类的个数跟之前迭代的聚类结果没有直接关系，所以类的个数、样本的标签值和类中心在每次迭代都不同。

在实施本发明的技术方案中，通过无监督re-ID模型前向传播获取样本的特征向量，利用聚类算法，给未标注数据集中每个样本分配类别标签，并保存每个聚集的中心向量；在每个mini batch中，基于当前样本的特征向量及类别标签，通过计算该特征向量与类中心的距离进行有监督的学习，计算新的类中心的中心向量，并更新re-ID神经网络模型的权重参数，继续下一次迭代，直到收敛。

步骤六：如图4所示，通过训练好的深度神经网络，获取行人图像数据，将提取行人特征向量，与存储的类中心特征向量比对，找出属于同一类的图像数据序列，达到图像检索的效果。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于无监督学习的行人重识别方法，其特征在于包括如下步骤：

S1，构建用于提取行人特征向量的深度神经网络并初始化；

S2，通过深度神经网络，获取无标签的行人图像数据作为训练集，得到对应的行人特征向量，通过聚类，将行人特征向量对应的行人图像数据，划分为多个类别，同一类行人图像数据拥有同一个伪标签，通过每个类中对应的行人特征向量，获取各类中心的特征向量，进行存储；

S4，对重新获取的行人特征向量，进行分组采样，将得到的小批量样本，与存储的类中心特征向量的距离，计算分类损失，并迭代更新深度神经网络和存储的类中心特征向量，包括如下步骤：

所述损失函数：

其中，q表示行人图像数据对应的行人特征向量，c ⁺表示行人图像数据所存储的所属类中心的特征向量，c _i表示第i类的类中心特征向量，N表示类别数，L _q越小表示q与类c ⁺越相近，与其他类越远，τ为模型超参数；

S43，从当前小批量样本中，找到其所属的部分类中，距离类中心特征向量最远的行人图像数据，通过动量法，叠加到最远的行人图像数据对应存储的原类中心特征向量上；

S6，通过训练好的深度神经网络，获取行人图像数据，将提取行人特征向量，与存储的类中心特征向量比对，找出属于同一类的图像数据序列。

2.根据权利要求1所述的一种基于无监督学习的行人重识别方法，其特征在于所述S41的分组采样，包括如下步骤：

S411，根据重新获取的行人特征向量进行分类；

S412，随机重排类中的行人图像数据，在类内部，将属于同一个类的行人图像数据顺序打乱；

S413，将类中的行人图像数据分组并添加到分组列表，针对类别列表中的每一类，以预先设置的正整数S ≥ 1进行组内的划分，并将划分后的组分别添加到分组列表中；

S414，随机重排分组列表，得到最终的分组后的采样列表，根据预设的批尺寸，得到小批量样本。

3.根据权利要求2所述的一种基于无监督学习的行人重识别方法，其特征在于所述S411中，随机重排所有类，根据重新获取的行人特征向量进行分类，并按类别分组，属于同一个类的行人特征向量对应的行人图像数据为一组，保存入类别列表中，再将类别列表按组打乱顺序。

4.根据权利要求1所述的一种基于无监督学习的行人重识别方法，其特征在于所述S43包括如下步骤：

；

S433，使用

和动量值

：

；

S434，通过深度神经网络的反向参数传递计算，在每一次迭代中更新深度神经网络的参数。

5.根据权利要求1所述的一种基于无监督学习的行人重识别方法，其特征在于所述S2包括如下步骤：

S21，通过初始化后的深度神经网络前向传播方式，获取无标签行人图像数据集中，每个行人图像数据的行人特征向量；

，其中

S23，通过计算每个类中行人特征向量的均值，得到类中心特征向量，存储类中心特征向量

，N表示类别数。

6.根据权利要求5所述的一种基于无监督学习的行人重识别方法，其特征在于所述S23 中的类中心特征向量，从类

7.根据权利要求5所述的一种基于无监督学习的行人重识别方法，其特征在于所述S3中的伪标签，是通过遍历所有的行人图像数据，若行人图像数据的伪标签为-1，则忽略，若不为-1，则将该行人图像数据，加入新的训练集中，根据新的训练集，重新得到对应的行人特征向量。

8.根据权利要求1所述的一种基于无监督学习的行人重识别方法，其特征在于所述S2中的聚类，采用K近邻聚类算法。