CN116612445B

CN116612445B - 基于自适应聚类和困难样本加权的无监督车辆再辨识方法

Info

Publication number: CN116612445B
Application number: CN202310891062.5A
Authority: CN
Inventors: 朱建清; 张晓翔; 陈巍; 赵倩倩; 曾焕强; 陈婧; 蔡灿辉; 施一帆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-31
Anticipated expiration: 2043-07-20
Also published as: CN116612445A

Abstract

本发明公开了一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法，首先，利用当前聚类参数计算最合适的半径值，提升聚类伪标签对车辆样本噪声的鲁棒性；其次，记忆模块记录所有车辆样本特征向量，利用距离作为车辆样本困难程度加权依据，改善模型对困难车辆样本关注力不足的问题；最后，利用加权困难车辆样本结合对比学习方法训练车辆再辨识模型。本发明可广泛应用于智慧交通和智慧安防中的智能视频监控系统。

Description

基于自适应聚类和困难样本加权的无监督车辆再辨识方法

技术领域

本发明涉及涉及机器视觉、智能视频监控技术领域，特别涉及一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法。

背景技术

近年来，基于伪标签生成的无监督车辆再辨识算法因其无需人工标签而具有巨大的应用价值，越来越受到人们广泛的关注。然而，基于聚类的伪标签生成方式易产生噪声或剔除关键信息，致使所监督的车辆再辨识模型对于车辆样本的特征鉴别性不足。现有的无监督车辆再辨识方法没有充分考虑到容易混淆的困难车辆正样本的挖掘，仅简单地使用聚类质心或所有实例进行对比学习，无法很好地学习如何区分容易混淆的困难车辆样本。

发明内容

针对现有技术的问题，本发明的目的在于提供一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法，首先在每次聚类中动态根据衰减率和当前迭代次数来生成最佳的超参数值；其次设计基于距离的车辆样本困难程度加权依据，为记忆簇中的困难车辆正样本增加权重，提高车辆再辨识模型对困难车辆样本关注度；最后通过对比学习方式提升同类车辆样本间的相似度并降低不同类车辆样本间的相似度，实现无监督车辆再辨识模型的鉴别能力。

本发明采用如下技术方案：

一方面，一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法，包括：

训练阶段，包括如下步骤：

S1，训练图像获取步骤，获取车辆训练集图像，其中每个图像并未提供监督信号；

S2，自适应聚类步骤，利用当前聚类超参数计算最合适的半径值，在连续迭代训练中逐渐衰减聚类半径参数值，以适应由于聚类中类间及类内车辆样本距离的变化；

S3，困难样本记忆步骤，利用距离作为车辆样本困难程度加权依据，更新记忆模块中的困难车辆样本；

S4，对比学习步骤，联合当前批次输入车辆样本的对比损失和记忆样本的历史对比损失共同训练无监督车辆再辨识模型，优化模型判别性；

S5，更新步骤，更新记忆模块中车辆样本特征；

识别阶段，包括：

使用训练好的无监督车辆再辨识模型，对查询图像和注册图像集进行特征提取，与查询图像相似的注册图像，作为无监督车辆再辨识模型识别的结果。

优选的，所述自适应聚类步骤采用指数函数动态调整聚类超参数，计算如公式(1)所示：

(1)

其中，表示无监督密度聚类中的半径超参数初始化值；eps是一阈值，若两个数据点之间的距离小于该阈值，则认为这两个数据点彼此相邻；表示当前迭代次数对应的衰减率。

优选的，所述困难样本记忆步骤采用记忆模块存储所有车辆样本特征向量、困难车辆样本特征向量及相应的聚类伪标签类别；记忆模块构建和工作流程如下：

3.1，利用人工神经网络提取所有车辆样本特征向量，并利用聚类算法对车辆样本特征向量进行聚类，将相似车辆样本聚类形成若干个聚类簇；

3.2，构建记忆簇，记录聚类簇中的车辆样本特征向量和相应的聚类伪标签类别；

3.3，加权更新同类记忆簇，聚类伪标签类别i对应的记忆簇更新如公式(2)所示：

(2)

其中，表示记忆簇里属于聚类伪标签类别i中所对应第j个样本的权重，表示聚类伪标签类别i对应的记忆簇中记录的第j个车辆样本特征向量，表示的困难程度，计算如公式(3)所示：

(3)

其中，表示两个车辆样本特征向量之间的距离计算；表示温度超参数；表示聚类伪标签类别i对应的记忆簇中记录的车辆样本特征向量数量；表示聚类伪标签类别i对应的记忆簇中记录的第k个车辆样本特征向量；表示属于类别i的输入车辆样本特征向量。

优选的，所述对比学习步骤联合当前批次输入车辆样本的对比损失和记忆样本的历史对比损失共同训练，如公式(4)所示：

(4)

其中，表示模型训练的总体对比损失；表示当前对比损失函数；表示历史对比损失函数；表示超参数。

优选的，当前批次输入车辆样本的对比损失函数，如公式(5)所示：

(5)

其中，表示当前批次中第i个车辆样本特征向量；表示当前批次中距离最远的车辆正样本特征向量，即和有相同的聚类伪标签；表示当前批次中第j个车辆样本特征向量，且其聚类伪标签与不同，即，其中和分别表示和的聚类伪标签； N表示当前批次车辆样本数量；表示温度超参数。

优选的，记忆样本的历史对比损失函数，如公式(6)所示：

(6)

其中，表示当前批次中第i个车辆样本特征向量；表示存储在记忆模块距离最远的车辆正样本特征向量，即和有相同的聚类伪标签；表示记忆模块的第j个车辆样本特征向量，且其聚类伪标签与不同，即，其中和分别表示和的聚类伪标签；表示存储在记忆模块中的车辆样本数量；表示温度超参数。

优选的，所述更新步骤中，记忆模块的更新公式如(7)所示：

(7)

其中，表示温度超参数，用于平衡新旧车辆样本特征向量的贡献；表示存储在记忆模块中属于类别i的车辆样本特征向量；表示当前批次中第i个车辆样本特征向量。

优选的，所述识别阶段，具体包括：

使用训练阶段得到的无监督车辆再辨识方法模型，对查询图像和注册图像集进行特征提取，得到查询图像的特征和注册图像的特征，即FC层的输出；基于所提取的特征，分别计算查询图像与注册图像之间的距离，并根据距离进行升序排序，选取排名靠前的注册图像即为与查询图像相似的注册图像，作为无监督车辆再辨识模型识别的结果。

与现有技术相比，本发明的有益效果如下：

首先，由于在无监督聚类过程中超参数是静态的，这与训练过程中不断变化特征的实际情况不匹配，因而本发明在每次聚类中动态根据衰减率和当前迭代次数来生成最佳的超参数值；其次，设计基于距离的车辆样本困难程度加权依据，为记忆簇中的困难车辆正样本增加权重，提高车辆再辨识模型对困难车辆样本关注度；最后，通过对比学习方式提升同类车辆样本间的相似度并降低不同类车辆样本间的相似度，实现无监督车辆再辨识模型的鉴别能力。

附图说明

图1为本发明实施例的基于自适应聚类和困难样本加权的无监督车辆再辨识方法的流程图；

图2为本发明实施例的无监督车辆再辨识方法自适应聚类示意图；

图3为本发明实施例的无监督车辆再辨识方法困难样本加权策略的示意图；

图4为本发明实施例的无监督车辆再辨识方法中的对比学习示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

参见图1所示，本实施例一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法，包括如下步骤：

训练阶段1，包括如下步骤。

训练图像获取步骤S1，获取车辆训练集图像，其中每个图像并未提供监督信号。

自适应聚类步骤S2，利用当前聚类超参数计算最合适的半径值，在连续迭代训练中逐渐衰减聚类半径参数值，以适应由于聚类中类间及类内车辆样本距离的变化。

具体的，参见图2所示。利用在ImageNet数据集上预训练的Resnet50网络提取无标签车辆图像特征。受益于模型在训练时学习率动态衰减对结果的影响，本发明聚类过程中静态的超参数值可自动调整，与模型训练阶段不断变化的车辆样本特征的情况更匹配，以提升聚类效果。根据指数函数性质以及无监督车辆类内样本和类间样本在迭代聚类中的变化规律构建自适应聚类公式，在每一轮迭代中通过公式(1)动态衰减eps参数值，接着DBSCAN聚类算法根据当前参数值获得更加准确的车辆样本伪标签并存储于记忆模块中。

/>

其中，表示无监督密度聚类中的半径超参数初始化值；eps是一阈值，若两个数据点之间的距离小于该阈值，则认为这两个数据点彼此相邻；表示当前迭代次数对应的衰减率。参考无监督目标识别相关文献将初始值设定为0.7；表示当前迭代次数对应的衰减率。

困难样本记忆步骤S3，利用距离作为车辆样本困难程度加权依据，更新记忆模块中的困难车辆样本。

具体的，参见图3所示。困难车辆样本即同个记忆簇内车辆样本特征向量与输入车辆样本特征向量距离最远的车辆样本。记忆模块的构建及工作流程为：首先利用Resnet50提取所有车辆样本特征向量，并利用DBSCAN聚类算法对车辆样本特征向量进行聚类，将相似车辆样本聚类形成若干个聚类簇；其次构建记忆簇，用于记录聚类簇中的车辆样本特征向量和相应的聚类伪标签类别；最后加权更新同类记忆簇，聚类伪标签类别i对应的记忆簇更新如公式(2)所示：

(2)

其中，表示记忆簇里属于聚类伪标签类别i中所对应第j个样本的权重，表示聚类伪标签类别i对应的记忆簇中记录的第j个车辆样本特征向量，表示的困难程度，其计算如公式(3)所示：

(3)

其中，表示两个车辆样本特征向量之间的距离计算；表示温度超参数；表示聚类伪标签类别j对应的记忆簇中记录的车辆样本特征向量数量；表示聚类伪标签类别j对应的记忆簇中记录的第k个车辆样本特征向量；表示属于类别i的输入车辆样本特征向量。

对比学习步骤S4，联合当前批次输入车辆样本的对比损失和记忆样本的历史对比损失共同训练无监督车辆再辨识模型，优化模型判别性。

具体的，参见图4所示。对比学习步骤联合当前批次输入车辆样本的对比损失和记忆样本的历史对比损失共同训练具体流程如图3所示。总体对比损失公式如公式(4)所示：

(4)

其中，表示当前对比损失；表示历史对比损失；是超参数，控制着的贡献。

S4.1：采用输入批次车辆样本间的特征比较构建当前对比损失函数，如公式(5)所示：

(5)

其中，表示当前批次中第i个车辆样本特征向量；表示当前批次中距离最远的车辆正样本特征向量(即和有相同的聚类伪标签)；表示当前批次中第j个车辆样本特征向量，且其聚类伪标签与不同，即，其中和分别表示和的聚类伪标签；N 表示当前批次车辆样本数量；表示温度超参数。

S4.2：采用输入批次车辆样本与加权更新后存储所有车辆样本特征向量的记忆模块进行比较构建历史对比损失函数，如公式(6)所示：

(6)

其中，表示当前批次中第i个车辆样本特征向量；表示存储在记忆模块距离最远的车辆正样本特征向量（即和有相同的聚类伪标签）；表示记忆模块的第j个车辆样本特征向量，且其聚类伪标签与不同，即，其中和分别表示和的聚类伪标签；表示存储在记忆模块中的车辆样本数量；表示温度超参数。

更新步骤S5，更新记忆模块中车辆样本特征。

在首轮模型训练阶段，首先采用DBSCAN聚类算法对无标签车辆样本进行分类并根据聚类结果为其打上聚类伪标签，使用Resnet50作为特征提取器，将车辆图像转化为高维特征向量，将这些聚类伪标签和提取的车辆特征存储在记忆模块中作为初始化信息。其次对于无标签的车辆样本，通过余弦相似度将存储在记忆模块中所有车辆样本特征向量进行计算，如果存在相似度高于预设阈值的同类特征向量，则认为匹配成功，将该车辆样本特征向量加入到属于此类别的车辆样本特征向量集合中，并更新车辆类别特征向量的平均值；若没有匹配成功，则将该车辆样本特征向量保存为一个新的类别，并将该特征向量加入到此类别的车辆样本特征向量集合中。随着样本数量的增加，记忆模块中不同类别的车辆样本特征向量会不断被更新和完善，模型的表达能力和泛化性能也会逐渐提高。记忆模块更新公式如(7)所示：

(7)

其中，表示温度超参数，用于平衡新旧车辆样本特征向量的贡献，本发明将设置为0.999，旨在降低单个车辆样本更新对记忆模块的影响；表示存储在记忆模块中属于类别i的车辆样本特征向量；表示当前批次中第i个车辆样本特征向量。

识别阶段2，包括：

具体的，使用训练阶段得到的无监督车辆再辨识方法模型，对查询图像和注册图像集进行特征提取，得到查询图像的特征和注册图像的特征，即FC层的输出，基于所提取的特征，分别计算查询图像与注册图像之间的距离，并根据距离进行升序排序，选取排名靠前的注册图像即为与查询图像相似的注册图像，作为无监督车辆再辨识模型识别的结果。

本发明的关键在于，通过自适应聚类方式可以更好地获得精准的聚类结果，并设计基于困难样本挖掘的对比学习方法，可以更好地学习相似样本间的特征，并疏远对异类样本的距离，从而提升无监督车辆再辨识模型对聚类缺陷的适应能力，进而提升无监督车辆再辨识的准确性。因此，本发明可广泛应用于智慧城市、智慧交通以及智慧安防中的智能视频监控系统。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种基于自适应聚类和困难样本加权的无监督车辆再辨识方法，其特征在于，包括：

训练阶段，包括如下步骤：

S5，更新步骤，更新记忆模块中车辆样本特征；

识别阶段，包括：

使用训练好的无监督车辆再辨识模型，对查询图像和注册图像集进行特征提取，与查询图像相似的注册图像，作为无监督车辆再辨识模型识别的结果；

所述自适应聚类步骤采用指数函数动态调整聚类超参数，计算如公式(1)所示：

其中，eps_initial表示无监督密度聚类中的半径超参数初始化值；eps是一阈值，若两个数据点之间的距离小于该阈值，则认为这两个数据点彼此相邻；表示当前迭代次数对应的衰减率；

所述困难样本记忆步骤采用记忆模块存储所有车辆样本特征向量、困难车辆样本特征向量及相应的聚类伪标签类别；记忆模块构建和工作流程如下：

G_ij＝w_ijF_ij (2)

其中，G_ij表示记忆簇里属于聚类伪标签类别i中所对应第j个样本的权重，F_ij表示聚类伪标签类别i对应的记忆簇中记录的第j个车辆样本特征向量，w_ij表示F_ij的困难程度，计算如公式(3)所示：

其中，||·||表示两个车辆样本特征向量之间的距离计算；τ_w＞0表示温度超参数；N_i表示聚类伪标签类别i对应的记忆簇中记录的车辆样本特征向量数量；F_ik表示聚类伪标签类别i对应的记忆簇中记录的第k个车辆样本特征向量；F表示属于类别i的输入车辆样本特征向量；

所述对比学习步骤联合当前批次输入车辆样本的对比损失和记忆样本的历史对比损失共同训练，如公式(4)所示：

L＝L_c+λL_m (4)

其中，L表示模型训练的总体对比损失；L_c表示当前对比损失函数；L_m表示历史对比损失函数；λ≥0表示超参数；

当前批次输入车辆样本的对比损失函数，如公式(5)所示：

其中，表示当前批次中距离q_i最远的车辆正样本特征向量，即和q_i有相同的聚类伪标签；q_j表示当前批次中第j个车辆样本特征向量，且其聚类伪标签与q_i不同，即y_i≠y_j，其中y_i和y_j分别表示q_i和q_j的聚类伪标签；N表示当前批次车辆样本数量；τ_c表示温度超参数；

记忆样本的历史对比损失函数，如公式(6)所示：

其中，表示存储在记忆模块距离q_i最远的车辆正样本特征向量，即和q_i有相同的聚类伪标签；G_j表示记忆模块的第j个车辆样本特征向量，且其聚类伪标签与q_i不同，即y_i≠y_j，其中y_i和y_j分别表示q_i和q_j的聚类伪标签；K表示存储在记忆模块中的车辆样本数量；τ_m表示温度超参数；

所述更新步骤中，记忆模块的更新公式如(7)所示：

G_i＝βG_i+(1-β)×q_i (7)

其中，β表示温度超参数，用于平衡新旧车辆样本特征向量的贡献；G_i表示存储在记忆模块中属于类别i的车辆样本特征向量；q_i表示当前批次中第i个车辆样本特征向量。

2.根据权利要求1所述的基于自适应聚类和困难样本加权的无监督车辆再辨识方法，其特征在于，所述识别阶段，具体包括：