CN116994092A

CN116994092A - 一种基于k互近邻伪标签筛选方法

Info

Publication number: CN116994092A
Application number: CN202310943506.5A
Authority: CN
Inventors: 李晗; 刘琛; 马凤强; 安晓博; 尹萍
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-11-03

Abstract

本发明涉及计算机视觉技术领域，具体为一种基于K互近邻伪标签筛选方法，包括以下步骤：根据待处理的有标签数据集，对数据集进行随机数据增强操作，并训练重识别模型；根据得到的重识别模型对无标签数据图片进行推理，得到每个图片的特征值向量；根据得到的无标签数据集的特征值向量，使用k互近邻算法对伪标签进行筛选；有益效果为：本发明提出的基于K互近邻伪标签筛选方法，通过使用有标签数据训练重识别模型；然后使用重识别模型对无标签数据集进行推理，对每张图片生成特征值向量；再使用k互近邻伪标签筛选算法得到最为相似的数据对作为伪标签的推理结果；最后将伪标签结果和有标签数据混合重新训练重识别模型。

Description

一种基于K互近邻伪标签筛选方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于K互近邻伪标签筛选方法。

背景技术

伪标签的定义来自于半监督学习，半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。伪标签可以帮助模型学习到无标注数据中隐藏的信息。如果大量的无标注样本被贴上错的标签并用作训练，将导致训练集中存在大量的噪声样本，从而严重影响模型的性能，因此在使用伪标签的时候，提升伪标签的精度是提升模型识别性能的有效手段。

现有技术中，随着深度学习的发展，基于深度学习的生物特征识别已经广泛应用于我们的日常生活中，例如人脸识别，指纹识别、掌纹识别以及宠物识别等，其识别过程涉及到图像处理、计算机视觉、机器学习等多项技术。

但是，相较于人脸识别以及指纹识别等技术，宠物识别技术由于缺乏相应的有标签数据集，因此模型识别的精性能有着进一步的提升空间。例如，在宠物狗鼻纹识别任务中，由于狗鼻纹特征人为辨别的难度相对较大，数据集构建相对较为困难，数据集较为匮乏。

发明内容

本发明的目的在于提供一种基于K互近邻伪标签筛选方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于K互近邻伪标签筛选方法，所述方法包括以下步骤：

根据待处理的有标签数据集，对数据集进行随机数据增强操作，并训练重识别模型；

根据得到的重识别模型对无标签数据图片进行推理，得到每个图片的特征值向量；

根据得到的无标签数据集的特征值向量，使用k互近邻算法对伪标签进行筛选。

优选的，根据得到的图片的特征向量，计算特征向量之间的马氏距离，用于初始化特征向量相似度排序。

优选的，根据得到的图片的特征向量，计算特征向量之间的杰卡德距离。

优选的，根据得到的杰卡德距离，作为特征向量之间的最终距离，将距离应用于最终的相似度排序，筛选出最为相似的特征向量的数据对，作为伪标签结果。

优选的，根据得到的无标签数据集的伪标签结果，结合有标签数据集，重新训练优化重识别模型，进一步提升重识别模型的识别性能。

优选的，还包括无标签数据集伪标签生成，具体操作如下：

获取待处理的有标签数据集，对数据集进行随机模糊、翻转以及随机遮挡数据增强操作，并送入特征提取网络，训练重识别模型；

根据得到的重识别模型，对无标签数据集进行推理，得到每个图片的特征值向量。

与现有技术相比，本发明的有益效果是：

本发明提出的基于K互近邻伪标签筛选方法，通过使用有标签数据训练重识别模型；然后使用重识别模型对无标签数据集进行推理，对每张图片生成特征值向量；再使用k互近邻伪标签筛选算法得到最为相似的数据对作为伪标签的推理结果；最后将伪标签结果和有标签数据混合重新训练重识别模型。相较于单纯使用相似度阈值范围划分的伪标签标记方式，k互近邻算法可以在有效提升伪标签结果准确度，进而提升模型的性能。

附图说明

图1为本发明方法流程图。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述，及优点更加清楚明白，以下结合附图对本发明实施例进行进一步详细说明。应当理解，此处所描述的具体实施例是本发明一部分实施例，而不是全部的实施例，仅仅用以解释本发明实施例，并不用于限定本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提供一种技术方案：一种基于K互近邻伪标签筛选方法，所述方法包括以下步骤：

根据待处理的有标签数据集，对数据集进行随机数据增强操作，并训练重识别模型。

根据得到的重识别模型对无标签数据图片进行推理，得到每个图片的特征值向量。

进一步地，根据得到的图片的特征向量，计算特征向量之间的马氏距离，用于初始化特征向量相似度排序。

进一步地，根据得到的图片的特征向量，计算特征向量之间的杰卡德距离。

进一步地，根据得到的杰卡德距离，作为特征向量之间的最终距离，将该距离应用于最终的相似度排序，筛选出最为相似的特征向量的数据对，作为伪标签结果。

进一步地，根据得到的无标签数据集的伪标签结果，结合有标签数据集，重新训练优化重识别模型，进一步提升重识别模型的识别性能。

伪标签筛选方法包括无标签数据集伪标签生成以及k互近邻伪标签结果筛选两个步骤。

所述无标签数据集伪标签生成包括以下几个步骤：

步骤1.1：获取待处理的有标签数据集，对数据集进行随机模糊、翻转以及随机遮挡等数据增强操作，并送入特征提取网络，训练重识别模型。

步骤1.2：根据步骤1.1得到的重识别模型，对无标签数据集进行推理，得到每个图片的特征值向量。

所述k互近邻伪标签结果筛选包括以下几个步骤：

步骤2.1：根据步骤1.2得到的图片的特征值向量，计算特征向量之间的马氏距离，用于获得初始的特征向量相似度排序。

步骤2.2：根据步骤1.2得到的图片的特征值向量，计算特征向量之间的杰卡德距离。

步骤2.3：根据步骤2.2得到的特征向量之间的杰卡德距离，将该距离应用于最终的相似度排序，筛选出最为相似的特征向量的数据对，作为伪标签结果。

步骤2.4：根据步骤2.3得到伪标签数据集结果，结合有标签数据集，重新训练优化重识别模型，进一步提升重识别模型的识别性能。

实施例二

在实施例一的基础上，参照附图1表示本发明伪标签筛选方法流程示意图，下面将针对具体实施做进一步详细说明，本处具体实施仅用于解释本发明，不限定本发明。

一种基于k互近邻的伪标签筛选方法，所述伪标签筛选方法，包括无标签数据集伪标签生成100以及k互近邻伪标签结果筛选200，具体步骤如下：

步骤101：获取待处理的有标签数据集，对数据集进行随机模糊、翻转以及随机遮挡等数据增强操作，然后做标准化处理，并送入特征提取网络，训练重识别模型。

步骤102：根据步骤101得到的重识别模型，对无标签数据集进行推理，得到每个图片的特征值向量。

所述k互近邻伪标签结果筛选包括以下步骤：

步骤201：根据步骤102得到的图片的特征值向量，计算特征向量之间的马氏距离，得到初始化的特征向量之间相似度排序。

具体地，马氏距离用于生成初始化的排序列表，马氏距离的计算公式如下所示：

S为协方差矩阵，当样本集合的协方差矩阵是单位矩阵时，即样本的各个维度上的方差均为1，马氏距离就等于欧式距离相等。欧式距离计算公式如下所示：

在实际计算时，通过使用余弦距离来计算马氏距离，余弦距离公式如下所示：

当两向量的模为1时，向量相乘的积就是它们的余弦距离，并且在数据集预处理的时候做过标准化处理，因此数据的均值为0，标准差为1。这种情况下，马氏距离又等于欧式距离，余弦距离与欧式距离有转换公式所以马氏距离可以用余弦距离表示。

步骤202：根据步骤102得到的图片的特征值向量，计算特征向量之间的杰卡德距离。

其中g_i为无标签数据集中的图片，p为待查询比对的无标签数据集中的图片，R是符合k互近邻的图片集合，R^*是对R进行了扩展，其中R定义如下：

R(p，k)＝{(g_i∈N(p，k))∩(p∈N(g_i，k))}

其中，N为k近邻图片合集，N的定义如下：

|N(p，k)|表示N中候选图片数目，因此R(p，k)是以p作为待查询比对的无标签图片，在整个无标签数据集中，能与p有k个相互近邻的图片集合。

在实际应用时，可能存在由于光照、遮挡等图片质量问题导致正样本图片从k互近邻图片中被剔除，为解决该问题，将R(p，k)中的每个图片的k/2的互近邻图片样本添加到R^*(p，k)中：

其中，在R(p，k)的定义中，针对k个与查询图片p互近邻的图片集合，对k个图片进行遍历，每拿出来一个就是q，然后用这个q作为新的查询图片probe，在全部无标签数据集中做k/2的互近邻，得到R(q，1/2k)，若R(p，k)和R(q，1/2k)的交集图片数量大于等于2/3乘R(q，1/2k)中的图片数目，就把R(p，k)和R(q，1/2k)的并集作为R^*(p，k)。

步骤203：根据步骤202得到的特征向量之间的杰卡德距离，将该距离应用于最终的相似度排序，筛选出最为相似的特征向量的数据对，作为伪标签结果。

步骤204：根据步骤203得到伪标签数据集结果，结合有标签数据集，重新训练优化重识别模型，进一步提升重识别模型的识别性能。

本发明在有限的有标签数据的条件下，通过对无标签数据生成伪标签，进一步扩充数据集，提高模型的识别性能；本发明与传统的伪标签生成方法相比，使用k互近邻算法优化伪标签预测结果，进一步提高伪标签预测结果的准确性；本发明在使用的k互近邻算法时，使用马氏距离与杰卡德距离聚合应用于最终的相似度排序，可以有效提升伪标签结果的准确度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于K互近邻伪标签筛选方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种基于K互近邻伪标签筛选方法，其特征在于：根据得到的图片的特征向量，计算特征向量之间的马氏距离，用于初始化特征向量相似度排序。

3.根据权利要求1所述的一种基于K互近邻伪标签筛选方法，其特征在于：根据得到的图片的特征向量，计算特征向量之间的杰卡德距离。

4.根据权利要求3所述的一种基于K互近邻伪标签筛选方法，其特征在于：根据得到的杰卡德距离，作为特征向量之间的最终距离，将距离应用于最终的相似度排序，筛选出最为相似的特征向量的数据对，作为伪标签结果。

5.根据权利要求4所述的一种基于K互近邻伪标签筛选方法，其特征在于：根据得到的无标签数据集的伪标签结果，结合有标签数据集，重新训练优化重识别模型，进一步提升重识别模型的识别性能。

6.根据权利要求1所述的一种基于K互近邻伪标签筛选方法，其特征在于：还包括无标签数据集伪标签生成，具体操作如下：