CN116089652A

CN116089652A - 视觉检索模型的无监督训练方法、装置和电子设备

Info

Publication number: CN116089652A
Application number: CN202310364413.7A
Authority: CN
Inventors: 郭海云; 闫天翊; 王金桥; 唐明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-09
Anticipated expiration: 2043-04-07
Also published as: CN116089652B

Abstract

本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备，属于计算机视觉技术领域。该方法包括：将图像样本集输入视觉检索模型进行特征提取处理，获得目标特征信息；基于目标特征信息，为图像样本集中的各图像样本生成初始伪标签，并以各非离群图像样本为节点构建第一KNN图；以第一KNN图和目标特征信息为训练数据，以初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；基于目标特征信息，以图像样本集中的各图像样本为节点构建第二KNN图；将第二KNN图输入目标伪标签校正模型，获得校正伪标签；以图像样本集为训练数据，以校正伪标签为监督数据对视觉检索模型进行训练。该方法能提高视觉检索模型的性能。

Description

视觉检索模型的无监督训练方法、装置和电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视觉检索模型的无监督训练方法、装置和电子设备。

背景技术

大范围视觉目标检索任务中模型的训练数据场景和应用场景之间往往存在领域差异（如视角、光线、背景等差异），直接迁移模型会导致检索性能下降，而收集应用场景下有标签的训练数据又往往比较困难。

无监督跨领域视觉检索任务不同于普通的有监督视觉检索任务，要求使用源域的标签和目标领域的无标签数据，实现在目标领域的样本检索，因此对模型的鲁棒性有较高要求。面向无监督跨领域自适应目标检索任务，现有方法首先根据目标领域的图像样本集通过视觉检索模型得到图像样本的特征，采用无监督聚类算法为无标签图像样本产生伪标签，然后利用伪标签监督视觉检索模型在目标领域上的迁移优化，通过聚类和优化步骤交替迭代进行以对视觉检索模型进行训练。

但是，无监督聚类算法是假设数据符合一个预设的分布，因此在真实数据上的聚类效果欠佳，会产生大量的伪标签噪声，进而误导后续视觉检索模型的优化方向，从而限制了视觉检索模型的性能。

发明内容

本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备，用以解决现有技术中伪标签中的噪声会误导视觉检索模型的优化方向，从而会限制视觉检索模型的性能的问题，实现通过对伪标签进行校正的方式来提高视觉检索模型的优化方向的可靠性，进而改善视觉检索模型的性能，提高视觉检索模型的泛化性能。

本发明提供一种视觉检索模型的无监督训练方法，包括：

将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；

基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN（K Nearest Neighbors，K最近邻）图；

以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；

基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；

将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；

以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，以对所述视觉检索模型的参数进行调整。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息，包括：

将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息，所述目标特征信息包括特征矩阵和分类得分矩阵。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图，包括：

基于所述特征矩阵，对所述图像样本集进行初始聚类，为所述图像样本集中的各图像样本生成初始伪标签；

基于所述图像样本集的初始聚类结果，确定所述图像样本集中的离群图像样本和非离群图像样本；

基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图，包括：

基于所述特征矩阵和所述分类得分矩阵，生成所述图像样本集的联合相似度矩阵；

根据所述联合相似度矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型，包括：

获取所述第一KNN图的稀疏对称邻接矩阵，以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入；

通过所述伪标签校正模型中的图卷积神经网络层，基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强；

通过所述伪标签校正模型中的二分类器，预测进行特征增强后的所述第一KNN图中各链接的置信度；

基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签；

基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数，对所述伪标签校正模型的参数进行调整，获得目标伪标签校正模型。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签，包括：

将所述第二KNN图输入所述目标伪标签校正模型，获得所述第二KNN图中各链接的置信度；

去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接；

基于保留的链接获得各所述图像样本的校正伪标签。

根据本发明提供的一种视觉检索模型的无监督训练方法，所述去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后，还包括：

计算所述第二KNN图中保留的各链接的连通性；

去除所述第二KNN图中连通性低于第二预设阈值的链接，保留所述第二KNN图中连通性高于所述第二预设阈值的链接。

本发明还提供一种用于视觉检索模型的无监督训练装置，包括：

第一获取模块，用于将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；

生成构建模块，用于基于所述目标特征信息为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；

第一训练模块，用于以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；

构建模块，用于基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；

第二获取模块，用于将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；

第二训练模块，用于以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，以对所述视觉检索模型的参数进行调整。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视觉检索模型的无监督训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视觉检索模型的无监督训练方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视觉检索模型的无监督训练方法。

本发明提供的视觉检索模型的无监督训练方法、装置和电子设备，通过对视觉检索模型生成的初始伪标签进行校正，以校正伪标签监督视觉检索模型进行训练，提高了视觉检索模型的优化方向的可靠性，进而改善视觉检索模型的性能，提高了视觉检索模型的泛化性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视觉检索模型的无监督训练方法的流程示意图之一；

图2是本发明提供的现有技术的视觉检索模型训练方法的流程示意图；

图3是本发明提供的视觉检索模型的无监督训练方法的流程示意图之二；

图4是本发明提供的生成初始伪标签及构建第一KNN图的方法的流程示意图；

图5是本发明提供的视觉检索模型的无监督训练方法的流程示意图之三；

图6是本发明提供的构建第一KNN图的方法的流程示意图；

图7是本发明提供的获得目标伪标签校正模型的方法的流程示意图；

图8是本发明提供的不同训练轮次下伪标签校正模型NMI分数的示意图；

图9是本发明提供的获得校正伪标签的方法的流程示意图之一；

图10是本发明提供的获得校正伪标签的方法的流程示意图之二；

图11是本发明提供的视觉检索模型的无监督训练装置的结构示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图10描述本发明的一种视觉检索模型的无监督训练方法，如图1所示，该方法包括：

S101：将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息。

S102：基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图。

S103：以所述第一KNN图为和所述目标特征信息训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型。

S104：基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图。

S105：将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签。

S106：以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，以对所述视觉检索模型的参数进行调整。

相关技术中，如图2中所示，对视觉检索模型进行训练的流程为：①视觉检索模型提取图像样本的目标特征信息；②基于提取的目标特征信息通过聚类生成图像样本的初始伪标签（表示为第轮次得到的初始伪标签），以初始伪标签作为监督数据监督视觉检索模型进行优化；③优化一次后的视觉检索模型再次提取图像样本中的目标特征信息；如此交替进行步骤②和③，训练得到目标视觉检索模型，目标视觉检索模型可以用于提取出检索图像的特征，该图像的特征则可以直接用于进行图像检索。

本方法基于一种即插即用的伪标签校正模型（GLC），如图3所示，在上述步骤②获得初始伪标签后，通过伪标签校正模型对初始伪标签进行校正，基于校正后的校正伪标签来作为监督数据，以对视觉检索模型进行优化。

具体的，本方法中，图像样本集为目标域的无标签图像样本数据，图像样本集中包括多个图像样本，将图像样本集输入视觉检索模型，视觉检索模型输出目标特征信息，目标特征信息中包括了各图像样本的特征信息。基于目标特征信息生成每个图像样本的初始伪标签，初始伪标签体现了各图像样本所属的类别，但该初始伪标签的噪声较大，即部分图像样本的初始伪标签可能是错误的。

初始伪标签体现了各图像样本所属的类别，不属于任何一类的图像样本为离群图像样本，其余的为非离群图像样本。基于目标特征信息，以图像样本集中的各非离群图像样本为节点构造第一KNN图。第一KNN图即是以每一个非离群图像样本为节点，将每个节点与最相似的K个节点进行链接，其中，K的取值可以通过实验进行确定。

以第一KNN图和所述目标特征信息为训练数据，以初始伪标签为监督数据对伪标签校正模型进行训练，获得目标伪标签校正模型。训练好目标伪标签校正模型后，基于目标特征信息，构建第二KNN图，第二KNN图中以图像样本集中所有图像样本为节点，即第二KNN图中包括了离群图像样本和非离群图像样本。将第二KNN图输入目标伪标签校正模型，目标伪标签校正模型输出校正伪标签。将该校正伪标签作为监督数据对视觉检索模型进行训练，以对视觉检索模型的参数进行调整。调整之后继续重复上述步骤，来调整视觉检索模型的参数，直到视觉检索模型收敛。

进一步的，上述步骤中最初的视觉检索模型可以为根据源域有标签的图像数据进行预训练得到的。对视觉检索模型进行预训练时，监督损失可以为交叉熵损失（cross-entropy loss）和三元组损失（triplet lost）的加权和，公式表达如下：

其中，表示源域图像数据集合，表示源域图像数据集合中的图像样本，表示源域图像数据集合中图像样本的数量，表示源域图像数据集合中图像样本的标签，表示三元组损失权重，表示三元组损失，表示交叉熵损失。

本发明提供的视觉检索模型的无监督训练方法，通过对视觉检索模型生成的初始伪标签进行校正，以校正伪标签监督视觉检索模型进行训练，提高了视觉检索模型的优化方向的可靠性，进而改善视觉检索模型的性能，提高了视觉检索模型的泛化性能。

在一个实施例中，所述将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息，包括：

具体的，目标特征信息包括特征矩阵和分类得分矩阵，分类得分表明图像样本属于某分类的可能性。

在一个实施例中，如图4中所示，所述基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图，包括：

S401：基于所述特征矩阵，对所述图像样本集进行初始聚类，为所述图像样本集中的各图像样本生成初始伪标签。

S402：基于所述图像样本集的初始聚类结果，确定所述图像样本集中的离群图像样本和非离群图像样本。

S403：基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

具体的，如图5所示，基于特征矩阵，采用无监督聚类算法对图像样本集进行初始聚类，初始聚类即首先计算图像样本集中的各图像样本属于某一类的概率，基于属于某一类的概率将相似的图像样本进行聚集，组成一类。通过初始聚类获知了图像样本属于哪个类别后，为该图像样本生成初始伪标签。

可以理解的是，初始聚类后，有的图像样本不属于任何一个类别，这类图像样本则为离群图像样本，能够确定属于某一类别的图像样本为非离群图像样本。

基于特征矩阵和所述分类得分矩阵，以各非离群图像样本为节点构建第一KNN图，示例性的，可以先去除图像样本集中的离群图像样本来构建第一KNN图，也可以以图像样本集先构建KNN图，然后删除KNN图中的离群图像样本对应的节点和对应的链接以得到第一KNN图。

本实施例根据特征矩阵和分类得分矩阵来构建第一KNN图，综合考虑了特征的相似性和分类得分的相似性，能够增强相似性对于干扰因素的鲁棒性。

在一个实施例中，如图6所示，所述基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图，包括：

S601：基于所述特征矩阵和所述分类得分矩阵，生成所述图像样本集的联合相似度矩阵。

S602：根据所述联合相似度矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

具体的，参考图5和图6中所示，根据特征矩阵和分类得分矩阵，生成图像样本集的联合相似度矩阵：

其中， λ为平衡特征矩阵和分类得分矩阵的系数，为特征矩阵，为分类得分矩阵。

根据上述得到的联合相似度矩阵构建第一KNN图。通常情况下，仅采用特征矩阵构建第一KNN图，会使得一些具有相似特征的节点无法连接起来，通过联合相似度矩阵，能够尽可能的将具有相似特征的节点连接起来，可以显著提高第一KNN图的召回率。

在一个实施例中，如图7所示，所述以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型，包括：

S701：获取所述第一KNN图的稀疏对称邻接矩阵，以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入。

S702：通过所述伪标签校正模型中的图卷积神经网络层，基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强。

S703：通过所述伪标签校正模型中的二分类器，预测进行特征增强后的所述第一KNN图中各链接的置信度。

S704：基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签。

S705：基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数，对所述伪标签校正模型的参数进行调整，获得目标伪标签校正模型。

具体的，获取第一KNN图的稀疏对称邻接矩阵，第一KNN图的稀疏对称邻接矩阵表示为，表示实数集合，表示节点 i与节点 j链接，表示节点 i与节点 j未链接，稀疏对称邻接矩阵为KNN图的数学表达形式。

伪标签校正模型包括图卷积神经网络层和二分类器。通过图卷积神经网络层，基于所述对称邻接矩阵和目标特征信息对第一KNN图上各节点进行特征增强，具体的特征增强方式为：

其中，为图卷积神经网络层第层的节点特征，为图卷积神经网络层第层的节点特征，当时，即为上述目标特征信息，为激活函数，为稀疏对称邻接矩阵的拉普拉斯变换形式，为图卷积神经网络层第层网络参数，表示矩阵转置符号。

进行特征增强后，通过二分类器预测特征增强后的第一KNN图中各链接的置信度。示例性的，基于初始伪标签获得图像样本集中的各图像样本之间链接的标签，以各图像样本之间链接的标签为监督信息。一个链接两端的节点的初始伪标签相同则该链接为正样本，则该链接的标签为1，一个链接两端的节点的初始伪标签不相同则该链接为负样本，则该链接的标签为0，如下所示：

其中，表示第个链接，表示链接第一端的第一节点，表示链接第二端的第二节点，表示第一节点的初始伪标签，表示第二节点的初始伪标签，表示第条链接的标签。

在对伪标签校正模型进行训练时，考虑到第一KNN图上正样本和负样本之间的不平衡（即负样本数量远多于正样本，也即标签为1的链接远少于标签为0的链接），本实施例通过损失函数来应对初始伪标签相同却未链接在一起的困难正样本，其中，损失函数为：

其中，表示图像样本个数，表示第条链接的标签，表示正样本个数，表示伪标签校正模型预测输出的置信度，表示负样本个数。

由于伪标签校正模型在训练时，会优先对第一KNN图中的正样本进行预测，因此基于早停训练策略来对伪标签校正模型进行训练，早停训练策略即在伪标签校正模型训练预设轮数且未收敛时停止训练，得到目标伪标签校正模型。

示例性的，参考图8中所示，在对伪标签校正模型进行训练时，记录不同训练轮数下伪标签校正模型的NMI（Normalized Mutual Information，归一化互信息）分数，可以选择NMI分数最高的训练轮数为早停轮数。

在一个实施例中，如图9所示，所述将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签，包括：

S901：将所述第二KNN图输入所述目标伪标签校正模型，获得所述第二KNN图中各链接的置信度。

S902：去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接。

S903：基于保留的链接获得各所述图像样本的校正伪标签。

具体的，在获得目标伪标签校正模型后，将第二KNN图输入目标伪标签校正模型，能够获得第二KNN图中各链接的置信度，置信度越低则表示链接两端的节点即图像样本的相似度越低，将置信度低于第一预设阈值τ1的链接删除，保留置信度高于τ1的链接，如此以将不够相似的图像样本之间的链接断开，基于连着的链接获得各图像样本的校正伪标签。

在一个实施例中，如图10所示，所述去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后，还包括：

S1001：计算所述第二KNN图中保留的各链接的连通性。

S1002：去除所述第二KNN图中连通性低于第二预设阈值的链接，保留所述第二KNN图中连通性高于所述第二预设阈值的链接。

具体的，进一步，还可以通过各链接的连通性，进一步筛除链接中的负样本，将连通性低于第二预设阈值的链接删除，其中节点 i和 j的连通性为：

其中，表示共享的链接数，表示节点连通的链接数，表示节点连通的链接数。

下面对本发明提供的视觉检索模型的无监督训练装置进行描述，下文描述的视觉检索模型的无监督训练装置与上文描述的视觉检索模型的无监督训练方法可相互对应参照。

如图11中所示，该视觉检索模型的无监督训练装置包括：第一获取模块1101、生成构建模块1102、第一训练模块1103、构建模块1104、第二获取模块1105和第二训练模块1106；所述第一获取模块1101用于将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；所述生成构建模块1102用于基于所述目标特征信息为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；所述第一训练模块1103用于以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；所述构建模块1104用于基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；所述第二获取模块1105用于将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；所述第二训练模块1106用于以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，以对所述视觉检索模型的参数进行调整。

本发明提供的视觉检索模型的无监督训练装置，通过对视觉检索模型生成的初始伪标签进行校正，以校正伪标签监督视觉检索模型进行训练，提高了视觉检索模型的优化方向的可靠性，进而改善视觉检索模型的性能，提高了视觉检索模型的泛化性能。

在一个实施例中，所述第一获取模块1101具体用于：将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息，所述目标特征信息包括特征矩阵和分类得分矩阵。

在一个实施例中，所述生成构建模块1102具体用于：

基于所述特征矩阵，对所述图像样本集进行初始聚类，为所述图像样本集中的各图像样本生成初始伪标签；基于所述图像样本集的初始聚类结果，确定所述图像样本集中的离群图像样本和非离群图像样本；基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

在一个实施例中，所述生成构建模块1102具体还用于：

基于所述特征矩阵和所述分类得分矩阵，生成所述图像样本集的联合相似度矩阵；根据所述联合相似度矩阵，以各所述非离群图像样本为节点构建所述第一KNN图。

在一个实施例中，所述第一训练模块1103具体用于：

获取所述第一KNN图的稀疏对称邻接矩阵，以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入；通过所述伪标签校正模型中的图卷积神经网络层，基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强；通过所述伪标签校正模型中的二分类器，预测进行特征增强后的所述第一KNN图中各链接的置信度；基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签；基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数，对所述伪标签校正模型的参数进行调整，获得目标伪标签校正模型。

在一个实施例中，所述第二获取模块1105具体用于：

将所述第二KNN图输入所述目标伪标签校正模型，获得所述第二KNN图中各链接的置信度；去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接；基于保留的链接获得各所述图像样本的校正伪标签。

在一个实施例中，所述第二获取模块1105具体还用于：

计算所述第二KNN图中保留的各链接的连通性；去除所述第二KNN图中连通性低于第二预设阈值的链接，保留所述第二KNN图中连通性高于所述第二预设阈值的链接。

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行视觉检索模型的无监督训练方法，该方法包括：将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，对所述视觉检索模型的参数进行调整。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视觉检索模型的无监督训练方法，该方法包括：将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，对所述视觉检索模型的参数进行调整。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视觉检索模型的无监督训练方法，该方法包括：将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息；基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型；基于所述目标特征信息，以所述图像样本集中的各所述图像样本为节点构建第二KNN图；将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签；以所述图像样本集为训练数据，以所述校正伪标签为监督数据对所述视觉检索模型进行训练，对所述视觉检索模型的参数进行调整。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉检索模型的无监督训练方法，其特征在于，包括：

基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图；

2.根据权利要求1所述的视觉检索模型的无监督训练方法，其特征在于，所述将图像样本集输入视觉检索模型进行特征提取处理，获得所述视觉检索模型输出的目标特征信息，包括：

3.根据权利要求2所述的视觉检索模型的无监督训练方法，其特征在于，所述基于所述目标特征信息，为所述图像样本集中的各图像样本生成初始伪标签，并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图，包括：

4.根据权利要求3所述的视觉检索模型的无监督训练方法，其特征在于，所述基于所述特征矩阵和所述分类得分矩阵，以各所述非离群图像样本为节点构建所述第一KNN图，包括：

5.根据权利要求1至4任一项所述的视觉检索模型的无监督训练方法，其特征在于，所述以所述第一KNN图和所述目标特征信息为训练数据，以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型，包括：

6.根据权利要求1至4任一项所述的视觉检索模型的无监督训练方法，其特征在于，所述将所述第二KNN图输入所述目标伪标签校正模型，获得所述目标伪标签校正模型输出的校正伪标签，包括：

基于保留的链接获得各所述图像样本的校正伪标签。

7.根据权利要求6所述的视觉检索模型的无监督训练方法，其特征在于，所述去除所述第二KNN图中置信度低于第一预设阈值的链接，保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后，还包括：

计算所述第二KNN图中保留的各链接的连通性；

8.一种视觉检索模型的无监督训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视觉检索模型的无监督训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视觉检索模型的无监督训练方法。