CN116089652B - 视觉检索模型的无监督训练方法、装置和电子设备 - Google Patents

视觉检索模型的无监督训练方法、装置和电子设备 Download PDF

Info

Publication number
CN116089652B
CN116089652B CN202310364413.7A CN202310364413A CN116089652B CN 116089652 B CN116089652 B CN 116089652B CN 202310364413 A CN202310364413 A CN 202310364413A CN 116089652 B CN116089652 B CN 116089652B
Authority
CN
China
Prior art keywords
image sample
knn
target
model
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310364413.7A
Other languages
English (en)
Other versions
CN116089652A (zh
Inventor
郭海云
闫天翊
王金桥
唐明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310364413.7A priority Critical patent/CN116089652B/zh
Publication of CN116089652A publication Critical patent/CN116089652A/zh
Application granted granted Critical
Publication of CN116089652B publication Critical patent/CN116089652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备,属于计算机视觉技术领域。该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得目标特征信息;基于目标特征信息,为图像样本集中的各图像样本生成初始伪标签,并以各非离群图像样本为节点构建第一KNN图;以第一KNN图和目标特征信息为训练数据,以初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于目标特征信息,以图像样本集中的各图像样本为节点构建第二KNN图;将第二KNN图输入目标伪标签校正模型,获得校正伪标签;以图像样本集为训练数据,以校正伪标签为监督数据对视觉检索模型进行训练。该方法能提高视觉检索模型的性能。

Description

视觉检索模型的无监督训练方法、装置和电子设备
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视觉检索模型的无监督训练方法、装置和电子设备。
背景技术
大范围视觉目标检索任务中模型的训练数据场景和应用场景之间往往存在领域差异(如视角、光线、背景等差异),直接迁移模型会导致检索性能下降,而收集应用场景下有标签的训练数据又往往比较困难。
无监督跨领域视觉检索任务不同于普通的有监督视觉检索任务,要求使用源域的标签和目标领域的无标签数据,实现在目标领域的样本检索,因此对模型的鲁棒性有较高要求。面向无监督跨领域自适应目标检索任务,现有方法首先根据目标领域的图像样本集通过视觉检索模型得到图像样本的特征,采用无监督聚类算法为无标签图像样本产生伪标签,然后利用伪标签监督视觉检索模型在目标领域上的迁移优化,通过聚类和优化步骤交替迭代进行以对视觉检索模型进行训练。
但是,无监督聚类算法是假设数据符合一个预设的分布,因此在真实数据上的聚类效果欠佳,会产生大量的伪标签噪声,进而误导后续视觉检索模型的优化方向,从而限制了视觉检索模型的性能。
发明内容
本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备,用以解决现有技术中伪标签中的噪声会误导视觉检索模型的优化方向,从而会限制视觉检索模型的性能的问题,实现通过对伪标签进行校正的方式来提高视觉检索模型的优化方向的可靠性,进而改善视觉检索模型的性能,提高视觉检索模型的泛化性能。
本发明提供一种视觉检索模型的无监督训练方法,包括:
将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;
基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN(K Nearest Neighbors,K最近邻)图;
以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;
基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;
将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;
以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,包括:
将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,所述目标特征信息包括特征矩阵和分类得分矩阵。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图,包括:
基于所述特征矩阵,对所述图像样本集进行初始聚类,为所述图像样本集中的各图像样本生成初始伪标签;
基于所述图像样本集的初始聚类结果,确定所述图像样本集中的离群图像样本和非离群图像样本;
基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图,包括:
基于所述特征矩阵和所述分类得分矩阵,生成所述图像样本集的联合相似度矩阵;
根据所述联合相似度矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型,包括:
获取所述第一KNN图的稀疏对称邻接矩阵,以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入;
通过所述伪标签校正模型中的图卷积神经网络层,基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强;
通过所述伪标签校正模型中的二分类器,预测进行特征增强后的所述第一KNN图中各链接的置信度;
基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签;
基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数,对所述伪标签校正模型的参数进行调整,获得目标伪标签校正模型。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签,包括:
将所述第二KNN图输入所述目标伪标签校正模型,获得所述第二KNN图中各链接的置信度;
去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接;
基于保留的链接获得各所述图像样本的校正伪标签。
根据本发明提供的一种视觉检索模型的无监督训练方法,所述去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后,还包括:
计算所述第二KNN图中保留的各链接的连通性;
去除所述第二KNN图中连通性低于第二预设阈值的链接,保留所述第二KNN图中连通性高于所述第二预设阈值的链接。
本发明还提供一种用于视觉检索模型的无监督训练装置,包括:
第一获取模块,用于将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;
生成构建模块,用于基于所述目标特征信息为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;
第一训练模块,用于以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;
构建模块,用于基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;
第二获取模块,用于将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;
第二训练模块,用于以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视觉检索模型的无监督训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视觉检索模型的无监督训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述视觉检索模型的无监督训练方法。
本发明提供的视觉检索模型的无监督训练方法、装置和电子设备,通过对视觉检索模型生成的初始伪标签进行校正,以校正伪标签监督视觉检索模型进行训练,提高了视觉检索模型的优化方向的可靠性,进而改善视觉检索模型的性能,提高了视觉检索模型的泛化性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视觉检索模型的无监督训练方法的流程示意图之一;
图2是本发明提供的现有技术的视觉检索模型训练方法的流程示意图;
图3是本发明提供的视觉检索模型的无监督训练方法的流程示意图之二;
图4是本发明提供的生成初始伪标签及构建第一KNN图的方法的流程示意图;
图5是本发明提供的视觉检索模型的无监督训练方法的流程示意图之三;
图6是本发明提供的构建第一KNN图的方法的流程示意图;
图7是本发明提供的获得目标伪标签校正模型的方法的流程示意图;
图8是本发明提供的不同训练轮次下伪标签校正模型NMI分数的示意图;
图9是本发明提供的获得校正伪标签的方法的流程示意图之一;
图10是本发明提供的获得校正伪标签的方法的流程示意图之二;
图11是本发明提供的视觉检索模型的无监督训练装置的结构示意图;
图12是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图10描述本发明的一种视觉检索模型的无监督训练方法,如图1所示,该方法包括:
S101:将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息。
S102:基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图。
S103:以所述第一KNN图为和所述目标特征信息训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型。
S104:基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图。
S105:将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签。
S106:以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整。
相关技术中,如图2中所示,对视觉检索模型进行训练的流程为:①视觉检索模型提取图像样本的目标特征信息;②基于提取的目标特征信息通过聚类生成图像样本的初始伪标签/>(/>表示为第/>轮次得到的初始伪标签),以初始伪标签作为监督数据监督视觉检索模型进行优化;③优化一次后的视觉检索模型再次提取图像样本中的目标特征信息;如此交替进行步骤②和③,训练得到目标视觉检索模型,目标视觉检索模型可以用于提取出检索图像的特征,该图像的特征则可以直接用于进行图像检索。
本方法基于一种即插即用的伪标签校正模型(GLC),如图3所示,在上述步骤②获得初始伪标签后,通过伪标签校正模型对初始伪标签进行校正,基于校正后的校正伪标签来作为监督数据,以对视觉检索模型进行优化。
具体的,本方法中,图像样本集为目标域的无标签图像样本数据,图像样本集中包括多个图像样本,将图像样本集输入视觉检索模型,视觉检索模型输出目标特征信息,目标特征信息中包括了各图像样本的特征信息。基于目标特征信息生成每个图像样本的初始伪标签,初始伪标签体现了各图像样本所属的类别,但该初始伪标签的噪声较大,即部分图像样本的初始伪标签可能是错误的。
初始伪标签体现了各图像样本所属的类别,不属于任何一类的图像样本为离群图像样本,其余的为非离群图像样本。基于目标特征信息,以图像样本集中的各非离群图像样本为节点构造第一KNN图。第一KNN图即是以每一个非离群图像样本为节点,将每个节点与最相似的K个节点进行链接,其中,K的取值可以通过实验进行确定。
以第一KNN图和所述目标特征信息为训练数据,以初始伪标签为监督数据对伪标签校正模型进行训练,获得目标伪标签校正模型。训练好目标伪标签校正模型后,基于目标特征信息,构建第二KNN图,第二KNN图中以图像样本集中所有图像样本为节点,即第二KNN图中包括了离群图像样本和非离群图像样本。将第二KNN图输入目标伪标签校正模型,目标伪标签校正模型输出校正伪标签。将该校正伪标签作为监督数据对视觉检索模型进行训练,以对视觉检索模型的参数进行调整。调整之后继续重复上述步骤,来调整视觉检索模型的参数,直到视觉检索模型收敛。
进一步的,上述步骤中最初的视觉检索模型可以为根据源域有标签的图像数据进行预训练得到的。对视觉检索模型进行预训练时,监督损失可以为交叉熵损失(cross-entropy loss)和三元组损失(triplet lost)的加权和,公式表达如下:
其中,表示源域图像数据集合,/>表示源域图像数据集合中的图像样本,/>表示源域图像数据集合中图像样本的数量,/>表示源域图像数据集合中图像样本的标签,表示三元组损失权重,/>表示三元组损失,/>表示交叉熵损失。
本发明提供的视觉检索模型的无监督训练方法,通过对视觉检索模型生成的初始伪标签进行校正,以校正伪标签监督视觉检索模型进行训练,提高了视觉检索模型的优化方向的可靠性,进而改善视觉检索模型的性能,提高了视觉检索模型的泛化性能。
在一个实施例中,所述将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,包括:
将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,所述目标特征信息包括特征矩阵和分类得分矩阵。
具体的,目标特征信息包括特征矩阵和分类得分矩阵,分类得分表明图像样本属于某分类的可能性。
在一个实施例中,如图4中所示,所述基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图,包括:
S401:基于所述特征矩阵,对所述图像样本集进行初始聚类,为所述图像样本集中的各图像样本生成初始伪标签。
S402:基于所述图像样本集的初始聚类结果,确定所述图像样本集中的离群图像样本和非离群图像样本。
S403:基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
具体的,如图5所示,基于特征矩阵,采用无监督聚类算法对图像样本集进行初始聚类,初始聚类即首先计算图像样本集中的各图像样本属于某一类的概率,基于属于某一类的概率将相似的图像样本进行聚集,组成一类。通过初始聚类获知了图像样本属于哪个类别后,为该图像样本生成初始伪标签。
可以理解的是,初始聚类后,有的图像样本不属于任何一个类别,这类图像样本则为离群图像样本,能够确定属于某一类别的图像样本为非离群图像样本。
基于特征矩阵和所述分类得分矩阵,以各非离群图像样本为节点构建第一KNN图,示例性的,可以先去除图像样本集中的离群图像样本来构建第一KNN图,也可以以图像样本集先构建KNN图,然后删除KNN图中的离群图像样本对应的节点和对应的链接以得到第一KNN图。
本实施例根据特征矩阵和分类得分矩阵来构建第一KNN图,综合考虑了特征的相似性和分类得分的相似性,能够增强相似性对于干扰因素的鲁棒性。
在一个实施例中,如图6所示,所述基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图,包括:
S601:基于所述特征矩阵和所述分类得分矩阵,生成所述图像样本集的联合相似度矩阵。
S602:根据所述联合相似度矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
具体的,参考图5和图6中所示,根据特征矩阵和分类得分矩阵,生成图像样本集的联合相似度矩阵
其中,λ为平衡特征矩阵和分类得分矩阵的系数,为特征矩阵,/>为分类得分矩阵。
根据上述得到的联合相似度矩阵构建第一KNN图。通常情况下,仅采用特征矩阵构建第一KNN图,会使得一些具有相似特征的节点无法连接起来,通过联合相似度矩阵,能够尽可能的将具有相似特征的节点连接起来,可以显著提高第一KNN图的召回率。
在一个实施例中,如图7所示,所述以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型,包括:
S701:获取所述第一KNN图的稀疏对称邻接矩阵,以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入。
S702:通过所述伪标签校正模型中的图卷积神经网络层,基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强。
S703:通过所述伪标签校正模型中的二分类器,预测进行特征增强后的所述第一KNN图中各链接的置信度。
S704:基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签。
S705:基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数,对所述伪标签校正模型的参数进行调整,获得目标伪标签校正模型。
具体的,获取第一KNN图的稀疏对称邻接矩阵,第一KNN图的稀疏对称邻接矩阵表示为,/>表示实数集合,/>表示节点i与节点j链接,/>表示节点i与节点j未链接,稀疏对称邻接矩阵为KNN图的数学表达形式。
伪标签校正模型包括图卷积神经网络层和二分类器。通过图卷积神经网络层,基于所述对称邻接矩阵和目标特征信息对第一KNN图上各节点进行特征增强,具体的特征增强方式为:
其中,为图卷积神经网络层第/>层的节点特征,/>为图卷积神经网络层第/>层的节点特征,当/>时,/>即为上述目标特征信息,/>为激活函数,/>为稀疏对称邻接矩阵的拉普拉斯变换形式,/>为图卷积神经网络层第/>层网络参数,/>表示矩阵转置符号。
进行特征增强后,通过二分类器预测特征增强后的第一KNN图中各链接的置信度。示例性的,基于初始伪标签获得图像样本集中的各图像样本之间链接的标签,以各图像样本之间链接的标签为监督信息。一个链接两端的节点的初始伪标签相同则该链接为正样本,则该链接的标签为1,一个链接两端的节点的初始伪标签不相同则该链接为负样本,则该链接的标签为0,如下所示:
其中,表示第/>个链接,/>表示链接/>第一端的第一节点,/>表示链接/>第二端的第二节点,/>表示第一节点的初始伪标签,/>表示第二节点的初始伪标签,/>表示第/>条链接的标签。
在对伪标签校正模型进行训练时,考虑到第一KNN图上正样本和负样本之间的不平衡(即负样本数量远多于正样本,也即标签为1的链接远少于标签为0的链接),本实施例通过损失函数来应对初始伪标签相同却未链接在一起的困难正样本,其中,损失函数为:
其中,表示图像样本个数,/>表示第/>条链接的标签,/>表示正样本个数,/>表示伪标签校正模型预测输出的置信度,/>表示负样本个数。
由于伪标签校正模型在训练时,会优先对第一KNN图中的正样本进行预测,因此基于早停训练策略来对伪标签校正模型进行训练,早停训练策略即在伪标签校正模型训练预设轮数且未收敛时停止训练,得到目标伪标签校正模型。
示例性的,参考图8中所示,在对伪标签校正模型进行训练时,记录不同训练轮数下伪标签校正模型的NMI(Normalized Mutual Information,归一化互信息)分数,可以选择NMI分数最高的训练轮数为早停轮数。
在一个实施例中,如图9所示,所述将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签,包括:
S901:将所述第二KNN图输入所述目标伪标签校正模型,获得所述第二KNN图中各链接的置信度。
S902:去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接。
S903:基于保留的链接获得各所述图像样本的校正伪标签。
具体的,在获得目标伪标签校正模型后,将第二KNN图输入目标伪标签校正模型,能够获得第二KNN图中各链接的置信度,置信度越低则表示链接两端的节点即图像样本的相似度越低,将置信度低于第一预设阈值τ1的链接删除,保留置信度高于τ1的链接,如此以将不够相似的图像样本之间的链接断开,基于连着的链接获得各图像样本的校正伪标签。
在一个实施例中,如图10所示,所述去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后,还包括:
S1001:计算所述第二KNN图中保留的各链接的连通性。
S1002:去除所述第二KNN图中连通性低于第二预设阈值的链接,保留所述第二KNN图中连通性高于所述第二预设阈值的链接。
具体的,进一步,还可以通过各链接的连通性,进一步筛除链接中的负样本,将连通性低于第二预设阈值的链接删除,其中节点ij的连通性为:
其中,表示共享的链接数,/>表示节点/>连通的链接数,/>表示节点/>连通的链接数。
下面对本发明提供的视觉检索模型的无监督训练装置进行描述,下文描述的视觉检索模型的无监督训练装置与上文描述的视觉检索模型的无监督训练方法可相互对应参照。
如图11中所示,该视觉检索模型的无监督训练装置包括:第一获取模块1101、生成构建模块1102、第一训练模块1103、构建模块1104、第二获取模块1105和第二训练模块1106;所述第一获取模块1101用于将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;所述生成构建模块1102用于基于所述目标特征信息为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;所述第一训练模块1103用于以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;所述构建模块1104用于基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;所述第二获取模块1105用于将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;所述第二训练模块1106用于以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整。
本发明提供的视觉检索模型的无监督训练装置,通过对视觉检索模型生成的初始伪标签进行校正,以校正伪标签监督视觉检索模型进行训练,提高了视觉检索模型的优化方向的可靠性,进而改善视觉检索模型的性能,提高了视觉检索模型的泛化性能。
在一个实施例中,所述第一获取模块1101具体用于:将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,所述目标特征信息包括特征矩阵和分类得分矩阵。
在一个实施例中,所述生成构建模块1102具体用于:
基于所述特征矩阵,对所述图像样本集进行初始聚类,为所述图像样本集中的各图像样本生成初始伪标签;基于所述图像样本集的初始聚类结果,确定所述图像样本集中的离群图像样本和非离群图像样本;基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
在一个实施例中,所述生成构建模块1102具体还用于:
基于所述特征矩阵和所述分类得分矩阵,生成所述图像样本集的联合相似度矩阵;根据所述联合相似度矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
在一个实施例中,所述第一训练模块1103具体用于:
获取所述第一KNN图的稀疏对称邻接矩阵,以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入;通过所述伪标签校正模型中的图卷积神经网络层,基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强;通过所述伪标签校正模型中的二分类器,预测进行特征增强后的所述第一KNN图中各链接的置信度;基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签;基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数,对所述伪标签校正模型的参数进行调整,获得目标伪标签校正模型。
在一个实施例中,所述第二获取模块1105具体用于:
将所述第二KNN图输入所述目标伪标签校正模型,获得所述第二KNN图中各链接的置信度;去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接;基于保留的链接获得各所述图像样本的校正伪标签。
在一个实施例中,所述第二获取模块1105具体还用于:
计算所述第二KNN图中保留的各链接的连通性;去除所述第二KNN图中连通性低于第二预设阈值的链接,保留所述第二KNN图中连通性高于所述第二预设阈值的链接。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行视觉检索模型的无监督训练方法,该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,对所述视觉检索模型的参数进行调整。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视觉检索模型的无监督训练方法,该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,对所述视觉检索模型的参数进行调整。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视觉检索模型的无监督训练方法,该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,对所述视觉检索模型的参数进行调整。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种视觉检索模型的无监督训练方法,其特征在于,包括:
将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;
基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;
以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;
基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;
将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;
以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整;
所述以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型,包括:
获取所述第一KNN图的稀疏对称邻接矩阵,以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入;
通过所述伪标签校正模型中的图卷积神经网络层,基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强;
通过所述伪标签校正模型中的二分类器,预测进行特征增强后的所述第一KNN图中各链接的置信度;
基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签;
基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数,对所述伪标签校正模型的参数进行调整,获得目标伪标签校正模型;
所述将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签,包括:
将所述第二KNN图输入所述目标伪标签校正模型,获得所述第二KNN图中各链接的置信度;
去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接;
基于保留的链接获得各所述图像样本的校正伪标签。
2.根据权利要求1所述的视觉检索模型的无监督训练方法,其特征在于,所述将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,包括:
将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息,所述目标特征信息包括特征矩阵和分类得分矩阵。
3.根据权利要求2所述的视觉检索模型的无监督训练方法,其特征在于,所述基于所述目标特征信息,为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图,包括:
基于所述特征矩阵,对所述图像样本集进行初始聚类,为所述图像样本集中的各图像样本生成初始伪标签;
基于所述图像样本集的初始聚类结果,确定所述图像样本集中的离群图像样本和非离群图像样本;
基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
4.根据权利要求3所述的视觉检索模型的无监督训练方法,其特征在于,所述基于所述特征矩阵和所述分类得分矩阵,以各所述非离群图像样本为节点构建所述第一KNN图,包括:
基于所述特征矩阵和所述分类得分矩阵,生成所述图像样本集的联合相似度矩阵;
根据所述联合相似度矩阵,以各所述非离群图像样本为节点构建所述第一KNN图。
5.根据权利要求4所述的视觉检索模型的无监督训练方法,其特征在于,所述去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接之后,还包括:
计算所述第二KNN图中保留的各链接的连通性;
去除所述第二KNN图中连通性低于第二预设阈值的链接,保留所述第二KNN图中连通性高于所述第二预设阈值的链接。
6.一种视觉检索模型的无监督训练装置,其特征在于,包括:
第一获取模块,用于将图像样本集输入视觉检索模型进行特征提取处理,获得所述视觉检索模型输出的目标特征信息;
生成构建模块,用于基于所述目标特征信息为所述图像样本集中的各图像样本生成初始伪标签,并以所述图像样本集中的各非离群图像样本为节点构建第一KNN图;
第一训练模块,用于以所述第一KNN图和所述目标特征信息为训练数据,以所述初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;
构建模块,用于基于所述目标特征信息,以所述图像样本集中的各所述图像样本为节点构建第二KNN图;
第二获取模块,用于将所述第二KNN图输入所述目标伪标签校正模型,获得所述目标伪标签校正模型输出的校正伪标签;
第二训练模块,用于以所述图像样本集为训练数据,以所述校正伪标签为监督数据对所述视觉检索模型进行训练,以对所述视觉检索模型的参数进行调整;
所述第一训练模块具体用于:
获取所述第一KNN图的稀疏对称邻接矩阵,以所述稀疏对称邻接矩阵和所述目标特征信息作为训练输入;通过所述伪标签校正模型中的图卷积神经网络层,基于所述对称邻接矩阵和所述目标特征信息对所述第一KNN图上各节点进行特征增强;通过所述伪标签校正模型中的二分类器,预测进行特征增强后的所述第一KNN图中各链接的置信度;基于所述初始伪标签获得所述图像样本集中的各图像样本之间链接的标签;基于特征增强后的所述第一KNN图中各链接的置信度和各图像样本之间链接的标签建立损失函数,对所述伪标签校正模型的参数进行调整,获得目标伪标签校正模型;
所述第二获取模块具体用于:
将所述第二KNN图输入所述目标伪标签校正模型,获得所述第二KNN图中各链接的置信度;去除所述第二KNN图中置信度低于第一预设阈值的链接,保留所述第二KNN图中置信度高于所述第一预设阈值的链接;基于保留的链接获得各所述图像样本的校正伪标签。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述视觉检索模型的无监督训练方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述视觉检索模型的无监督训练方法。
CN202310364413.7A 2023-04-07 2023-04-07 视觉检索模型的无监督训练方法、装置和电子设备 Active CN116089652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310364413.7A CN116089652B (zh) 2023-04-07 2023-04-07 视觉检索模型的无监督训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310364413.7A CN116089652B (zh) 2023-04-07 2023-04-07 视觉检索模型的无监督训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN116089652A CN116089652A (zh) 2023-05-09
CN116089652B true CN116089652B (zh) 2023-07-18

Family

ID=86204849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310364413.7A Active CN116089652B (zh) 2023-04-07 2023-04-07 视觉检索模型的无监督训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116089652B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935107A (zh) * 2023-07-12 2023-10-24 中国科学院自动化研究所 基于互联网搜索的检测类别自扩展目标检测方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941734B (zh) * 2019-11-07 2022-09-27 南京理工大学 基于稀疏图结构的深度无监督图像检索方法
CN110942025A (zh) * 2019-11-26 2020-03-31 河海大学 一种基于聚类的无监督跨域行人重识别方法
US20220230089A1 (en) * 2021-01-15 2022-07-21 Microsoft Technology Licensing, Llc Classifier assistance using domain-trained embedding
CN112861695B (zh) * 2021-02-02 2023-10-24 北京大学 行人身份再识别方法、装置、电子设备及存储介质
CN113221950A (zh) * 2021-04-13 2021-08-06 天津大学 基于自监督图神经网络的图聚类方法、装置及存储介质
CN113705772A (zh) * 2021-07-21 2021-11-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN114120063A (zh) * 2021-11-29 2022-03-01 中国人民解放军陆军工程大学 基于聚类的无监督细粒度图像分类模型训练方法及分类方法
CN113987236B (zh) * 2021-12-24 2022-03-22 中科视语(北京)科技有限公司 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN115293217A (zh) * 2022-08-23 2022-11-04 南京邮电大学 一种基于射频信号的无监督伪标签优化行人重识别方法
CN115439887A (zh) * 2022-08-26 2022-12-06 三维通信股份有限公司 一种基于伪标签优化的行人重识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN116089652A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN113515770B (zh) 基于隐私保护确定目标业务模型的方法及装置
CN113361334B (zh) 基于关键点优化和多跳注意图卷积行人重识别方法及系统
CN110490227B (zh) 一种基于特征转换的少样本图像分类方法
CN112287997A (zh) 一种基于生成式对抗网络的深度图卷积模型防御方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN116089652B (zh) 视觉检索模型的无监督训练方法、装置和电子设备
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN113705811B (zh) 模型训练方法、装置、计算机程序产品及设备
CN110717525B (zh) 一种通道自适应优化的对抗攻击防御方法和装置
CN112087447A (zh) 面向稀有攻击的网络入侵检测方法
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN113807366B (zh) 一种基于深度学习的点云关键点提取方法
CN111461907A (zh) 一种面向社交网络平台的动态网络表征学习方法
CN112381179A (zh) 一种基于双层注意力机制的异质图分类方法
CN113283590A (zh) 一种面向后门攻击的防御方法
CN115409099A (zh) 一种物联网流量异常检测模型建立方法及检测方法
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
CN114596464A (zh) 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114037014A (zh) 基于图自编码器的引用网络聚类方法
CN118155251A (zh) 一种基于语义通信式联邦学习的掌静脉识别方法
CN111737688B (zh) 基于用户画像的攻击防御系统
JP2021093144A (ja) センサ特化イメージ認識装置及び方法
CN114330672B (zh) 多信息聚合的图残差生成模型、分类方法、电子设备及存储介质
CN116704217A (zh) 基于困难样本挖掘的模型训练方法、设备和存储介质
CN116010832A (zh) 联邦聚类方法、装置、中心服务器、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant