CN113987236A - 基于图卷积网络的视觉检索模型的无监督训练方法和装置 - Google Patents
基于图卷积网络的视觉检索模型的无监督训练方法和装置 Download PDFInfo
- Publication number
- CN113987236A CN113987236A CN202111594299.4A CN202111594299A CN113987236A CN 113987236 A CN113987236 A CN 113987236A CN 202111594299 A CN202111594299 A CN 202111594299A CN 113987236 A CN113987236 A CN 113987236A
- Authority
- CN
- China
- Prior art keywords
- image sample
- network
- target
- information
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于图卷积网络的视觉检索模型的无监督训练方法和装置。其中方法包括:将图像样本集输入特征提取网络得到特征提取网络输出的目标特征信息;基于目标特征信息构建图像样本集的无向图,将无向图输入图卷积网络,将图像样本集输入特征提取网络,获取特征提取网络的中间层特征信息输入图卷积网络,得到图卷积网络输出第一概率分布信息和特征提取网络输出的目标特征信息;基于目标特征信息对图像样本集进行聚类,基于聚类的结果确定图像样本集的第二概率分布信息,基于第一概率分布信息和第二概率分布信息对特征提取网络和图卷积网络的参数进行调整。本发明可以提升样本的特征表达,从而提升特征提取网络的性能,提升视觉检索的效果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于图卷积网络的视觉检索模型的无监督训练方法和装置。
背景技术
跨领域视觉检索任务要求使用源域的标签和目标域的无标签图像,实现在目标领域的图像检索。因此对视觉检索模型的鲁棒性要求较高。
目前对跨领域视觉检索任务的视觉检索模型的训练主要通过两阶段来实现:第一阶段为根据图像样本集通过特征提取网络得到的特征,使用无监督聚类方法对图像样本集进行聚类,产生图像样本集的伪标签;第二阶段为利用伪标签作为监督信息通过图像样本集对特征提取网络进行训练。
上述对视觉检索模型的无监督训练方法存在以下问题:(1)在聚类过程会产生具有大量噪声的伪标签,使用伪标签监督的训练过程会降低特征的判别性;(2)特征提取网络能够从图像样本本身学习到有用的信息,但是不能够学习到图像样本之间的关系。
发明内容
本发明提供一种基于图卷积网络的视觉检索模型的无监督训练方法和装置,用以解决现有技术中伪标签的噪声会降低特征提取网络提取到的特征的判别性,以及特征提取网络不能够学习到图像样本之间的关系的缺陷,可以提高特征提取网络提取到的特征的判别性,并且可以学习到图像样本的结构化关系。
第一方面,本发明提供一种基于图卷积网络的视觉检索模型的无监督训练方法,包括:
将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
根据本发明提供的一种基于图卷积网络的视觉检索模型的无监督训练方法,所述基于所述目标特征信息构建所述图像样本集的无向图,包括:
基于所述目标特征信息,确定所述图像样本集中每个图像样本与其他图像样本之间的第一相似度;
基于所确定的第一相似度和预先设定的最近邻样本的数量,选取每个图像样本的最近邻图像样本;
将所述每个图像样本与其所选取的最近邻图像样本连接,构建所述图像样本集的无向图。
根据本发明提供的一种基于图卷积网络的视觉检索模型的无监督训练方法,所述获取所述特征提取网络的中间层特征信息输入所述图卷积网络,包括:
按照图像样本经过所述特征提取网络的层级顺序,依次获取所述特征提取网络中第一目标层输出的所述中间层特征信息;
将依次获取的所述中间层特征信息按照所述无向图经过所述图卷积网络的层级顺序,依次输入所述图卷积网络的第二目标层;
其中,所述第一目标层的数量与所述第二目标层的数量相等,所述第一目标层与所述第二目标层一一对应。
根据本发明提供的一种基于图卷积网络的视觉检索模型的无监督训练方法,所述将依次获取的所述中间层特征信息按照所述无向图经过所述图卷积网络的层级顺序,依次输入所述图卷积网络的第二目标层,包括:
基于所获取的中间层特征信息和待输入所述中间层特征信息的第二目标层的前一层输出的特征信息,确定所述第二目标层的输入信息;
将所确定的输入信息输入所述第二目标层。
根据本发明提供的一种基于图卷积网络的视觉检索模型的无监督训练方法,所述基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,包括:
基于所述目标特征信息,确定所述聚类处理得到的聚类中心与所述图像样本集中每个图像样本之间的第二相似度;
基于所确定的第二相似度得到所述第二概率分布信息。
根据本发明提供的一种基于图卷积网络的视觉检索模型的无监督训练方法,所述基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失,包括:
基于所述第二概率分布信息确定目标概率分布信息;
基于所述第二概率分布信息与所述目标概率分布信息确定第一训练损失;
基于所述第一概率分布信息与所述目标概率分布信息确定第二训练损失;
基于所述第一训练损失和所述第二训练损失确定当前的训练损失。
第二方面,本发明还提供一种基于图卷积网络的视觉检索模型的无监督训练装置,包括:
第一训练模块,用于将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
第二训练模块,用于基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
损失确定模块,用于基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
参数调整模块,用于基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
第四方面,发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
第五方面,发明还提供一种计算机程序产品,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
本发明提供的基于图卷积网络的视觉检索模型的无监督训练方法和装置,将图卷积网络的深度聚类功能引入到基于聚类的视觉检索模型的无监督训练中,通过构建图像样本集的无向图输入图卷积网络,将图像样本集输入特征提取网络,获取特征提取网络的中间层特征信息输入图卷积网络,以图卷积网络输出的分类结果作为图像样本的伪标签,可以实现对特征提取网络端到端的训练,避免了两阶段的训练过程而引入带噪声的伪标签,并且通过图卷积网络可以使图像样本的特征能够交互,从而学习到图像样本的结构化关系,利用图卷积网络与特征提取网络相互促进,迭代提升,可以提升样本的特征表达,从而提高特征提取网络提取到的特征的判别性,提升特征提取网络的性能,进而提升视觉检索的效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于图卷积网络的视觉检索模型的无监督训练方法的流程示意图;
图2是本发明提供的构建图像样本集的无向图的流程示意图;
图3是本发明提供的将特征提取网络的中间层特征信息输入图卷积网络的流程示意图;
图4是本发明提供的确定当前的训练损失的流程示意图;
图5是本发明提供的基于图卷积网络的视觉检索模型的无监督训练方法的应用场景的示意图;
图6是本发明提供的基于图卷积网络的视觉检索模型的无监督训练装置的组成结构示意图;
图7是本发明提供的电子设备的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的基于图卷积网络的视觉检索模型的无监督训练方法。
请参阅图1,图1是本发明提供的基于图卷积网络的视觉检索模型的无监督训练方法的流程示意图,图1所示的基于图卷积网络的视觉检索模型的无监督训练方法可以由基于图卷积网络的视觉检索模型的无监督训练装置执行,基于图卷积网络的视觉检索模型的无监督训练装置可以设置于客户端或者服务器,例如,客户端可以为智能手机、笔记型计算机、车载计算机、机器人、可穿戴设备等,服务器可以为包含独立主机的物理服务器、主机集群承载的虚拟服务器、云服务器等,本发明实施例对此不作限定。如图1所示,该基于图卷积网络的视觉检索模型的无监督训练方法至少包括:
101,将图像样本集输入特征提取网络进行特征提取处理,得到特征提取网络输出的目标特征信息。
在本发明实施例中,图像样本集可以为用于对视觉检索任务的特征提取网络进行训练的图像样本集,图像样本集可以采用现有的图像样本集,或者也可以通过对图像样本的收集获得,本发明实施对图像样本集的获取方式不作限定。特征提取网络可以为对视觉检索任务的图像进行特征提取的人工神经网络(Artificial Neural Network,简称ANN ),例如,特征提取网络可以为卷积神经网络(Convolutional Neural Networks,简称CNN)、深度神经网络(Deep Neural Networks,简称DNN)、循环神经网络(Recurrent NeuralNetwork, 简称RNN)等,本发明实施例对特征提取网络的类型不作限定。可以将图像样本集输入初始化后的特征提取网络,通过特征提取网络对图像样本集中的图像样本进行特征提取处理,得到特征提取网络输出的图像样本集的目标特征信息。在本发明实施例中,特征信息可以为特征向量、特征图等,本发明实施例对特征信息的类型不作限定。
102,基于目标特征信息构建图像样本集的无向图,将无向图输入图卷积网络进行聚类处理,将图像样本集输入特征提取网络进行特征提取处理,获取特征提取网络的中间层特征信息输入图卷积网络,得到图卷积网络输出的图像样本集的第一概率分布信息和特征提取网络输出的目标特征信息。
在本发明实施例中,在通过特征提取网络获得图像样本集的目标特征信息之后,可以根据所得到的目标特征信息确定图像样本集中图像样本之间的连接关系,以图像样本集中的每个图像样本作为节点,构建图像样本集的无向图,本发明实施例对根据目标特征信息构建图像样本集的无向图的实现方法不作限定。在得到图像样本集的无向图之后,可以将所得到的无向图输入图卷积网络 (Graph Convolutional Network,简称GCN) ,通过图卷积网络对样本图像集的无向图进行处理;同时将样本图像集输入特征提取网络,通过特征提取网络对图像样本集中的图像样本进行特征提取处理;并获取特征提取网络的中间层特征信息,将所获取的中间层特征信息输入图卷积网络;得到图卷积网络输出的图像样本集中图像样本分类的第一概率分布信息和特征提取网络输出的目标特征信息。其中,图卷积网络可以为初始化后的图卷积网络。
本发明实施例对获取中间层特征信息的特征提取网络的层数不作限定。可选地,可以依次获取特征提取网络中除最后一层外的所有层输出的中间层特征信息,依次输入图卷积网络;或者也可以依次获取特征提取网络中除最后一层外的部分层输出的中间层特征信息,依次输入图卷积网络,本发明实施例对获取中间层特征信息的部分层在特征提取网络中的位置不做作限定。其中,获取中间层特征信息的特征提取网络的层数与输入中间层特征信息的图卷积网络的层数相等,并且一一对应。
103,基于目标特征信息对图像样本集进行聚类处理,基于聚类处理的结果确定图像样本集的第二概率分布信息,基于第一概率分布信息和第二概率分布信息确定当前的训练损失。
在本发明实施例中,在通过图卷积网络和特征提取网络获得图像样本集的第一概率分布信息和目标特征信息之后,可以根据所得到的目标特征信息对图像样本集中图像样本进行聚类处理,并根据聚类处理得到的结果确定图像样本集中图像样本分类的第二概率分布信息。例如,聚类处理可以采用K均值聚类或者层次聚类等常用的聚类方法,本发明实施例对根据目标特征信息对图像样本集进行聚类处理的实现方法,以及根据聚类处理的结果确定图像样本集第二概率分布信息的实现方法不作限定。在得到图像样本集的第二概率分布信息之后,可以根据第一概率分布信息和第二概率分布信息,通过损失函数确定特征提取网络和图卷积网络当前的训练损失,例如,可以采用相对熵损失函数等常用的损失函数,本发明实施例对根据第一概率分布信息和第二概率分布信息确定当前训练损失的损失函数的类型不作限定。
104,基于所确定的当前的训练损失,对特征提取网络和图卷积网络的参数进行调整。
在本发明实施例中,在确定特征提取网络和图卷积网络当前的训练损失之后,可以根据所确定的当前的训练损失对特征提取网络和图卷积网络的参数进行调整,完成对特征提取网络和图卷积网络的一轮训练,在下一轮训练时重复101、102、103和104,直至通过图卷积网络获得的第一概率分布信息与通过特征提取网络的目标特征信息获得的第二概率分布信息趋于一致,得到目标特征提取网络。
本发明实施例提供的于图卷积网络的视觉检索模型的无监督训练方法,将图卷积网络的深度聚类功能引入到基于聚类的视觉检索模型的无监督训练中,通过构建图像样本集的无向图输入图卷积网络,将图像样本集输入特征提取网络,获取特征提取网络的中间层特征信息输入图卷积网络,以图卷积网络输出的分类结果作为图像样本的伪标签,可以实现对特征提取网络端到端的训练,避免了两阶段的训练过程而引入带噪声的伪标签,并且通过图卷积网络可以使图像样本的特征能够交互,从而学习到图像样本的结构化关系,利用图卷积网络与特征提取网络相互促进,迭代提升,可以提升样本的特征表达,从而提高特征提取网络提取到的特征的判别性,提升特征提取网络的性能,进而提升视觉检索的效果。
请参阅图2,图2是本发明提供的构建图像样本集的无向图的流程示意图,如图2所示,基于目标特征信息构建图像样本集的无向图至少包括:
201,基于目标特征信息,确定图像样本集中每个图像样本与其他图像样本之间的第一相似度。
202,基于所确定的第一相似度和预先设定的最近邻样本的数量,选取每个图像样本的最近邻图像样本。
203,将每个图像样本与其所选取的最近邻图像样本连接,构建图像样本集的无向图。
在本发明实施例中,由于图卷积网络的训练依赖于图结构,因此可以根据图像样本集输入特征提取网络进行特征提取处理所得到的目标特征信息,计算图像样本集中每个图像样本与其他图像样本之间的第一相似度,然后针对每个图像样本,根据计算得到的第一相似度和预先设定的最近邻样本的数量,选取与该图像样本相似度大的图像样本,作为该图像样本的最近邻图像样本,最后将每个图像样本所选取的最近邻图像样本作为该图像样本的邻居节点,与该图像样本连接,得到图像样本集的无向图。其中,可以采用现有的相似度计算方法计算第一相似度,本发明实施例对计算第一相似度的实现方法不作限定。
例如,可以采用K近邻算法(K-Nearest Neighbor algorithm,简称KNN)构建图像样本集的无向图。可以根据公式1计算图像样本集中第i个图像样本与第j个图像样本之间的第一相似度,公式1的形式如下:
在根据公式1计算完图像样本集中所有图像样本的第一相似度后,可以得到图像样本集的第一相似度矩阵S,从第一相似度矩阵S中选取每个图像样本的K个最近邻图像样本,作为该图像样本的邻居节点,与该图像样本连接,从而构造图像样本集的一个无向图。
请参阅图3,图3是本发明提供的将特征提取网络的中间层特征信息输入图卷积网络的流程示意图,如图3所示,获取特征提取网络的中间层特征信息输入图卷积网络至少包括:
301,按照图像样本经过特征提取网络的层级顺序,依次获取特征提取网络中第一目标层输出的中间层特征信息。
302,将依次获取的中间层特征信息按照无向图经过图卷积网络的层级顺序,依次输入图卷积网络的第二目标层。
在本发明实施例中,为了训练得到一个更好的特征提取网络,获得样本更好的特征表达,将特征提取网络与图卷积网络在网络结构上建立连接,在将图像样本集的无向图输入图卷积网络,将图像样本集输入特征提取网络之后,可以图像样本经过特征提取网络的层级顺序,依次获取特征提取网络中第一目标层输出的中间层特征信息,并将其作为图卷积网络中第二目标层的输入,按照无向图经过图卷积网络的层级顺序,依次输入图卷积网络的第二目标层,其中,第一目标层的数量与第二目标层的数量相等,第一目标层与第二目标层一一对应。在将从第一目标层获取的中间层特征信息输入第二目标层时,可以根据所获取的中间层特征信息和待输入该中间层特征信息的第二目标层的前一层输出的特征信息,确定第二目标层的输入信息,然后将所确定的输入信息输入第二目标层。其中,第二目标层的前一层可以为需要输入所获取的中间层特征信息的第二目标层,或者也可以为不需要输入所获取的中间层特征信息的图卷积网络中的普通层,本发明实施例对此不作限定。
可选地,可以为中间层特征信息和第二目标层的前一层输出的特征信息分别设置权重,通过对中间层特征信息和第二目标层的前一层输出的特征信息加权求和,得到第二目标层的输入信息。但是本发明实施例对根据中间层特征信息和第二目标层的前一层输出的特征信息确定第二目标层的输入信息的实现方法不作限定。
例如,从特征提取网络获取的特征提取网络的第-1层输出的中间层特征信息为,图卷积网络的第层输出的特征信息为,可以表示为,其中,图卷积网络中第层的前一层,即第
-1层输出的特征信息,为特征提取网络和图卷积网络中除第一层和第二层以外的网络层,图卷积网络中第层的参数。
在将特征提取网络的第-1层输出的中间层特征信息输入图卷积网络中
第层时,可以根据中间层特征信息图卷积网络中第层的前一层输出的特征信
息,获得图卷积网络中第层的输入信息,再将输入图卷积网络的第层,得到图卷积网络中第层输出的特征信息,其中,。
由于图卷积网络的最后一层为使用softmax函数的多分类层,其输出的特征信息
可以表示为,其中,为图卷积网络的第层输出
的特征信息,表示图像样本i属于聚类中心j的概率,因此图卷积网络的输出Z
可以为样本图像分类的第一概率分布信息。
本发明实施例通过将特征提取网络与图卷积网络建立连接,在网络训练过程中增加中间层特征的融合,将特征提取网络学习到的中间层特征信息集成到图卷积网络中,可以使图卷积网络学习到的特征信息包括图像样本本身的特征信息和图像样本之间的关系两种不同类型的信息,当利用图卷积网络学习到的特征信息对图像样本集中的图像样本进行分类,并利用图像样本集的分类结果对特征提取网络进行训练时,由于提升了样本的特征表达,因此可以有效提升特征提取网络的性能。
请参阅图4,图4是本发明提供的确定当前的训练损失的流程示意图,如图4所示,确定当前的训练损失至少包括:
401,基于目标特征信息对图像样本进行聚类处理。
402,基于目标特征信息,确定聚类处理得到的聚类中心与图像样本之间的第二相似度。
403,基于所确定的第二相似度得到第二概率分布信息。
404,基于第二概率分布信息确定目标概率分布信息。
405,基于第二概率分布信息与目标概率分布信息确定第一训练损失。
406,基于第一概率分布信息与目标概率分布信息确定第二训练损失。
407,基于第一训练损失和第二训练损失确定当前的训练损失。
在本发明实施例中,通过将特征提取网络与图卷积网络在网络结构上建立连接,可以对特征提取网络和图卷积网络进行联合训练。在联合训练过程中,可以根据特征提取网络输出的图像样本集的目标特征信息对图像样本集中的图像样本进行聚类,并根据图像样本集的目标特征信息,计算聚类得到的各聚类中心与图像样本集中每个图像样本之间的第二相似度,然后根据计算得到的第二相似度得到图像样本集中图像样本分类的第二概率分布信息,并根据图像样本集的第二概率分布信息确定图像样本集的目标概率分布信息,从而根据图像样本集的目标概率分布信息和第二概率分布信息,通过损失函数确定第一训练损失,根据图像样本集的目标概率分布信息和图卷积网络输出的第一概率分布信息,通过损失函数确定第二训练损失,最后根据第一训练损失和第二训练损失确定当前的训练损失。
其中,可以采用现有的相似度计算方法计算第二相似度,本发明实施例对计算第二相似度的实现方法不作限定。根据第二概率分布信息可以采用现有的方法确定目标概率分布信息,本发明实施例对确定目标概率分布信息的实现方法不作限定。可选地,可以为第一训练损失和第二训练损失分别设置权重,通过对第一训练损失和第二训练损失加权求和,得到当前的训练损失。但是本发明实施例对根据第一训练损失和第二训练损失确定当前的训练损失的实现方法不作限定。
例如,根据特征提取网络输出的图像样本集的目标特征信息,对图像样本集进行K均值聚类,对于第i个图像样本和第j个聚类,采用学生t分布作为核来计算第i个图像样本与第j个聚类中心之间的第二相似度,计算第二相似度的公式2的形式如下:
在获得图像样本集的第二概率分布信息Q之后,可以从高置信度分布优化数据表示,使图像样本与聚类中心更接近,以此提高聚类的效果。可以通过公式3计算图像样本集的目标概率分布信息P,公式3的形式如下:
通过公式4中使第二概率分布信息Q和目标概率分布信息P分布之间的相对熵损失最小化,目标概率分布信息P能够使特征提取网络通过聚类过程学习到一个更好的特征信息。由于目标概率分布信息P使由第二概率分布信息Q 计算得到,目标概率分布信息P用于监督第二概率分布信息Q的更新,因此这一过程可以被认为是一种自监督策略。
对于图卷积网络得到的第一概率分布信息Z,同样采用相对熵损失,通过目标概率分布信息P来监督第一概率分布信息Z,相对熵损失的计算公式5的形式如下:
采用相对熵损失函数与传统的多分类损失函数相比,可以以更温和的方式更新模型,可以防止特征信息受到干扰。
根据公式4和公式5可以得到计算特征提取网络和图卷积网络当前损失的损失函数,即公式6,公式6的形式如下:
本发明实施例的联合训练过程,通过使图卷积网络和特征提取网络在统一的优化目标中,可以使它们的结果在训练过程中趋于一致,可以实现同时对特征提取网络和图卷积网络端到端的训练。
请参阅图5,图5是本发明提供的基于图卷积网络的视觉检索模型的无监督训练方法的应用场景的示意图,如图5所示,特征提取网络可以采用深度残差网络,该训练方法具体包括以下步骤:
步骤1:将目标域图像样本输入特征提取网络,得到特征提取网络输出的目标域图像样本的最终特征表示。
步骤2:根据目标域图像样本的最终特征表示,构建目标域图像样本的无向图,将无向图输入多层图卷积网络,将目标域图像样本输入特征提取网络,利用特征提取网络得到多个层级的多个中间层特征表示,然后将多个中间层特征表示输入多层图卷积网络,最后利用Softmax层进行分类得到目标域图像样本的深度聚类结果。
步骤3:对特征提取网络输出的目标域图像样本的最终特征表示进行K均值聚类,得到目标域图像样本的无监督聚类结果,利用交叉熵损失,通过使深度聚类结果与无监督聚类结果的分布一致性,对整个网络实现端到端的训练。
整个训练过程是一个迭代提升的过程,图卷积网络不断根据特征提取网络得到的特征表示进行建图和训练。
步骤4:在测试时,只需要向特征提取网络输入一个图像,就可以输出该图像的特征,使用该特征能够进行图像检索。
下面对本发明提供的基于图卷积网络的视觉检索模型的无监督训练装置进行描述,下文描述的基于图卷积网络的视觉检索模型的无监督训练装置与上文描述的基于图卷积网络的视觉检索模型的无监督训练方法可相互对应参照。
请参阅图6,图6是本发明提供的基于图卷积网络的视觉检索模型的无监督训练装置的组成结构示意图,图6所示的基于图卷积网络的视觉检索模型的无监督训练装置可用来执行图1的基于图卷积网络的视觉检索模型的无监督训练方法,如图6所示,该基于图卷积网络的视觉检索模型的无监督训练装置至少包括:
第一训练模块610,用于将图像样本集输入特征提取网络进行特征提取处理,得到特征提取网络输出的目标特征信息。
第二训练模块620,用于基于目标特征信息构建图像样本集的无向图,将无向图输入图卷积网络进行聚类处理,将图像样本集输入特征提取网络进行特征提取处理,获取特征提取网络的中间层特征信息输入图卷积网络,得到图卷积网络输出的图像样本集的第一概率分布信息和特征提取网络输出的目标特征信息;
损失确定模块630,用于基于目标特征信息对图像样本集进行聚类处理,基于聚类处理的结果确定图像样本集的第二概率分布信息,基于第一概率分布信息和第二概率分布信息确定当前的训练损失。
参数调整模块640,用于基于所确定的当前的训练损失,对特征提取网络和图卷积网络的参数进行调整。
可选地,第二训练模块620,包括:
相似度计算单元,用于基于目标特征信息,确定图像样本集中每个图像样本与其他图像样本之间的第一相似度。
样本选取单元,用于基于所确定的第一相似度和预先设定的最近邻样本的数量,选取每个图像样本的最近邻图像样本。
图构建单元,用于将每个图像样本与其所选取的最近邻图像样本连接,构建图像样本集的无向图。
可选地,第二训练模块620,还包括:
中间特征获取单元,用于按照图像样本经过特征提取网络的层级顺序,依次获取特征提取网络中第一目标层输出的中间层特征信息。
中间特征输入单元,用于将依次获取的中间层特征信息按照无向图经过图卷积网络的层级顺序,依次输入图卷积网络的第二目标层。
其中,第一目标层的数量与第二目标层的数量相等,第一目标层与第二目标层一一对应。
可选地,中间特征输入单元,用于:
基于所获取的中间层特征信息和待输入中间层特征信息的第二目标层的前一层输出的特征信息,确定第二目标层的输入信息;
将所确定的输入信息输入第二目标层。
可选地,损失确定模块630,包括:
相似度计算单元,用于基于目标特征信息,确定聚类处理得到的聚类中心与图像样本集中每个图像样本之间的第二相似度。
概率分布计算单元,用于基于所确定的第二相似度得到第二概率分布信息。
可选地,损失确定模块630,还包括:
概率分布计算单元,用于基于第二概率分布信息确定目标概率分布信息。
第一训练损失计算单元,用于基于第二概率分布信息与目标概率分布信息确定第一训练损失。
第二训练损失计算单元,用于基于第一概率分布信息与目标概率分布信息确定第二训练损失。
当前训练损失计算单元,用于基于第一训练损失和第二训练损失确定当前的训练损失。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(CommunicationsInterface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于图卷积网络的视觉检索模型的无监督训练方法,该方法包括:
将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例提供的基于图卷积网络的视觉检索模型的无监督训练方法,该方法包括:
将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的基于图卷积网络的视觉检索模型的无监督训练方法,该方法包括:
将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,包括:
将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
2.根据权利要求1所述的基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,所述基于所述目标特征信息构建所述图像样本集的无向图,包括:
基于所述目标特征信息,确定所述图像样本集中每个图像样本与其他图像样本之间的第一相似度;
基于所确定的第一相似度和预先设定的最近邻样本的数量,选取每个图像样本的最近邻图像样本;
将所述每个图像样本与其所选取的最近邻图像样本连接,构建所述图像样本集的无向图。
3.根据权利要求1或2所述的基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,所述获取所述特征提取网络的中间层特征信息输入所述图卷积网络,包括:
按照图像样本经过所述特征提取网络的层级顺序,依次获取所述特征提取网络中第一目标层输出的所述中间层特征信息;
将依次获取的所述中间层特征信息按照所述无向图经过所述图卷积网络的层级顺序,依次输入所述图卷积网络的第二目标层;
其中,所述第一目标层的数量与所述第二目标层的数量相等,所述第一目标层与所述第二目标层一一对应。
4.根据权利要求3所述的基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,所述将依次获取的所述中间层特征信息按照所述无向图经过所述图卷积网络的层级顺序,依次输入所述图卷积网络的第二目标层,包括:
基于所获取的中间层特征信息和待输入所述中间层特征信息的第二目标层的前一层输出的特征信息,确定所述第二目标层的输入信息;
将所确定的输入信息输入所述第二目标层。
5.根据权利要求1至4任一项所述的基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,所述基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,包括:
基于所述目标特征信息,确定所述聚类处理得到的聚类中心与所述图像样本集中每个图像样本之间的第二相似度;
基于所确定的第二相似度得到所述第二概率分布信息。
6.根据权利要求5所述的基于图卷积网络的视觉检索模型的无监督训练方法,其特征在于,所述基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失,包括:
基于所述第二概率分布信息确定目标概率分布信息;
基于所述第二概率分布信息与所述目标概率分布信息确定第一训练损失;
基于所述第一概率分布信息与所述目标概率分布信息确定第二训练损失;
基于所述第一训练损失和所述第二训练损失确定当前的训练损失。
7.一种基于图卷积网络的视觉检索模型的无监督训练装置,其特征在于,包括:
第一训练模块,用于将图像样本集输入特征提取网络进行特征提取处理,得到所述特征提取网络输出的目标特征信息;
第二训练模块,用于基于所述目标特征信息构建所述图像样本集的无向图,将所述无向图输入图卷积网络进行聚类处理,将所述图像样本集输入所述特征提取网络进行特征提取处理,获取所述特征提取网络的中间层特征信息输入所述图卷积网络,得到所述图卷积网络输出的所述图像样本集的第一概率分布信息和所述特征提取网络输出的所述目标特征信息;
损失确定模块,用于基于所述目标特征信息对所述图像样本集进行聚类处理,基于所述聚类处理的结果确定所述图像样本集的第二概率分布信息,基于所述第一概率分布信息和所述第二概率分布信息确定当前的训练损失;
参数调整模块,用于基于所确定的当前的训练损失,对所述特征提取网络和所述图卷积网络的参数进行调整。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
10.一种计算机程序产品,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于图卷积网络的视觉检索模型的无监督训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594299.4A CN113987236B (zh) | 2021-12-24 | 2021-12-24 | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594299.4A CN113987236B (zh) | 2021-12-24 | 2021-12-24 | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987236A true CN113987236A (zh) | 2022-01-28 |
CN113987236B CN113987236B (zh) | 2022-03-22 |
Family
ID=79734208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111594299.4A Active CN113987236B (zh) | 2021-12-24 | 2021-12-24 | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987236B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089652A (zh) * | 2023-04-07 | 2023-05-09 | 中国科学院自动化研究所 | 视觉检索模型的无监督训练方法、装置和电子设备 |
CN116520758A (zh) * | 2023-07-03 | 2023-08-01 | 沈阳宝隆飞机零部件有限公司 | 一种机加工设备远程控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
CN111950372A (zh) * | 2020-07-13 | 2020-11-17 | 南京航空航天大学 | 一种基于图卷积网络的无监督行人重识别方法 |
US20210142046A1 (en) * | 2019-11-13 | 2021-05-13 | Nec Laboratories America, Inc. | Deep face recognition based on clustering over unlabeled face data |
-
2021
- 2021-12-24 CN CN202111594299.4A patent/CN113987236B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
US20210142046A1 (en) * | 2019-11-13 | 2021-05-13 | Nec Laboratories America, Inc. | Deep face recognition based on clustering over unlabeled face data |
CN111950372A (zh) * | 2020-07-13 | 2020-11-17 | 南京航空航天大学 | 一种基于图卷积网络的无监督行人重识别方法 |
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
Non-Patent Citations (2)
Title |
---|
TIANYI YAN等: "Unsupervised Domain Adaptive Re-Identification with Feature", 《ICPR 2021》 * |
XUNKAI LI等: "A Deep Graph Structured Clustering Network", 《IEEE》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089652A (zh) * | 2023-04-07 | 2023-05-09 | 中国科学院自动化研究所 | 视觉检索模型的无监督训练方法、装置和电子设备 |
CN116520758A (zh) * | 2023-07-03 | 2023-08-01 | 沈阳宝隆飞机零部件有限公司 | 一种机加工设备远程控制方法及系统 |
CN116520758B (zh) * | 2023-07-03 | 2023-09-01 | 沈阳宝隆飞机零部件有限公司 | 一种机加工设备远程控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113987236B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
US20210241034A1 (en) | Method of and system for generating training images for instance segmentation machine learning algorithm | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN109086653B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN113435509B (zh) | 基于元学习的小样本场景分类识别方法及系统 | |
CN113628294A (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN113095370B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
US11223782B2 (en) | Video processing using a spectral decomposition layer | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN108985442B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN111898703A (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN113688814B (zh) | 图像识别方法及装置 | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 | |
CN113705402A (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN113066537B (zh) | 基于图神经网络的化合物分类方法 | |
CN115858725A (zh) | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 | |
Everett et al. | ProtoCaps: A Fast and Non-Iterative Capsule Network Routing Method | |
CN114693997A (zh) | 基于迁移学习的图像描述生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |