CN114612726A - 一种基于字典学习的零样本图像分类方法 - Google Patents
一种基于字典学习的零样本图像分类方法 Download PDFInfo
- Publication number
- CN114612726A CN114612726A CN202210286505.3A CN202210286505A CN114612726A CN 114612726 A CN114612726 A CN 114612726A CN 202210286505 A CN202210286505 A CN 202210286505A CN 114612726 A CN114612726 A CN 114612726A
- Authority
- CN
- China
- Prior art keywords
- class
- space
- invisible
- semantic
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000007 visual effect Effects 0.000 claims abstract description 120
- 238000012360 testing method Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 66
- 239000004576 sand Substances 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 241000894007 species Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 241000938605 Crocodylia Species 0.000 description 1
- 241001023788 Cyttus traversi Species 0.000 description 1
- 241001553680 Euphorbia myrsinites Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000003 hoof Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于字典学习的零样本图像分类方法,属于字典学习技术领域。包括获取图像数据集;对图像数据集进行预处理得到训练集和测试集;构建核心字典学习框架,并将训练集输入基于字典学习的网络模型中得到图片图像特征,基于字典学习的网络模型包括学习类模型、结构对齐、域自适应、类原型约束模块;通过计算字典学习网络模型的损失函数,对该模型中的参数进行调节;图片图像特征和语义信息特征共同训练得到分类器;将测试集输入分类器进行分类。相较于现有技术,本发明通过在基于字典学习框架网络中加入类原型约束,使生成的视觉图像特征更加多样化,提高了分类准确度。
Description
技术领域
本发明公开了一种基于字典学习的零样本图像分类方法,属于字典学习技术领域。
背景技术
随着机器学习的不断发展,深度学习在图像分类、目标检测等方面都有了很大的提升。在传统的图像识别或者分类的模型中,一般是将所有需要判别类别的图像先在训练集中训练得到一个模型,然后再将测试图片放入该模型中进行判别,测试类的类别在训练集中就已经出现。因此如果在预测时想要获得较高的准确度,就需要耗费大量的人力物力财力。但是随着识别对象类别的不断增加,对于很多稀有的物种(比如出现在北极地带的爬行生物)要收集它们大量的图像样本是不现实的,从而使得这些有监督的学习方法难以识别未在训练阶段未出现的不可见类。
为了解决上述产生的问题,Larochelle H等首次提出了零样本学习问题。假设以前从未听过动物类别“麋鹿”或者见过它的样貌,但是根据以下描述却能很好的学习一个视觉分类器:“头像马、角像鹿、蹄像牛、尾像驴”,因此即使没见过它,也能根据上面的描述判断这是“麋鹿”。
对于零样本学习而言,就是要识别出训练时从未见过的类别的样本。将已经见过的类别迁移到没有见过的类别中去,让在训练阶段训练出来的模型学到更加本质的东西,并且将它们举一反三迁移到没见过的类别。
传统的零样本学习的方法主要是通过人工标注的属性作为中间类别描述信息实现零样本类别预测。最早出现的就是H.Lampert等提出的基于属性类间迁移的未见类检测方法,提出了DAP模型,该模型对每个属性都学习一个二分类器,但该方法存在的最大的缺点就是该方法使用属性分类器对测试类别进行识别分类,导致对于属性的识别准确度较高,对于测试类的识别准确率较低。Suzuki等对每一个属性设置了权重;Parkash等为了提高模型训练效率,在训练阶段以属性作为载体同时将它作为反馈来向模型返回更多信息。后来Socher等首次将零样本学习问题转化为子空间问题,通过使用双层神经网络作为跨模态映射模型将图像和类标签同时映射到语义空间,并利用相似性度量方法(余弦相似性、K近邻方法)确定测试类输入图像的类标签,但它造成了映射域偏移问题;Zhang等提出了一种将语义向量映射到图像特征空间的思路,该模型与之前将图像特征映射到语义空间的思路截然相反,由于类标签的输入明显少于输入图像的个数所以在一定程度上有效缓解了枢纽化问题。Akata等提出的SJE模型利用了多种辅助语义信息源,通过使用凸组合将各个相容性函数组合在一起,然后利用多个视图综合判断进而提高预测类标签的置信度。
但是传统的零样本学习的方法主要就是人工建立一个由属性或者词嵌入构建的语义空间从而学习训练数据到该空间的映射,然后测试样本通过这个映射到语义空间再结合最近邻方法输出预测。但这样的直接训练给测试样本造成了域偏移的问题。
发明内容
发明目的:本发明设计一种基于字典学习的零样本图像分类方法,通过一个耦合字典学习框架实现视觉—语义结构的对齐;通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题;通过保留视觉跟语义类原型的几何属性实现更好的对齐效果。
为实现上述目的,本发明提供了一种基于字典学习的零样本图像分类方法,所述方法包括以下步骤:
步骤一:获取计算机视觉的通用图像数据集;
步骤二:对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤三:构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉和语义类原型的几何属性;
步骤四:将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤五:将测试集输入所述分类器,以实现对测试集进行分类。
进一步的,步骤一中,计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。
进一步的,步骤二中,对所述图像数据集预处理方法如下:采用ResNet101对图像进行预处理,将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量,将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示,类别的语义数据集使用的是属性描述信息。
进一步的,步骤三中,构建耦合字典学习框架方法如下:
(1)构建耦合字典学习框架的第一步是学习语义空间跟图像特征空间中的类原型;将数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm×K/Cu∈Rm×L作为该模型的训练集,在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量都已知,通过最小化损失函数可以得到可见类在视觉空间的类原型Ps;
(2)构建耦合字典学习框架的第二步是将语义空间以及图像特征空间进行结构对齐,通过一个耦合字典学习框架实现视觉—语义结构的对齐;在语义空间以及视觉特征空间中分别找到一个新的表示来表示每个类,同时强制2个新的表示在中间子空间中相同,即使得其他所有参数已知,通过最小化损失函数学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
(3)构建耦合字典学习框架的第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题:通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu:
(4)为了保留视觉跟语义类原型的几何属性,通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐;该字典学习框架通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性,对于不可见类构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
通过损失函数调整最后学出来的不可见类类原型Pu,分别表示不同类别的图像特征空间的类原型向量,u表示是不可见类类别,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc值都小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,令Lu=D-A,损失函数Lpc表示为:
其中,分别是视觉特征空间以及语义特征空间中的类原型表示,Zs是新的子空间类原型表示Zu是对齐空间中不可见类的一个新的表示,Cs是可见类的语义向量,Cu是不可见类的语义向量,D1、D2分别是视觉空间中的字典以及语义空间中的字典,Ps是可见类图像特征类原型,Pu是视觉特征空间中的不可见类类原型表示,Xs是可见类图像特征,是每个图像对应的类标签为one-hot向量,Pu'是不可见类类原型向量Pu的转置,λ、α、β、γ均是设置的权值参数。
进一步的,步骤四中,将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器,具体方法如下:
(1)初始化:首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式即可求得不可见类在视觉空间中的类原型Pu;
(2)联合优化:
固定视觉空间中的字典D1以及不可见类在对齐空间中的表示Zu,通过最小化公式的值更新不可见类在视觉空间中的类原型Pu,其中Lu=D-A,A表示上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)中的每一项是A的每列之和。
进一步的,步骤五中,测试集测试分类器的分类精确度,方法如下:
(1)在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型最近的K个不可见类样本图像特征向量Xt,通过计算并将该值作为最后的不可见类在视觉空间上的类原型Pu',在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务;
(2)在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务,其中,D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
(3)在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中,D2是字典,通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务。
有益效果:与现有技术相比,本发明技术方案具有以下有益技术效果:
本发明通过基于字典学习的零样本图像分类方法来提升零样本图像分类的分类准确度,同时为了达到理想的分类效果引入字典学习框架,通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题,同时保留视觉跟语义类原型的几何属性实现更好的对齐效果。
附图说明
图1是本发明所述的一种基于字典学习的零样本图像分类方法流程图;
图2CDL算法模型网络结构图;
图3类原型约束结构图。
具体实施方法
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明通过基于字典学习的零样本图像分类方法来提升零样本图像分类的分类准确度,同时为了达到理想的分类效果引入字典学习框架,通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题,同时保留视觉跟语义类原型的几何属性实现更好的对齐效果。
请参阅图1所示,本发明的基于字典学习的零样本图像分类方法具体包括:
步骤1、获取计算机视觉的通用数据集。
获取用于训练系统的公用图像数据集;获取计算机视觉的通用数据集分别为AWA(带属性的动物数据集)、FLO(鲜花数据集)、CUB(鸟类细粒度数据集)、SUN(大规模场景数据集)。
步骤2、对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤3、构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉跟语义类原型的几何属性。
请参阅图2所示,第一步是学习语义空间跟图像特征空间中的类原型。将步骤二中进行数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm ×K/Cu∈Rm×L作为该模型的训练集。在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量都已知,因此通过最小化损失函数可以得到可见类在视觉空间的类原型Ps。
第二步是将语义空间以及图像特征空间进行结构对齐,主要通过一个耦合字典学习框架实现视觉—语义结构的对齐。我们在语义空间以及视觉特征空间中分别找到一个新的表示来表示每个类,同时强制2个新的表示在中间子空间中相同,即使得因为其他所有参数已知,通过最小化损失函数,就能学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题。我们通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu:
最后一步请参阅图3所示,为了保留视觉跟语义类原型的几何属性(如果在语义空间中不可见类原型Ci、Cj很接近,那么它们在视觉空间中不可见类原型Pi、Pj也应该很接近),通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐效果。该字典学习框架主要通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性。对于不可见类来构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,我们通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
然后我们通过损失函数来调整最后学出来的不可见类类原型Pu,分别表示不同类别的图像特征空间的类原型向量,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,我们令Lu=D-A,因此损失函数Lpc也可以表示为:
步骤4、将图片图像特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器。
首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式即可求得不可见类在视觉空间中的类原型Pu。
固定视觉空间中的字典D1以及不可见类在对齐空间中的表示Zu,通过最小化公式的值更新不可见类在视觉空间中的类原型Pu,其中Lu=D-A,A表示上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)中的每一项是A的每列之和。
步骤5、将测试集输入所述分类器,以实现对测试集进行分类。
该部分主要通过以下3中方式得到最后的预估计类别实现分类:
在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了进一步解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型最近的K个不可见类样本图像特征向量Xt,通过计算并将该值作为最后的不可见类在视觉空间上的类原型Pu'。在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务;
在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务。其中D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中D2是字典,然后通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (6)
1.一种基于字典学习的零样本图像分类方法,其特征在于,所述方法包括以下步骤:
步骤一:获取计算机视觉的通用图像数据集;
步骤二:对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤三:构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉和语义类原型的几何属性;
步骤四:将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤五:将测试集输入所述分类器,以实现对测试集进行分类。
2.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤一中,计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。
3.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤二中,对所述图像数据集预处理方法如下:采用ResNet101对图像进行预处理,将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量,将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示,类别的语义数据集使用的是属性描述信息。
4.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤三中,构建耦合字典学习框架方法如下:
(1)构建耦合字典学习框架的第一步是学习语义空间跟图像特征空间中的类原型;将数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm×K/Cu∈Rm×L作为该模型的训练集,在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量都已知,通过最小化损失函数可以得到可见类在视觉空间的类原型Ps;
(2)构建耦合字典学习框架的第二步是将语义空间以及图像特征空间进行结构对齐,通过一个耦合字典学习框架实现视觉—语义结构的对齐;在语义空间以及视觉特征空间中分别找到一个新的表示来表示每个类,同时强制2个新的表示在中间子空间中相同,即使得其他所有参数已知,通过最小化损失函数学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
(3)构建耦合字典学习框架的第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题:通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu:
(4)为了保留视觉跟语义类原型的几何属性,通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐;该字典学习框架通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性,对于不可见类构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
通过损失函数调整最后学出来的不可见类类原型Pu,分别表示不同类别的图像特征空间的类原型向量,u表示是不可见类类别,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc值都小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,令Lu=D-A,损失函数Lpc表示为:
5.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤四中,将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器,具体方法如下:
(1)初始化:首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK ×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式即可求得不可见类在视觉空间中的类原型Pu;
(2)联合优化:
6.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤五中,测试集测试分类器的分类精确度,方法如下:
(1)在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型最近的K个不可见类样本图像特征向量Xt,通过计算并将该值作为最后的不可见类在视觉空间上的类原型P′u,在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务;
(2)在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务,其中,D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
(3)在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中,D2是字典,通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210286505.3A CN114612726A (zh) | 2022-03-22 | 2022-03-22 | 一种基于字典学习的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210286505.3A CN114612726A (zh) | 2022-03-22 | 2022-03-22 | 一种基于字典学习的零样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612726A true CN114612726A (zh) | 2022-06-10 |
Family
ID=81865627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210286505.3A Pending CN114612726A (zh) | 2022-03-22 | 2022-03-22 | 一种基于字典学习的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612726A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109841A (zh) * | 2023-04-11 | 2023-05-12 | 之江实验室 | 一种基于动态语义向量的零样本目标检测方法及装置 |
-
2022
- 2022-03-22 CN CN202210286505.3A patent/CN114612726A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109841A (zh) * | 2023-04-11 | 2023-05-12 | 之江实验室 | 一种基于动态语义向量的零样本目标检测方法及装置 |
CN116109841B (zh) * | 2023-04-11 | 2023-08-15 | 之江实验室 | 一种基于动态语义向量的零样本目标检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Symbolic graph reasoning meets convolutions | |
CN110909820B (zh) | 基于自监督学习的图像分类方法及系统 | |
CN111461258B (zh) | 耦合卷积神经网络和图卷积网络的遥感影像场景分类方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN111369572B (zh) | 一种基于图像修复技术的弱监督语义分割方法和装置 | |
CN110674305B (zh) | 一种基于深层特征融合模型的商品信息分类方法 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN111985520B (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN114398491A (zh) | 一种基于知识图谱的语义分割图像实体关系推理方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN107766895B (zh) | 一种诱导式非负投影半监督数据分类方法及系统 | |
CN113868448A (zh) | 一种细粒度场景级基于草图的图像检索方法及系统 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
CN110689049A (zh) | 基于黎曼核字典学习算法的视觉分类方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN110059154B (zh) | 一种基于继承映射的跨模态迁移哈希检索方法 | |
CN114612726A (zh) | 一种基于字典学习的零样本图像分类方法 | |
CN111259938A (zh) | 基于流形学习和梯度提升模型的图片偏多标签分类方法 | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN108460406B (zh) | 基于最小单纯形融合特征学习的场景图像属性识别方法 | |
CN115393713A (zh) | 一种基于地块感知动态记忆的场景理解方法 | |
CN112766354B (zh) | 一种基于知识图谱的小样本图片识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |