CN114612726A - 一种基于字典学习的零样本图像分类方法 - Google Patents

一种基于字典学习的零样本图像分类方法 Download PDF

Info

Publication number
CN114612726A
CN114612726A CN202210286505.3A CN202210286505A CN114612726A CN 114612726 A CN114612726 A CN 114612726A CN 202210286505 A CN202210286505 A CN 202210286505A CN 114612726 A CN114612726 A CN 114612726A
Authority
CN
China
Prior art keywords
class
space
invisible
semantic
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210286505.3A
Other languages
English (en)
Inventor
颜金花
彭宏京
许名扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202210286505.3A priority Critical patent/CN114612726A/zh
Publication of CN114612726A publication Critical patent/CN114612726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于字典学习的零样本图像分类方法,属于字典学习技术领域。包括获取图像数据集;对图像数据集进行预处理得到训练集和测试集;构建核心字典学习框架,并将训练集输入基于字典学习的网络模型中得到图片图像特征,基于字典学习的网络模型包括学习类模型、结构对齐、域自适应、类原型约束模块;通过计算字典学习网络模型的损失函数,对该模型中的参数进行调节;图片图像特征和语义信息特征共同训练得到分类器;将测试集输入分类器进行分类。相较于现有技术,本发明通过在基于字典学习框架网络中加入类原型约束,使生成的视觉图像特征更加多样化,提高了分类准确度。

Description

一种基于字典学习的零样本图像分类方法
技术领域
本发明公开了一种基于字典学习的零样本图像分类方法,属于字典学习技术领域。
背景技术
随着机器学习的不断发展,深度学习在图像分类、目标检测等方面都有了很大的提升。在传统的图像识别或者分类的模型中,一般是将所有需要判别类别的图像先在训练集中训练得到一个模型,然后再将测试图片放入该模型中进行判别,测试类的类别在训练集中就已经出现。因此如果在预测时想要获得较高的准确度,就需要耗费大量的人力物力财力。但是随着识别对象类别的不断增加,对于很多稀有的物种(比如出现在北极地带的爬行生物)要收集它们大量的图像样本是不现实的,从而使得这些有监督的学习方法难以识别未在训练阶段未出现的不可见类。
为了解决上述产生的问题,Larochelle H等首次提出了零样本学习问题。假设以前从未听过动物类别“麋鹿”或者见过它的样貌,但是根据以下描述却能很好的学习一个视觉分类器:“头像马、角像鹿、蹄像牛、尾像驴”,因此即使没见过它,也能根据上面的描述判断这是“麋鹿”。
对于零样本学习而言,就是要识别出训练时从未见过的类别的样本。将已经见过的类别迁移到没有见过的类别中去,让在训练阶段训练出来的模型学到更加本质的东西,并且将它们举一反三迁移到没见过的类别。
传统的零样本学习的方法主要是通过人工标注的属性作为中间类别描述信息实现零样本类别预测。最早出现的就是H.Lampert等提出的基于属性类间迁移的未见类检测方法,提出了DAP模型,该模型对每个属性都学习一个二分类器,但该方法存在的最大的缺点就是该方法使用属性分类器对测试类别进行识别分类,导致对于属性的识别准确度较高,对于测试类的识别准确率较低。Suzuki等对每一个属性设置了权重;Parkash等为了提高模型训练效率,在训练阶段以属性作为载体同时将它作为反馈来向模型返回更多信息。后来Socher等首次将零样本学习问题转化为子空间问题,通过使用双层神经网络作为跨模态映射模型将图像和类标签同时映射到语义空间,并利用相似性度量方法(余弦相似性、K近邻方法)确定测试类输入图像的类标签,但它造成了映射域偏移问题;Zhang等提出了一种将语义向量映射到图像特征空间的思路,该模型与之前将图像特征映射到语义空间的思路截然相反,由于类标签的输入明显少于输入图像的个数所以在一定程度上有效缓解了枢纽化问题。Akata等提出的SJE模型利用了多种辅助语义信息源,通过使用凸组合将各个相容性函数组合在一起,然后利用多个视图综合判断进而提高预测类标签的置信度。
但是传统的零样本学习的方法主要就是人工建立一个由属性或者词嵌入构建的语义空间从而学习训练数据到该空间的映射,然后测试样本通过这个映射到语义空间再结合最近邻方法输出预测。但这样的直接训练给测试样本造成了域偏移的问题。
发明内容
发明目的:本发明设计一种基于字典学习的零样本图像分类方法,通过一个耦合字典学习框架实现视觉—语义结构的对齐;通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题;通过保留视觉跟语义类原型的几何属性实现更好的对齐效果。
为实现上述目的,本发明提供了一种基于字典学习的零样本图像分类方法,所述方法包括以下步骤:
步骤一:获取计算机视觉的通用图像数据集;
步骤二:对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤三:构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉和语义类原型的几何属性;
步骤四:将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤五:将测试集输入所述分类器,以实现对测试集进行分类。
进一步的,步骤一中,计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。
进一步的,步骤二中,对所述图像数据集预处理方法如下:采用ResNet101对图像进行预处理,将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量,将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示,类别的语义数据集使用的是属性描述信息。
进一步的,步骤三中,构建耦合字典学习框架方法如下:
(1)构建耦合字典学习框架的第一步是学习语义空间跟图像特征空间中的类原型;将数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm×K/Cu∈Rm×L作为该模型的训练集,在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量
Figure BDA0003558457870000031
都已知,通过最小化损失函数
Figure BDA0003558457870000032
可以得到可见类在视觉空间的类原型Ps
(2)构建耦合字典学习框架的第二步是将语义空间以及图像特征空间进行结构对齐,通过一个耦合字典学习框架实现视觉—语义结构的对齐;在语义空间以及视觉特征空间中分别找到一个新的表示
Figure BDA0003558457870000033
来表示每个类,同时强制2个新的表示
Figure BDA0003558457870000034
在中间子空间中相同,即使得
Figure BDA0003558457870000035
其他所有参数已知,通过最小化损失函数学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
Figure BDA0003558457870000036
Figure BDA0003558457870000037
其中,D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure BDA0003558457870000038
是分别是字典D1、D2在第i列上的值,Cs是可见类的语义向量,Ps是可见类在视觉空间中的类原型,λ为大于0的参数;
(3)构建耦合字典学习框架的第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题:通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu
Figure BDA0003558457870000039
Figure BDA00035584578700000310
其中D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure BDA00035584578700000311
是分别是字典D1、D2在第i列上的值,Zu是不可见类在对齐空间中表示,Cu是不可见类的语义向量,λ为大于0的参数;
(4)为了保留视觉跟语义类原型的几何属性,通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐;该字典学习框架通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性,对于不可见类构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
Figure BDA0003558457870000041
其中,
Figure BDA0003558457870000042
分别表示两个不同种类的语义向量,δ为不大于1的参数;
通过损失函数
Figure BDA0003558457870000043
调整最后学出来的不可见类类原型Pu
Figure BDA0003558457870000044
分别表示不同类别的图像特征空间的类原型向量,u表示是不可见类类别,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc值都小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,令Lu=D-A,损失函数Lpc表示为:
Figure BDA0003558457870000045
其中,
Figure BDA0003558457870000046
分别表示不可见类中2个不同种类的图像特征空间类原型向量,Aij为该2个不同种类之间的关系,Lu=D-A,tr表示迹;最终目标函数L为:
Figure BDA0003558457870000047
其中,
Figure BDA0003558457870000048
分别是视觉特征空间以及语义特征空间中的类原型表示,Zs是新的子空间类原型表示
Figure BDA0003558457870000049
Zu是对齐空间中不可见类的一个新的表示,Cs是可见类的语义向量,Cu是不可见类的语义向量,D1、D2分别是视觉空间中的字典以及语义空间中的字典,Ps是可见类图像特征类原型,Pu是视觉特征空间中的不可见类类原型表示,Xs是可见类图像特征,
Figure BDA00035584578700000410
是每个图像对应的类标签为one-hot向量,Pu'是不可见类类原型向量Pu的转置,λ、α、β、γ均是设置的权值参数。
进一步的,步骤四中,将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器,具体方法如下:
(1)初始化:首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式
Figure BDA0003558457870000051
即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式
Figure BDA0003558457870000052
即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式
Figure BDA0003558457870000053
即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式
Figure BDA0003558457870000054
即可求得不可见类在视觉空间中的类原型Pu
(2)联合优化:
固定视觉空间中的字典D1以及可见类类别在对齐空间中的表示Zs,通过最小化公式
Figure BDA0003558457870000055
的值更新可见类在视觉空间中的类原型Ps,其中,β是设置的参数;
固定可见类在视觉空间中的类原型Ps以及视觉空间中的字典D1、语义空间中的字典D2,通过最小化公式
Figure BDA0003558457870000056
的值更新可见类在对齐空间中的表示Zs,其中λ是设置的参数;
固定可见类、不可见类在视觉空间中的类原型Ps、Pu以及可见类、不可见类在对齐空间中的表示Zs、Zu,通过最小化公式
Figure BDA0003558457870000057
的值更新视觉空间中的字典D1,其中α是设置的参数;
固定可见类、不可见类在对齐空间中的表示Zs、Zu以及已知的可见类跟不可见类的语义向量Cs、Cu,通过最小化公式
Figure BDA0003558457870000061
的值更新语义空间中的字典D2,其中α是设置的参数;
固定不可见类在视觉空间中的类原型Pu以及视觉空间中的字典D1、语义空间中的字典D2,以及已知的不可见类的语义向量Cu,通过最小化公式
Figure BDA0003558457870000062
的值更新不可见类在对齐空间中的表示Zu,其中λ是设置的参数;
固定视觉空间中的字典D1以及不可见类在对齐空间中的表示Zu,通过最小化公式
Figure BDA0003558457870000063
的值更新不可见类在视觉空间中的类原型Pu,其中Lu=D-A,A表示上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)中的每一项是A的每列之和。
进一步的,步骤五中,测试集测试分类器的分类精确度,方法如下:
(1)在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型
Figure BDA0003558457870000064
最近的K个不可见类样本图像特征向量Xt,通过计算
Figure BDA0003558457870000065
并将该值作为最后的不可见类在视觉空间上的类原型Pu',在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务;
(2)在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式
Figure BDA0003558457870000066
能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务,其中,D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
(3)在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中,D2是字典,通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务。
有益效果:与现有技术相比,本发明技术方案具有以下有益技术效果:
本发明通过基于字典学习的零样本图像分类方法来提升零样本图像分类的分类准确度,同时为了达到理想的分类效果引入字典学习框架,通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题,同时保留视觉跟语义类原型的几何属性实现更好的对齐效果。
附图说明
图1是本发明所述的一种基于字典学习的零样本图像分类方法流程图;
图2CDL算法模型网络结构图;
图3类原型约束结构图。
具体实施方法
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明通过基于字典学习的零样本图像分类方法来提升零样本图像分类的分类准确度,同时为了达到理想的分类效果引入字典学习框架,通过域适应方法将结构对齐方法从可见类扩展到不可见类上,有效防止过拟合问题,同时保留视觉跟语义类原型的几何属性实现更好的对齐效果。
请参阅图1所示,本发明的基于字典学习的零样本图像分类方法具体包括:
步骤1、获取计算机视觉的通用数据集。
获取用于训练系统的公用图像数据集;获取计算机视觉的通用数据集分别为AWA(带属性的动物数据集)、FLO(鲜花数据集)、CUB(鸟类细粒度数据集)、SUN(大规模场景数据集)。
步骤2、对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤3、构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉跟语义类原型的几何属性。
请参阅图2所示,第一步是学习语义空间跟图像特征空间中的类原型。将步骤二中进行数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm ×K/Cu∈Rm×L作为该模型的训练集。在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量
Figure BDA0003558457870000081
都已知,因此通过最小化损失函数
Figure BDA0003558457870000082
可以得到可见类在视觉空间的类原型Ps
第二步是将语义空间以及图像特征空间进行结构对齐,主要通过一个耦合字典学习框架实现视觉—语义结构的对齐。我们在语义空间以及视觉特征空间中分别找到一个新的表示
Figure BDA0003558457870000083
来表示每个类,同时强制2个新的表示
Figure BDA0003558457870000084
在中间子空间中相同,即使得
Figure BDA0003558457870000085
因为其他所有参数已知,通过最小化损失函数,就能学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
Figure BDA0003558457870000086
Figure BDA0003558457870000087
其中D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure BDA0003558457870000088
是分别是字典D1、D2在第i列上的值,Cs是可见类的语义向量,Ps是可见类在视觉空间中的类原型,λ为大于0的参数。
第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题。我们通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu
Figure BDA0003558457870000089
Figure BDA00035584578700000810
其中D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure BDA00035584578700000811
是分别是字典D1、D2在第i列上的值,Zu是不可见类在对齐空间中表示,Cu是不可见类的语义向量,λ为大于0的参数。
最后一步请参阅图3所示,为了保留视觉跟语义类原型的几何属性(如果在语义空间中不可见类原型Ci、Cj很接近,那么它们在视觉空间中不可见类原型Pi、Pj也应该很接近),通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐效果。该字典学习框架主要通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性。对于不可见类来构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,我们通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
Figure BDA0003558457870000091
其中
Figure BDA0003558457870000092
分别表示两个不同种类的语义向量,δ为不大于1的参数。
然后我们通过损失函数
Figure BDA0003558457870000093
来调整最后学出来的不可见类类原型Pu
Figure BDA0003558457870000094
分别表示不同类别的图像特征空间的类原型向量,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,我们令Lu=D-A,因此损失函数Lpc也可以表示为:
Figure BDA0003558457870000095
其中
Figure BDA0003558457870000096
分别表示不可见类中2个不同种类的图像特征空间类原型向量,Aij为该2个不同种类之间的关系,Lu=D-A,tr表示迹。最终目标函数L为:
Figure BDA0003558457870000097
步骤4、将图片图像特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器。
首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式
Figure BDA0003558457870000101
即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式
Figure BDA0003558457870000102
即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式
Figure BDA0003558457870000103
即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式
Figure BDA0003558457870000104
即可求得不可见类在视觉空间中的类原型Pu
然后对其进行联合优化,固定视觉空间中的字典D1以及可见类类别在对齐空间中的表示Zs,通过最小化公式
Figure BDA0003558457870000105
的值更新可见类在视觉空间中的类原型Ps,其中β是设置的参数;
固定可见类在视觉空间中的类原型Ps以及视觉空间中的字典D1、语义空间中的字典D2,通过最小化公式
Figure BDA0003558457870000106
的值更新可见类在对齐空间中的表示Zs,其中λ是设置的参数;
固定可见类、不可见类在视觉空间中的类原型Ps、Pu以及可见类、不可见类在对齐空间中的表示Zs、Zu,通过最小化公式
Figure BDA0003558457870000107
的值更新视觉空间中的字典D1,其中α是设置的参数;
固定可见类、不可见类在对齐空间中的表示Zs、Zu以及已知的可见类跟不可见类的语义向量Cs、Cu,通过最小化公式
Figure BDA0003558457870000108
的值更新语义空间中的字典D2,其中α是设置的参数;
固定不可见类在视觉空间中的类原型Pu以及视觉空间中的字典D1、语义空间中的字典D2,以及已知的不可见类的语义向量Cu,通过最小化公式
Figure BDA0003558457870000111
的值更新不可见类在对齐空间中的表示Zu,其中λ是设置的参数;
固定视觉空间中的字典D1以及不可见类在对齐空间中的表示Zu,通过最小化公式
Figure BDA0003558457870000112
的值更新不可见类在视觉空间中的类原型Pu,其中Lu=D-A,A表示上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)中的每一项是A的每列之和。
步骤5、将测试集输入所述分类器,以实现对测试集进行分类。
该部分主要通过以下3中方式得到最后的预估计类别实现分类:
在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了进一步解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型
Figure BDA0003558457870000113
最近的K个不可见类样本图像特征向量Xt,通过计算
Figure BDA0003558457870000114
并将该值作为最后的不可见类在视觉空间上的类原型Pu'。在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务;
在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式
Figure BDA0003558457870000115
能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务。其中D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中D2是字典,然后通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims(余弦距离),然后将最接近的类原型作为分类的预估计值,完成零样本图像分类任务。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (6)

1.一种基于字典学习的零样本图像分类方法,其特征在于,所述方法包括以下步骤:
步骤一:获取计算机视觉的通用图像数据集;
步骤二:对所述图像数据集进行预处理得到训练集和测试集,训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息;
步骤三:构建耦合字典学习框架实现视觉—语义结构的对齐,利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉和语义类原型的几何属性;
步骤四:将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤五:将测试集输入所述分类器,以实现对测试集进行分类。
2.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤一中,计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。
3.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤二中,对所述图像数据集预处理方法如下:采用ResNet101对图像进行预处理,将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量,将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示,类别的语义数据集使用的是属性描述信息。
4.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤三中,构建耦合字典学习框架方法如下:
(1)构建耦合字典学习框架的第一步是学习语义空间跟图像特征空间中的类原型;将数据预处理后得到的可见类图像特征Xs以及可见类跟不可见类类别的语义向量Cs∈Rm×K/Cu∈Rm×L作为该模型的训练集,在语义空间中,将已知的语义向量Cs∈Rm×K/Cu∈Rm×L作为可见类跟不可见类的类原型;在视觉空间中,由于可见类图像特征Xs以及每个图像对应的类标签为one-hot向量
Figure FDA0003558457860000011
都已知,通过最小化损失函数
Figure FDA0003558457860000012
可以得到可见类在视觉空间的类原型Ps
(2)构建耦合字典学习框架的第二步是将语义空间以及图像特征空间进行结构对齐,通过一个耦合字典学习框架实现视觉—语义结构的对齐;在语义空间以及视觉特征空间中分别找到一个新的表示
Figure FDA0003558457860000021
来表示每个类,同时强制2个新的表示
Figure FDA0003558457860000022
在中间子空间中相同,即使得
Figure FDA0003558457860000023
其他所有参数已知,通过最小化损失函数学到视觉空间中的字典D1以及语义空间中的字典D2,损失函数如下:
Figure FDA0003558457860000024
Figure FDA0003558457860000025
其中,D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure FDA0003558457860000026
是分别是字典D1、D2在第i列上的值,Cs是可见类的语义向量,Ps是可见类在视觉空间中的类原型,λ为大于0的参数;
(3)构建耦合字典学习框架的第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题:通过利用不可见类的语义空间上的类原型Cu自动学习不可见类视觉空间中的类原型Pu,即由于参数D1、D2、Zu、Cu均已知,通过最小化损失函数可以获得Pu
Figure FDA0003558457860000027
Figure FDA0003558457860000028
其中D1、D2分别是视觉空间中的字典以及语义空间中的字典,
Figure FDA0003558457860000029
是分别是字典D1、D2在第i列上的值,Zu是不可见类在对齐空间中表示,Cu是不可见类的语义向量,λ为大于0的参数;
(4)为了保留视觉跟语义类原型的几何属性,通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐;该字典学习框架通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性,对于不可见类构建一个全连接图G,用v个顶点来表示我们的不可见类别,对于任意2个类别i、j,通过顶点i、j之间的边Aij来表示2个顶点之间的关系,Aij具体表示为:
Figure FDA00035584578600000210
其中,
Figure FDA00035584578600000211
分别表示两个不同种类的语义向量,δ为不大于1的参数;
通过损失函数
Figure FDA0003558457860000031
调整最后学出来的不可见类类原型Pu
Figure FDA0003558457860000032
分别表示不同类别的图像特征空间的类原型向量,u表示是不可见类类别,若2个类语义类原型相似度大于预设值,那么Aij和损失函数Lpc值都小于预设值;由于A是上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)对角矩阵中的每一项是A的每列之和,令Lu=D-A,损失函数Lpc表示为:
Figure FDA0003558457860000033
其中,
Figure FDA0003558457860000034
分别表示不可见类中2个不同种类的图像特征空间类原型向量,Aij为该2个不同种类之间的关系,Lu=D-A,tr表示迹;最终目标函数L为:
Figure FDA0003558457860000035
其中,
Figure FDA0003558457860000036
分别是视觉特征空间以及语义特征空间中的类原型表示,Zs是新的子空间类原型表示
Figure FDA0003558457860000037
Zu是对齐空间中不可见类的一个新的表示,Cs是可见类的语义向量,Cu是不可见类的语义向量,D1、D2分别是视觉空间中的字典以及语义空间中的字典,Ps是可见类图像特征类原型,Pu是视觉特征空间中的不可见类类原型表示,Xs是可见类图像特征,
Figure FDA0003558457860000038
是每个图像对应的类标签为one-hot向量,P′u是不可见类类原型向量Pu的转置,λ、α、β、γ均是设置的权值参数。
5.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤四中,将语义信息特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器,具体方法如下:
(1)初始化:首先对参数进行一个初始化,K、L分别为可见类、不可见类类别个数;Zu∈RK ×L为可见类与不可见类在语义空间中类原型余弦距离;已知不可见类的语义空间类原型Cu和可见类与不可见类在语义空间中类原型余弦距离Zu,通过公式
Figure FDA0003558457860000041
即可求得在语义空间中的字典D2;已知可见类的语义空间类原型Cs和上述求得的语义空间中的字典D2,通过公式
Figure FDA0003558457860000042
即可求得可见类类别在对齐空间中的表示Zs;可见类在视觉空间中的类原型Ps初始值设置为每个类中所有样本的平均值;已知可见类在视觉空间中的类原型Ps和可见类在对齐空间中的表示Zs,通过公式
Figure FDA0003558457860000043
即可求得视觉空间中的字典D1;已知视觉空间中的字典D1和不可见类在对齐空间中的表示Zu,通过公式
Figure FDA0003558457860000044
即可求得不可见类在视觉空间中的类原型Pu
(2)联合优化:
固定视觉空间中的字典D1以及可见类类别在对齐空间中的表示Zs,通过最小化公式
Figure FDA0003558457860000045
的值更新可见类在视觉空间中的类原型Ps,其中,β是设置的参数;
固定可见类在视觉空间中的类原型Ps以及视觉空间中的字典D1、语义空间中的字典D2,通过最小化公式
Figure FDA0003558457860000046
的值更新可见类在对齐空间中的表示Zs,其中λ是设置的参数;
固定可见类、不可见类在视觉空间中的类原型Ps、Pu以及可见类、不可见类在对齐空间中的表示Zs、Zu,通过最小化公式
Figure FDA0003558457860000047
的值更新视觉空间中的字典D1,其中α是设置的参数;
固定可见类、不可见类在对齐空间中的表示Zs、Zu以及已知的可见类跟不可见类的语义向量Cs、Cu,通过最小化公式
Figure FDA0003558457860000048
的值更新语义空间中的字典D2,其中α是设置的参数;
固定不可见类在视觉空间中的类原型Pu以及视觉空间中的字典D1、语义空间中的字典D2,以及已知的不可见类的语义向量Cu,通过最小化公式
Figure FDA0003558457860000049
的值更新不可见类在对齐空间中的表示Zu,其中λ是设置的参数;
固定视觉空间中的字典D1以及不可见类在对齐空间中的表示Zu,通过最小化公式
Figure FDA0003558457860000051
的值更新不可见类在视觉空间中的类原型Pu,其中Lu=D-A,A表示上述顶点i、j之间的边Aij组成的向量,D=diag(D1,…Du)中的每一项是A的每列之和,D1-Du分别表示第一1到u列由Aij组成的向量。
6.根据权利要求1所述的一种基于字典学习的零样本图像分类方法,其特征在于,步骤五中,测试集测试分类器的分类精确度,方法如下:
(1)在视觉特征空间中:已知不可见类视觉空间类原型Pu,为了解决域移位问题,修改预测的不可见类视觉空间类原型Pu,搜索与第i个不可见类视觉空间类原型
Figure FDA0003558457860000052
最近的K个不可见类样本图像特征向量Xt,通过计算
Figure FDA0003558457860000053
并将该值作为最后的不可见类在视觉空间上的类原型P′u,在预测过程中直接计算Xi与所有不可见类类原型Pu'的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务;
(2)在对齐空间中:已知不可见类在对齐空间中的表示Zu,通过最小化公式
Figure FDA0003558457860000054
能够求得测试类在对齐空间中的表示Zi,通过计算Zi与所有不可见类类原型Zu的相似度Simv,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务,其中,D1是视觉空间中的字典,Xi是测试类别的图像特征向量,μ是不大于1的参数;
(3)在语义空间中:上一步求得了测试类在对齐空间中的表示Zi,通过公式Ci=D2Zi即可求得测试类的语义向量,其中,D2是字典,通过计算测试类的语义向量Ci和所有不可见类的语义向量Cu之间的相似度Sims,即余弦距离,将最接近的类原型作为分类的预估计值以完成零样本图像分类任务。
CN202210286505.3A 2022-03-22 2022-03-22 一种基于字典学习的零样本图像分类方法 Pending CN114612726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210286505.3A CN114612726A (zh) 2022-03-22 2022-03-22 一种基于字典学习的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210286505.3A CN114612726A (zh) 2022-03-22 2022-03-22 一种基于字典学习的零样本图像分类方法

Publications (1)

Publication Number Publication Date
CN114612726A true CN114612726A (zh) 2022-06-10

Family

ID=81865627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210286505.3A Pending CN114612726A (zh) 2022-03-22 2022-03-22 一种基于字典学习的零样本图像分类方法

Country Status (1)

Country Link
CN (1) CN114612726A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置
CN116109841B (zh) * 2023-04-11 2023-08-15 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置

Similar Documents

Publication Publication Date Title
Liang et al. Symbolic graph reasoning meets convolutions
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN111461258B (zh) 耦合卷积神经网络和图卷积网络的遥感影像场景分类方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN111369572B (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN111985520B (zh) 一种基于图卷积神经网络的多模态分类方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN114398491A (zh) 一种基于知识图谱的语义分割图像实体关系推理方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN107766895B (zh) 一种诱导式非负投影半监督数据分类方法及系统
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
CN114548256A (zh) 一种基于对比学习的小样本珍稀鸟类识别方法
CN110689049A (zh) 基于黎曼核字典学习算法的视觉分类方法
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN110059154B (zh) 一种基于继承映射的跨模态迁移哈希检索方法
CN114612726A (zh) 一种基于字典学习的零样本图像分类方法
CN111259938A (zh) 基于流形学习和梯度提升模型的图片偏多标签分类方法
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN108460406B (zh) 基于最小单纯形融合特征学习的场景图像属性识别方法
CN115393713A (zh) 一种基于地块感知动态记忆的场景理解方法
CN112766354B (zh) 一种基于知识图谱的小样本图片识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination