CN114612726A

CN114612726A - 一种基于字典学习的零样本图像分类方法

Info

Publication number: CN114612726A
Application number: CN202210286505.3A
Authority: CN
Inventors: 颜金花; 彭宏京; 许名扬
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-10

Abstract

本发明公开了一种基于字典学习的零样本图像分类方法，属于字典学习技术领域。包括获取图像数据集；对图像数据集进行预处理得到训练集和测试集；构建核心字典学习框架，并将训练集输入基于字典学习的网络模型中得到图片图像特征，基于字典学习的网络模型包括学习类模型、结构对齐、域自适应、类原型约束模块；通过计算字典学习网络模型的损失函数，对该模型中的参数进行调节；图片图像特征和语义信息特征共同训练得到分类器；将测试集输入分类器进行分类。相较于现有技术，本发明通过在基于字典学习框架网络中加入类原型约束，使生成的视觉图像特征更加多样化，提高了分类准确度。

Description

一种基于字典学习的零样本图像分类方法

技术领域

本发明公开了一种基于字典学习的零样本图像分类方法，属于字典学习技术领域。

背景技术

随着机器学习的不断发展，深度学习在图像分类、目标检测等方面都有了很大的提升。在传统的图像识别或者分类的模型中，一般是将所有需要判别类别的图像先在训练集中训练得到一个模型，然后再将测试图片放入该模型中进行判别，测试类的类别在训练集中就已经出现。因此如果在预测时想要获得较高的准确度，就需要耗费大量的人力物力财力。但是随着识别对象类别的不断增加，对于很多稀有的物种(比如出现在北极地带的爬行生物)要收集它们大量的图像样本是不现实的，从而使得这些有监督的学习方法难以识别未在训练阶段未出现的不可见类。

为了解决上述产生的问题，Larochelle H等首次提出了零样本学习问题。假设以前从未听过动物类别“麋鹿”或者见过它的样貌，但是根据以下描述却能很好的学习一个视觉分类器：“头像马、角像鹿、蹄像牛、尾像驴”，因此即使没见过它，也能根据上面的描述判断这是“麋鹿”。

对于零样本学习而言，就是要识别出训练时从未见过的类别的样本。将已经见过的类别迁移到没有见过的类别中去，让在训练阶段训练出来的模型学到更加本质的东西，并且将它们举一反三迁移到没见过的类别。

传统的零样本学习的方法主要是通过人工标注的属性作为中间类别描述信息实现零样本类别预测。最早出现的就是H.Lampert等提出的基于属性类间迁移的未见类检测方法，提出了DAP模型，该模型对每个属性都学习一个二分类器，但该方法存在的最大的缺点就是该方法使用属性分类器对测试类别进行识别分类，导致对于属性的识别准确度较高，对于测试类的识别准确率较低。Suzuki等对每一个属性设置了权重；Parkash等为了提高模型训练效率，在训练阶段以属性作为载体同时将它作为反馈来向模型返回更多信息。后来Socher等首次将零样本学习问题转化为子空间问题，通过使用双层神经网络作为跨模态映射模型将图像和类标签同时映射到语义空间，并利用相似性度量方法(余弦相似性、K近邻方法)确定测试类输入图像的类标签，但它造成了映射域偏移问题；Zhang等提出了一种将语义向量映射到图像特征空间的思路，该模型与之前将图像特征映射到语义空间的思路截然相反，由于类标签的输入明显少于输入图像的个数所以在一定程度上有效缓解了枢纽化问题。Akata等提出的SJE模型利用了多种辅助语义信息源，通过使用凸组合将各个相容性函数组合在一起，然后利用多个视图综合判断进而提高预测类标签的置信度。

但是传统的零样本学习的方法主要就是人工建立一个由属性或者词嵌入构建的语义空间从而学习训练数据到该空间的映射，然后测试样本通过这个映射到语义空间再结合最近邻方法输出预测。但这样的直接训练给测试样本造成了域偏移的问题。

发明内容

发明目的：本发明设计一种基于字典学习的零样本图像分类方法，通过一个耦合字典学习框架实现视觉—语义结构的对齐；通过域适应方法将结构对齐方法从可见类扩展到不可见类上，有效防止过拟合问题；通过保留视觉跟语义类原型的几何属性实现更好的对齐效果。

为实现上述目的，本发明提供了一种基于字典学习的零样本图像分类方法，所述方法包括以下步骤：

步骤一：获取计算机视觉的通用图像数据集；

步骤二：对所述图像数据集进行预处理得到训练集和测试集，训练集和测试集之间没有交集，训练集和测试集中均包括图片信息和语义信息；

步骤三：构建耦合字典学习框架实现视觉—语义结构的对齐，利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉和语义类原型的几何属性；

步骤四：将语义信息特征和视觉图像特征输入分类器网络，并进行共同训练得到分类器；

步骤五：将测试集输入所述分类器，以实现对测试集进行分类。

进一步的，步骤一中，计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。

进一步的，步骤二中，对所述图像数据集预处理方法如下：采用ResNet101对图像进行预处理，将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量，将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示，类别的语义数据集使用的是属性描述信息。

进一步的，步骤三中，构建耦合字典学习框架方法如下：

(1)构建耦合字典学习框架的第一步是学习语义空间跟图像特征空间中的类原型；将数据预处理后得到的可见类图像特征X_s以及可见类跟不可见类类别的语义向量C_s∈R^m×K/C_u∈R^m×L作为该模型的训练集，在语义空间中，将已知的语义向量C_s∈R^m×K/C_u∈R^m×L作为可见类跟不可见类的类原型；在视觉空间中，由于可见类图像特征X_s以及每个图像对应的类标签为one-hot向量

都已知，通过最小化损失函数

可以得到可见类在视觉空间的类原型P_s；

(2)构建耦合字典学习框架的第二步是将语义空间以及图像特征空间进行结构对齐，通过一个耦合字典学习框架实现视觉—语义结构的对齐；在语义空间以及视觉特征空间中分别找到一个新的表示

来表示每个类，同时强制2个新的表示

在中间子空间中相同，即使得

其他所有参数已知，通过最小化损失函数学到视觉空间中的字典D₁以及语义空间中的字典D₂，损失函数如下：

其中，D₁、D₂分别是视觉空间中的字典以及语义空间中的字典，

是分别是字典D₁、D₂在第i列上的值，C_s是可见类的语义向量，P_s是可见类在视觉空间中的类原型，λ为大于0的参数；

(3)构建耦合字典学习框架的第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题：通过利用不可见类的语义空间上的类原型C_u自动学习不可见类视觉空间中的类原型P_u，即由于参数D₁、D₂、Z_u、C_u均已知，通过最小化损失函数可以获得P_u：

其中D₁、D₂分别是视觉空间中的字典以及语义空间中的字典，

是分别是字典D₁、D₂在第i列上的值，Z_u是不可见类在对齐空间中表示，C_u是不可见类的语义向量，λ为大于0的参数；

(4)为了保留视觉跟语义类原型的几何属性，通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐；该字典学习框架通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性，对于不可见类构建一个全连接图G，用v个顶点来表示我们的不可见类别，对于任意2个类别i、j，通过顶点i、j之间的边A_ij来表示2个顶点之间的关系，A_ij具体表示为：

其中，

分别表示两个不同种类的语义向量，δ为不大于1的参数；

通过损失函数

调整最后学出来的不可见类类原型P_u，

分别表示不同类别的图像特征空间的类原型向量，u表示是不可见类类别，若2个类语义类原型相似度大于预设值，那么A_ij和损失函数L_pc值都小于预设值；由于A是上述顶点i、j之间的边A_ij组成的向量，D＝diag(D¹,…D^u)对角矩阵中的每一项是A的每列之和，令L_u＝D-A，损失函数L_pc表示为：

其中，

分别表示不可见类中2个不同种类的图像特征空间类原型向量，A_ij为该2个不同种类之间的关系，L_u＝D-A，tr表示迹；最终目标函数L为：

其中，

分别是视觉特征空间以及语义特征空间中的类原型表示，Z_s是新的子空间类原型表示

Z_u是对齐空间中不可见类的一个新的表示，C_s是可见类的语义向量，C_u是不可见类的语义向量，D₁、D₂分别是视觉空间中的字典以及语义空间中的字典，P_s是可见类图像特征类原型，P_u是视觉特征空间中的不可见类类原型表示，X_s是可见类图像特征，

是每个图像对应的类标签为one-hot向量，P_u'是不可见类类原型向量P_u的转置，λ、α、β、γ均是设置的权值参数。

进一步的，步骤四中，将语义信息特征和视觉图像特征输入分类器网络，并进行共同训练得到分类器，具体方法如下：

(1)初始化：首先对参数进行一个初始化，K、L分别为可见类、不可见类类别个数；Z_u∈R^K×L为可见类与不可见类在语义空间中类原型余弦距离；已知不可见类的语义空间类原型C_u和可见类与不可见类在语义空间中类原型余弦距离Z_u，通过公式

即可求得在语义空间中的字典D₂；已知可见类的语义空间类原型C_s和上述求得的语义空间中的字典D₂，通过公式

即可求得可见类类别在对齐空间中的表示Z_s；可见类在视觉空间中的类原型P_s初始值设置为每个类中所有样本的平均值；已知可见类在视觉空间中的类原型P_s和可见类在对齐空间中的表示Z_s，通过公式

即可求得视觉空间中的字典D₁；已知视觉空间中的字典D₁和不可见类在对齐空间中的表示Z_u，通过公式

即可求得不可见类在视觉空间中的类原型P_u；

(2)联合优化：

固定视觉空间中的字典D₁以及可见类类别在对齐空间中的表示Z_s，通过最小化公式

的值更新可见类在视觉空间中的类原型P_s，其中，β是设置的参数；

固定可见类在视觉空间中的类原型P_s以及视觉空间中的字典D₁、语义空间中的字典D₂，通过最小化公式

的值更新可见类在对齐空间中的表示Z_s，其中λ是设置的参数；

固定可见类、不可见类在视觉空间中的类原型P_s、P_u以及可见类、不可见类在对齐空间中的表示Z_s、Z_u，通过最小化公式

的值更新视觉空间中的字典D₁，其中α是设置的参数；

固定可见类、不可见类在对齐空间中的表示Z_s、Z_u以及已知的可见类跟不可见类的语义向量C_s、C_u，通过最小化公式

的值更新语义空间中的字典D₂，其中α是设置的参数；

固定不可见类在视觉空间中的类原型P_u以及视觉空间中的字典D₁、语义空间中的字典D₂，以及已知的不可见类的语义向量C_u,通过最小化公式

的值更新不可见类在对齐空间中的表示Z_u，其中λ是设置的参数；

固定视觉空间中的字典D₁以及不可见类在对齐空间中的表示Z_u，通过最小化公式

的值更新不可见类在视觉空间中的类原型P_u，其中L_u＝D-A，A表示上述顶点i、j之间的边A_ij组成的向量，D＝diag(D¹,…D^u)中的每一项是A的每列之和。

进一步的，步骤五中，测试集测试分类器的分类精确度，方法如下：

(1)在视觉特征空间中：已知不可见类视觉空间类原型P_u，为了解决域移位问题，修改预测的不可见类视觉空间类原型P_u，搜索与第i个不可见类视觉空间类原型

最近的K个不可见类样本图像特征向量X_t，通过计算

并将该值作为最后的不可见类在视觉空间上的类原型P_u'，在预测过程中直接计算X_i与所有不可见类类原型P_u'的相似度Sim_v，即余弦距离，将最接近的类原型作为分类的预估计值以完成零样本图像分类任务；

(2)在对齐空间中：已知不可见类在对齐空间中的表示Z_u，通过最小化公式

能够求得测试类在对齐空间中的表示Z_i，通过计算Z_i与所有不可见类类原型Z_u的相似度Sim_v，即余弦距离，将最接近的类原型作为分类的预估计值以完成零样本图像分类任务，其中，D₁是视觉空间中的字典，X_i是测试类别的图像特征向量，μ是不大于1的参数；

(3)在语义空间中：上一步求得了测试类在对齐空间中的表示Z_i，通过公式C_i＝D₂Z_i即可求得测试类的语义向量，其中，D₂是字典，通过计算测试类的语义向量C_i和所有不可见类的语义向量C_u之间的相似度Sim_s，即余弦距离，将最接近的类原型作为分类的预估计值以完成零样本图像分类任务。

有益效果：与现有技术相比，本发明技术方案具有以下有益技术效果：

本发明通过基于字典学习的零样本图像分类方法来提升零样本图像分类的分类准确度，同时为了达到理想的分类效果引入字典学习框架，通过域适应方法将结构对齐方法从可见类扩展到不可见类上，有效防止过拟合问题，同时保留视觉跟语义类原型的几何属性实现更好的对齐效果。

附图说明

图1是本发明所述的一种基于字典学习的零样本图像分类方法流程图；

图2CDL算法模型网络结构图；

图3类原型约束结构图。

具体实施方法

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参阅图1所示，本发明的基于字典学习的零样本图像分类方法具体包括：

步骤1、获取计算机视觉的通用数据集。

获取用于训练系统的公用图像数据集；获取计算机视觉的通用数据集分别为AWA(带属性的动物数据集)、FLO(鲜花数据集)、CUB(鸟类细粒度数据集)、SUN(大规模场景数据集)。

步骤2、对所述图像数据集进行预处理得到训练集和测试集，训练集和测试集之间没有交集，训练集和测试集中均包括图片信息和语义信息；

步骤3、构建耦合字典学习框架实现视觉—语义结构的对齐，利用域适应方法将结构对齐方法从可见类扩展到不可见类上以及保留视觉跟语义类原型的几何属性。

请参阅图2所示，第一步是学习语义空间跟图像特征空间中的类原型。将步骤二中进行数据预处理后得到的可见类图像特征X_s以及可见类跟不可见类类别的语义向量C_s∈R^m ^×K/C_u∈R^m×L作为该模型的训练集。在语义空间中，将已知的语义向量C_s∈R^m×K/C_u∈R^m×L作为可见类跟不可见类的类原型；在视觉空间中，由于可见类图像特征X_s以及每个图像对应的类标签为one-hot向量

都已知，因此通过最小化损失函数

可以得到可见类在视觉空间的类原型P_s。

第二步是将语义空间以及图像特征空间进行结构对齐，主要通过一个耦合字典学习框架实现视觉—语义结构的对齐。我们在语义空间以及视觉特征空间中分别找到一个新的表示

来表示每个类，同时强制2个新的表示

在中间子空间中相同，即使得

因为其他所有参数已知，通过最小化损失函数，就能学到视觉空间中的字典D₁以及语义空间中的字典D₂，损失函数如下：

是分别是字典D₁、D₂在第i列上的值，C_s是可见类的语义向量，P_s是可见类在视觉空间中的类原型，λ为大于0的参数。

第三步是通过利用域自适应方法来缓解在结构对齐中因为只使用可见类原型学习到的字典造成的域转移问题。我们通过利用不可见类的语义空间上的类原型C_u自动学习不可见类视觉空间中的类原型P_u，即由于参数D₁、D₂、Z_u、C_u均已知，通过最小化损失函数可以获得P_u：

是分别是字典D₁、D₂在第i列上的值，Z_u是不可见类在对齐空间中表示，C_u是不可见类的语义向量，λ为大于0的参数。

最后一步请参阅图3所示，为了保留视觉跟语义类原型的几何属性(如果在语义空间中不可见类原型C_i、C_j很接近，那么它们在视觉空间中不可见类原型P_i、P_j也应该很接近)，通过加上类原型约束使得两个空间上的类原型投影到中间空间中时实现更好的对齐效果。该字典学习框架主要通过引入图拉普拉斯项来保持视觉特征空间中不可见类原型的几何特性。对于不可见类来构建一个全连接图G，用v个顶点来表示我们的不可见类别，对于任意2个类别i、j，我们通过顶点i、j之间的边A_ij来表示2个顶点之间的关系，A_ij具体表示为：

其中

分别表示两个不同种类的语义向量，δ为不大于1的参数。

然后我们通过损失函数

来调整最后学出来的不可见类类原型P_u，

分别表示不同类别的图像特征空间的类原型向量，若2个类语义类原型相似度大于预设值，那么A_ij和损失函数L_pc小于预设值；由于A是上述顶点i、j之间的边A_ij组成的向量，D＝diag(D¹,…D^u)对角矩阵中的每一项是A的每列之和，我们令L_u＝D-A，因此损失函数L_pc也可以表示为：

其中

分别表示不可见类中2个不同种类的图像特征空间类原型向量，A_ij为该2个不同种类之间的关系，L_u＝D-A，tr表示迹。最终目标函数L为：

步骤4、将图片图像特征和视觉图像特征输入分类器网络，并进行共同训练得到分类器。

首先对参数进行一个初始化，K、L分别为可见类、不可见类类别个数；Z_u∈R^K×L为可见类与不可见类在语义空间中类原型余弦距离；已知不可见类的语义空间类原型C_u和可见类与不可见类在语义空间中类原型余弦距离Z_u，通过公式

即可求得不可见类在视觉空间中的类原型P_u。

然后对其进行联合优化，固定视觉空间中的字典D₁以及可见类类别在对齐空间中的表示Z_s，通过最小化公式

的值更新可见类在视觉空间中的类原型P_s，其中β是设置的参数；

的值更新视觉空间中的字典D₁，其中α是设置的参数；

的值更新语义空间中的字典D₂，其中α是设置的参数；

步骤5、将测试集输入所述分类器，以实现对测试集进行分类。

该部分主要通过以下3中方式得到最后的预估计类别实现分类：

在视觉特征空间中：已知不可见类视觉空间类原型P_u，为了进一步解决域移位问题，修改预测的不可见类视觉空间类原型P_u，搜索与第i个不可见类视觉空间类原型

最近的K个不可见类样本图像特征向量X_t，通过计算

并将该值作为最后的不可见类在视觉空间上的类原型P_u'。在预测过程中直接计算X_i与所有不可见类类原型P_u'的相似度Sim_v(余弦距离)，然后将最接近的类原型作为分类的预估计值，完成零样本图像分类任务；

在对齐空间中：已知不可见类在对齐空间中的表示Z_u，通过最小化公式

能够求得测试类在对齐空间中的表示Z_i，通过计算Z_i与所有不可见类类原型Z_u的相似度Sim_v(余弦距离)，然后将最接近的类原型作为分类的预估计值，完成零样本图像分类任务。其中D₁是视觉空间中的字典，X_i是测试类别的图像特征向量，μ是不大于1的参数；

在语义空间中：上一步求得了测试类在对齐空间中的表示Z_i，通过公式C_i＝D₂Z_i即可求得测试类的语义向量，其中D₂是字典，然后通过计算测试类的语义向量C_i和所有不可见类的语义向量C_u之间的相似度Sim_s(余弦距离)，然后将最接近的类原型作为分类的预估计值，完成零样本图像分类任务。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于字典学习的零样本图像分类方法，其特征在于，所述方法包括以下步骤：

步骤一：获取计算机视觉的通用图像数据集；

2.根据权利要求1所述的一种基于字典学习的零样本图像分类方法，其特征在于，步骤一中，计算机视觉的通用图像数据集为AWA、CUB、SUN、aPY图像数据集中的任一种。

3.根据权利要求1所述的一种基于字典学习的零样本图像分类方法，其特征在于，步骤二中，对所述图像数据集预处理方法如下：采用ResNet101对图像进行预处理，将步骤一中的数据集图像送入ResNet101网络后输出2048维的图像特征向量，将所有类别分为训练数据集图像特征表示和测试数据集图像特征表示，类别的语义数据集使用的是属性描述信息。

4.根据权利要求1所述的一种基于字典学习的零样本图像分类方法，其特征在于，步骤三中，构建耦合字典学习框架方法如下：