CN108537257A

CN108537257A - 基于判别性字典矩阵对的零样本分类方法

Info

Publication number: CN108537257A
Application number: CN201810253692.9A
Authority: CN
Inventors: 冀中; 王俊月; 于云龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-14
Anticipated expiration: 2038-03-26
Also published as: CN108537257B

Abstract

一种基于判别性字典矩阵对的零样本分类方法：将数据集分为训练样本和测试样本；从训练样本中，选择视觉特征矩阵和类别语义特征矩阵作为输入；计算子编码矩阵；分别重构视觉特征矩阵中的各类的视觉特征矩阵；计算重构误差；按照求得的映射矩阵的闭式解，对映射矩阵的数值进行更新；对字典矩阵的数值进行更新；重复上述过程，直到重构误差达到收敛；求得各测试类别的满足高斯分布的虚拟类别语义特征矩阵；计算各测试样本的虚拟类别语义特征矩阵与训练样本的类别语义特征矩阵间的相似度，得到余弦相似度；计算各测试样本的虚拟样本矩阵；用虚拟样本矩阵训练SVM分类器，使用SVM分类器对测试样本进行分类。本发明能够更加明确地区分类别之间的异同信息。

Description

基于判别性字典矩阵对的零样本分类方法

技术领域

本发明涉及一种零样本分类方法。特别是涉及一种基于判别性字典矩阵对的零样本分类方法.

背景技术

据粗略估计，人类至少能够识别3000个不同的物体类别。如果利用传统的物体识别技术对同样类别的物体进行识别则需要百万数量级的标注训练样本集，而对数据集进行标注需要大量的时间和人力。为了解决训练样本缺失的问题，零样本学习引起了人们的关注。在没有训练样本的情况下进行物体分类，这个任务叫作零样本学习(Zero-ShotLearning，ZSL)。人类能根据拥有的知识储备，加以类别的描述信息对未知类别的样本进行预测和分类。例如：当描述物体为“有着粗壮的肢干的庞大灰色动物”时，就可以辨认出是大象。受此启发，零样本学习就是利用类别语义信息以及可见类别和未见类别之间的语义关联实现对未见类别样本的分类，使机器学习系统不仅拥有学习归纳的能力还拥有推断的能力。

为了实现知识的迁移，表征类别之间的语义关联，常用的类别语义特征有属性特征和文本矢量特征两种。属性特征通常是人为标注的，而文本矢量特征是利用的自然语言处理技术在维基百科等语料库中提取出来的。

图像是由视觉空间中的视觉特征表示的，由于语义鸿沟的存在，它不能与语义空间的语义特征直接建立联系。现有方法大多通过可见类别的图像的视觉特征和其相应的类别语义特征，学习从视觉空间到类别语义空间的映射函数。然后，通过该映射函数，将测试样本的视觉特征映射至该类别语义空间，得到预测的类别语义特征，根据最近邻的方法确定测试样本所属类别。

字典学习技术是在稀疏编码理论当中的重要最组成部分。具体来讲，就是使用过完备的字典对一个信号稀疏表示。其中过完备的字典中的字典原子就相当于使用的汉语词典中的每个字，我们希望可以在汉语词典中选取最少的字来近似表达一句话的完整意思。将字典学习技术应用在零样本分类当中，即是应用字典D以及其对应的编码系数C对可见类别的视觉特征进行重构。而字典学习技术的解决通常涉及到两个步骤：

1)固定一个字典矩阵D，使用稀疏编码方法，求解编码系数C。

2)固定已求得的编码系数C，用某种算法更新字典D。

其中，由于字典矩阵是过完备的，使其对应的编码系数C存在多种可能。因此，在编码系数C的求解过程中可以利用一定的规则进行约束，求得可以满足零样本分类中知识迁移目的的唯一解。

假设在训练阶段有M个类的m个带标签的样本，并且每个样本都同时与一个视觉特征矢量和语义嵌入空间中的一个语义矢量相联系。我们把X＝[X₁,X₂,…X_M]∈R^p×m作为在训练阶段使用样本的视觉特征，p是视觉特征的维度，X_k(1≤k≤M)代表第k类的样本。并且我们使用Y∈{0,1}^m×M和A＝[A₁,A₂,…A_M]∈R^q×M分别代表所有训练样本对应的真实标签矩阵和类别语义特征，A_k(1≤k≤M)代表第k类的类别语义特征。

在测试阶段，给出了N个未见类别的n个样本，用X_u∈R^p×n表示，以及未见类别的类别语义特征。零样本分类的目的就是利用由训练样本中学到的知识以及测试样本的视觉特征X_u和类别语义特征A_u进行测试样本类别Y_u的预测。

现存的基于映射的方法主要包括以下步骤：

1、利用训练样本的视觉特征X和类别语义特征A训练由视觉空间到类别语义空间的映射关系

2、利用训练样本学习到的映射关系f将测试样本的视觉特征映射到类别语义空间，得到测试样本预测的类别语义特征。

3、利用预测得到的类别语义特征与测试样本的类别语义特征间的相似度关系，确定测试样本所属类别。通常确定类别使用的判别标准为最近邻方法。

然而上述的基于映射的方法存在着以下问题：

在计算映射关系的过程中求得的映射函数是针对训练样本整体，并且默认映射函数为f(x)＝a，即认为预测的类别语义特征与真实的语义特征是相等的关系。这样不仅忽略了预测的类别语义特征与真实语义特征的细微差别，也使得利用训练样本学习到的映射关系缺少了各个类别之间的异同关系。因此使得学习得到的模型不能很好的拟合不同类别之间的关系，造成信息的缺失。

发明内容

本发明所要解决的技术问题是，提供一种适合于真实场景下的零样本分类的基于判别性字典矩阵对的零样本分类方法。

本发明所采用的技术方案是：一种基于判别性字典矩阵对的零样本分类方法，包括如下步骤：

1)将数据集分为训练样本和测试样本；

2)从训练样本中，选择视觉特征矩阵X＝[X₁,X₂,…,X_i,…,X_M]和类别语义特征矩阵A＝[A₁,A₂,…,A_i,…,A_M]作为输入；

3)计算子编码矩阵C_i：

C_i＝P_iA_i+λQA_i

其中，P_i和Q为采用高斯随机分布函数生成的映射矩阵，λ为设定的权衡P_i和Q两者之间所占比重的参数；

4)分别重构视觉特征矩阵中的各类的视觉特征矩阵X_i：

X_i＝DC_i

其中，D为采用高斯随机分布函数生成的字典矩阵；

5)计算重构误差：

其中，γ为设定的权衡第四项和第五项两者之间所占比重的参数；|| ||₂为2范数，|| ||_F为Frobenius范数；d_m为字典矩阵D的元素，M为训练样本的类别数；

6)按照采用最小二乘法求得的映射矩阵P_i和Q的闭式解：

对映射矩阵P_i和Q的数值进行更新，其中，I是单位矩阵；

7)采用交替方向乘子算法对字典矩阵D的数值进行更新；

8)重复步骤3)～步骤7)，直到重构误差达到收敛；

9)按照下式求得各测试类别的满足高斯分布的虚拟类别语义特征矩阵A^vir：

其中，a_u为测试样本的类别语义特征，为设定的数值；

10)使用余弦相似度计算各测试样本的虚拟类别语义特征矩阵A^vir与训练样本的类别语义特征矩阵A＝[A₁,A₂,…,A_i,…,A_M]间的相似度，得到余弦相似度w_ij；

其中，a_i为第i个训练样本的类别语义特征，为虚拟类别语义特征矩阵A^vir的第j列；

11)按如下公式计算各测试样本的虚拟样本矩阵X^vir：

其中，u_yj为按降序排列后的余弦相似度，即第y个训练样本的类别语义特征和第j个虚拟类别语义特征间的余弦相似度，k为选择的与第j个虚拟类别语义特征间相似的训练样本的类别语义特征的个数，为与选择的训练样本对应的映射矩阵，为虚拟样本矩阵X^vir的第j列；

12)用虚拟样本矩阵X^vir训练SVM分类器，并使用SVM分类器对测试样本进行分类。

本发明基于判别性字典矩阵对的零样本分类方法，利用字典学习方法学习视觉特征与类别语义特征间的映射关系，更加明确地区分类别之间的异同信息，其优势主要体现在：

1、新颖性：首次引入保存异同信息的两个映射矩阵，充分考虑了类别间的差异，并且使用了高斯分布生成虚拟数据用以保证分类的可靠性，设计了适合于真实场景下的零样本分类技术。

2、有效性：通过实验证明了与现存的归纳方法相比，本发明的方法在性能上有所提高，说明了该发明的有效性。

3、实用性：本发明结构简单，可以较方便地应用图像识别、信息检索等其他领域。

附图说明

图1是本发明基于判别性字典矩阵对的零样本分类方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于判别性字典矩阵对的零样本分类方法做出详细说明。

本发明的基于判别性字典矩阵对的零样本分类方法，假设字典学习技术可以使用字典矩阵D和编码矩阵C对视觉特征X进行重构，并学得不同类别间的辨别信息。本发明在此基础上，认为编码矩阵C由具有类辨别性的多个子编码矩阵C_k表示，即C＝[C₁,C₂,…C_M](k＝1,2,…M)，其中M为类的个数。由此，本发明提出了一种新的零样本学习框架，即利用子编码矩阵C_k将视觉特征与类别语义特征联系起来，达到零样本分类的目的。

对于零样本图像分类任务，本发明并不直接将测试样本的视觉特征X_u利用训练好的模型映射到类别语义空间求得预测的语义特征，而是利用生成的虚拟样本训练SVM分类器，进而对真实的测试样本进行分类。本发明没有直接利用f(x)＝a的关系，而间接使用该映射关系生成虚拟数据。这样避免了预测的类别语义特征与真实的语义特征间的差别，在零样本分类中能够达到更好的分类效果。

如图1所示，本发明的基于判别性字典矩阵对的零样本分类方法，包括如下步骤：

1)将数据集分为训练样本和测试样本；所述的数据集可以是Animals withAttributes或SUN Attribute或aPascal-aYahoo。

3)计算子编码矩阵C_i：

C_i＝P_iA_i+λQA_i

4)分别重构视觉特征矩阵中的各类的视觉特征矩阵X_i：

X_i＝DC_i

其中，D为采用高斯随机分布函数生成的字典矩阵；

5)计算重构误差：

6)按照采用最小二乘法求得的映射矩阵P_i和Q的闭式解：

对映射矩阵P_i和Q的数值进行更新，其中，I是单位矩阵；

7)采用交替方向乘子算法对字典矩阵D的数值进行更新；

8)重复步骤3)～步骤7)，直到重构误差达到收敛；

其中，a_u为测试样本的类别语义特征，为设定的数值；

其中，a_i为第i个训练样本的类别语义特征，为虚拟类别语义特征矩阵A^vir的第j列。

11)按如下公式计算各测试样本的虚拟样本矩阵X^vir：

Claims

1.一种基于判别性字典矩阵对的零样本分类方法，其特征在于，包括如下步骤：

1)将数据集分为训练样本和测试样本；

3)计算子编码矩阵C_i：

C_i＝P_iA_i+λQA_i

4)分别重构视觉特征矩阵中的各类的视觉特征矩阵X_i：

X_i＝DC_i

其中，D为采用高斯随机分布函数生成的字典矩阵；

5)计算重构误差：

6)按照采用最小二乘法求得的映射矩阵P_i和Q的闭式解：

对映射矩阵P_i和Q的数值进行更新，其中，I是单位矩阵；

7)采用交替方向乘子算法对字典矩阵D的数值进行更新；

8)重复步骤3)～步骤7)，直到重构误差达到收敛；

其中，a_u为测试样本的类别语义特征，为设定的数值；

11)按如下公式计算各测试样本的虚拟样本矩阵X^vir：