CN106485272A

CN106485272A - 基于流形约束的跨模态嵌入的零样本分类方法

Info

Publication number: CN106485272A
Application number: CN201610879328.4A
Authority: CN
Inventors: 冀中; 于云龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-03-08

Abstract

一种基于流形约束的跨模态嵌入的零样本分类方法，包括：利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵；利用学习到的转换矩阵，将测试样本从视觉空间映射到类别语义空间，得到测试样本在类别语义空间中的嵌入向量；利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系，利用最近邻分类器实现对测试样本的分类。本发明的基于流形约束的跨模态嵌入的零样本分类方法，能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息，并且利用流形约束保持在模态转换过程中的局部结构。

Description

基于流形约束的跨模态嵌入的零样本分类方法

技术领域

本发明涉及一种零样本分类方法。特别是涉及一种基于流形约束的跨模态嵌入的零样本分类方法。

背景技术

传统的物体分类技术中测试样本所属的类别一定包含在训练阶段出现过的类别中。为了获得更好的分类效果，每一个训练类别需要大量的标注样本。而对样本进行标注需要大量的时间和人力，而且有些类别很难获得标注样本。为了解决训练样本缺失的问题，零样本分类引起了研究者们的关注。

零样本分类的任务是将测试样本分类到在训练阶段未出现过的类别中。传统的分类技术无法解决这一问题。为了实现这一目标，研究者们提出了一种所有类别共享的中间层特征空间将信息从训练类别中转移到测试类别。常用的中间层特征空间有：属性空间和类别语义描述空间。

属性特征是人为定义的类别之间共享的特性，如“颜色”，“纹理”，“大小”，“习性”等能够描述类别语义的特性。研究表明，属性特征有助于复杂环境下的机器学习，对于熟悉和不熟悉的事物具有独特的作用。作为不同类别共享的中间层语义特征，属性特征被用于弥补底层的视觉特征和高层的类别特征之间的语义鸿沟，因此被广泛应用于物体检测，图像描述，人脸识别，图像检索等，并且为识别未标注类别的样本提供了可能。

利用自然语言处理技术从语料库中获得文本描述特征是另一种常用的中间层特征。与属性特征不同，文本描述是一种无监督方式提取的类别语义特征，因此更具有普适性。常用的获取文本描述的方法有word2vec，GloVE等技术。Word2vec技术是Google在2013年提出的一种将单词表征为实数值向量的工具。利用深度学习的思想，word2vec模型可以把对文本内容的处理简化为K维向量空间中的向量运算。

零样本分类的基本框架是：在训练阶段，利用有标注样本的训练样本学习一个跨模态嵌入的模型，将样本从视觉特征空间映射到中间层的类别语义空间。在类别语义空间中，每一个类别(训练类别和测试类别)都对应着一个类别描述向量。在测试阶段，利用在训练阶段学习到的跨模态嵌入框架将测试样本嵌入到类别语义空间中，根据样本在类别语义空间中的嵌入向量与测试类别在类别语义空间中的类别描述向量之间的关系，利用最近邻分类器对测试样本进行预测。然而当前跨模态嵌入的框架只关注不同模态空间之间的语义对齐，而忽视了跨模态过程中的局部结构变化。

发明内容

本发明所要解决的技术问题是，提供一种基于流形约束的跨模态嵌入的零样本分类方法，本发明的方法不仅能挖掘不同模态之间的语义信息及类别之间的判别信息，还能够利用流形约束保持特征转换前后的结构信息。

本发明所采用的技术方案是：一种基于流形约束的跨模态嵌入的零样本分类方法，包括如下步骤：

1)利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W

其中，x_i表示来自训练数据集S的训练样本，是训练样本x_i所属类别的类别语义特征，λ₁和λ₂是常数，表示所有的训练样本，L表示拉普拉斯矩阵，n表示训练数据集的样本个数，K表示训练样本的类别数；

2)利用学习到的转换矩阵W，将测试样本从视觉空间映射到类别语义空间，得到测试样本在类别语义空间中的嵌入向量；

3)利用欧式距离计算测试样本在类别语义空间中的嵌入向量与测试类别的语义特征之间的关系，利用最近邻分类器实现对测试样本的分类。

步骤1)中所述的拉普拉斯矩阵L＝D-S，其中，D_ii＝∑_jS_ij表示第i个样本的度，S表示样本的相似度矩阵，S_ij表示样本x_i和x_j之间的相似度，x_i和x_j是来自训练数据集S的训练样本。

步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题，是利用流形约束的跨模态嵌入模型对转换矩阵W求导，得到转换矩阵W的最优值：

其中I是单位矩阵，表示对应的类别语义特征矩阵，矩阵Y_S的每一列表示每一个样本对应的类别语义特征向量，矩阵的每一列表示所有训练类别的语义特征向量的平均值，即：

本发明的基于流形约束的跨模态嵌入的零样本分类方法，能够更好的挖掘不同模态之间的语义信息以及不同类别之间的判别信息，并且利用流形约束保持在模态转换过程中的局部结构。其优势主要体现在：

(1)新颖性：首次将流形约束应用在零样本分类中，并在此基础上设计了一种有效的跨模态嵌入方法，充分挖掘不同模态之间的语义信息及不同类别之间的判别信息，提出了适用于零样本分类的跨模态嵌入算法。

(2)多模态性：所提供的方法属于多模态学习算法。除了视觉特征外，零样本分类还需要类别语义特征。一方面，通过最大化不同模态数据之间的语义相关性,挖掘不同模态之间的语义信息。另一方面，根据标注样本类别，挖掘类别之间的判别信息，同时利用流形约束保持特征转换过程中的局部结构。两方面结合共同实现跨模态转换的目的。

(3)有效性：实验证明，与当前跨模态嵌入算法相比较，本发明设计的基于流形嵌入的跨模态嵌入模型在零样本分类实验中的性能有明显的优势，

(4)实用性：简单可行，复杂度低。可以用在零样本分类，多模态检索等相关领域。

附图说明

图1是基于流形约束的跨模态嵌入的零样本分类方法的流程图；

图2是本发明中基于流形约束的跨模态嵌入方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于流形约束的跨模态嵌入的零样本分类方法做出详细说明。

本发明的基于流形约束的跨模态嵌入的零样本分类方法，是在跨模态嵌入框架的基础上，提出一种有效地解决零样本分类的方法。本发明对当前的跨模态嵌入方法进行了改进，在特征转换的过程中不仅充分挖掘不同模态之间的语义信息及类别之间的判别信息，而且利用流形约束保持特征转换前后的局部结构，从而达到有效利用数据信息，提高分类效果的目的。本发明还提供了利用本方法实现零样本分类的系统。本发明的方法不仅仅能挖掘不同模态之间的语义信息及类别之间的判别信息，而且利用流形约束保持特征转换前后的结构信息。

如图1所示，本发明的基于流形约束的跨模态嵌入的零样本分类方法，目标是学习一个转移矩阵W^*将视觉空间中的特征向量映射到类别语义空间中。其目标函数主要有三部分组成：流形约束项语义对齐项和正则项流形约束项是用于保持特征转换前后的局部结构信息，语义对齐项是用于挖掘不同模态空间中的语义信息及类别之间的判别信息，正则项用于防止过拟合。

本发明的基于流形约束的跨模态嵌入的零样本分类方法，包括如下步骤：

1)如图2所示，利用如下流形约束的跨模态嵌入模型学习从视觉空间映射到类别语义空间的转换矩阵W

所述的拉普拉斯矩阵L＝D-S，其中，D_ii＝∑_jS_ij表示第i个样本的度，S表示样本的相似度矩阵，S_ij表示样本x_i和x_j之间的相似度，x_i和x_j是来自训练数据集S的训练样本。

所述的转换矩阵W学习过程是一个最小二乘优化问题，是利用流形约束的跨模态嵌入模型对转换矩阵W求导，得到转换矩阵W的W最优值：

Claims

1.一种基于流形约束的跨模态嵌入的零样本分类方法，其特征在于，包括如下步骤：

\begin{matrix} \arg \underset{w}{m i n} Σ_{i = 1}^{n} Σ_{j = 1}^{K} - (x_{i}^{T} {Wy}_{l_{i}} - x_{i}^{T} {Wy}_{j}) + \frac{λ_{1}}{2} | | W | |_{F}^{2} + \frac{λ_{2}}{2} W^{T} X_{S} {LX}_{S}^{T} W \\ \begin{matrix} s . t . & X_{S}^{T} {WW}^{T} X_{S}^{T} = 1 \end{matrix}, \end{matrix}

2.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法，其特征在于，步骤1)中所述的拉普拉斯矩阵L＝D-S，其中，表示第i个样本的度，S表示样本的相似度矩阵，S_ij表示样本x_i和x_j之间的相似度，x_i和x_j是来自训练数据集S的训练样本。

3.根据权利要求1所述的基于流形约束的跨模态嵌入的零样本分类方法，其特征在于，步骤1)中所述的转换矩阵W学习过程是一个最小二乘优化问题，是利用流形约束的跨模态嵌入模型对转换矩阵W求导，得到转换矩阵W的最优值：

W^{*} = {(X_{S} X_{S}^{T} + λ_{1} I + λ_{2} X_{S} {LX}_{S}^{T})}^{- 1} (X_{S} Y_{S}^{T} - X_{S} {\hat{Y}}_{S}^{T}),