CN106203483A

CN106203483A - 一种基于语义相关多模态映射方法的零样本图像分类方法

Info

Publication number: CN106203483A
Application number: CN201610507579.XA
Authority: CN
Inventors: 冀中; 谢于中; 庞彦伟
Original assignee: Tianjin University
Current assignee: GAOTANG Rongzhi Rongzhi Technology Service Co.,Ltd.
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-12-07
Anticipated expiration: 2036-06-29
Also published as: CN106203483B

Abstract

一种基于语义相关多模态映射方法的零样本图像分类方法，首先输入：训练数据的视觉特征矩阵、训练数据的辅助信息矩阵、权重参数、公共映射空间的维数、待测试数据的视觉特征，以及测试数据的辅助信息矩阵，进行如下步骤：计算训练数据中每两个类别之间的语义相似度；构建矩阵A；由矩阵A构造矩阵L；在训练数据的每个类别中，计算每两个图像在视觉空间中的距离之和；构造矩阵D；分别计算本征矢量P和Q；计算从视觉空间映射到公共空间的映射矢量，计算从辅助信息空间映射到公共空间的映射矢量；得到测试数据的分类结果。本发明使各个类别在公共空间中具有类内紧致性和类间分离性，本发明方法法在零样本图像分类中可以取得更高的准确率，简单易行，效果优良。

Description

一种基于语义相关多模态映射方法的零样本图像分类方法

技术领域

本发明涉及一种零样本图像分类方法。特别是涉及一种通过建立图像的视觉空间与图像类别的语义空间之间的联系，实现零样本图像分类的基于语义相关多模态映射方法的零样本图像分类方法。

背景技术

对于传统的图像分类系统，要想准确识别出某类图像，必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的，零样本图像分类就是解决类别标签缺失问题的一种有效手段，其目的在于模仿人类无需看过实际视觉样例，就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据，也就是已经见过的类别，在视觉空间和语义空间之间建立映射关系，然后根据训练数据和未见过的类别的测试数据在视觉和语义上的联系，为测试数据赋予类别标签。

在零样本图像分类中，对于未见过的类别的测试图像和相应的类别名称，需要借助语义空间建立联系。在语义空间中，每一个类别名称都被表示成一个高维向量。早期工作中，这个语义空间通常是基于属性的，于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性，比如对象的颜色、形状等，用其作为高级语义描述方式。

近年来，随着自然语言处理技术的发展，基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的word2vec，它是一种无监督的方法，可以将语料库中的单词用向量来表示，并且向量之间的相似度可以很好的模拟单词语义上的相似度。

在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后，各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而，图像是由视觉空间中的视觉特征向量表示的，由于语义鸿沟的存在，它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征，学习一个从视觉空间映射到语义空间的映射函数。然后，通过这个映射函数，将测试图片的视觉特征映射至语义空间，得到预测的语义特征，再找出离它最近的未见过类别的语义特征，从而确定所属类别。

即，通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间，然后进行分类。但是，类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。

一种更好的方式是寻求视觉特征空间和语义特征空间之间的一个公共空间。典型相关分析正好可以满足这个寻找公共空间的需求。

发明内容

本发明所要解决的技术问题是，提供一种在零样本图像分类中可以取得更高准确率的基于语义相关多模态映射方法的零样本图像分类方法。

本发明所采用的技术方案是：一种基于语义相关多模态映射方法的零样本图像分类方法，其特征在于，首先输入如下信息：训练数据的视觉特征矩阵X＝{x₁,x₂,...,x_n}，其中n为训练数据样本数；训练数据的辅助信息矩阵Y＝{y₁,y₂,...,y_m}，其中m为训练数据类别数；权重参数α，公共映射空间E的维数d；待测试数据的视觉特征x′，以及测试数据的辅助信息矩阵Y′＝{y′₁,y′₂,...,y′_t}，其中t是测试数据类别数，然后，进行如下步骤：

1)计算训练数据中每两个类别之间的语义相似度其中i,j＝1,2,...,m,y_i为训练数据第i类的辅助信息，y_j为训练数据第j类的辅助信息，σ为可调节的参数；

2)构建矩阵其中t_i是训练数据中第i类的图像样本个数，i,j＝1,2,...,m；

3)由步骤2)中的矩阵A构造矩阵

4)在训练数据的每个类别中，计算每两个图像在视觉空间中的距离之和其中t_i是训练数据中第i类的图像样本个数；

5)构造矩阵D＝diag{H₁,...,H_m}，其中

6)利用如下公式分别计算本征矢量P＝[p₁,...,p_d]和Q＝[q₁,...,q_d]，将P和Q作变换矩阵，

{({XX}^{T} + {αXDX}^{T} + \frac{1}{λ} {XLX}^{T})}^{- 1} ({XAY}^{T}) Q = λ P - - - (4)

{({YY}^{T} + \frac{1}{μ} {YLY}^{T})}^{- 1} {({XAY}^{T})}^{T} P = μ Q - - - (5)

其中，α为权重参数,λ、μ为求得的特征值；

7)对于测试数据的图像特征x′利用P^Tx′计算从视觉空间映射到公共空间的映射矢量，利用Q^Ty′_j计算从辅助信息空间映射到公共空间的映射矢量，j＝1,2,...,m；

8)在公共空间中，找到与P^Tx′距离最近的Q^Ty′_j，所述的Q^Ty′_j所对应的类别j就是所要求的测试数据的分类结果。

步骤6)给出的计算本征矢量P＝[p₁,...,p_d]和Q＝[q₁,...,q_d]的公式是根据目标函数公式：

\min_{P, Q} {\underset{i, j = 1}{Σ}}_{i &NotEqual; j}^{m} Σ_{k = 1}^{t_{i}} | | P^{T} x_{i}^{k} - Q^{T} y_{j} | |^{2} a_{i j} + α Σ_{i = 1}^{m} Σ_{j, k = 1}^{t_{i}} | | P^{T} x_{i}^{j} - P^{T} x_{i}^{k} | |^{2} s_{i}^{j k} - - - (1)

其中，P和Q是变换矩阵，分别将视觉特征和辅助信息矩阵映射到一个共享的公共映射空间；表示类别i和类别j的语义相似度，两个类别越相似，它们的语义特征就会越接近，a_ij值也就越接近于1，其中σ是一个常数,用来度量和之间的视觉相似性,α是权重参数，用来平衡目标函数公式中和的重要程度。

本发明的一种基于语义相关多模态映射方法的零样本图像分类方法，具有以下有益效果：

1、新颖性：本发明将流形约束引入目标函数，使得类别之间的相似度表现的更加具体。并且加入了局部保持的约束项，让同一类图像的视觉特征映射到公共空间后仍然保持原来视觉空间中的几何结构。从而使各个类别在公共空间中具有类内紧致性和类间分离性。

2、有效性：经过实验验证，与其他未用流形的方法和将视觉特征映射到语义特征空间的方法相比，本发明设计的算法在零样本图像分类中可以取得更高的准确率，因此是一种有效的零样本图像分类方法。

3、本发明的方法简单易行，效果优良。除了零样本图像分类问题，同时也能适应其他的多模态分类、检索问题。

具体实施方式

下面结合实施例对本发明的一种基于语义相关多模态映射方法的零样本图像分类方法做出详细说明。

本发明的一种基于语义相关多模态映射方法的零样本图像分类方法，首先输入如下信息：训练数据的图像/视频特征矩阵X＝{x₁,x₂,...,x_n}，其中n为训练数据样本数；训练数据的辅助信息矩阵Y＝{y₁,y₂,...,y_m}，例如属性信息或者分布式文本表示信息，其中m为训练数据类别数；权重参数α，公共映射空间E的维数d；待测试数据的视觉特征x′，以及测试数据的辅助信息矩阵Y′＝{y′₁,y′₂,...,y′_t}，其中t是测试数据类别数。然后，进行如下步骤：

1)计算训练数据中每两个类别之间的语义相似度其中i,j＝1,2,...,m,y_i为训练数据第i类的辅助信息，y_j为训练数据第j类的辅助信息，σ为可调节的参数，一般取1；

3)由步骤2)中的矩阵A构造矩阵

5)构造矩阵D＝diag{H₁,...,H_m}，其中

{({XX}^{T} + {αXDX}^{T} + \frac{1}{λ} {XLX}^{T})}^{- 1} ({XAY}^{T}) Q = λ P - - - (4)

{({YY}^{T} + \frac{1}{μ} {YLY}^{T})}^{- 1} {({XAY}^{T})}^{T} P = μ Q - - - (5)

其中，α为权重参数,λ、μ为求得的特征值；

上述的计算本征矢量P＝[p₁,...,p_d]和Q＝[q₁,...,q_d]的公式(4)和公式(5)是根据目标函数公式：

\min_{P, Q} {\underset{i, j = 1}{Σ}}_{i &NotEqual; j}^{m} Σ_{k = 1}^{t_{i}} | | P^{T} x_{i}^{k} - Q^{T} y_{j} | |^{2} a_{i j} + α Σ_{i = 1}^{m} Σ_{j, k = 1}^{t_{i}} | | P^{T} x_{i}^{j} - P^{T} x_{i}^{k} | |^{2} s_{i}^{j k} - - - (1)

其中，P和Q是变换矩阵，分别将视觉特征和辅助信息矩阵映射到一个共享的公共映射空间；表示类别i和类别j的语义相似度，两个类别越相似，它们的语义特征就会越接近，a_ij值也就越接近于1，其中σ是一个常数,用来度量和之间的视觉相似性,α是权重参数，用来平衡目标函数公式中平衡目标函数公式中和的重要程度。

公式(1)中第一项的物理意义是让图像的视觉特征与其类别的语义特征在映射到公共空间后的欧氏距离最接近。其中a_ij的目的是使得类别之间的相似度表现的更加具体，而不是简单的表示类别相同或不同。公式(1)中第二项的物理意义是增加视觉一致性约束，使目标函数具有局部保持特性，让同一类图像的视觉特征映射到公共空间后仍然保持原来视觉空间中的几何结构，即在视觉空间中相近的两幅图像在公共空间中距离依然相近。

将公式(1)进一步化简，得到：

\begin{matrix} \underset{P, Q}{m a x} 2 P^{T} {XAY}^{T} Q - P^{T} {XLX}^{T} P - Q^{T} {YLY}^{T} Q - {αP}^{T} {XDX}^{T} P \\ \begin{matrix} s . t . & P^{T} {XX}^{T} P = 1 \\ Q^{T} {YY}^{T} Q = 1 \end{matrix} \end{matrix} - - - (2)

其中，这里的D＝diag{H₁,...,H_m}，这里的H_i＝D_i-S_i，

用拉格朗日乘子法解公式(2)，得到以下方程：

\begin{matrix} {({XX}^{T} + {αXDX}^{T} + β_{1} {XLX}^{T})}^{- 1} ({XAY}^{T}) Q = λ P \\ {({YY}^{T} + β_{2} {YLY}^{T})}^{- 1} {({XAY}^{T})}^{T} P = μ Q \end{matrix} - - - (3)

其中，λ、μ是拉格朗日乘子，且β₁＝1/λ，β₂＝1/μ。这样，就把最优化问题转化为了特征值的求解问题。求出方程(3)的特征值λ、μ，根据公共空间的维数d，分别选择λ、μ最大的d个特征值对应的d个特征向量P、Q，这就是要求的映射矩阵。

Claims

1.一种基于语义相关多模态映射方法的零样本图像分类方法，其特征在于，首先输入如下信息：训练数据的视觉特征矩阵X＝{x₁,x₂,...,x_n}，其中n为训练数据样本数；训练数据的辅助信息矩阵Y＝{y₁,y₂,...,y_m}，其中m为训练数据类别数；权重参数α，公共映射空间E的维数d；待测试数据的视觉特征x′，以及测试数据的辅助信息矩阵Y′＝{y′₁,y′₂,...,y′_t}，其中t是测试数据类别数，然后，进行如下步骤：

3)由步骤2)中的矩阵A构造矩阵

5)构造矩阵D＝diag{H₁,...,H_m}，其中H_i＝D_i-S_i，

{({XX}^{T} + {αXDX}^{T} + \frac{1}{λ} {XLX}^{T})}^{- 1} ({XAY}^{T}) Q = λ P - - - (4)

{({YY}^{T} + \frac{1}{μ} {YLY}^{T})}^{- 1} {({XAY}^{T})}^{T} P = μ Q - - - (5)

其中，α为权重参数,λ、μ为求得的特征值；

2.根据权利要求1所述的一种基于语义相关多模态映射方法的零样本图像分类方法，其特征在于，步骤6)给出的计算本征矢量P＝[p₁,...,p_d]和Q＝[q₁,...,q_d]的公式是根据目标函数公式：

\min_{P, Q} {\underset{i, j = 1}{Σ}}_{i &NotEqual; j}^{m} Σ_{k = 1}^{t_{i}} | | P^{T} x_{i}^{k} - Q^{T} y_{j} | |^{2} a_{i j} + α Σ_{i = 1}^{m} Σ_{j, k = 1}^{t_{i}} | | P^{T} x_{i}^{j} - P^{T} x_{i}^{k} | |^{2} s_{i}^{j k} - - - (1)

获得，