CN107944468A

CN107944468A - 基于隐空间编码的零样本学习分类方法

Info

Publication number: CN107944468A
Application number: CN201711064082.6A
Authority: CN
Inventors: 于云龙; 冀中
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-04-20

Abstract

本发明涉及一种计算机视觉领域的多模态学习方法，为提出一种性能稳定，计算效率高且适用于多模态学习的特征认知的编码方法，并将所提的方法应用于零样本学习中。为此，本发明采用的技术方案是，基于隐空间编码的零样本学习分类方法，对于任一模态，利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵，并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵，其中编码矩阵和解码矩阵是互为转置的关系，利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息，得到不同模态之间的语义关联，进而实现不同模态样本的分类。本发明主要应用于特征认知编码场合。

Description

基于隐空间编码的零样本学习分类方法

技术领域

本发明涉及一种计算机视觉领域的多模态学习方法。特别是涉及一种基于特征认知的编码方法，可以应用于跨模态信息检索，零样本学习等领域。具体讲,涉及基于隐空间编码的零样本学习分类方法。

背景技术

尽管深度卷积神经网络的发展极大地提高了物体识别的性能，但是当前大部分分类模型都是基于监督学习的模型，需要人力去标注大量的训练样本。另外，当新的类别加入分类系统时，分类模型就需要重新训练。这些问题严重的影响了传统分类模型的可扩展性。

为了解决传统分类模型中的缺陷，零样本学习能够识别出在训练阶段未见过类别的样本，受到了研究者们的关注。零样本学习主要是寻找一个类别语义嵌入空间将可见类别的信息转移到未见类别中。当前主要的语义嵌入空间有两种：一种是人为定义的类别属性空间，是有预先定义好的一系列的属性名称张成；另一种是文本向量空间，是利用无监督自然语言处理的技术从大规模的语料库中提取的。得到类别语义空间后，可见类别和未见类别的之间关系就可以利用不同类别在类别语义空间中的距离度量获得，如欧式距离，余弦距离等。因为每一个类别都与类别语义空间中唯一的向量相对应，因此，当前大多数算法主要是利用可见类别的样本学习一个视觉模态和类别语义模态之间的映射函数，然后利用学习到的映射函数得到测试样本和未见类别的类别语义特征之间的关系，从而实现未见类别样本的识别。

大多数模型主要学习一个具体的映射函数联系不同模态之间的关系。然而，不同模态之间的关系是复杂的，甚至是不可描述的，学习具体的映射函数并不能很好地进行建模。

发明内容

为克服现有技术的不足，本发明旨在提出一种性能稳定，计算效率高且适用于多模态学习的特征认知的编码方法，并将所提的方法应用于零样本学习中。为此，本发明采用的技术方案是，基于隐空间编码的零样本学习分类方法，对于任一模态，利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵，并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵，其中编码矩阵和解码矩阵是互为转置的关系，利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息，得到不同模态之间的语义关联，进而实现不同模态样本的分类。

直接利用矩阵分解的方法将视觉特征矩阵分解为编码矩阵和线性解码矩阵即：X～DC，其中p为视觉空间的维度，d为编码矩阵的维度，n为训练样本的个数，具体过程为：

其中|| ||_F表示矩阵的弗罗贝尼乌斯范数，λ表示平衡参数，给定编码矩阵C，最优的解码矩阵D通过求解以下目标函数获得：

C^TCD+λDX^TX＝(1+λ)C^TX (2)

编码矩阵C是不相关的，即：

C^TC＝I (3)

其中I表示单位矩阵，将(3)代入(2)中，得到解码矩阵D的闭式表达式：

D＝(1+λ)C^TX(I+λDX^TX)^-1 (4)

将(4)代入(1)中，目标函数(1)表达为：

minTr[X^TX+λC^TC]-(1+λ)Tr[C^TX(I+λX^TX)^-1X^TC] (5)

其中Tr表示矩阵的迹；

考虑到Tr[X^TX+λC^TC]是常数，因此目标函数(5)等价于：

maxTr[C^TX(I+λX^TX)^-1X^TC]

s.t.C^TC＝I (6)

学习一种线性或者非线性的关系使得语义特征和编码特征之间的相关性最大，其目标函数为：

其中W表示线性映射矩阵，考虑到C^TC＝I，因此目标函数转换为：

maxA^TWC s.t.A^TWW^TA＝I (8)

固定编码矩阵C，线性映射矩阵W的最优值为：

将(9)代入到(7)中，目标函数转换为：

其中△＝A(A^TA)^-1A^T，因此步骤2)的目标函数等价为：

maxTr(C^T△C)s.t.C^TC＝I (11)

结合步骤1)和步骤2)的目标函数，目标函数为：

其中α表示平衡参数，△＝A(A^TA)^-1A^T。

目标函数(12)的优化通过以下方法进行求解：

对于编码矩阵C的每一列向量C_·,i通过求解以下子问题获得：

利用拉格朗日乘子法，最优C_·,i需要满足下面的优化条件：

(X(I+λX^TX)^-1X^T+α△)C_·,i＝ω_iC_·,i (14)

其中ω_i表示拉格朗日乘子，因此，编码矩阵C的优化转换为特征值分解问题，(X(I+λX^TX)^-1X^T+α△)的前d个最大特征值对应着编码矩阵C的最优解；

获得编码矩阵C的最优解后，解码矩阵D可以通过公式(4)获得；同样的，映射矩阵W可以通过公式(9)获得。

本发明的特点及有益效果是：

本发明对于任一模态，利用矩阵分解的方法将此模态的输入特征分解为一个隐层码矩阵和一个编码矩阵，并利用隐层码矩阵和解码矩阵重构原始的输入特征。其中编码矩阵和解码矩阵是互为转置的关系，这样既可以减少训练参数也可以获得闭式的显示解。为了将建立不同模态之间的语义关系，描述同一概念的不同模态的特征应共享公共的隐层向量。

附图说明：

图1是本发明方法应用于零样本学习的流程图。

具体实施方式

本发明所要解决的技术问题是，提供一种性能稳定，计算效率高且适用于多模态学习的特征认知的编码方法，并将所提的方法应用于零样本学习中。

本发明适用于多模态学习的范畴。不失一般性，假设给定两个模态的特征，并以视觉模态和语义模态为例，表示视觉样本的特征集合，x_i是第i个样本的视觉特征，n表示样本的个数，p表示视觉空间的维度；表示与视觉样本对应的语义特征集合，如a_i是第i个样本对应的类别语义特征，q表示语义空间的维度。

本发明中提出了一种基于编码-解码框架下的含蓄模型。具体为：对于任一模态，利用矩阵分解的方法将此模态的输入特征分解为一个隐层码矩阵和一个编码矩阵，并利用隐层码矩阵和解码矩阵重构原始的输入特征。其中编码矩阵和解码矩阵是互为转置的关系，这样既可以减少训练参数也可以获得闭式的显示解。为了将建立不同模态之间的语义关系，描述同一概念的不同模态的特征应共享公共的隐层向量。

本发明所采用的技术方案是：一种基于特征认知的编码方法，包括如下步骤：

1)视觉特征的编码过程

2)编码特征和语义特征的预测映射过程

步骤1)中的编码过程直接利用矩阵分解的方法将视觉特征矩阵分解为隐特征矩阵和线性解码矩阵(d为编码矩阵的维度)即：X～DC。具体目标包括：

(1)最大化编码矩阵的预测能力；

(2)最大化编码矩阵的可复原性。

为了实现以上目标，编码过程可以设定为：

其中||||_F表示矩阵的弗罗贝尼乌斯范数，λ表示平衡参数。

给定编码矩阵C，最优的解码矩阵D可以通过求解以下目标函数获得：

C^TCD+λDX^TX＝(1+λ)C^TX (2)

为了提高编码特征的预测能力，减少特征之间的冗余度，设定编码矩阵C是不相关的，即：

C^TC＝I (3)

其中I表示单位矩阵。

将(3)代入(2)中，可以得到解码矩阵D的闭式表达式：

D＝(1+λ)C^TX(I+λDX^TX)^-1 (4)

将(4)代入(1)中，目标函数(1)可以表达为：

minTr[X^TX+λC^TC]-(1+λ)Tr[C^TX(I+λX^TX)^-1X^TC] (5)

其中Tr表示矩阵的迹。

考虑到Tr[X^TX+λC^TC]是常数，因此目标函数(5)等价于：

步骤2)中预测映射过程学习一种线性或者非线性的关系使得语义特征和编码特征之间的相关性最大(以线性关系为例进行阐述)，其目标函数为：

其中W表示线性映射矩阵。

考虑到C^TC＝I，因此目标函数可以转换为：

maxA^TWC s.t.A^TWW^TA＝I (8)

固定编码矩阵C，线性映射矩阵W的最优值为：

将(9)代入到(7)中，目标函数转换为：

其中△＝A(A^TA)^-1A^T。

因此步骤2)的目标函数可以等价为：

maxTr(C^T△C)s.t.C^TC＝I (11)

结合步骤1)和步骤2)的目标函数，本发明所提算法的目标函数为：

其中α表示平衡参数，△＝A(A^TA)^-1A^T。

目标函数(12)的优化可以通过以下方法进行求解：

对于编码矩阵C的每一列向量C_·,i可以通过求解以下子问题获得：

利用拉格朗日乘子法，最优C_·,i需要满足下面的优化条件：

(X(I+λX^TX)^-1X^T+α△)C_·,i＝ω_iC_·,i (14)

其中ω_i表示拉格朗日乘子。因此，编码矩阵C的优化可以转换为特征值分解问题，(X(I+λX^TX)^-1X^T+α△)的前d个最大特征值对应着编码矩阵C的最优解。

获得编码矩阵C的最优解后，解码矩阵D可以通过公式(4)获得。同样的，映射矩阵W可以通过公式(9)获得。

下面结合本发明应用于零样本学习的流程图对本发明的一种基于隐空间编码的零样本学习做出详细说明。

给定来着T个类别的n个样本其中和分别表示第i个样本的视觉特征和对应的类别标签。零样本学习利用可以类别的样本训练一个可以识别未见类别样本分类器其中是未见类别的类别标签，L表示未见类别的类别个数。为了将信息将可见类别转移到未见类别中，每个类别都利用一个高维的类别语义特征表征，利用a_i表示第i个样本对应的类别语义特征。

本发明的一种基于隐空间编码的零样本学习包括训练阶段和测试阶段两部分，如图1所示：其中训练阶段包括以下步骤：

1)输入可见类别的视觉特征矩阵X和类别语义特征矩阵A，通过优化公式(X(I+λX^TX)^-1X^T+α△)C_·,i＝ω_iC_·,i获得隐特征矩阵C；

2)利用公式获得线性映射矩阵W；

3)利用公式D＝(1+λ)C^TX(I+λDX^TX)^-1获得解码矩阵D。

在测试阶段，输入测试样本x_t及未见类别的类别语义矩阵A_u，则测试样本的类别标签l(x_t)可以通过以下步骤获得：

1)首先利用学习到的线性映射矩阵W获得未见类别的类别语义特征的隐特征表示：

2)然后利用解码矩阵D得到未见类别语义特征在视觉特征中的表征：

X_u＝C_uD；

3)最后利用最近邻分类器对测试样本进行分类：

其中l(x_t)表示测试样本x_t的类别标签，表示未见类别j的类别语义特征在视觉空间中的表征。

Claims

1.一种基于隐空间编码的零样本学习分类方法，其特征是，对于任一模态，利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵，并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵，其中编码矩阵和解码矩阵是互为转置的关系，利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息，得到不同模态之间的语义关联，进而实现不同模态样本的分类。

2.如权利要求1所述的基于隐空间编码的零样本学习分类方法，其特征是，直接利用矩阵分解的方法将视觉特征矩阵分解为编码矩阵和线性解码矩阵即：X～DC，其中p为视觉空间的维度，d为编码矩阵的维度，n为训练样本的个数，具体过程为：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>|</mo> <mo>|</mo> <mi>X</mi> <mo>-</mo> <mi>C</mi> <mi>D</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mo>-</mo> <msup> <mi>D</mi> <mi>T</mi> </msup> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

C^TCD+λDX^TX＝(1+λ)C^TX (2)

编码矩阵C是不相关的，即：

C^TC＝I (3)

D＝(1+λ)C^TX(I+λDX^TX)^-1 (4)

将(4)代入(1)中，目标函数(1)表达为：

min Tr[X^TX+λC^TC]-(1+λ)Tr[C^TX(I+λX^TX)^-1X^TC] (5)

其中Tr表示矩阵的迹；

考虑到Tr[X^TX+λC^TC]是常数，因此目标函数(5)等价于：

max Tr[C^TX(I+λX^TX)^-1X^TC]

s.t.C^TC＝I (6)

max A^TWC s.t.A^TWW^TA＝I (8)

固定编码矩阵C，线性映射矩阵W的最优值为：

将(9)代入到(7)中，目标函数转换为：

<mrow> <msup> <mi>maxA</mi> <mi>T</mi> </msup> <mi>W</mi> <mi>C</mi> <mo>=</mo> <msqrt> <mrow> <msup> <mi>C</mi> <mi>T</mi> </msup> <mi>&Delta;</mi> <mi>C</mi> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中△＝A(A^TA)^-1A^T，因此步骤2)的目标函数等价为：

max Tr(C^T△C)s.t.C^TC＝I (11)

结合步骤1)和步骤2)的目标函数，目标函数为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mi>max</mi> <mi>C</mi> </munder> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>C</mi> <mi>T</mi> </msup> <mi>X</mi> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>+</mo> <msup> <mi>&lambda;X</mi> <mi>T</mi> </msup> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mi>T</mi> </msup> <mi>C</mi> <mo>&rsqb;</mo> <mo>+</mo> <mi>&alpha;</mi> <mi>T</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>C</mi> <mi>T</mi> </msup> <mi>&Delta;</mi> <mi>C</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>max</mi> <mi>C</mi> </munder> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>C</mi> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>X</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>I</mi> <mo>+</mo> <msup> <mi>&lambda;X</mi> <mi>T</mi> </msup> <mi>X</mi> </mrow> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mi>T</mi> </msup> <mo>+</mo> <mi>&alpha;</mi> <mi>&Delta;</mi> <mo>)</mo> </mrow> <mi>C</mi> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

s.t.C^TC＝I (12)

其中α表示平衡参数，△＝A(A^TA)^-1A^T。

3.如权利要求1所述的基于隐空间编码的零样本学习分类方法，其特征是，目标函数(12)的优化通过以下方法进行求解：

对于编码矩阵C的每一列向量C_·,i通过求解以下子问题获得：

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>max</mi> <mrow> <mi>C</mi> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> </munder> <msubsup> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <mrow> <mo>(</mo> <mi>X</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>I</mi> <mo>+</mo> <msup> <mi>&lambda;X</mi> <mi>T</mi> </msup> <mi>X</mi> </mrow> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mi>T</mi> </msup> <mo>+</mo> <mi>&alpha;</mi> <mi>&Delta;</mi> <mo>)</mo> </mrow> <msub> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <msubsup> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>C</mi> <mrow> <mo>&CenterDot;</mo> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mo>&ForAll;</mo> <mi>j</mi> <mo><</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

利用拉格朗日乘子法，最优C_·,i需要满足下面的优化条件：

(X(I+λX^TX)^-1X^T+α△)C_·,i＝ω_iC_·,i (14)