CN109447115A

CN109447115A - 基于多层语义监督式注意力模型的细粒度零样本分类方法

Info

Publication number: CN109447115A
Application number: CN201811115665.1A
Authority: CN
Inventors: 冀中; 于雪洁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-03-08

Abstract

一种基于多层语义监督式注意力模型的细粒度零样本分类方法，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类。本发明可输入提取好的视觉特征和类别语义特征，输出图像的分类结果。

Description

基于多层语义监督式注意力模型的细粒度零样本分类方法

技术领域

本发明涉及一种零样本分类方法。特别是涉及一种基于多层语义监督式注意力模型的细粒度零样本分类方法。

背景技术

近年来深度学习的发展极大程度上促进了计算机视觉识别任务的巨大成功，但当前大部分分类模型都是基于监督学习的模型，不仅需要大量带有标注的数据，而且需要许多次迭代来训练模型参数。当出现新类别或没有标注数据的稀有类别时，这些模型不得不重新训练，这严重限制了传统分类模型的可扩展性。

人类具有即使没有见过某类视觉样本，也能够借助辅助信息推断出新类别的能力。例如，一个人只见过马而没有见过斑马，当他得到描述信息，即斑马与马外表相似，只是身上有黑白相间的条纹，那么此人就极有可能正确识别出斑马这一新类别。零样本学习(Zero-Shot Learning,ZSL)正是受人类这一能力启发，致力于解决当带标签的训练数据不足以涵盖所有目标类别，仅给出对于未知类别的一些描述时，如何进行分类的问题。

零样本学习主要是寻找一个嵌入空间，将视觉特征与类别语义特征进行对齐，进而实现可见类别与未见类别的信息转移。随着深度学习的发展，视觉特征大多采用深度神经网络提取的图像表征，如利用深度卷积神经网络、深度残差网络提取的特征等；语义特征主要包括属性特征，词向量以及文本描述等。目前大多数零样本分类方法利用深度神经网络提取整张图像的全局特征作为视觉特征，这种类型的方法在粗粒度图像分类任务上取得了良好的性能。但对于细粒度图像，图像的局部特征往往包含更丰富的判别信息，因此基于图像局部特征的方法在细粒度图像分类任务中逐渐受到重视。

近年来有学者提出注意力模型，注意力模型的目的在于模拟人脑的视觉注意力机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，同时抑制其他无用信息。注意力模型在计算机视觉、机器翻译等领域取得了良好的效果。在细粒度图像分类任务中，有学者利用注意力模型为图像不同区域的局部特征分配不同的注意力权重，以获得更具有判别能力的局部特征，进行后续分类工作。

发明内容

本发明所要解决的技术问题是，提供一种以语义信息作为监督，利用多层注意力模型实现细粒度零样本分类的基于多层语义监督式注意力模型的细粒度零样本分类方法。

本发明所采用的技术方案是：一种基于多层语义监督式注意力模型的细粒度零样本分类方法，首先，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重，得到语义监督注意力模型，其中，与语义信息相关性越高的局部视觉特征，对应的权重就越大；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；最后将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类，得到图像分类。

具体包括如下步骤：

1)获取来自细粒度图像的n个可见类别的N张图像的局部视觉特征V_I，类别语义特征向量s以及真实标签矩阵Y；

2)利用公式f(V_I)＝h(W_I,AV_I)将局部视觉特征V_I映射到隐空间；

式中：代表图像的局部视觉特征，其中p为局部视觉特征的维度，m为局部视觉特征的个数，v_i为对应的第i个区域的局部视觉特征向量；h为非线性函数；W_I,A∈R^d×p为从局部视觉特征空间到隐空间的映射矩阵，d为隐空间的维度；

3)将局部视觉特征V_I压缩为视觉特征向量v_G，利用公式g(v_G)＝h(W_G,Ah(W_G,Sv_G))将视觉特征向量v_G映射到隐空间；

式中：W_G,A∈R^d×q为语义空间到隐空间的映射矩阵；W_G,S∈R^q×p为从视觉特征空间到语义空间的映射矩阵，q为语义空间的维度；

4)利用公式将f(V_I)和g(v_G)进行特征融合，得到融合后的特征向量h_A；

5)利用公式p_I＝softmax(W_ph_A+b_p)计算出图像每个局部区域的注意力权重

式中：W_p∈R^d为softmax函数的权重向量；b_p为常数偏置项；p_i为每个局部视觉特征对应的注意力权重；

6)利用公式u_i＝v_i+p_i v_i计算出单层语义监督注意力网络输出的视觉特征向量u_i，进而得到m个视觉区域的局部特征的集合以及单层语义监督注意力网络输出的压缩后的视觉特征向量u_G；

7)将局部特征的集合U_I和压缩后的视觉特征向量u_G分别代替图像的局部视觉特征V_I和视觉特征向量v_G，重复步骤2)～步骤6)得到多层语义监督注意力网络输出的视觉特征向量u_i″；

8)为实现以语义信息为监督，引导注意力模型对细粒度图像的局部视觉特征进行选择，将语义信息嵌入到两层注意力网络中，分别得到损失函数Loss1和Loss2：

Loss1＝||h(W_G,Sv_G)-s||₂

Loss2＝||h(W_G,Su_G)-s||₂；

9)将每张图像m个区域的多层语义监督注意力网络输出的视觉特征向量u_i″依次串联起来得到图像的全局视觉特征向量u_G′，进而得到N张可见类别图像经过多层语义监督注意力网络后输出的全局视觉特征向量的集合U_G＝{u_G′}；

10)利用公式v_s＝h(W_Es+b_E)将类别语义特征向量s嵌入到视觉特征空间得到v_s，进而得到n个可见类别的语义特征向量嵌入到视觉特征空间的集合V_s＝{v_s}；

式中：W_E∈R^l×q为嵌入矩阵，b_E∈R^l为嵌入偏置，其中l＝m×p，为全局特征向量的长度；

11)使视觉特征和语义特征在视觉特征空间进行对齐，得到损失函数Loss3：

Loss3＝||v_s-u_G′||₂

12)利用公式P_c＝softmax(U_GV_s ^T)计算每张可见类别图像属于每个可见类别的预测概率P_c；

13)利用公式得到分类损失函数Loss_c；

14)整个网络的损失函数为：

min Loss＝Loss1+Loss2+Loss3+Loss_c

在训练过程中通过多次迭代，使网络的损失函数不断下降，最终达到收敛，训练完成。

15)在测试阶段，输入来自t个未见类别的测试图像的局部视觉特征V_U，未见类别的测试图像的视觉特征向量v_T，得到多层语义监督注意力网络输出的视觉特征向量u_t；将未见类别的类别语义特征S_T利用视觉语义对齐网络嵌入到视觉特征空间得到语义嵌入特征V_T；根据下式计算多层语义监督注意力网络输出的视觉特征向量u_t与语义嵌入特征V_T的距离D，距离最小的类别即为测试图像的预测类别：

本发明的基于多层语义监督式注意力模型的细粒度零样本分类方法，利用卷积神经网络提取细粒度图像特定部位的局部视觉特征；利用类别的文本描述信息作为类别语义特征进行监督，为细粒度图像的局部视觉特征逐步赋予权重，选择出与语义信息更相关的特征；将全局视觉特征与经过注意力模型赋予权重后的局部特征结合，作为图像的新的视觉特征；最后将类别语义特征嵌入到新的视觉特征空间，进行视觉语义对齐，实现图像分类。本发明以语义信息作为引导，利用注意力模型生成的权重可以有效压缩全局视觉特征中的噪声信息。此外，本发明采用多层的注意力模型，可以精确地选择出与语义信息更相关的局部视觉特征，从而得到更有利于分类的视觉特征。本发明可采用端对端的训练方式，输入提取好的视觉特征和类别语义特征，输出图像的分类结果。

附图说明

图1是本发的基于多层语义监督式注意力模型的细粒度零样本分类方法明流程图。

具体实施方式

下面结合实施例和附图对本发明的基于多层语义监督式注意力模型的细粒度零样本分类方法做出详细说明。

本发明的基于多层语义监督式注意力模型的细粒度零样本分类方法，首先，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重，得到语义监督注意力模型，其中，与语义信息相关性越高的局部视觉特征，对应的权重就越大；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；最后将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类，得到图像分类。

本发明的基于多层语义监督式注意力模型的细粒度零样本分类方法，适用于解决跨模态的细粒度零样本学习问题。本发明以视觉特征和语义特征代表来自两个不同模态的特征，用代表图像的局部视觉特征，其中p代表局部视觉特征的维度，m代表局部视觉特征的个数，v_i为对应的第i个区域的局部视觉特征向量；用s代表图像的类别语义特征向量，用n代表可见类别的数目，用N代表可见类别图像的数目，用Y∈{0,1}^N×n表示所有可见类别图像对应的真实标签集合，用t代表未见类别的数目，在零样本的设定中，n和t是互不相交的，零样本分类的目标即为对未知类别样本进行分类。

如图1所示，发明的基于多层语义监督式注意力模型的细粒度零样本分类方法，具体包括如下步骤：

2)利用如下公式，通过非线性映射函数f将局部视觉特征V_I映射到隐空间，

f(V_I)＝h(W_I,AV_I) (1)

3)将局部视觉特征V_I压缩为视觉特征向量v_G，利用公式g(v_G)＝h(W_G,Ah(W_G,Sv_G))将视觉特征向量v_G映射到隐空间；具体是：

将局部视觉特征V_I∈R^p×m压缩为一个维度为p的视觉特征向量v_G∈R^p，通过非线性映射函数g_G,S将v_G嵌入到语义特征空间：

g_G,S(v_G)＝h(W_G,Sv_G) (2)

其中，W_G,S∈R^q×p为从视觉特征空间到语义空间的映射矩阵，q为语义空间的维度。

再通过非线性映射函数g将映射到语义空间的视觉特征向量g_G,S(v_G)映射到隐空间：

g(_vG)＝h(W_G,Ag_G,S(v_G))＝h(W_G,Ah(W_G,Sv_G)) (3)

其中，W_G,A∈R^d×q为语义空间到隐空间的映射矩阵。

4)利用如下公式，使用双曲正切函数tanh对由公式(1)和(3)得到的f(V_I)和g(v_G)进行特征融合，得到融合后m个区域的视觉特征向量h_A∈R^m×d：

5)利用softmax函数根据融合后的特征向量h_A计算出图像每个局部区域的注意力概率p_I∈R^m：

p_I＝softmax(W_ph_A+b_p) (5)

其中，W_p∈R^d为softmax函数的权重向量，b_p为常数偏置项。

至此，本发明的注意力模型构建完毕。

6)记p_i为每个局部视觉特征对应的注意力概率，则每个图像区域被赋予注意力权重后的视觉特征向量为：

v_i′＝p_i v_i (6)

将被赋予注意力权重前后的视觉特征向量v_i与v_i′相结合，得到单层注意力模型输出的视觉特征向量u_i：

u_i＝v_i+v_i′ (7)

至此，本发明的单层语义监督注意力网络构建完毕。考虑到对于较复杂的任务，单层注意力模型往往无法精确地选择出与语义信息更相关的局部视觉特征，因此本发明采用语义监督下的多层注意力模型进行图像分类。

7)将局部特征的集合U_I和压缩后的视觉特征向量u_G分别代替图像的局部视觉特征V_I和视觉特征向量v_G，重复步骤2)～步骤6)得到多层语义监督注意力网络输出的视觉特征向量u_i″，具体是：

将公式(8)所得视觉特征向量u_i作为第二层注意力模型的输入，用代表m个视觉区域的局部特征的集合；将U_I压缩为一个维度为p的视觉特征向量u_G∈R^p；将U_I经过公式(1)中的非线性映射函数f进行映射得到f(U_I)，将u_G经过公式(3)中的非线性映射函数g进行映射得到g(u_G)；将f(U_I)和g(u_G)根据公式(4)用双曲正切函数tanh进行变换，得到第二层注意力模型融合后的特征向量h_A′；再根据公式(5)利用softmax函数计算出图像每个局部区域的注意力概率p_I′∈R^m。令p_i′为经过第二层注意力模型后每个局部视觉特征对应的注意力概率，则每个图像区域被赋予注意力权重后的视觉特征向量为：

u_i′＝p_i′u_i (8)

将被赋予注意力权重前后的视觉特征向量u_i与u_i′相结合，得到第二层注意力模型输出的视觉特征向量u_i″：

u_i″＝u_i+u_i′ (9)

至此，本发明的多层语义监督注意力网络构建完毕。

Loss1＝||g_G,S(v_G)-s||₂＝||h(W_G,Sv_G)-s||₂ (10)

Loss2＝||g_G,S(u_G)-s||₂＝||h(W_G,Su_G)-s||₂ (11)；

9)将每张图像m个区域的多层语义监督注意力网络输出的视觉特征向量u_i″依次串联起来得到图像的全局视觉特征向量u_G′∈R^l，其中l＝m×p，为全局特征向量的长度；

10)使视觉特征和语义特征可以进行比较，本发明通过非线性映射将语义特征嵌入到视觉特征空间，得到语义特征在视觉特征空间的表示v_s∈R^l：

v_s＝h(W_Es+b_E) (12)

其中，W_E∈R^l×q为嵌入矩阵，b_E∈R^l为嵌入偏置；

11)为使视觉特征和语义特征在视觉特征空间进行对齐，语义特征在视觉特征空间的表示v_s与经过多层语义监督注意力网络处理输出的全局视觉特征向量u_G′之间的差异应尽可能小，因此得到Loss3：

Loss3＝||v_s-u_G′||₂ (13)

12)用V_s＝{v_s}∈R^n×l代表所有可见类别的语义特征向量嵌入到视觉特征空间的表示的集合；用U_G＝{u_G′}∈R^N×l代表所有可见类别图像经过多层语义监督注意力网络后得到的全局特征向量的集合。使用softmax函数计算每张可见类别图像属于每个可见类别的预测概率P_c∈R^N×n：

P_c＝softmax(U_GV_s ^T) (14)

利用预测概率P_c与所有可见类别图像的真实标签Y做交叉熵，得到分类损失函数Loss_c：

由公式(10)、(11)、(13)、(15)得到最终的损失函数Loss：

min Loss＝Loss1+Loss2+Loss3+Loss_c (16)

13)在测试阶段，输入来自t个未见类别的测试图像的局部视觉特征V_U，未见类别的测试图像的视觉特征向量v_T，得到多层语义监督注意力网络输出的视觉特征向量u_t；将未见类别的类别语义特征S_T利用视觉语义对齐网络嵌入到视觉特征空间得到语义嵌入特征V_T；根据下式计算多层语义监督注意力网络输出的视觉特征向量u_t与语义嵌入特征V_T的距离D，距离最小的类别即为测试图像的预测类别：

Claims

1.一种基于多层语义监督式注意力模型的细粒度零样本分类方法，其特征在于，首先，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重，得到语义监督注意力模型，其中，与语义信息相关性越高的局部视觉特征，对应的权重就越大；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；最后将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类，得到图像分类。

2.根据权利要求1所述的基于多层语义监督式注意力模型的细粒度零样本分类方法，其特征在于，具体包括如下步骤：