CN111967513A

CN111967513A - 一种基于注意力的零样本图像分类方法

Info

Publication number: CN111967513A
Application number: CN202010809547.1A
Authority: CN
Inventors: 王立春; 陈晟; 李敬华; 孔德慧; 王少帆; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-20
Anticipated expiration: 2040-08-12
Also published as: CN111967513B

Abstract

本发明涉及一种基于注意力的零样本图像分类方法，包括特征提取阶段和分类阶段，特征提取阶段包括：利用CNN对训练集图像提取特征，特征经过多个网络分支得到语义向量每一维的表示，按序拼接每一维得到最终的语义向量表示。每个分支的结构相同，特征通过两个全连接层得到每个样本特征的注意力向量，将该注意力向量与特征逐元素再通过两个全连接层得到一个属性值。本发明将上述网络命名为面向零样本图像分类的基于注意力的属性学习网络AALN。分类阶段：将待分类的图像通过CNN提取特征，通过AALN计算每个分支的输出并拼接得到最终的语义向量，最后基于与未知类的语义向量的余弦相似度进行分类。

Description

一种基于注意力的零样本图像分类方法

技术领域

本发明属于图像处理及模式识别的技术领域，具体地涉及一种基于注意力的零样本图像分类方法。

背景技术

机器学习已经成功应用到许多领域，如语音识别、自然语言处理和计算机视觉等。图像分类是计算机视觉领域的一个重要分支。在传统基于机器学习算法的图像分类中，为了学习到好的分类模型以有效分类图像，通常需要大量的包含所有类别的训练样本，并且样本越多，得到的模型越好。不过得到有标注的训练样本是非常困难的。一方面，数据标注会提高数据预处理的人力和财力成本。因为手工标注的成本很高，不仅需要专业的知识，还要有大量人力的注入。特别地，随着图像/视频获取设备的普及，图像数据不断增长，这给训练样本标注带来极大压力。另一方面，计算机视觉任务常常希望计算机能识别自然界中成千上万的对象，但自然界中的对象分布是存在着长尾效应的，以数据集ImageNet为例，其包含的种类有2万种，超过1400万张的图像样本，但大部分的图像样本基本都属于人们常见的1000类，而其他类别包含的图像样本就少之又少，有的类别甚至只包含了1-2张图像样本。如何完成对这些未见过类别图像的识别任务是具有挑战性并且非常有前景的研究课题。在面对训练中未出现过的类别时，还能对该类样本进行准确的识别，这即是零样本学习所要解决的问题。

在许多现实应用中，经常需要对以前从未见过的类别的实例进行分类。当面对一个未见过的类别时，人们习惯用现有的知识对该未知类进行描述，根据这些描述去知识库搜索属于哪一类。例如，当识别出了马、老虎和熊猫，并且学习得到了马的外形信息、老虎身上的斑纹信息和熊猫的黑白肤色信息，而斑马在知识库中的描述是具有马的外形、身背条纹、拥有黑白肤色，那么可以根据这几种特性去识别出斑马，即使以前从未见过斑马。零样本学习也正是借鉴了这种思想。零样本学习的一个方法是首先定义一个语义知识库，对所有已知类和不可见类分别用语义向量对其进行编码，将各个语义向量之间的特性联系起来，通过训练已知类的样本，建立起已知类图像特征与语义向量之间的映射关系，对于待识别的图像样本，通过前述的映射关系会得到一个语义向量，再通过语义向量检索语义知识库，得到该样本的类别信息。

在图像分类任务中，提升网络性能的方法有很多，如增加空间维度等。但增加空间维度会降低计算效率，耗时更长。一般的图像分类任务在提取图像特征的过程中，无论是多通道的特征图还是最终的全局特征向量，都会存在冗余，即某些通道的特征图或者特征向量的某几个维度对该图像分类任务是有贡献的。零样本学习分类任务同样面临这样的问题，由于属性向量是带有语义的高维特征，在特征到属性向量的映射过程中，可以细化到特征向量每一维的贡献对应于属性向量的每一维是不同的，需要建立多个网络分支，计算特征向量中每个维度的权值，每一分支只针对属性向量的其中一维。

发明内容

零样本图像分类问题有N个类别，每个类别的类别信息用语义向量进行描述，其中N₁个类别有对应的样本图像且每个类别对应不同数量的图像，这些类别称为已知类；剩余的(N-N₁)个类别没有样本图像与之对应，这些类别称为未知类。零样本图像分类要解决的问题是如何基于已知类图像完成未知类图像的分类。

针对零样本图像分类问题，本发明提出一种基于注意力的属性学习网络(Attention-based Attribute Learning network for ZSL，AALN)，学习样本的语义向量表示。首先对样本图像提取特征，针对语义向量的每一维计算样本特征的注意力权重向量，利用注意力权重向量与原始特征逐点相乘计算新特征；基于新特征计算样本的语义向量。对未知类样本，计算样本语义向量与未知类语义向量的距离，即可求得未知类样本所属的语义类别。本发明的具体技术解决方案是：

1、利用CNN提取已知类图像的特征

对训练集(已知类图像集)提取特征，得到训练样本特征集合X＝{X_i},X_i∈R^d是第i个训练样本的特征，X_i所属类的语义向量表示是S_i∈R^r；

2、利用提取的已知类图像特征训练AALN网络，所述的AALN网络用于学习样本X_i的语义向量P_i∈R^r，其中，AALN包含r个分支网络如图1所示，每个分支网络的结构相同如图2所示，第m个分支网络AALN_m负责学习样本的X_i的语义向量的第m维分量

AALN_m的计算过程如下：

1)根据公式(1)计算样本X_i的计算注意力权重向量A_im：

Ai_m＝Sigmoid(W_2m(ReLU(W_1mX_i))) (1)

其中A_im∈R^d，

降维系数k是个超参数。

2)计算样本X_i的基于注意力的特征表示X_im：

表示向量的逐元素乘积；

3)根据公式(2)计算样本X_i的语义向量的第m维分量

其中

降维系数t是个超参数；

4)按序拼接以上学习得到的

即得到样本X_i的语义向量P_i。

其中，AALN_m的损失如公式(3)：

是样本X_i所属类的语义向量的第m维分量。

3、利用训练完成的AALN网络对未知类样本进行分类，所述分类阶段包括以下步骤：

1)对未知类的待分类样本利用CNN提取特征，Y_j∈R^d表示未知类的第j个待分类样本的特征。

2)利用训练完成的AALN学习样本Y_j的语义向量P_j。

3)计算Y_j的语义向量P_j与各未知类的语义向量之间的余弦相似度。

4)最相似的类别即为待分类样本的分类结果。

有益效果

本发明在网络训练时，为每个特征向量针对属性向量的每一维学习一个注意力向量，在分类过程中增加了特征向量的表达能力。

附图说明

图1 AALN-ZSL的整体网络结构

图2一个AALN分支示意图

图3 AALN-ZSL与DAP方法比较的结果

具体实施方式

本发明以AWA1动物数据集为例，但不限于此，该数据集已经过CNN提取特征，符合本发明要求，如果某数据集只包含图像，需要先对图像提取特征，目前常见的手段是利用CNN提取特征。在AWA1动物数据集中，共有50个类别，训练时包含40种类别，称为已知类或可见类；10类用于测试，称为未知类或不可见类。该数据集使用的是由人工定义的类别属性所构成的共享语义嵌入空间，每个类别有85维的语义向量，语义向量的每一维是一个0-100的相对值。

下面更详细的说明本方法。

1特征提取阶段

本实施例中使用AWA1公开数据集，有50类的语义向量，每一类的语义向量均为85维，语义向量是知识库中预定义的。

如图1所示，图像通过CNN提取得到特征向量，CNN可以是GoogleNet、ResNet等，提取图像特征部分是所有分支共享的，且该部分的参数是固定不变的。AWA1数据集利用GoogleNet为每个样本提取得到1024维的特征向量，降维系数k,t均取2。如图2所示，以第m个分支网络AALN_m为例，特征向量通过1024×512的变换矩阵得到512维的向量，并用ReLU激活函数进行激活，再通过512×1024的变换矩阵，并用Sigmoid激活得到1024维的注意力向量，将原始特征向量与注意力向量逐元素相乘后得到特征向量X_im，通过1024×512和512×1两个变换矩阵得到该样本语义向量第m维的预测值

是样本X_i所属类的语义向量的第m维分量，计算

与

之间的均方误差并利用Adam优化方法进行优化，学习率为0.001。由于每个分支是独立的，每一个分支单独进行优化。把每一分支得到的值按序拼接在一起得到每个样本的语义向量，最后计算得到的待分类样本语义向量与未知类语义向量的相似度找到该样本的最终分类结果。

为了验证本发明提出的算法的有效性，本发明选用AWA1动物数据集和aPY数据集进行了实验测试。

AWA1数据集和aPY数据集上的实验结果

图3为本发明的实验效果。在零样本学习中，DAP方法也是独立学习语义向量的每个维度，所以我们的方法与DAP进行比较，在整体的分类效果上好于DAP。