CN110647897A

CN110647897A - 一种基于多部分注意力机制的零样本图像分类识别方法

Info

Publication number: CN110647897A
Application number: CN201810673456.2A
Authority: CN
Inventors: 武继刚; 魏杰; 孟敏; 王勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2020-01-03
Anticipated expiration: 2038-06-26
Also published as: CN110647897B

Abstract

本发明公开了一种基于多部分注意力机制的零样本图像分类识别方法，其特征在于，包括以下步骤：S1.训练多部分卷积探测器；S2.训练语义特征提取器；S3.获取训练集的图片，通过训练注意力探测器进行处理；S4.进行损失计算；S5.重复进行步骤S3和S4的计算，当算法损失低于预设数值时，进行测试，选取最小距离的作为类别值。本发明采用了语义分割的方式，先将整张图片进行语义分割出有效部位，筛掉不必要的冗余信息，然后再分别对多个部位进行特征提取；对于不同的部位，提出了将注意力机制作用于不同部位进行加权，使得每一个样本都有不同的加权方式，因此对于每一个样本，都会产生一些权值高的部位，这些部位能更好的把它和其他类别区分开。

Description

一种基于多部分注意力机制的零样本图像分类识别方法

技术领域

本发明涉及电力领域，更具体地，涉及一种基于多部分注意力机制的零样本图像分类识别方法。

背景技术

随着近几年大数据和大规模数据量学习的兴起，传统的图像识别技术逐渐无法满足新的图像识别需求，例如在测试过程中出现训练集中没有出现过的类别，这个问题在当前的海量数据中尤为突出，因为大规模数据量即大规模类别，并且一个类别下还存在多个子类。因此提高零样本下的图像分类问题具有重要的现实意义。为了提高训练不可见类别的识别率，人们提出了双线性模型，通过语义描述的辅助信息资源建立从可见类到不可见类的联系。在训练过程中，用具有语义信息的嵌入向量代替原类别标签，并将图像特征和语义特征映射到同一低维潜层空间，通过各种机器学习方法来完成图像的分类工作。这种方法减少了传统分类过程中训练好的分类器对原数据的过度依赖，实现了分类器的泛化性，完成了知识的迁移过程，最终提高了零样本学习过程的识别精度。

然而，目前的这种双线性映射都是直接建立在整张图片和语义描述之间。对于现实来说，整张图片除了需要识别的目标以外，还存在大量的与语义描述无关的信息，例如背景、其他目标主体与识别信息中无用的信息等，这些信息会对整个实验的特征提取乃至识别分类都有一定程度的干扰。其次，对于图片有效区域的不同位置，目前的算法都是统一进行处理的，但是从理论上来说，我们识别物体都会重点关注一些具有区别性的部分，这些区别性的部分能更好的将该类和其他类更好的区分开，尤其对于一些细粒度的分类来说，例如对于燕子，尾巴是识别该类的重点区域，因此该部分区域需要比其他区域有更高的关注度，从另一个方面来说，该区域的分类贡献值比其他区域更高。之前的分类过程都没有关注到这一问题，从而影响到后续的分类过程。

发明内容

本发明为克服上述现有技术所述的缺陷，提供一种基于多部分注意力机制的零样本图像分类识别方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于多部分注意力机制的零样本图像分类识别方法，包括以下步骤：

S1.获取图像，训练多部分卷积探测器；

S2.训练语义特征提取器；

S3.获取训练集的图片，通过训练注意力探测器进行处理；

S4.进行损失计算；

S5.重复进行所述步骤S3和S4的计算，当算法损失低于预设数值时，进行测试，选取最小距离的作为类别值。

进一步地，所述步骤S1的多部分卷积探测器具体包括以下步骤：

S101.通过选择性搜索算法从所述图像中得到候选框RoI；

S102.通过卷积网络从候选框RoI中得到图像特征，在卷积层conv5得到特征分布feature map；

S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的featuremap并裁剪出对应的patch，使用Ro1pooling layer将所述patch调整至固定尺寸；

S104.将patch通过两个全连接层得到特征，将特征分别通过新的全连接层进行处理，连接上各自对应的损失函数。

进一步地，所述步骤S2的具体过程如下：

使用大规模语料库作为语义的输入，通过神经网络算法提取出所有训练类和测试类的类别词向量，将。

进一步地，所述步骤S3的具体过程如下：

将训练集的图片代入所述步骤S1中的多部分探测器内，得到1张图片的多个探测部位的卷积特征，其函数如下式所示：

x₁,x₂,x₃…x_p＝g(I)

其中，x_p为第p部分的卷积特征；

将所述步骤S2的语义特征映射到和局部区域特征x_p同样的维度，如下式所示，作为语义特征的隐藏层表示：

其中，S为语义隐藏层表示，

为ReLU激活函数；

将局部区域特征x_p和语义做内积，得到对应区域加权的权值，如下式所示：

其中，a为对应于局部区域特征x的权值，每有一个局部区域x就有一个权值a；

为了便于对权值计算，将权值进行归一化，如下所示：

将最终归一化后的权值加权到对应的图像特征，得到最终的局部区域特征

如下所示：

进一步地，所述步骤S4的具体过程如下：

为了在分类过程中度量图像与语义表达的相似度，将语义通过两层全连接层映射到隐藏空间，如下所示：

ψ(z_i)＝f(W₂f(W₁z_i))

为了得到更强的语义监督，使得训练过程更加可靠，先将映射后的语义矩阵与所述步骤S3得到的局部特征

进行矩阵相乘，然后与其对应的真实类别值进行欧氏距离度量差值，如下所示：

进一步地，所述步骤S5的具体过程如下：

对所述步骤S3和S4进行多次迭代计算，当算法的损失低于预设数值后，进行测试，所述测试重复步骤S3和S4的过程，选取最小距离c*的作为类别值，如下所示：

进一步地，所述步骤S104中的新的全连接层包括分类和回归，其中，分类所对应的是softmax函数，回归所对应的是smooth_L1_loss函数。

进一步地，所述语料库为Wikipedia，神经网络算法为Word2vector。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出的图像分类识别方法使用多个局部特征，减少了对其他背景信息的计算，专注于对局部位置的特征更有效的学习；

通过对局部区域加权的方式，使得不同的局部特征得到了不同的关注度，更加有利于将该类与其他类别区分开；

本发明针对目前的问题在步骤S4中提出了一个新型的损失函数；

通过在几个基准数据集上实现我们的算法，从结果上证明我们提出的方法的优越性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于多部分注意力机制的零样本图像分类识别方法流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于多部分注意力机制的零样本图像分类识别方法，其过程如图1所示，包括以下步骤：

S1.获取图像，训练多部分卷积探测器；

S2.训练语义特征提取器；

S3.获取训练集的图片，通过训练注意力探测器进行处理；

S4.进行损失计算；

在本实施例中，所述步骤S1的多部分卷积探测器具体包括以下步骤：

S101.通过选择性搜索算法从所述图像中得到候选框RoI；

在本实施例中，所述步骤S2的具体过程如下：

在本实施例中，所述步骤S3的具体过程如下：

x₁,x₂,x₃…x_p＝g(I)

其中，x_p为第p部分的卷积特征；

其中，S为语义隐藏层表示，

为ReLU激活函数；

为了便于对权值计算，将权值进行归一化，如下所示：

如下所示：

在本实施例中，所述步骤S4的具体过程如下：

将语义通过两层全连接层映射到隐藏空间，如下所示：

ψ(z_i)＝f(W₂f(W₁z_i))

将映射后的语义矩阵与所述步骤S3得到的局部特征进行矩阵相乘，

然后与其对应的真实类别值进行欧氏距离度量差值，如下所示：

在本实施例中，所述步骤S5的具体过程如下：

在本实施例中，所述步骤S104中的新的全连接层包括分类和回归，其中，分类所对应的是softmax函数，回归所对应的是smooth_L1_loss函数。

在本实施例中，所述语料库为Wikipedia，神经网络算法为Word2vector。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。