CN110598718A

CN110598718A - 基于注意力机制及卷积神经网络的图像特征提取方法

Info

Publication number: CN110598718A
Application number: CN201910889881.XA
Authority: CN
Inventors: 李建平; 顾小丰; 胡健; 苌浩阳; 赖志龙; 张建国; 俞腾秋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-20

Abstract

本发明公开了基于注意力机制及卷积神经网络的图像特征提取方法，构建了一个无全连接层的5层卷积神经网络模型用于提取图像特征，通过注意力机制策略进行图像特征的选择，有机的将注意力机制和卷积神经网络结合起来，成功地提取到不同解码时刻对应的最重要的图像特征，为后续解码过程提供了准确和更高质量的图像特征，从一定程度上提高了图像特征提取结果的合理性。

Description

基于注意力机制及卷积神经网络的图像特征提取方法

技术领域

本发明属于图像特征提取技术领域，具体涉及一种基于注意力机制及卷积神经网络的图像特征提取方法。

背景技术

图像特征的作用是用来描述图像信息，物理意义上的图像特征一般包括形状、颜色、纹理、空间关系等。图像的形状一般指轮廓形状和区域形状，轮廓形状表示体现的边缘形状，代表图像整体的一个外在形状，区域特征表示图像内部的形状。颜色特征是一种全局特征，是图像最明显最引人注意的表面特性，且颜色特征是基于像素点表示的。同颜色特征一样，纹理特征也是一种全局特征，也表示物体的表面特性，但纹理特征是在多个像素点区域中经过计算得到的。图像空间关系特征的讨论对象为图像中的多个实体，分为相对空间位置和绝对空间位置，前者注重相对关系，后者注重距离以及坐标方位。

目前，采用卷积神经网络的方法提取图像特征的应用非常普遍，也取得了不错的效果。但是，一张图片中不同区域的重要程度是不一样的，如果能够区分图片中的重要部分和次重要部分，将对提取的图像特征的质量和准确性有着重大影响。卷积神经网络在提取图像特征的过程中，对图片的不同区域是以同等地位对待的方式来处理的，这样并不能区分出重要和次重要部分。但是，在深度学习中的注意力机制就刚好能够起到这样的作用，其以权重的形式表示图像不同区域的重要程度。在自然语言处理领域，注意力机制的应用已经非常广泛了，但是在图像处理中，特别是图像自动描述中的应用是非常少的。

发明内容

针对现有技术中的上述不足，本发明提供的基于注意力机制及卷积神经网络的图像特征提取方法解决了现有图像特征提取结果没有将图像主次内容分开的问题。

为了达到上述发明目的，本发明采用的技术方案为：基于注意力机制及卷积神经网络的图像特征提取方法，包括以下步骤：

S1、将原始图像输入到编码器中，提取对应的特征向量；

S2、通过注意力机制策略对提取的特征向量进行选取，确定重要图像块的特征向量；

S3、将重要图形块特征向量通过一个全连接层合并后，输入到解码器中；

S4、通过解码器对合并的重要图像块特征向量进行处理，提取出对应的图像特征。

进一步地，所述步骤S1中的原始图像的尺寸为128×128；

所述编码器为具有5层网络结构的卷积神经网络；

所述编码器提取出的特征向量为64个。

进一步地，所述卷积神经网络包括依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层和Dropout层；

所述第一卷积层输入128×128的图像，所述Dropout层输出64个特征向量；

所述第一卷积层包括8个大小为5×5的卷积核，输出8个64×64的特征图；

所述第二卷积层包括16个大小为4×4的卷积核，输出16个32×32的特征图；

所述第三卷积层包括32个大小为3×3的卷积核，输出32个16×16的特征图；

所述第四卷积层包括64个大小为2×2的卷积核，输出64个16×16的特征图；

所述Dropout层降维输出64个特征向量。

进一步地，所述步骤S2具体为：

S21、计算提取出的每个图像块的特征向量的初始权重；

S22、依次选取设定阈值数量的初始权重最大的图像块；

S23、根据选取图像块的空间位置信息，选取出与其相邻的所有图像块的特征向量，作为重要图像块的特征向量。

进一步地，所述步骤S21中每个图像块特征向量的初始权重的计算公式为：

式中，α_t,i,j为解码器生成第t个单词时，位置(i,j)处的图像块的特征向量的权重，其中，1≤i≤8，1≤j≤8；

exp(·)为指数函数；

e_t,i,j为权重的中间状态，且e_t,i,j＝f_att(a_i,j,h_t-1)，f_att(·)为计算单个块的值级别，a_i,j为原始图像中位置(i,j)处的图像块的特征向量，h_t-1为解码器生成第t个单词时前一层RNN的隐层状态。

进一步地，所述步骤S22中的设定的阈值为3。

进一步地，所述步骤S4中的解码器为LSTM模型。

本发明的有益效果为：

本发明提供的基于注意力机制及卷积神经网络的图像特征提取方法，构建了一个无全连接层的5层卷积神经网络模型用于提取图像特征，通过注意力机制策略进行图像特征的选择，有机的将注意力机制和卷积神经网络结合起来，成功地提取到不同解码时刻对应的最重要的图像特征，为后续解码过程提供了准确和更高质量的图像特征，从一定程度上提高了图像特征提取结果的合理性。

附图说明

图1为本发明提供基于注意力机制及卷积神经网络的图像特征提取方法流程图。

图2为本发明提供的卷积神经网络结构示意图。

图3为本发明提供的注意机制策略选取重要图像块的特征向量方法流程图。

图4为本发明提供的实施例中Soft-Attention与本发明注意力机制效果对比示意图。

图5为本发明提供的实施例中本发明模型生成单词的聚焦效果示意图。

图6为本发明提供的实施例中本发明方法进行实体聚焦实验示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，基于注意力机制及卷积神经网络的图像特征提取方法，包括以下步骤：

S1、将原始图像输入到编码器中，提取对应的特征向量；

上述步骤S1中原始图像的尺寸为128×128；编码器提取出的特征向量为64个。

如图2所示，编码器为具有5层网络结构的卷积神经网络，包括依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层和Dropout层；

第一卷积层输入128×128的图像，所述Dropout层输出64个特征向量；

第一卷积层包括8个大小为5×5的卷积核，输出8个64×64的特征图；

第二卷积层包括16个大小为4×4的卷积核，输出16个32×32的特征图；

第三卷积层包括32个大小为3×3的卷积核，输出32个16×16的特征图；

第四卷积层包括64个大小为2×2的卷积核，输出64个16×16的特征图；

Dropout层用来降维，输出64个特征向量。

需要说明的是，本发明中的卷积神经网络不同于一般的卷积神经网络，一般的卷积神经网络最后一层都为全连接层，并且输出仅为一个特征向量，本发明中的网络结构输出64个特征向量，相当于将输入图片切割成了64份，每一个特征就代表了一个小图像块的特征信息，这样做的目的在于为后续的注意力机制选取特征向量提供了前提条件。

上述步骤S2中注意力机制策略选取的特征向量将输入到后续的解码器中，注意力直接在不同时刻选择64个特征中哪些特征作为输入到解码器中的特征向量。因此，如图3所示，上述步骤S2具体为：

S21、计算提取出的每个图像块的特征向量的初始权重；

S22、依次选取设定阈值数量的初始权重最大的图像块；

设经过上述卷积神经网络后产生的64个图像块的特征向量集为：

A＝{a_i,j,1≤i,j≤8}

式中，a_i,j为原始图像中位置(i,j)处的图像块的特征向量；

用Z_t表示特征向量集A的一个加权平均，其计算公式为：

因此上述步骤S21中，每个图像块特征向量的初始权重的计算公式为：

exp(·)为指数函数；

e_t,i,j为权重的中间状态，且e_t,i,j＝f_att(a_i,j,h_t-1)，f_att(·)为计算单个块的值级别，a_i,j为原始图像中位置(i,j)处的图像块的特征向量，h_t-1为解码器生成第t个单词时前一层RNN的隐层状态；

由此可知，权重α_t,i,j是h_t-1和原始图像位置(i,j)处的图像块的特征向量决定的；当解码器生成第t个单词时，特征集A中每个特征向量的初始权重就确定下来了，但这并不是最终的权重，由于在解码过程，不同时刻生成不同单词时，受原始图像不同位置的影响是不同的。重要位置的图像块影响最大，大部分位置的图像块的影响都比较下，处于次重要地位，从某种程度上来说，次重要图像块甚至可以看成一些噪音。

因此，需要进行步骤S22中的选取权重最大的图像块的特征向量，将其作为解码器生成第t个单词的特征输入，其他次重要的图像块(视为噪音)就舍去。

需要说明的是，选取权重最大的图像块的数量是经过实验比较得出的，实验选取值有2、3、4，本发明中将数量阈值设为3。

上述步骤S4中的解码器为LSTM模型，在自然语言处理中，LSTM特别擅长处理序列相关的任务，如对话系统、机器翻译、图像描述等，LSTM模型更形象地表达和模拟了人类的行为特征、逻辑思维和认知的过程。

在本发明的一个实施例中，提供了通过本发明方法进行图像特征提取的实验过程：

(1)选取图像数据集；

目前，常用的做图像英文描述的经典数据集有MSCOCO、Flickr8k和Flickr30k等，做图像中文描述的数据集有AI-Challenger和Flickr8k-CN等。由于中文在语法和语义等方面较英文更加复杂，所以做基于中文的图像描述的难度也更大，故本发明采用的是图像英文描述。本实验选择了MSCOCO-2015数据集作为实验数据，其训练集大约有16万张图片，测试集和验证集各约8万张图片，其中针对每张图片分别有5个不同的人工标注的英文描述语句。在本实验中，按照8:1:1的比例来构造训练集、测试集和验证集，其中训练集80000张图片，测试集10000张图片，验证集10000张图片。

(2)图像数据预处理

在使用MSCOCO-2015数据集进行训练之前，需要对数据进行预处理。首先，对人工标注的描述语句进行字母大小写转换，将大写字母转换成小写字母，以便数据的统一处理。其次，描述语句中的标点符号对模型训练的意义不大，甚至有负面影响，故将描述语句中所有的标点符号去除。由于描述语句的长度是不定的，通过对描述语句长度的统计分析之后，设定单词序列的最大长度为15。在构建词汇表时，每个单词出现频率的阈值设置为8，将出现频率大于阈值的单词加入到词汇表，将出现频率小于阈值的单词用自然语言处理中的无意义字符<UNK>代替。词汇表构造完成之后，采用常用的one-hot编码进行单词的向量表示。

(3)构造编码器，即5层网络结构的卷积神经网络，并通过其提取图像数据集的特征向量；

(4)将图像数据集的特征向量通过注意力机制策略选取重要图像块的特征向量；

(5)通过全连接层将重要图像块的特征向量合并和输入到LSTM模型中，提取出图像特征。

实验结果与分析：

在测试过程中，本实验通过保留注意力机制选取特征时的权值，来表示在生成不同单词时选取的图像位置，如图4中的白色亮点。Jimmy Lei Ba等人在提出了一种图像描述的模型，该模型在编码阶段采用了不同于本发明的卷积神经网络结构，并结合了常用的注意力机制Soft-Attention。本实验中将Jimmy Lei Ba等人提出的模型同本发明的方法进行了对比，图4展示了两种模型在生成不同单词时，图像不同位置对该单词的影响程度，颜色越亮表示该位置的影响越大。

在图4的示例对比中，Jimmy Lei Ba等人提出的模型生成的句子比本发明模型生成的句子更长且语义更加准确和丰富，如该示例中，Jimmy Lei Ba等人的模型准确描述出该示例图片的背景为水面“water”，而不是本发明模型所描述的天空“sky”；但是，本发明模型的句子在短语结构和语法上更准确，如Jimmy Lei Ba等人的模型生成的描述句子中的“abody of water”就是错误的短语结构，也存在语法错误。从注意力机制角度来看，JimmyLei Ba等人的模型中采用的是常见的Soft-Attention，本发明是对Soft-Attention进行了改进，在单个单词的图像位置特征聚焦方面，本发明模型的效果稍好于Jimmy Lei Ba等人的模型，如在图4中，本发明模型生成的“bird”单词基本聚焦于图像中鸟的位置，而JimmyLei Ba等人模型的“bird”单词却聚焦到偏离鸟的躯干位置的右上方。

其中，从图5的第一幅图的聚焦中可以看出，“train”准确聚焦到火车车身位置；“driving”聚焦到铁轨，也基本符合该单词的属性；“by”聚焦到铁路与森林的交界处；“forest”准确聚焦到图中森林的位置。第二幅图中，“children”聚焦到其中一个小孩的头部；“play”聚焦到球衣位置；“soccer”聚焦到足球；“on”聚焦到脚部与地面的交界处，从人为主观角度来分析，这些都是合乎自然情理的，也体现了本发明的注意力机制在特征选取时的表现还是不错的。

当我们第一眼看到一张图片时，首先第一反应肯定是先找出图片中最突出最显眼的物体，这里将其称为实体。在图像特征提取和选择的过程中，生成实体对应单词的时刻，聚焦到图片中的实体位置是非常重要的。图6选取了4幅图像，展示了本发明提出的模型和方法对实体聚焦的实验。图6(a)的信息描述为the player jumping on the court；图6(b)的信息描述为many animals walk under the green tree；图6(c)的信息描述为twopersons cooking food stand in the kitchen；图6(d)的信息描述为chrismas treechair stand in a room；从图6可以看出，4幅图像中的实体“player”、“animal”、“person”、“Christmas tree”都大致准确聚焦到图像中对应的位置区域。

本发明的有益效果为：

Claims

1.基于注意力机制及卷积神经网络的图像特征提取方法，其特征在于，包括以下步骤：

S1、将原始图像输入到编码器中，提取对应的特征向量；

2.根据权利要求1所述的基于注意力机制及卷积神经网络的图像特征提取方法，其特征在于，所述步骤S1中的原始图像的尺寸为128×128；

所述编码器为具有5层网络结构的卷积神经网络；

所述编码器提取出的特征向量为64个。

3.根据权利要求2所述的基于注意力机制的卷积神经网络的图像特征提取方法，其特征在于，所述卷积神经网络包括依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层和Dropout层；

所述Dropout层降维输出64个特征向量。

4.根据权利要求2所述注意力机制及卷积神经网络的图像特征提取方法，其特征在于，所述步骤S2具体为：

S21、计算提取出的每个图像块的特征向量的初始权重；

S22、依次选取设定阈值数量的初始权重最大的图像块；

5.根据权利要求4所述的基于注意力机制及卷积神经网络的图像特征提取方法，其特征在于，所述步骤S21中每个图像块特征向量的初始权重的计算公式为：

exp(·)为指数函数；

6.根据权利要求4所述的基于注意力机制及卷积神经网络的图像特征提取方法，其特征在于，所述步骤S22中的设定的阈值为3。

7.根据权利要求4所述的基于注意力机制及卷积神经网络的图像特征提取方法，其特征在于，所述步骤S4中的解码器为LSTM模型。