CN110263808A

CN110263808A - 一种基于lstm网络和注意力机制的图像情感分类方法

Info

Publication number: CN110263808A
Application number: CN201910395478.1A
Authority: CN
Inventors: 吴壮辉; 孟敏; 武继刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-20
Anticipated expiration: 2039-05-13
Also published as: CN110263808B

Abstract

本发明公开了一种基于LSTM网络和注意力机制的图像情感分类方法，包括：原始图像初始化；设置基于LSTM网络和注意力机制的图像情感标签分类器；训练图像情感标签分类器；测试图像情感标签分类器；使用测试好的图像情感标签分类器对目标图像进行情感分类，得到情感分类结果。本发明方法引入图像情感属性，通过将注意力机制作用在图像的视觉特征图上，计算得到情感属性和视觉特征的加权特征并作为LSTM网络的初始状态，从而准确检测图像情感区域，同时尽可能关注到图像的多个情感区域；基于这些图像情感区域通过分类器对图像进行情感分类，使得图像情感预测更为准确，通过本发明方法得到的图像情感分类结果符合人类情感标准。

Description

一种基于LSTM网络和注意力机制的图像情感分类方法

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种基于LSTM网络和注意力机制的图像情感分类方法。

背景技术

目前，国内外已经有人开始对图像情感分类进行了研究和探索，目前对于图像情感分类的一般方式是选择要研究的图像、提取图像的视觉特征、建立情感空间、选择适当的分类器对要研究的图像先训练再分类。然而，在图像情感分析的视觉任务上，影响人类的注意力系统往往是图像的局部区域而不是图像整体区域，而现有的图像情感分类模型主要基于图像整体区域，导致了情感分类效果不理想。

发明内容

本发明为解决现有的图像情感分类方法精度低的问题，提供了一种基于LSTM网络和注意力机制的图像情感分类方法。

为实现以上发明目的，而采用的技术手段是：

一种基于LSTM网络和注意力机制的图像情感分类方法，包括以下步骤：

S1.原始图像初始化：从图像情感数据库中获取原始图像，将所述原始图像划分为训练图像、测试图像以及目标图像，并对所述原始图像进行初始化处理生成相应的图像目标区域；其中获取得到的每张原始图像均对应一个情感属性和一个情感标签；

S2.设置图像情感标签分类器：根据所述原始图像对应的图像目标区域和情感属性，设置基于LSTM网络和注意力机制的图像情感标签分类器；

S3.训练图像情感标签分类器：基于所述训练图像，对所述图像情感标签分类器进行有监督的训练；

S4.测试图像情感标签分类器：基于所述测试图像，测试训练完毕的图像情感标签分类器的性能；

S5.使用测试好的图像情感标签分类器对目标图像进行情感分类，得到情感分类结果。

上述方案中，首先初始化原始图像的情感区域，然后引入图像情感属性，通过注意力机制作用在图像的视觉特征图上，计算得到情感属性和视觉特征的加权特征，将加权特征作为LSTM网络的初始状态，从而准确检测图像情感区域，基于这些图像情感区域通过分类器对图像进行情感分类，实现图像情感的准确分类。

优选的，步骤S1中所述的对所述原始图像进行初始化处理生成相应的图像目标区域具体包括：

构建Faster R-CNN网络，使用Faster R-CNN网络对所述原始图像进行目标检测，检测得到T个边框，根据T个边框生成T个图像目标区域，其中T为正整数。

优选的，步骤S2中所述基于LSTM网络和注意力机制的图像情感标签分类器包括：依次连接的VGG-16网络、LSTM网络、softmax层和softmax分类器；

其中所述LSTM网络包括T个LSTM单元，所述softmax层有T个，每个LSTM单元的输出分别对应连接一个softmax层，对其中T个softmax层的输出进行求和后连接所述softmax分类器，其中T为正整数。

优选的，所述图像情感标签分类器中的VGG-16网络用于提取所述原始图像的视觉特征v_o和所述图像目标区域的视觉特征其中T为正整数，表示图像目标区域的个数；视觉特征为所述VGG-16网络中第五个卷积层的输出，其中n＝196为视觉特征图的个数。

优选的，所述图像情感标签分类器中LSTM网络的初始状态v⁰，基于情感属性特征a和所述原始图像的视觉特征v_o，并使用注意力机制进行计算：即通过转换矩阵U，将情感属性特征a作用在所述原始图像的视觉特征v_o的196个特征图上，所得到特征图的权值向量v⁰作为LSTM网络的初始状态；其中所述情感属性特征a是将所述情感属性使用Glove词向量表示，每个情感属性都有唯一对应的Glove词向量。在本优选方案中，由于低级的视觉特征和高级的情感标签存在巨大的语义鸿沟，现有的情感分类器效果并不理想，因此引入高级的图像情感属性，通过注意力机制作用在特征图上，计算得到情感属性和视觉特征的加权特征，使用加权特征作为LSTM网络得初始状态，对情感区域的寻找具有指导作用。

优选的，所述图像情感标签分类器中LSTM网络的初始状态v⁰的计算公式为：

其中n＝196。

优选的，所述LSTM网络中的LSTM单元输出h^(t)计算具体包括以下步骤：

所述LSTM单元包括记忆门、输入门和输出门；定义在第t个时序下，LSTM单元的输入为v^(t)，LSTM单元的输出为h^(t)；σ为sigmoid激活函数，f(x)＝1/[1+e^(-x)]；其中LSTM单元的输出h^(t)即所述LSTM网络中softmax层的输出；

第t个LSTM单元的输入门计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fv^(t)+b_f)

其中f^(t)为第t个LSTM单元输入门的输出；h^(t-1)为第t-1个LSTM单元输入门的输出，v^(t)为第t个LSTM单元的输入，W_f、U_f和b_f为采用正态分布初始化得到的参数；

第t个LSTM单元的记忆门计算公式为；

i^(t)＝σ(W_ih^(t-1)+U_iv^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_av^(t)+b_a)

C^(t)＝C^(t-1)e f^(t)+i^(t)e a^(t)

其中C^(t)为第t个LSTM单元记忆门的输出，C^(t-1)为第t-1个LSTM单元记忆门的输出，f^(t)为第t个LSTM单元输入门的输出，h^(t-1)为第t-1个LSTM单元输入门的输出，v^(t)为第t个LSTM单元的输入，W_i、U_i、b_i、W_a、U_a和b_a为采用正态分布初始化得到的参数；

第t个LSTM单元的输出门计算公式为：

o^(t)＝σ(W_oh^(t-1)+U_ov^(t)+b_o)

h^(t)＝o^(t)e tanh(C^(t))

其中h^(t)为第t个LSTM单元输出门的输出，C^(t-1)为第t-1个LSTM单元记忆门的输出。

优选的，所述LSTM网络的第t个LSTM单元输入v^(t)基于所述图像目标区域的视觉特征v_t和第t-1个LSTM单元的输出h^(t-1)，通过变换矩阵U将h^(t-1)作用到v_t的不同特征图上，所得到特征图的权值向量v^(t)即为第t个LSTM单元输入。

优选的，所述LSTM网络的第t个LSTM单元输入v^(t)的计算公式：

其中W_h,i、W_v,i为采用正态分布初始化得到的参数，n＝196。在本优选方案中，由于在人类的注意力系统中，往往关注图像的局部区域而不是整体图像，与现有基于整体图像的图像情感分析模型相比，LSTM网路的输入是局部区域的加权特征，通过多个局部区域的输入使模型不再关注图像整体而是局部区域。

优选的，所述其中T个softmax层的输出进行求和后连接所述softmax分类器，通过所述softmax分类器计算得到预测情感标签的概率；其中所述softmax分类器包括全连接层和softmax层，所述softmax层输出的神经元数量与情感标签的类别数一致，全连接层输出的神经元数量与情感属性特征a的维度一致；

其中计算得到预测情感标签的概率的公式为：

其中p_s为预测情感标签的概率，h^(t)为LSTM单元的输出，T为正整数。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法在情感标签分类器中引用了情感属性，对情感标签进行预测时，使用注意力机制将情感属性作用在原始图像的视觉特征上，根据图像情感属性计算LSTM网络的初始状态，降低了低级视觉特征和高级情感标签带来的语义鸿沟影响；

同时，情感标签分类器使用了LSTM网络，基于图像局部区域进行情感标签分类，使本发明方法尽可能关注到图像的多个情感区域，符合人类注意力系统在视觉任务中关注局部特征而非整体特征的特点，使得图像情感预测更加准确，同时能够很好地适用于大规模的图像情感分析任务，解决了现有的图像情感分类方法精度低的问题，取得了更好的情感分类准确率。本发明方法得到的图像情感分类结果符合人类情感标准，判断过程无需人工参与，实现了机器全自动的图像情感分类。

附图说明

图1为本发明方法的流程图。

图2为实施例1中vso图像情感数据库的部分示意图。

图3为本发明方法的步骤图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于LSTM网络和注意力机制的图像情感分类方法，如图1、2所示，包括以下步骤：

S1.原始图像初始化：从图像情感数据库中获取原始图像，将所述原始图像划分为训练图像、测试图像以及目标图像，并对所述原始图像进行初始化处理生成相应的图像目标区域；其中获取得到的每张原始图像均对应一个情感属性和一个情感标签；数据集的每张图片均对应一个情感属性和一个情感标签。本实施例1使用vso图像情感数据库，其中的每张图片均对应一个情感属性和一个情感标签；如图3所示，图中左上方的happy baby，其情感属性为happy，情感标签为positive。

对所述原始图像进行初始化处理生成相应的图像目标区域具体包括：

其中，所述基于LSTM网络和注意力机制的图像情感标签分类器包括：依次连接的VGG-16网络、LSTM网络、softmax层和softmax分类器；

其中，所述图像情感标签分类器中的VGG-16网络用于提取所述原始图像的视觉特征v_o和所述图像目标区域的视觉特征其中T为正整数，表示图像目标区域的个数；视觉特征为所述VGG-16网络中第五个卷积层的输出，其中n＝196为视觉特征图的个数。本实施例中的VGG-16网络为基于ImageNet数据集进行了预训练的模型。

其中，所述图像情感标签分类器中LSTM网络的初始状态v⁰，基于情感属性特征a和所述原始图像的视觉特征v_o，并使用注意力机制进行计算：即通过转换矩阵U，将情感属性特征a作用在所述原始图像的视觉特征v_o的196个特征图上，所得到特征图的权值向量v⁰作为LSTM网络的初始状态；其中所述情感属性特征a是将所述情感属性使用Glove词向量表示，每个情感属性都有唯一对应的Glove词向量。

其中，所述图像情感标签分类器中LSTM网络的初始状态v⁰的计算公式为：

其中n＝196。

其中，所述LSTM网络中的LSTM单元输出h^(t)计算具体包括以下步骤：

第t个LSTM单元的输入门计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fv^(t)+b_f)

第t个LSTM单元的记忆门计算公式为；

i^(t)＝σ(W_ih^(t-1)+U_iv^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_av^(t)+b_a)

C^(t)＝C^(t-1)e f^(t)+i^(t)e a^(t)

第t个LSTM单元的输出门计算公式为：

o^(t)＝σ(W_oh^(t-1)+U_ov^(t)+b_o)

h^(t)＝o^(t)e tanh(C^(t))

其中，所述LSTM网络的第t个LSTM单元输入v^(t)基于所述图像目标区域的视觉特征v_t和第t-1个LSTM单元的输出h^(t-1)，通过变换矩阵U将h^(t-1)作用到v_t的不同特征图上，所得到特征图的权值向量v^(t)即为第t个LSTM单元输入。

其中，所述LSTM网络的第t个LSTM单元输入v^(t)的计算公式：

其中W_h,i、W_v,i为采用正态分布初始化得到的参数，n＝196。

其中，所述其中T个softmax层的输出进行求和后连接所述softmax分类器，通过所述softmax分类器计算得到预测情感标签的概率；其中所述softmax分类器包括全连接层和softmax层，所述softmax层输出的神经元数量与情感标签的类别数一致，全连接层输出的神经元数量与情感属性特征a的维度一致；

其中计算得到预测情感标签的概率的公式为：

在本实施例1中，通过以下步骤对对所述图像情感标签分类器进行有监督的训练：

S31.网络初始化：sotfmax分类器中的全连接层和softmax层使用正态分布初始化；

S32.目标损失函数设置：最终的情感标签预测损失函数设置如下：

其中为所述softmax分类器中softmax层的输出；

S33.设置训练参数：学习率设置为0.01；每次训练迭代的图像设置为32；

S34.加载训练数据：从图像情感数据库中随机选取80％作为训练图像集，10％作为验证图像集，10％作为测试图像集；输入训练图像集和测试图像集；

S35.采用随机梯度下降算法对图像情感标签分类器进行迭代训练；

S36.在验证图像集上选取情感标签预测损失最小的网络模型作为图像情感标签分类器的最优模型。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于LSTM网络和注意力机制的图像情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图像情感分类方法，其特征在于，步骤S1中所述的对所述原始图像进行初始化处理生成相应的图像目标区域具体包括：

3.根据权利要求2所述的图像情感分类方法，其特征在于，步骤S2中所述基于LSTM网络和注意力机制的图像情感标签分类器包括：依次连接的VGG-16网络、LSTM网络、softmax层和softmax分类器；

4.根据权利要求3所述的图像情感分类方法，其特征在于，所述图像情感标签分类器中的VGG-16网络用于提取所述原始图像的视觉特征v_o和所述图像目标区域的视觉特征其中T为正整数，表示图像目标区域的个数；视觉特征为所述VGG-16网络中第五个卷积层的输出，其中n＝196为视觉特征图的个数。

5.根据权利要求4所述的图像情感分类方法，其特征在于，所述图像情感标签分类器中LSTM网络的初始状态v⁰，基于情感属性特征a和所述原始图像的视觉特征v_o，并使用注意力机制进行计算：即通过转换矩阵U，将情感属性特征a作用在所述原始图像的视觉特征v_o的196个特征图上，所得到特征图的权值向量v⁰作为LSTM网络的初始状态；其中所述情感属性特征a是将所述情感属性使用Glove词向量表示，每个情感属性都有唯一对应的Glove词向量。

6.根据权利要求5所述的图像情感分类方法，其特征在于，所述图像情感标签分类器中LSTM网络的初始状态v⁰的计算公式为：

其中n＝196。

7.根据权利要求6所述的图像情感分类方法，其特征在于，所述LSTM网络中的LSTM单元输出h^(t)计算具体包括以下步骤：

第t个LSTM单元的输入门计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fv^(t)+b_f)

第t个LSTM单元的记忆门计算公式为；

i^(t)＝σ(W_ih^(t-1)+U_iv^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_av^(t)+b_a)

C^(t)＝C^(t-1)e f^(t)+i^(t)e a^(t)

第t个LSTM单元的输出门计算公式为：

o^(t)＝σ(W_oh^(t-1)+U_ov^(t)+b_o)

h^(t)＝o^(t)e tanh(C^(t))

8.根据权利要求7所述的图像情感分类方法，其特征在于，所述LSTM网络的第t个LSTM单元输入v^(t)基于所述图像目标区域的视觉特征v_t和第t-1个LSTM单元的输出h^(t-1)，通过变换矩阵U将h^(t-1)作用到v_t的不同特征图上，所得到特征图的权值向量v^(t)即为第t个LSTM单元输入。

9.根据权利要求8所述的图像情感分类方法，其特征在于，所述LSTM网络的第t个LSTM单元输入v^(t)的计算公式：

其中W_h,i、W_v,i为采用正态分布初始化得到的参数，n＝196。

10.根据权利要求9所述的图像情感分类方法，其特征在于，所述其中T个softmax层的输出进行求和后连接所述softmax分类器，通过所述softmax分类器计算得到预测情感标签的概率；其中所述softmax分类器包括全连接层和softmax层，所述softmax层输出的神经元数量与情感标签的类别数一致，全连接层输出的神经元数量与情感属性特征a的维度一致；

其中计算得到预测情感标签的概率的公式为：