CN111582397B

CN111582397B - 一种基于注意力机制的cnn-rnn图像情感分析方法

Info

Publication number: CN111582397B
Application number: CN202010405643.XA
Authority: CN
Inventors: 唐向宏; 傅博文; 任玉升; 李齐良; 肖涛
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-04-07
Anticipated expiration: 2040-05-14
Also published as: CN111582397A

Abstract

本发明公开了一种基于注意力机制的CNN‑RNN图像情感分析方法，包括：S11.通过ResNet‑50卷积神经网络获取图像的特征，并通过ResNet‑50卷积神经网络的5个分支分别提取不同抽象层次的图像特征；S12.将提取的不同抽象层次的图像特征输入至双向循环神经网络GRU中，捕获不同抽象层次的依赖关系，得到不同层次的图像特征；S13.通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到最终特征；S14.将得到的最终特征通过全连接层和Softmax分类器处理，得到注意力机制的图像情感分析模型；S15.得到注意力机制的图像情感分析模型后，对图像情感分析模型进行训练并将模型应用于图像情感分析中进行分析。

Description

一种基于注意力机制的CNN-RNN图像情感分析方法

技术领域

本发明涉及计算机图像情感分析技术领域，尤其涉及一种基于注意力机制的CNN-RNN图像情感分析方法。

背景技术

图像情感分析旨在预测一副图像所能够引发观看者的情感，属于情感计算领域的一个重要的研究方向。随着互联网和社交网络的发展，图像情感分析的应用场合越来越广泛。

图像情感分析首先要选择一定的情感模型来表示情感，在心理学研究中有两种典型的表现情感的模型：情感状态类别(CES)和情感维度空间(DES)。CES方法认为情感属于少数几个基本类别之一，如恐惧、满足、悲伤等，而DES方法认为情感在大脑中是连续的，所以将情感归为多维情感空间中一个点。由于CES方法直观易懂，便于人们理解和标注，该方法得到了广泛的应用。

由于从图像中提取情感内容的信息，需要填补图片与情感之间的情感鸿沟，即图像中的可度量信号(即图像特征)与人从图像中感知到的信号所带产生的情感状态之间存在的不一致性。因此，从图像中提取合适特征来表征情感信息，以及如何融合这些特征信息是图像情感分析的关键。

如模型[1]：He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:770-778；模型[2]：Rao T,Xu M,Xu D,et al.LearningMulti-level Deep Representations for Image Emotion Classification[J].arXiv:Computer Vision and Pattern Recognition,2016等均涉及到分析图像情感的特征信息，但是对于不同的图像而言，对情感产生主要影响的特征层次是不同的，简单地融合不同层次的特征，并不能有效的突出那些对情感影响较大特征。

因此，针对上述技术问题，本发明提出了一种基于注意力机制的CNN-RNN图像情感分析方法。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于注意力机制的CNN-RNN图像情感分析方法。

为了实现以上目的，本发明采用以下技术方案：

一种基于注意力机制的CNN-RNN图像情感分析方法，包括5个分支的ResNet-50卷积神经网络、双向循环神经网络GRU以及注意力机制层；所述5个分支的ResNet-50卷积神经网络包括全连接层、Softmax分类器；

包括步骤：

S1.通过ResNet-50卷积神经网络获取图像的特征，并通过ResNet-50卷积神经网络的5个分支分别提取不同抽象层次的图像特征；

S2.将提取的不同抽象层次的图像特征输入至双向循环神经网络GRU中，通过双向循环神经网络GRU捕获不同抽象层次的依赖关系，得到不同层次的图像特征；

S3.通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，利用确定的注意力权重系数对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到最终特征；

S4.将得到的最终特征通过全连接层和Softmax分类器处理，得到注意力机制的图像情感分析模型；

S5.当得到注意力机制的图像情感分析模型后，对所述图像情感分析模型进行训练并将所述模型应用于图像情感分析中进行分析。

进一步的，所述5个分支的ResNet-50卷积神经网络还包括卷积层、平均池化层；所述步骤S1中获取图像的特征是通过卷积层运算进行提取的。

进一步的，所述步骤S1中提取不同抽象层次的图像特征包括浅层次特征、中间层特征、高层次特征；所述步骤S1中提取不同抽象层次的图像特征后还包括对提起的中间层特征进行降维处理。

进一步的，所述步骤S2之前还包括：

通过循环神经网络RNN捕捉不同层次特征间的依赖关系。

进一步的，所述步骤S2中通过双向循环神经网络GRU捕获不同抽象层次的依赖关系，表示为：

r_t＝σ(W_vrV_t+W_hrh_t-1+b_r)

z_t＝σ(W_vzV_t+W_hzh_t-1+b_z)

其中，r_t、z_t、

h_t分别表示重置门、更新门、候选隐藏状态、隐藏状态；W_vr表示输入-重置门权重矩阵；V_t表示第t个输入特征向量；W_hr表示隐藏状态-重置门权重矩阵；h_t-1表示隐藏状态；b_r表示重置门偏置值；W_vz表示输入-更新门权重矩阵；

表示输入-候选隐藏状态权重矩阵；W_hz表示候选状态-更新门权重矩阵；

表示输入隐藏状态-候选隐藏状态权重矩阵；b_z表示更新门偏置值；

表示候选隐藏状态偏置值。

进一步的，所述步骤S3中通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，表示为：

e_t＝M_etanh(M_uH_t+p_u)

其中，M_u、M_e表示权重矩阵；p_u表示偏置项；M_u、M_e、p_u均为学习参数；e_t表示能量值；H_t表示第t个隐藏状态；α_t表示权重系数。

进一步的，所述步骤S3中利用确定的注意力权重系数对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到最终特征，表示为：

其中，S表示最终特征；α_t表示权重系数；H_t表示第t个隐藏状态。

进一步的，所述步骤S4中将得到的最终特征通过全连接层和Softmax分类器处理，表示为：

Q＝tanh(K_qS+f_q)

其中，K_q表示权重矩阵，f_q表示偏置项，K_q、f_q均为学习参数；S表示最终特征；Q_i表示向量Q的第i个分量，Q∈R⁸；y_i表示样本属于第i类的概率。

进一步的，所述步骤S5对图像情感分析模型进行训练中所训练的数据集包括含愉悦、愤怒、敬畏、满足、恶心、兴奋、恐惧、悲伤中的一种或多种。

进一步的，所述步骤S5对图像情感分析模型进行训练中还包括将Focal损失函数引入所述图像情感分析模型中，以平衡训练数据集中的类别样本，表示为：

其中，β_i表示平衡参数；m_i表示第i类的样本数量。

与现有技术相比，本发明将情绪分为在心理学研究中定义的八个类别之一，即负面情绪：愤怒、厌恶、恐惧、悲伤，积极情绪：愉悦、敬畏、满足、兴奋；本发明利用卷积神经网络(CNN)和双向循环神经网络(RNN)实现层次化的图像特征的提取和融合；利用注意力机制，获取不同层次特征对情感分析产生不同影响的大小；同时将Focal损失函数应用到情感分析模型中，以提升情感分析模型的性能。

附图说明

图1是实施例一提供的一种基于注意力机制的CNN-RNN图像情感分析方法流程图；

图2是实施例一提供的情感分析模型总体结构图；

图3是实施例一提供的双向循环神经网络GRU结构图。

图4是实施例一提供的注意力层结构图；

图5是实施例一提供的不同类型图像中各层特征的注意力权重系数示意图；

图6是实施例一提供的情感分析模型的训练过程示意图；

图7是实施例二提供的不同情感分析模型在LSDFEC数据集上的准确率结果比较示意图；

图8是实施例二提供的各模型在ArtPhoto数据集上的真正率结果比较示意图；

图9是实施例二提供的各模型在IAPS-subset数据集上的真正率结果比较示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明解决技术问题所采取以下技术方案：图像的不同层次的特征通常由浅层次特征(如图像的色彩、形状、线条等)、中等层次特征(如色彩饱和度、构图、纹理、重点等)、以及高层次特征(如图像的语义内容等)构成，虽然卷积神经网络(CNN)实现了对图像特征的层次化提取，既能提取图像中较低级的特征，也能提取较为高级的特征。但是，对于不同的图像而言，对情感产生主要影响的特征层次是不同的，简单地融合不同层次的特征，并不能有效的突出那些对情感影响较大特征。为此，利用注意力机制来发掘图像中对情感影响较大的特征，以更加有效地融合多层次的图像特征，提升图像情感分类效果。

实施例一

本实施例提供一种基于注意力机制的CNN-RNN图像情感分析方法，如图1所示，包括5个分支的ResNet-50卷积神经网络、双向循环神经网络GRU以及注意力机制层；5个分支的ResNet-50卷积神经网络包括全连接层、Softmax分类器；通过5个分支的ResNet-50卷积神经网络、双向循环神经网络GRU以及注意力机制层组成图像情感分析模型。

一种基于注意力机制的CNN-RNN图像情感分析方法，包括步骤：

S11.通过ResNet-50卷积神经网络获取图像的特征，并通过ResNet-50卷积神经网络的5个分支分别提取不同抽象层次的图像特征；

S12.将提取的不同抽象层次的图像特征输入至双向循环神经网络GRU中，通过双向循环神经网络GRU捕获不同抽象层次的依赖关系，得到不同层次的图像特征；

S13.通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，利用确定的注意力权重系数对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到最终特征；

S14.将得到的最终特征通过全连接层和Softmax分类器处理，得到注意力机制的图像情感分析模型；

S15.当得到注意力机制的图像情感分析模型后，对所述图像情感分析模型进行训练并将所述模型应用于图像情感分析中进行分析。

在步骤S11中，通过ResNet-50卷积神经网络获取图像的特征，并通过ResNet-50卷积神经网络的5个分支分别提取不同抽象层次的图像特征。

ResNet-50是一个通用的卷积神经网络(CNN)，其结构是由卷积层conv1、conv2_x、conv3_x、conv4_x以及conv5_x等五个卷积块、一个平均池化器和Softmax分类器构成；其中ResNet-50卷积神经网络的5个分支中的每个分支结构均由一个1×1卷积层运算和一个全连接层组成。

使用一个预训练的CNN网络ResNet-50来获得图像特征，然后由ResNet-50卷积神经网络的5个分支结构分别提取不同抽象层次的图像特征，由于ResNet-50通过逐层的卷积运算来提取图像特征，其中提取不同抽象层次的图像特征包括浅层次特征、中间层特征、高层次特征，较浅的卷积层提取抽象浅层次的图像特征(例如色彩、线条、纹理特征等)，而较深的卷积层则提取抽象高层次的图像特征(例如物体、场景等)。因此，本实施例在conv1、conv2_x、conv3_x、conv4_x、conv5_x卷积块后分别加入分支结构，如图2中所示，用于提取不同抽象层次的特征。

从ResNet-50的五个分支提取出来的中间层特征的维度较高，且维度不一致，不适合直接作为后续循环神经网络RNN的输入向量，所以需要对中间层特征进行降维，并将维度调整一致。为此，将提取的各层特征分别使用1×1卷积来降低特征维度，卷积核数量为64。特征经过1×1卷积降维后，展平为一维向量，然后使用全连接层将特征维度调整成一致，全连接层的神经元数量为512，每个分支输出的特征记为V_t，V_t∈R⁵¹²，t∈[1,5]。

在本实施例中，步骤S12之前还包括：

通过循环神经网络RNN捕捉不同层次特征间的依赖关系。

具体为，图像中的不同抽象层次的特征对观看图像的人都会产生影响，而不同层次的特征产生的影响又会依赖于其他层次的特征，例如同一场景在不同色调下对情感的影响不同，同一场景中如果包含了不同的物体对情感的影响也不一样。这种图像中不同层次间的依赖关系非常类似于自然语言处理问题中的依赖问题，正如一个句子中动词的形式会取决于主语及时态。所以，在本实施例的图像情感分析模型中，通过引入自然语言处理中常用的循环神经网络RNN来捕捉不同层次特征间的依赖关系。

在步骤S12中，将提取的不同抽象层次的图像特征输入至双向循环神经网络GRU中，通过双向循环神经网络GRU捕获不同抽象层次的依赖关系，得到不同层次的图像特征。

长短期记忆网络LSTM与循环门单元GRU是最常用的两种可以捕捉序列依赖关系的RNN网络，相对于LSTM网络，GRU的参数较少，需要计算量更少，也更加容易训练。因此，在本实施例选用双向循环神经网络GRU来捕捉不同抽象层次特征的依赖关系。

选用双向循环神经网络GRU结构，如图3所示，其计算过程如下：

r_t＝σ(W_vrV_t+W_hrh_t-1+b_r)

z_t＝σ(W_vzV_t+W_hzh_t-1+b_z)

其中，r_t、z_t、

表示候选隐藏状态偏置值，上述参数均为学习参数。重置门r_t决定在候选隐藏状态

中，输入隐藏状态h_t-1的哪些信息会被保留；更新门z_t同时决定了输入隐藏状态h_t-1以及候选隐藏状态

中哪些信息会被保留，由此得到输出隐藏状态h_t。

GRU通过候选状态h_t实现了输入层次化特征依赖关系的捕获和传递，因此，本实施例将这一机制应用在在捕获图像特征依赖关系上。由于依赖关系是双向的，既有高层次特征对低层次特征的依赖，又有低层次特征对高层次特征的依赖，所以本实施例使用的是双向GRU网络。记正向和反向GRU网络输出的隐藏状态分别为

与

GRU网络最后输出隐藏状态H_t，H_t∈R⁵¹²，为正向和反向隐藏状态拼接而成，记为

在步骤S13中，通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，利用确定的注意力权重系数对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到了最终特征。

由于图像中不同抽象层次的特征，对人类情感的影响程度也不同。一些图像对人类的情感的影响主要集中在一些抽象层次较低的特征上(例如色彩、线条、纹理等)，而另一些图像对人类的情感的影响主要集中在一些抽象层次较高的特征上(例如图像中的对象)。因此，要准确捕捉图像中所蕴含的情感信息，就需要将更多的注意力放在该图像中对情感影响较大的特征上。为此，本实施例通过注意力机制来确定不同抽象层次特征对于图像情感影响的大小，即获得GRU网络输出的不同权重系数α_t，以此来决定不同抽象层次的图像特征对情感分析影响的大小。如图4所示，给出了注意力层的结构，注意力权重α_t是由GRU网络输出的隐藏状态H_t经过注意力网络计算得到。具体注意力网络部分的计算过程为：

首先，由H_t计算得到能量值e_t；

然后，对e_t进行Softmax运算，确定不同层次特征对图像情感影响的注意力权重系数α_t，表示为：

e_t＝M_etanh(M_uH_t+p_u)

其中，M_u、M_e表示权重矩阵；p_u表示偏置项；M_u、M_e、p_u均为学习参数；e_t表示能量值；H_t表示第t个隐藏状态；α_t表示权重系数。能量值e_t衡量了第t个隐藏状态H_t与输出的匹配程度，对e_t进行一个Softmax运算就到了输入隐藏状态H_t对应的权重系数α_t，α_t衡量了不同层次特征对于输出的重要程度。

图5给出了三张图像以及注意力层计算得到的各层次特征对应的权重系数大小，图中已将权重系数大小进行了可视化处理，颜色越深代表对应的权重越大，反之则越小。从图5可以看出，图5(a)中色彩(浅层特征)对情感影响程度较大所对应的浅层特征注意力权重值较大，图5(b)中纹理(中等特征)对情感影响程度较大所对应中的中层特征注意力权重值较大，图5(c)对象小羊(高层特征)对情感影响程度较大所对应的高层特征注意力权重值较大。由此可见，利用注意力机制，根据各层特征的输入计算得到的权重值大小，较好地反映了各层特征对于情感影响程度。

利用各层特征对图像情感的不同影响，对各层特征按下式所示进行线性组合，可得到最终特征，表示为：

最后，再经过一个全连接层运算与一个Softmax分类器，按下式计算得到最终分类结果，实现对图像的情感分析，表示为：

Q＝tanh(K_qS+f_q)

在步骤S15中，当得到注意力机制的图像情感分析模型后，对所述图像情感分析模型进行训练并将所述模型应用于图像情感分析中进行分析。

本实施例是利用深度卷积神经网络来提取图像的情感特征，因此，需要对各层神经网络进行训练。目前，在图像情感分析领域中，能用于图像情感分析训练的数据样本集相对较少，一个是由You等人构建的一个较大规模的图像情感数据集LSDFEC(其中包含约2万张图像)和两个小型数据集IAPS-subset、ArtPhoto，各数据集均包含愉悦、愤怒、敬畏、满足、恶心、兴奋、恐惧、悲伤等八个类别的图像数据，本实施例训练的数据集包括含愉悦、愤怒、敬畏、满足、恶心、兴奋、恐惧、悲伤中的一种或多种，优选的选用三个数据集上对模型进行训练。其中三个数据集中各类别图片的数量如表1所示。

数据集	愉悦	愤怒	敬畏	满足	恶心	兴奋	恐惧	悲伤	总数
										LSDFEC	4770	1196	2948	5193	1595	2737	976	2680	22095
ArtPhoto	101	77	102	70	70	105	115	106	806
										IAPS-subset	37	8	54	63	74	55	42	62	395

表1

因此使用三个数据集训练模型时，均将数据集随机划分为：训练集(数据总数的80％)、测试集(数据总数的15％)、验证集(数据总数的5％)。

从表1所列的3个已知的情感图像数据集中，各类别数据都存在着一定的样本不平衡问题。若使用样本不平衡的数据集来训练分类模型，会使得模型的性能退化，模型的训练出现过拟合问题。然而，交叉熵损失函数是情感分析模型中常采用的损失函数，其大小定义为：

CE＝-log(p)

其中，p表示模型判断输入样本属于其真实类别的概率，log为自然对数。由于在情感分析模型训练时，传统交叉熵损失函数对训练集当中困难样本的关注度不够，同时也不能较好地处理训练情感图像数据集当中存在的类别样本不平衡问题。因此，本实施例将Focal损失函数引入到情感分析模型中，以缓解样本不平衡问题带来的负面影响。

Focal损失函数定义为：

FL＝-β(1-p)^γlog(p)

其中，聚焦参数γ为一个大于0的超参数，其大小通过实验来得到最优值，其作用是通过(1-p)^γ项来放大低置信度样本的损失在总损失中的权重，同时缩小高置信度样本的损失在总损失中的权重。即对于置信度高的样本，p值就越大，这时调制因子(1-p)^γ越小；反之，置信度低的样本，p值就越小，调制因子(1-p)^γ越大。这样，在模型训练中，困难样本的损失被放大，模型就会更加关注困难样本；平衡参数β同样是一个超参数，由实验得到最优值，其作用是控制正负样本对总损失的权重，平衡不同类别样本的数量。

本实施例对图像情感分析模型进行训练中将Focal损失函数引入所述图像情感分析模型中，以平衡训练数据集中的类别样本。

具体为，Focal损失原本用于二分类的样本不平衡问题，若将其应用于多类别分类文中，采用实验来优化的方式来得到平衡参数β，这样会随着类别数量的增加，平衡参数β的调优工作量会大大增加。因此，本实施例从平衡参数β的功能出发，采用启发式的方法确定平衡参数β的数值，直接根据训练集中各类别数量来确定参数β的数值。若设数据集中类别总数为N，则第i类(i∈[1,N])的平衡参数β_i等于类别权重值的大小，表示为：

其中，β_i表示平衡参数；m_i表示第i类的样本数量。从上式可以看出，平衡参数β_i在训练中能较好地按照数据集中各类别样本的数量比例放大或者减小损失值。

在训练时，输入图像的尺寸被缩放到224×224像素，并进行归一化。通过剪裁图像和色彩抖动的方法来进行数据增强。另外，两个小规模数据集中包含的数据量较少，所以本实施例的模型首先在大型数据集LSDFEC上进行训练，然后再在IAPS-subset和ArtPhoto两个小型数据集上进行微调。

如图6所示，本实施例模型的训练采用了多阶段学习方法。具体训练步骤是：

首先，训练conv1与分支1中的1×1卷积和全连接层FC1部分。将全连接层FC1后再加上一个包含8个神经元的全连接层(输出层)，然后通过Softmax函数输出分类向量。当分支1部分训练结束后，去除FC1后面的全连接层，并固定conv1以及分支1中的1×1卷积和全连接层FC1的参数。

然后，训练conv2与分支2中的1×1卷积和全连接层FC2部分。在全连接层FC2后再加上一个包含8个神经元的全连接层(输出层)，然后通过Softmax函数输出分类向量。当分支2部分训练结束后，去除FC2后面的全连接层，并固定conv2以及分支2中的1×1卷积和全连接层FC2的参数；依次类推，用相同的方法训练conv3以及分支3，直至5个分支全部训练完成。

训练使用mini-batch梯度下降法，batch大小为64，momentum值设置为0.9。训练中使用早停技术和学习率衰减，早停的patience值设为10。由于各个分支学习的收敛速度不同，学习率以及学习率的衰减率在各个分支设置的也不同，各个分支的学习率也不同。各分支的初始学习率与学习率的衰减率如下表2.

表2

当ResNet-50和各分支全部训练完成后，再对GRU层、注意力层和输出层部分进行训练，训练使用RMSprop优化器，学习率为1×10^-3，梯度平方的移动均值的衰减率为0.9。

最后，当各层神经网络完成训练后，本实施例的图像情感分析模型就可用于实际图像的情感分析。

与现有技术相比，本实施例将情绪分为在心理学研究中定义的八个类别之一，即负面情绪：愤怒、厌恶、恐惧、悲伤，积极情绪：愉悦、敬畏、满足、兴奋；本发明利用卷积神经网络(CNN)和双向循环神经网络(RNN)实现层次化的图像特征的提取和融合；利用注意力机制，获取不同层次特征对情感分析产生不同影响的大小；同时将Focal损失函数应用到情感分析模型中，以提升情感分析模型的性能。

实施例二

本实施例提供的一种基于注意力机制的CNN-RNN图像情感分析方法与实施例一的不同之处在于：

本实施例为了验证本发明方法的有效性，在计算机上进行了仿真实验。

实验中，将本发明模型与以下模型进行了对比，其中模型1为ResNet-50原始模型，模型2～4分别使用不同的特征融合方法。

模型1：He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:770-778：对预训练网络不作任何结构改动，只训练最后输出层的全连接网络，不利用中间特征。

模型2：Rao T,Xu M,Xu D,et al.Learning Multi-level Deep Representationsfor Image Emotion Classification[J].arXiv:Computer Vision and PatternRecognition,2016：使用多个CNN提取同一图片的不同尺度子图像的特征并融合了这些特征。

模型3：You Q,Luo J,Jin H,et al.Building a Large Scale Dataset forImage Emotion Recognition:The Fine Print and The Benchmark[J].arXiv:Artificial Intelligence,2016：使用AlexNet提取特征并用SVM进行最后的分类。

模型4：Zhu X,Li L,Zhang W,et al.Dependency exploitation:A unified CNN-RNN approach for visual emotion recognition[C].International joint conferenceon artificial intelligence,2017:3595-3601：使用CNN提取多层次特征，并使用GRU融合特征，同时模型所有部分的训练仅使用情感图像数据集从零开始训练CNN，不使用预训练网络。

本实施例为了对比Focal损失和交叉熵损失函数对模型的影响，还设置了以下两个对比实验：

模型5：ResNet提取层次化特征+GRU特征融合+注意力机制+交叉熵损失函数

模型6(本实施例的模型)：ResNet提取层次化特征+GRU特征融合+注意力机制+Focal损失函数。

在使用Focal损失函数进行训练时，本实施例的模型(即模型6)需要对聚焦参数γ进行调优，下表3给出了各层网络的性能最优时的参数γ的取值。

模型	分支1	分支2	分支3	分支4	分支5	RNN
							模型6	1.4	1.3	1.1	1.6	1.8	1.9

表3

图7给出了模型1～6在大规模情感图像数据集LSDFEC上的分类结果，评价指标为模型的准确率(Accuracy)。从图7中的准确率得出以下结论：

(1)本实施例模型取得了较好地情感分类效果，在对比模型中，准确率最高，达到75.9％，相比模型1的准确率高出15.1％，相比模型2～4分别高出10.7％、17.5％、2.9％；

(2)对本实施例模型，无论是采用交叉熵损失函数，还是Focal损失函数，其性能都相比模型1～4的好，这说明本实施例所采用的特征融合方法由于其他对比方法；

(3)对比模型5与模型6(本实施例模型)，采用本实施例改进的Focal损失函数应于情感分析模型中，能有效地改善分析模型的性能，提高模型的准确率。

图8和图9分别给出了模型1～4以及本实施例模型在ArtPhoto与IAPS-subset两个小型情感图像数据集上的分类结果。为了方便比较，仿真实验中采用了五折交叉验证法。另外，由于IAPS-subset数据集中，“愤怒”类别图像的数量只有8张，因此IAPS-subset数据集的实验结果只包含了其它七个类别。从ArtPhoto与IAPS-subset两个数据集的仿真实验结果可以看出，本实施例模型在大多数类别上的表现均优于其他对比模型，其平均真正率取得了最高，达到90.5％、92.3％；相比于模型1，本实施例模型的平均真正率要高出16.0％、14.1％；相比于模型2～4，本实施例在ArtPhoto与IAPS-subset数据集上的平均真正率分别要高出3.4％～12.5％和2.5％～4.1％。

因此，从以上实验仿真数据可以看出，本实施例的模型的性能优于其他几种采用不同特征融合方法的模型。本发明模型的分类准确率要高出2.9～17.5％；相比于交叉熵损失函数，本发明的改进Focal损失函数能够将情感分析模型的准确率提升1.2～1.4％。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，包括5个分支的ResNet-50卷积神经网络、双向循环神经网络GRU以及注意力机制层；所述5个分支的ResNet-50卷积神经网络包括全连接层、Softmax分类器；

包括步骤：

2.根据权利要求1所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述5个分支的ResNet-50卷积神经网络还包括卷积层、平均池化层；所述步骤S1中获取图像的特征是通过卷积层运算进行提取的。

3.根据权利要求2所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S1中提取不同抽象层次的图像特征包括浅层次特征、中间层特征、高层次特征；所述步骤S1中提取不同抽象层次的图像特征后还包括对提起的中间层特征进行降维处理。

4.根据权利要求1所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S2之前还包括：

通过循环神经网络RNN捕捉不同层次特征间的依赖关系。

5.根据权利要求1所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S2中通过双向循环神经网络GRU捕获不同抽象层次的依赖关系，表示为：

r_t＝σ(W_vrV_t+W_hrh_t-1+b_r)

z_t＝σ(W_vzV_t+W_hzh_t-1+b_z)

其中，r_t、z_t、

表示候选隐藏状态偏置值。

6.根据权利要求5所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S3中通过注意力机制层确定不同层次特征对图像情感影响的注意力权重系数，表示为：

e_t＝M_etanh(M_uH_t+p_u)

7.根据权利要求6所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S3中利用确定的注意力权重系数对双向循环神经网络GRU输出的不同层次的图像特征进行加权线性组合，得到最终特征，表示为：

S＝∑_tα_tH_t

8.根据权利要求7所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S4中将得到的最终特征通过全连接层和Softmax分类器处理，表示为：

Q＝tanh(K_qS+f_q)

9.根据权利要求1所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S5对图像情感分析模型进行训练中所训练的数据集包括含愉悦、愤怒、敬畏、满足、恶心、兴奋、恐惧、悲伤中的一种或多种。

10.根据权利要求9所述的一种基于注意力机制的CNN-RNN图像情感分析方法，其特征在于，所述步骤S5对图像情感分析模型进行训练中还包括将Focal损失函数引入所述图像情感分析模型中，以平衡训练数据集中的类别样本，表示为：

其中，β_i表示平衡参数；m_i表示第i类的样本数量。