CN110263822B

CN110263822B - 一种基于多任务学习方式的图像情感分析方法

Info

Publication number: CN110263822B
Application number: CN201910458052.6A
Authority: CN
Inventors: 吴壮辉; 孟敏; 武继刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2022-11-15
Anticipated expiration: 2039-05-29
Also published as: CN110263822A

Abstract

本发明公开一种基于多任务学习方式的图像情感分析方法，包括如下步骤：构建图像情感属性检测器和图像情感标签分类器；采用梯度下降法训练图像情感属性检测器初始化参数；测试图像情感属性的预测精度并判断是否达到标准，达标即检测器训练参数设计合理，否则重新训练；将图像情感检测器的输出及原始图像的卷积特征共同作为情感标签分类器的输入，采用梯度下降法训练分类器初始化参数；测试标签分类器的预测精度并判断是否达到标准，达标即标签分类器训练参数设计合理，否则重新训练；将图像情感标签进行分类、图像情感进行分析。本发明可降低语义鸿沟带来的影响，使图像情感预测更准确，更好地适用于大规模图像情感分类任务。

Description

一种基于多任务学习方式的图像情感分析方法

技术领域

本发明涉及图像处理方法的技术领域，更具体地，涉及一种基于多任务学习方式的图像情感分析方法。

背景技术

由于人们受视觉内容唤醒的情感表达需求迫切，国内外学者已着手对图像情感分析进行研究和探索，但现有的大部分研究主要是基于低级视觉特征进行情感分析，由于低级视觉特征与高级情感标签存在巨大的语义鸿沟，因此，现有图像情感标签分类器对图像情感分类的效果并不理想。

发明内容

本发明为克服现有图像情感分析方法导致低级视觉特征与高级情感标签存在巨大语义鸿沟的问题，本发明基于多任务学习方式的设置目标函数训练情感属性检测器，将检测到的情感属性作用到视觉特征上，使情感标签和情感属性的分布趋于一致，在一定程度上减少了语义鸿沟带来的影响，使得图像情感预测更加准确，同时能够很好地适用于大规模的图像情感分类任务，提供一种基于多任务学习方式的图像情感分析方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多任务学习方式的图像情感分析方法，包括如下步骤：

S1、利用卷积层、全连接层和softmax层构建图像情感属性检测器，利用attention层、全连接层和softmax层构建图像情感标签分类器；

S2、将训练集的原始图像输入到所述图像情感属性检测器，对所述图像情感属性检测器卷积层、全连接层和softmax层的初始化参数采用梯度下降法进行训练；

S3、将测试集的原始图像输入到已训练完毕的图像情感属性检测器，测试所述图像情感属性检测器对测试集原始图像的预测精度；

S4、判断预测精度是否达到标准精度0.19，若达到标准，则表明所述图像情感属性检测器的训练参数设计合理，若未达到标准，则返回步骤S2重复执行训练；

S5、将所述图像情感属性检测器输出的预测情感属性及训练集原始图像的卷积特征同时作为所述情感标签分类器的输入，对所述图像情感标签分类器attention层、全连接层和softmax层的初始化参数采用梯度下降法进行训练；

S6、将测试集的原始图像输入到已训练完毕的所述图像情感属性标签分类器，测试图像情感标签分类器对测试集原始图像的预测精度；

S7、判断情感标签预测精度是否达到标准精度0.90，若达到标准，则表明所述图像情感标签分类器的训练参数设计合理，若未达到标准，则返回步骤S5重复执行训练；

S8、测试完毕的图像情感属性检测器及标签分类器输出得到图像情感标签概率，根据概率大小对图像情感标签进行分类，从而进行图像情感分析。

其中，步骤S1所述的图像情感属性检测器的设计结构包含前端部VGG-16网络卷积层和后端部全连接层、softmax层；所述VGG-16网络卷积层作为卷积特征提取器提取图像的卷积特征，包括第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组；所述全连接层连接在所述VGG-16网络卷积层的第五卷积层组的尾端，神经元数量设为2048；所述softmax层共两个，同时并列连接在所述全连接层尾端，神经元数量分别设为情感属性数a_N和情感标签数s_K，对应的上侧softmax层输出情感属性，下侧softmax层输出情感标签，以此来体现多任务方式。

随机选取图像情感数据库的80％作为训练集，图像情感数据库的10％作为验证集，10％作为测试集，将所述训练集和验证集的原始图像输入到图像情感属性检测器，步骤S2所述的图像情感属性检测器训练过程，包括以下步骤：

S21、网络初始化：所述前端部结构VGG-16网络卷积层采用ImageNet数据集训练模型初始化，后端部全连接层、softmax层采用正态分布初始化；

S22、设置图像情感属性检测器的目标损失函数：所述目标损失函数的每一个函数值与图像情感属性检测器各结构层的参数对应，采用多任务的目标损失函数，目标损失函数L_{multi-task-loss}的表达式为：

式中，多任务目标损失函数包括三个部分：情感标签预测损失函数L_{sentiment-loss}(x,y_s)、情感属性预测损失函数L_{attribute-loss}(x,y_a)和标签属性一致性损失函数L_{consistency-loss}(x)，其中，x表示三通道图像矩阵、y_a表示情感属性；y_s表示情感标签；

S23、设置训练参数：学习率设置为0.01；每次训练迭代的图像设置为32；

S24、采用随机梯度下降算法对所述图像情感属性检测器的训练参数进行迭代训练；

S25、在原始图像的训练集上选取多任务目标损失函数值最小的网络模型对应的结构层作为图像情感属性检测器的最优模型，将所述最优模型对应的结构层参数作为训练最终结果。

进一步，所述的情感属性预测损失函数L_{attribute-loss}(x,y_a)的表达式为：

其中，a_N表示情感属性个数；y_n表示真实情感属性分布；

表示由情感属性分类器得到的情感属性预测分布；

情感标签预测损失函数L_{sentiment-loss}(x,y_s)的表达式为：

其中，s_K为情感标签个数，

表示由情感标签分类器得到的情感标签预测分布；

所述一致性损失函数L_{consistency-loss}(x)的表达式为：

其中，中间参数

的表达式为：

式中，

表示各情感标签所对应的所有情感属性分类器预测概率之和，

由情感标签分类器得到的情感标签预测概率之和，其余参数同前文含义所述一致。

进一步，所述图像情感属性标签分类器的设计结构包括一个attention层和一个基于检测图像属性和注意力机制的BP神经网络，所述BP神经网络连接在所述attention层之后，包含一个全连接层和一个softmax层，所述softmax层首端与所述全连接层尾端连接；图像情属性标签分类器的输入包括图像情感属性检测器的预测属性及除图像情感属性检测器外的另一个VGG-16网络卷积层提取的图像卷积特征。

所述图像情感标签分类器设计的具体步骤如下：

S101、网络结构设置：所述attention层后连接一个BP神经网络，所述BP神经网络包括一个全连接层和一个softmax层，softmax层作为图像情感标签分类器的输出；

S102、图像视觉特征和图像情感属性特征设置：图像视觉特征为VGG-16模型提取的图像卷积特征，满足表达式：

其中，v_i表示ImageNet数据集下训练的图像情感属性检测器中VGG-16模型的第五个卷积层的输出,n表示卷积特征特征图的个数，个数n为196；所述图像情感属性特征表示为a，由图像情感属性检测器预测排序在前五位的情感属性及使用Glove词向量表示预测的情感属性特征拼接而成；

S103、全连接层输入设置：基于图像情感属性检测器的图像情感属性特征及另一个VGG-16网络卷积层提取的图像卷积特征，attention层使用注意力机制计算获取所述图像的加权特征，凸显出与图像情感紧密相关的局部区域，忽略了干扰特征，提高了图像情感分类精度，后输出给全连接层并作为其输入，所述加权特征

的表达式为：

式中，

其中，U为需要学习的转换矩阵；l为特征图的权值向量，其余参数如前文释义一致。

attention层使用注意力机制将所述图像情感检测器输出的预测情感属性作用于除图像情感检测器外的另一个VGG-16网络卷积层提取的图像卷积特征。

选用图像情感数据库，随机选取所述图像情感数据库的80％作为训练集，10％作为验证集，10％作为测试集；将训练集和验证集的原始图像输入到图像情感标签分类器，步骤S5所述的图像情感标签分类器训练过程如下：

S201、网络初始化：所述图像情感标签分类器的全连接层和softmax层采用正态分布初始化；

S202、目标损失函数设置：最终情感标签预测损失函数L_{sentiment-loss}(x,y_s)的表达式如下：

其中，s_K为情感标签个数，x表示三通道图像矩阵，y_s表示情感标签，

表示由情感标签分类器得到的情感标签预测分布，为所述softmax层的输出，其余参数与前文所述含义一致；

S203、设置训练参数：学习率设置为0.01，每次训练迭代的图像设置为32；

S204、采用随机梯度下降算法对所述图像情感标签分类器进行迭代训练；

S205、在原始图像的验证集上选取情感标签预测损失函数值最小的网络模型对应的结构层作为图像情感标签分类器的最优模型，将所述最优模型对应的结构层参数作为训练最终结果。

与现有技术相比，本发明技术方案的有益效果是：本发明采用设置多任务目标函数的方式训练情感属性检测器，加入了图像情感做监督，使情感标签和情感属性的分布趋于一致，减少低级视觉特征和高级情感标签存在的语义鸿沟问题；引入图像情感属性，使用注意力机制计算基于视觉特征和情感属性的加权特征，凸显出与图像情感紧密相关的局部区域，忽略了干扰特征，提高了图像情感分类精度，检测的情感属性通过注意力机制可以有效地作用在视觉特征上，突显出与情感标签相关的局部区域，使得图像情感预测更加准确，同时能够很好地适用于大规模的图像情感分析任务。

附图说明

图1为本发明实施方式总体的结构示意图。

图2为本发明基于多任务学习方式的图像情感分析方法流程示意图。

图3为本发明图像情感属性检测器结构示意图。

图4为情感标签所对应情感属性分类器预测概率和的计算方式示意图。

图5为VSO数据集展示图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制。

本发明提供的一种基于多任务学习方式的图像情感分析方法，具体实施方式的总体结构示意如图1所示，方法流程示意如图2所示，包括如下步骤：

S1、构建图像情感属性检测器和图像情感标签分类器；

图像情感属性检测器结构示意如图3所示，设计的结构包括前端VGG-16网络卷积层及后端全连接层、softmax层；在本实施例中，前端借用了[K.Simonyan andA.Zisserman,“Very deep convolutional networks for large-scale imagerecognition,”CoRR,vol.abs/1409.1556,2014.]的VGG-16网络结构作为卷积特征提取器，包括第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，其用于本发明的目的是提取图像的卷积特征，后端全连接层连接在第五卷积层组之后，将全连接层神经元数量设为2048，然后两个softmax层同时连接在全连接层之后，神经元数量分别设为情感属性数a_N和情感标签数s_K，本具体实施方式中将a_N和s_K分别设置为269和2，对应的一个softmax层输出情感属性，另一个书很纯粹情感标签，输入图像被随机裁剪为224*224*3的大小，通过此方式确保不会丢失全局信息。

如图1所示，图像情感标签分类器的设计结构由一个attention层和一个基于检测图像属性和注意力机制的BP神经网络组成，BP神经网络连接在所述attention层之后，包含一个全连接层和一个softmax层，softmax层连接在所述全连接层之后，参见图1，图像情感属性标签分类器的输入一部分为图像情感属性检测器输出的预测属性，另一部分为图1下半部所示的VGG-16网络卷积层提取的图像卷积特征。

S2、选取原始图像训练集，并输入到图3所示的图像情感检测器，对图像情感属性检测器卷积层、全连接层和softmax层的初始化参数采用梯度下降法进行训练，以此来优化初始参数，选用[D.Borth,R.Ji,T.Chen,T.Breuel,and S.-F.Chang,“Large-scale visualsentiment ontology and detectors using adjective noun pairs,”in Proceedingsof the 21st ACM International Conference on Multimedia,2013.]的图像情感数据库，如图5所示，该数据库的每张图片对应一个情感属性和一个情感标签，每个情感属性也对应一个情感标签，随机选取80％作为训练集，10％作为验证集，10％作为测试集，将训练集和验证集的原始图像输入到图像情感属性检测器，本阶段情感标签非用户在本发明中最终用到的情感标签，最终的情感标签由图像情感标签分类器得到。具体训练过程包括以下步骤：

所述的情感属性预测损失函数L_{attribute-loss}(x,y_a)的表达式为：

其中，a_N表示情感属性个数；y_n表示真实情感属性分布；

表示由情感属性分类器得到的情感属性预测分布；

情感标签预测损失函数L_{sentiment-loss}(x,y_s)的表达式为：

其中，s_K为情感标签个数，

表示由情感标签分类器得到的情感标签预测分布；

所述一致性损失函数L_{consistency-loss}(x)的表达式为：

其中，中间参数

的表达式为：

式中，

由情感标签分类器得到的情感标签预测概率之和，其余参数同前文含义所述一致，计算方式的示意如图4所示。

S25、在原始图像的训练集上选取多任务目标损失函数值最小的网络模型对应的结构层作为图像情感属性检测器的最优模型，将最优模型对应的结构层参数作为训练最终结果。

S4、判断预测精度是否达到标准精度，若达到标准0.19，则表明所述图像情感属性检测器的训练参数设计合理，若未达到标准，则返回步骤S2重复执行训练；

如图1所示，图像情感属性标签分类器的设计结构包括一个attention层和一个基于检测图像属性和注意力机制的BP神经网络，BP神经网络连接在attention层之后，一个全连接层和一个softmax层，softmax层连接在全连接层之后；此外，参见图1，图像情属性标签分类器的输入包括图像情感属性检测器的预测属性及另一个VGG-16网络卷积层提取的图像卷积特征。

具体设计步骤如下：

其中，v_i表示由ImageNet数据集[A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet classification with deep convolutional neural networks,”inProceedings of the 25th International Conference on Neural InformationProcessing Systems-Volume 1.Curran Associates Inc.,2012,pp.1097–1105.]下训练的图像情感属性检测器中VGG-16模型[D.Borth,R.Ji,T.Chen,T.Breuel,and S.-F.Chang,“Large-scale visual sentiment ontology and detectors using adjective nounpairs,”in Proceedings of the 21st ACM International Conference on Multimedia,2013.]第五个卷积层的输出,n表示特征图的个数，个数n设置为196；图像情感属性特征表示为a,由图像情感属性检测器预测排序在前五位的情感属性及使用Glove词向量表示预测的情感属性特征拼接而成。

S103、全连接层输入设置：基于图像情感属性检测器的图像情感属性特征及另一个VGG-16网络卷积层提取的图像卷积特征，attention层使用注意力机制计算获取所述图像的加权特征，后输出给全连接层并作为其输入，所述加权特征

的表达式为：

式中，

另外，选用[D.Borth,R.Ji,T.Chen,T.Breuel,and S.-F.Chang,“Large-scalevisual sentiment ontology and detectors using adjective noun pairs,”inProceedings of the 21st ACM International Conference on Multimedia,2013.]的图像情感数据库，如图5所示，该数据库的每张图片对应一个情感属性和一个情感标签，每个情感属性也对应一个情感标签，随机选取所述图像情感数据库的80％作为训练集，10％作为验证集，10％作为测试集；将训练集和验证集的原始图像输入到图像情感标签分类器，图像情感标签分类器训练过程如下步骤所示：

S5、将图像情感检测器输出的预测情感属性及原始图像的卷积特征共同作为情感标签分类器的输入，且将原始图像训练集输入到图像情感标签分类器，对图像情感标签分类器初始化设计的参数采用梯度下降法进行训练，以此来优化初始参数；

S5、将图像情感属性检测器输出的预测情感属性及训练集原始图像的卷积特征同时作为所述情感标签分类器的输入，对图像情感标签分类器attention层、全连接层和softmax层的初始化参数采用梯度下降法进行训练；

S6、将测试集的原始图像输入到已训练完毕的图像情感属性标签分类器，测试图像情感标签分类器对测试集原始图像的预测精度；

S7、判断情感标签预测精度是否达到标准精度0.90，若达到标准，则表明图像情感属性分类器的训练参数设计合理，若未达到标准，则返回步骤S6重复执行训练；

S8、如图5所示，利用测试完毕的所述图像情感属性检测器及标签分类器输出得到的图像情感标签概率，根据概率大小对图像情感标签进行分类，从而进行图像情感分析，图5对原始图像分别分析出积极、消极、美丽、狰狞四种情感。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多任务学习方式的图像情感分析方法，其特征在于，包括如下步骤：

S1：利用卷积层、全连接层和softmax层构建图像情感属性检测器，利用attention层、全连接层和softmax层构建图像情感标签分类器；

S2：将训练集的原始图像输入到图像情感属性检测器，对所述图像情感属性检测器卷积层、全连接层和softmax层的初始化参数采用梯度下降法进行训练；

S21、网络初始化：前端部结构VGG-16网络卷积层采用ImageNet数据集训练模型初始化，后端部全连接层、softmax层采用正态分布初始化；

步骤S22所述的情感属性预测损失函数L_{attribute-loss}(x,y_a)的表达式为：

其中，a_N表示情感属性个数，y_n表示第n个真实情感属性分布；

表示由情感属性分类器得到的情感属性预测分布；

所述情感标签预测损失函数L_{sentiment-loss}(x,y_s)的表达式为：

其中，s_K为情感标签个数，

表示由情感标签分类器得到的情感标签预测分布；

所述一致性损失函数L_{consistency-loss}(x)的表达式为：

其中，中间参数

的表达式为：

式中，

由情感标签分类器得到的情感标签预测概率之和；

S25、在原始图像的训练集上选取多任务目标损失函数值最小的网络模型对应的结构层作为图像情感属性检测器的最优模型，将所述最优模型对应的结构层参数作为训练最终结果；

S3：将测试集的原始图像输入到已训练完毕的图像情感属性检测器，测试图像情感属性检测器对测试集原始图像的预测精度；

S4：判断预测精度是否达到标准精度，若达到标准，则表明所述图像情感属性检测器的训练参数设计合理，若未达到标准，则返回步骤S2重复执行训练；

S5：将所述图像情感属性检测器输出的预测情感属性及训练集原始图像的卷积特征同时作为图像情感标签分类器的输入，对所述图像情感标签分类器attention层、全连接层和softmax层的初始化参数采用梯度下降法进行训练；

表示由情感标签分类器得到的情感标签预测分布，为所述softmax层的输出；

S205、在原始图像的验证集上选取情感标签预测损失函数值最小的网络模型对应的结构层作为图像情感标签分类器的最优模型，将所述最优模型对应的结构层参数作为训练最终结果；

S6：将测试集的原始图像输入到已训练完毕的所述图像情感标签分类器，测试图像情感标签分类器对测试集原始图像的预测精度；

S7：判断情感标签预测精度是否达到标准精度，若达到标准，则表明所述图像情感标签分类器的训练参数设计合理，若未达到标准，则返回步骤S5重复执行训练；

S8：测试完毕的图像情感属性检测器及标签分类器输出得到图像情感标签概率，根据概率大小对图像情感标签进行分类，从而进行图像情感分析。

2.根据权利要求1所述的基于多任务学习方式的图像情感分析方法，其特征在于，步骤S1所述的图像情感属性检测器的设计结构包含前端部VGG-16网络卷积层和后端部全连接层、softmax层；所述VGG-16网络卷积层作为卷积特征提取器提取图像的卷积特征，包括第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，所述全连接层连接在所述VGG-16网络卷积层的第五卷积层组的尾端，神经元数量设为2048；所述softmax层共两个，同时连接在所述全连接层的尾端，神经元数量分别设为情感属性数a_N和情感标签数s_K，上侧softmax层输出情感属性，下侧softmax层输出情感标签。

3.根据权利要求1所述的基于多任务学习方式的图像情感分析方法，其特征在于，所述图像情感标签分类器的设计结构包括一个attention层和一个基于检测图像属性和注意力机制的BP神经网络，所述BP神经网络连接在所述attention 层尾端，包含一个全连接层和一个softmax层，所述softmax层首端与所述全连接层尾端连接。

4.根据权利要求3所述的基于多任务学习方式的图像情感分析方法，其特征在于，所述图像情感标签分类器的输入包括图像情感属性检测器输出的预测属性和除图像情感属性检测器外另一个VGG-16网络卷积层提取的图像卷积特征。

5.根据权利要求1所述的基于多任务学习方式的图像情感分析方法，其特征在于，所述图像情感标签分类器设计的步骤如下：

S101、网络结构设置：attention层尾端连接一个BP神经网络，所述BP神经网络包括一个全连接层和一个softmax层，softmax层作为图像情感标签分类器的输出；

S103、全连接层输入设置：基于图像情感属性检测器的图像情感属性特征及另一个VGG-16网络卷积层提取的图像卷积特征，attention层使用注意力机制计算获取所述图像的加权特征，后输出给全连接层并作为其输入，所述图像的加权特征

的表达式为：

式中，

其中，U为需要学习的转换矩阵；l为特征图的权值向量。

6.根据权利要求5所述的基于多任务学习方式的图像情感分析方法，其特征在于，所述attention层使用注意力机制将所述图像情感检测器输出的预测情感属性作用于除图像情感检测器外的另一个VGG-16网络卷积层提取的图像卷积特征。