CN110852368A

CN110852368A - 全局与局部特征嵌入及图文融合的情感分析方法与系统

Info

Publication number: CN110852368A
Application number: CN201911068737.6A
Authority: CN
Inventors: 刘天亮; 林明亮; 戴修斌; 谢世朋
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-28
Anticipated expiration: 2039-11-05
Also published as: CN110852368B

Abstract

本发明公开了一种全局与局部特征嵌入及图文融合的情感分析方法与系统，该方法首先利用卷积神经网络提取图像的全局特征，同时利用迁移学习训练目标检测模型，对图像中携带情感的局部区域进行检测定位，提取局部区域特征并嵌入到全局特征共同训练图像情感分类模型，得到图像的情感极性概率。接着将文本表示为包含丰富语义信息的词向量，输入到可提取文本语义上下文特征的双向LSTM进行情感分类，得到文本的情感的极性概率。最后根据后期融合公式，得到图像及文本融合后的情感极性概率，进行图文情感分析。本发明能有效的关注图文的情感信息，并通过图像的全局与局部情感特征的提取以及文本信息的融合，提高图文情感分类的准确性和鲁棒性。

Description

全局与局部特征嵌入及图文融合的情感分析方法与系统

技术领域

本发明涉及一种全局与局部特征嵌入及图文融合的情感分析方法与系统，尤其涉及社交媒体图文的情感分析，属于计算机视觉图像以及自然语言处理交叉的情感识别技术领域。

背景技术

图像与文字的情感分析是一项涉及计算机视觉、模式识别以及自然语言处理等多领域交叉的研究课题。随着互联网的不断发展，以及社交媒体的日益成熟，越来越多的互联网用户喜欢在微博，微信等社交平台分享自己的经历以及参与各种事件话题的讨论，社交网站已经成为互联网用户发表观点抒发感情的重要平台。通过分析用户在社交媒体上发布分享的观点及图片等挖掘用户的情感倾向，可以更好的理解用户的行为及预测市场的趋势。因此社交媒体用户的情感分析引起了学术界和工业界的广泛关注。

传统的情感分析工作主要的关注点是文本，随着社交媒体大量共享图片的社交方式的兴起，也出现了一些针对图片的情感分析的研究，因为图片中也同样包含着大量的情感信息，有时一张图片更能表达出用户的一些情感，然而由于社交媒体信息的多元化，有时候单一的文本或者图片很难表达出用户明显的情感倾向。因此需要综合图片和文本进行情感的分析。但是，就目前的情感分析方法而言，也面临着诸多问题，由于社交媒体的多元性，用户分享的图片内容存在多样性，单单提取图像的全局情感特征而忽略情感突出的局部情感对象，将很难把握图片所传达的用户的情感倾向，这都给社交媒体情感分析的研究带来了严峻的挑战。

发明内容

发明目的：针对以上问题，本发明提出一种全局与局部特征嵌入及图文融合的情感分析方法与系统。该方法结合图像全局与局部特征共同挖掘图片情感,进一步提高图片情感识别的准确率，并将文本的情感信息融合，解决了图像全局情感特征不够丰富且单一图片文本情感特征无法准确判断用户情感的问题，提高了社交媒体情感分析的准确性。

技术方案：本发明的目的通过以下技术方案实现：

全局与局部特征嵌入及图文融合的情感分析方法，包括如下步骤：

(1)将整张图像输入到卷积神经网络模型中，进行图像全局特征的提取，得到表示图像全局信息的特征向量；

(2)利用目标检测数据集预训练目标检测模型，通过迁移学习，利用情感图像数据集再次训练目标检测模型，从而获得能检测出图像中携带情感的局部区域的情感对象检测模型，将整张图像输入情感对象检测模型，提取检测定位到情感对象的局部区域特征向量；

(3)将步骤(1)和步骤(2)得到的全局特征向量与局部特征向量进行拼接，最终每张图像可表示为一组更为丰富的情感特征，然后将拼接后的联合情感特征输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率；

(4)利用词嵌入技术，将文本输入到词向量模型中，得到文本的词向量表示，并输入到双向长短期记忆网络(Long Short-Term Memory，LSTM)中训练得到文本情感分类模型，得到文本的情感极性概率；

(5)将步骤(3)得到的图像的情感极性概率与步骤(4)得到的文本的情感极性概率根据模型融合公式赋予不同的权重后相加，最终得到图文融合的整体情感极性。

作为优选，所述的步骤(1)采用VGGNet-16框架提取全局图像特征。通过该模型框架提取的全局特征向量记为G。

作为优选，所述的步骤(2)中包括：

(2.1)利用目标检测数据集预训练目标检测模型Faster-RCNN，获得训练后的模型参数；

(2.2)通过迁移学习的策略来克服目标检测数据集与图像情感数据集之间的差异，利用情感图像数据集再次训练目标检测模型，对其进行微调训练，从而获得能够检测图像中携带情感的目标对象的情感对象检测模型；

(2.3)将图像输入到情感对象检测模型中，经过一系列卷积池化后得到特征图，将特征图输入到RPN(Region Proposal Networks)网络中，该网络用来提取情感局部区域的候选框，将RPN输出的候选框信息与之前卷积输出的特征图进行映射，得到定位的局部区域的情感特征，并将其输入到ROI(Region Of Interest)层，得到固定大小的特征图，再经过两层全连接层，得到局部情感特征向量；假定检测到的某一局部区域特征向量为L_i，则检测到的前N个局部区域可表示为特征向量集{L₁ L₂ L₃····L_N}，其中N表示检测到局部区域的个数，L_N表示第N个局部区域表示的特征向量。

作为优选，将图像的全局特征G和包含情感对象的局部特征{L₁ L₂ L₃····L_N}两组特征进行拼接，得到一组更为丰富的情感特征向量U＝{G,L₁,L₂,L₃…L_N}；将拼接后的联合情感特征U输入到全连接层，并通过softmax分类器进行分类，得到图片情感极性概率P1。

作为优选，所述的步骤(4)包括：

(4.1)利用词嵌入技术Word2Vec工具将社交媒体的文本信息表示为包含丰富语义信息的词向量特征，其模型结构首先通过神经网络训练出指定维度的词向量，再计算单词与单词之间的欧式距离从而表示出不同单词之间的相似性，最后将意思相近的词汇映射到向量空间中相似的位置；

(4.2)将步骤(4.1)中的词向量特征输入到双向LSTM网络中，两个反向的LSTM单元对文本序列进行从前往后以及从后往前的特征提取，连接两个方向最后一个LSTM单元的隐含层输出作为最终的文本特征表示，将其输入到全连接层，进行降维处理，全连接层采用Dropout技术防止过拟合；

(4.3)将全连接层输出的特征输入到sigmoid函数中进行情感分类，sigmoid函数定义如下

其中x是输入特征，sigmoid函数将输入的特征映射到0到1之间。

作为优选，所述的步骤(5)中由于文本特征与图像特征在维度上有着较大的差异，根据后期融合的模型思想，设计模型融合公式，将步骤(3)中得到的图像的情感极性概率与步骤(4)得到的文本的情感极性概率输入到模型融合公式，其融合公式如下：

P＝wP1+(1-w)P2 w∈(0,1)

其中P1为图像的情感极性概率，P2为文本的情感极性概率，w为融合权重，其中w根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到；P为图像与文本融合后的情感极性概率；若P≥0.5，则图文情感为积极的情感，若P＜0.5，则表达为消极的情感。

本发明另一方面提供一种全局与局部特征嵌入及图文融合的情感分析系统，包括：

全局特征提取模块，用于将整张图像输入到VGGNet-16卷积神经网络模型中，进行图像全局特征的提取，得到表示图像全局信息的特征向量；

局部特征提取模块，用于利用目标检测数据集预训练目标检测模型，通过迁移学习，利用情感图像数据集再次训练目标检测模型，从而获得能检测出图像中携带情感的局部区域的情感对象检测模型，将整张图像输入情感对象检测模型，提取检测定位到情感对象的局部区域特征向量；

图像情感分类模块，用于将得到的全局特征向量与局部特征向量进行拼接，然后将拼接后的联合情感特征输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率；

文本情感分类模块，用于利用词嵌入技术，将文本输入到词向量模型中，得到文本的词向量表示，并输入到双向长短期记忆网络中训练得到文本情感分类模型，将图像对应的描述文本输入到文本情感分类模型得到文本的情感极性概率；

以及，情感识别模块，用于将图像的情感极性概率和文本的情感极性概率根据模型融合公式赋予不同的权重后相加，最终得到图文融合的整体情感极性。

本发明另一方面提供一种全局与局部特征嵌入及图文融合的情感分析系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的全局与局部特征嵌入及图文融合的情感分析方法。

有益效果：与现有技术相比，本发明全局与局部特征嵌入及图文融合的情感分析方法，在图像情感分类模型中将情感突出的局部对象特征嵌入到全局的情感特征中，增强了图像情感特征的表示，相比于单一的全局情感特征更能准确的挖掘图片的情感倾向。同时通过学习情感权重将文本的情感信息与图片的情感信息进行后期融合。相较于之前的工作，在一定程度上提高了图文情感分析的准确度。

附图说明

图1是本发明全局与局部特征嵌入及图文融合的情感分析方法的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明实施例公开一种全局与局部特征嵌入及图文融合的情感分析方法，利用卷积神经网络提取图像的全局特征，同时利用目标检测数据集预训练目标检测模型，通过迁移学习利用情感图像数据集再次训练目标检测模型，对图像中携带情感的有效目标区域进行检测定位，提取检测定位到的局部区域特征，再将提取到的局部区域特征嵌入到从图像全局抽取的深层特征来共同训练图像情感分类模型，得到图像的情感极性概率。接着通过训练词向量模型将文本表示为包含丰富语义信息的词向量，将其输入到可提取文本语义上下文特征的双向长短期记忆网络；训练文本情感分类模型，得到文本的情感的极性概率。最后根据后期融合的模型思想，设计模型融合公式融合图像和文本两个模型，得到图像及文本融合后的情感极性概率。下面详细介绍本实施例的全局与局部特征嵌入及图文融合的情感分析方法的过程，具体包括如下步骤：

步骤A，将待提取全局特征的整张图像输入深度卷积神经网络VGGNet-16[K.Simonyan,A.Zisseman,"Very Deep Convolutional Networks for Large-ScaleImage Recognition."CVPR,2014]，图片输入尺寸为224*224，该网络由13个卷积层和3个全连接组成，采用大小为3*3的卷积核，步幅和填充均为1*1，经过最后一个全连接层得到一个表示图像全局信息的特征向量G。

步骤B，利用目标检测数据集预训练目标检测模型，通过迁移学习，利用情感图像数据集再次训练目标检测模型，从而获得更好的能检测出图像中携带情感的局部区域的情感对象检测模型，将整张图像输入情感对象检测模型提取检测定位到情感对象的局部区域特征向量。具体包括：

步骤B1，利用目标检测模型Faster-RCNN[S.Ren,K.He,R.Girshick,andJ.Sun.Faster r-cnn:Towards real-time object detection with region proposalnetworks.arXiv preprint arXiv:1506.01497,2015]在目标检测数据集PASCAL VOC2007上进行预训练，获得训练后的模型参数。

步骤B2，利用步骤B1训练得到的参数，通过迁移学习策略，利用情感图像数据集Twitter再次训练目标检测模型。来克服目标检测数据集与图像情感数据集之间的差异，从而能够获得更好的图像中携带情感的目标对象的局部区域。该情感数据集Twitter中的一条数据包含有图片及其文字描述，其中积极情感数据769条，消极情感数据500条。利用ImageLab标注工具对情感图像数据集中的对象进行目标检测标注，此时数据集既包含情感标签也包含目标检测标签。

步骤B3，将图像输入到情感对象检测模型中，该模型的提取特征模块的网络架构与VGGNet-16的网络架构相同，保证后续拼接的一致性，经过一系列卷积池化后得到特征图，将特征图输入到RPN(Region Proposal Networks)网络中，该网络用来提取情感局部区域的候选框，将RPN输出的候选框信息与之前卷积输出的特征图进行映射，得到定位的局部区域的情感特征，并将其输入到ROI(Region Of Interest)层，得到固定大小的特征图，再经过两层全连接层，得到与步骤A全局特征相同维度的局部情感特征。假定检测到的某一局部区域特征向量为L_i，则检测到的前N个局部区域可表示为特征向量集{L₁ L₂ L₃····L_N}，其中N表示检测到局部区域的个数，L_N表示第N个局部区域表示的特征向量。

步骤C，将步骤A与步骤B得到的全局特征向量与局部特征向量进行拼接，最终每张图像可表示为一组更为丰富的情感特征向量U＝{G,L₁,L₂,L₃····L_N}，然后将拼接后的联合情感特征输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率P1。

步骤D，利用词嵌入技术，将文本输入到词向量模型中，得到文本的词向量表示，并输入到Bi-LSTM中训练得到文本情感分类模型；将图像对应的描述文本输入到文本情感分类模型得到文本的情感极性概率。具体包括：

步骤D1，利用词嵌入技术Word2Vec工具将社交媒体的文本信息表示为包含丰富语义信息的词向量特征，其模型结构首先通过神经网络训练出指定维度的词向量，再计算单词与单词之间的欧式距离从而表示出不同单词之间的相似性，最后将意思相近的词汇映射到向量空间中相似的位置。

步骤D2，将步骤D1中的词向量特征输入到双向LSTM网络中，两个反向的LSTM单元对文本序列进行从前往后以及从后往前的特征提取，连接两个方向最后一个LSTM单元的隐含层输出作为最终的文本特征表示，将其输入到全连接层，进行降维处理，全连接层采用Dropout技术防止过拟合。

步骤D3，将全连接层的输出的特征输入到sigmoid函数中进行情感分类，得到文本情感极性概率P2。其中sigmoid函数定义如下

其中x是输入特征，sigmoid函数将输入的特征映射到0到1之间。

步骤E，根据后期融合的模型思想，设计模型融合公式，将步骤C中得到的图像情感极性概率P1与步骤D得到的文本情感极性概率P2输入到模型融合公式，其融合公式如下：

P＝wP1+(1-w)P2 w∈(0,1)

其中，w为融合权重，P为图像与文本融合后的情感极性概率。若P≥0.5，则图文情感为积极的情感，若P＜0.5，则表达为消极的情感。由此得到最终的图像与文本融合的情感分析方法。

其中w根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到。模型学习的目的为找出最优的模型参数w，使得预测情感类别和实际情感类别y_i的差异最小。本发明给出的全局损失函数为：

其中，N为总样本数，

本发明另一实施例公开的一种全局与局部特征嵌入及图文融合的情感分析系统，包括全局特征提取模块，用于将整张图像输入到VGGNet-16卷积神经网络模型中，进行图像全局特征的提取，得到表示图像全局信息的特征向量；局部特征提取模块，用于利用目标检测数据集预训练目标检测模型，通过迁移学习，利用情感图像数据集再次训练目标检测模型，从而获得能检测出图像中携带情感的局部区域的情感对象检测模型，将整张图像输入情感对象检测模型，提取检测定位到情感对象的局部区域特征向量；图像情感分类模块，用于将得到的全局特征向量与局部特征向量进行拼接，然后将拼接后的联合情感特征输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率；文本情感分类模块，用于利用词嵌入技术，将文本输入到词向量模型中，得到文本的词向量表示，并输入到双向长短期记忆网络中训练得到文本情感分类模型，将图像对应的描述文本输入到文本情感分类模型得到文本的情感极性概率；以及，情感识别模块，用于将图像的情感极性概率和文本的情感极性概率根据模型融合公式赋予不同的权重后相加，最终得到图文融合的整体情感极性。

上述全局与局部特征嵌入及图文融合的情感分析系统实施例可以用于执行上述全局与局部特征嵌入及图文融合的情感分析方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，上述描述的全局与局部特征嵌入及图文融合的情感分析的具体工作过程及有关说明，可以参考前述全局与局部特征嵌入及图文融合的情感分析方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例还提供一种全局与局部特征嵌入及图文融合的情感分析系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的全局与局部特征嵌入及图文融合的情感分析方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，包括如下步骤：

(3)将步骤(1)和步骤(2)得到的全局特征向量与局部特征向量进行拼接，然后将拼接后的联合情感特征输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率；

(4)利用词嵌入技术，将文本输入到词向量模型中，得到文本的词向量表示，并输入到双向长短期记忆网络中训练得到文本情感分类模型，将图像对应的描述文本输入到文本情感分类模型得到文本的情感极性概率；

2.根据权利要求1所述的全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，所述的步骤(1)采用VGGNet-16框架提取全局图像特征。

3.根据权利要求1所述的全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，所述的步骤(2)包括：

(2.3)将图像输入到情感对象检测模型，首先经过一系列卷积池化后得到特征图，再将特征图输入到RPN网络中，该网络用来提取情感局部区域的候选框，将RPN输出的候选框信息与之前卷积输出的特征图进行映射，得到定位的局部区域的情感特征，并将其输入到ROI层，得到固定大小的特征图，最后再经过两层全连接层，得到局部情感特征向量；假定检测到的某一局部区域特征向量为L_i，则检测到的前N个局部区域可表示为特征向量集{L₁ L₂L₃····L_N}，其中N表示检测到局部区域的个数，L_N表示第N个局部区域表示的特征向量。

4.根据权利要求1所述的全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，所述的步骤(3)中将图像的全局特征G和包含情感对象的局部特征{L₁ L₂ L₃····L_N}两组特征进行拼接，得到一组更为丰富的情感特征向量U＝{G,L₁,L₂,L₃…L_N}；将拼接后的联合情感特征U输入到全连接层，并通过softmax分类器进行分类，得到图像的情感极性概率。

5.根据权利要求1所述的全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，所述的步骤(4)包括：

(4.1)利用词嵌入技术Word2Vec工具将社交媒体的文本信息表示为包含语义信息的词向量特征，其模型结构首先通过神经网络训练出指定维度的词向量，再计算单词与单词之间的欧式距离从而表示出不同单词之间的相似性，最后将意思相近的词汇映射到向量空间中相似的位置；

(4.2)将步骤(4.1)中的词向量特征输入到双向LSTM网络中，两个反向的LSTM单元对文本序列进行从前往后以及从后往前的特征提取，连接两个方向最后一个LSTM单元的隐含层输出作为最终的文本特征表示，将其输入到全连接层，进行降维处理，全连接层采用Dropout技术防止过拟合。

(4.3)将全连接层输出的特征输入到sigmoid函数中进行情感分类，得到文本情感极性概率，sigmoid函数定义如下

其中x是输入特征，sigmoid函数将输入的特征映射到0到1之间。

6.根据权利要求1所述的全局与局部特征嵌入及图文融合的情感分析方法，其特征在于，所述的步骤(5)中将步骤(3)中得到的图像情感极性概率与步骤(4)得到的文本的情感极性概率输入到模型融合公式，其融合公式如下：

P＝wP1+(1-w)P2 w∈(0,1)

7.全局与局部特征嵌入及图文融合的情感分析系统，其特征在于，包括：

8.全局与局部特征嵌入及图文融合的情感分析系统，其特征在于，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-6任一项所述的全局与局部特征嵌入及图文融合的情感分析方法。