CN113064968B

CN113064968B - 一种基于张量融合网络的社交媒体情感分析方法及系统

Info

Publication number: CN113064968B
Application number: CN202110376415.9A
Authority: CN
Inventors: 耿玉水; 张康; 赵晶; 刘建鑫; 李文骁
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-04-19
Anticipated expiration: 2041-04-06
Also published as: CN113064968A

Abstract

本发明属于多模态情感识别领域，提供了一种基于张量融合网络的社交媒体情感分析方法及系统。该方法包括：获取多模态信息数据；分别提取多模态信息数据的文本特征和图像特征；采用张量融合方法将文本特征和图像特征进行融合，得到融合特征；提取融合特征的情感特征；将情感特征输入全连接层，再采用分类器完成情感分类。

Description

一种基于张量融合网络的社交媒体情感分析方法及系统

技术领域

本发明属于多模态情感识别领域，尤其涉及一种基于张量融合网络的社交媒体情感分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

社交媒体作为信息交流的重要平台，已经成为涵盖广泛主题的主要信息来源。社交多媒体是指发布在社交媒体平台上的在线多媒体资源，它促进了个人参与和社区监管。在大数据时代，每分钟各类社交网络都会产生大量的多媒体数据。发现嵌入在社交多媒体中的知识非常重要，因为它对许多有前景的应用至关重要，如用户行为分析和预测等。情感分析(也称为意见挖掘)旨在提取嵌入到用户生成内容中的人们的意见和情感，可以实现股票市场预测、票房预测、政治投票预测和民意监测等多种功能。在当今时代，对社交网络中各种多媒体内容的情感分析已被证明具有重要意义，它在感知、规划、推理、创造和决策活动中起着重要作用。

情感分析最初是指检测、分析和提取文本中表达的态度、情感和观点的任务。随着配备摄像头的移动终端和社交网络平台(如Facebook、Twitter和微博)的普及，图像、视频等多媒体内容在社交网络中扮演着传递人们情感和观点信息的重要角色。因此，针对社交多媒体的情感分析不再仅仅是自然语言处理中的一个话题，它还与计算机视觉、模式识别和人工智能中的其他问题相关联。相应地，情感分析的概念应该扩展，情感分析的知识也应该更新。虽然社交多媒体情感分析还处于起步阶段，这个话题也存在一定的争议，但是社交网络的多媒体化是一个不争的事实，社交多媒体情感分析越来越受到重视。

情感分析的实质就是在情感载体中提取出特征，并找出其中隐藏的情感信息。当前很多情感分析的方法都只依赖于单一载体传递的信息，这种识别情感的方式称为单模态情感分析，然而这种情感分析往往是片面的，主要原因在于人类情感表达方式的多样性。单个模态传递的信息缺乏完整性，相比文本或图像的单模态数据，多模态数据包含的信息更丰富，能更好地展现和揭示用户的真实情感，成熟的情感分析需要各个模态之间的相互融合。人们在社交媒体文本的情感分析方面付出了大量努力，视觉情感分析也取得了一定的进展，但总的来说，多模态情感分析仍处于起步阶段。

一张图片中并不是所有的图像区域都与情感表达相关，一条文本数据中也不是所有的单词都与情感有关。因此，在进行特征提取时要突出图像的情感关键区域，也要获得文本中表示语言本质的语义特征。对于多模态情感分析任务，其核心挑战在于如何更好地利用模态内部信息和模态之间的交互作用信息。模态内部信息就是单个独立的模态所能被挖掘并利用的信息；而模态之间的交互作用则是不同模态之间的相互关联与联系所能带来的有用信息。如何利用不同模态之间的交互信息，也是多模态任务与单模态任务的最大区别。因此，多模态情感分析需要找到正确结合各模态信息的有效方式，通过捕捉不同模态数据之间的相似结构来捕获传统任务中缺失的有效信息，以最大化地融合各模态信息以及各模态间的交互信息，同时要消除冗余信息，提取交互信息中最有用的情感特征。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于张量融合网络的社交媒体情感分析方法及系统，提取出了能更好表示语言本质的文本语义特征，提取出了图像中更为关键的情感特征。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于张量融合网络的社交媒体情感分析方法。

一种基于张量融合网络的社交媒体情感分析方法，包括：

获取多模态信息数据；

分别提取多模态信息数据的文本特征和图像特征；

采用张量融合方法将文本特征和图像特征进行融合，得到融合特征；

提取融合特征的情感特征；

将情感特征输入全连接层，再采用分类器完成情感分类。

进一步的，所述文本特征的提取包括：采用BERT预训练模型提取文本的文本特征。

进一步的，所述图像特征的提取包括：采用基于注意力机制的多层卷积神经网络提取图像的图像特征。

本发明的第二个方面提供一种基于张量融合网络的社交媒体情感分析系统。

一种基于张量融合网络的社交媒体情感分析系统，包括：

获取模块，其被配置为：获取多模态信息数据；

特征提取模块，其被配置为：分别提取多模态信息数据的文本特征和图像特征；

特征融合模块，其被配置为：采用张量融合方法将文本特征和图像特征进行融合，得到融合特征；

特定信息提取模块，其被配置为：提取融合特征的情感特征；

输出模块，其被配置为：将情感特征输入全连接层，再采用分类器完成情感分类。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于张量融合网络的社交媒体情感分析方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于张量融合网络的社交媒体情感分析方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明使用BERT预训练模型对文本特征进行提取，以此来获得能更好表示语言本质的语义特征；使用基于注意力机制的卷积神经网络对图像特征进行提取，突出图像情感信息的关键区域；使用张量融合方法对文本特征和图像特征进行融合，在这一方案基础上，设计了一个特定信息提取模块来对融合特征进行再次提取，减少融合特征中的冗余信息，为后续的情感分析任务提供更加准确和有效的信息。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于张量融合网络的社交媒体情感分析方法的流程图；

图2是本发明实施例中Transformer中的编码结构图；

图3是本发明实施例中图像特征提取网络的结构图；

图4是本发明实施例中特定信息提取模型的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于张量融合网络的社交媒体情感分析方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

S101：获取多模态信息数据；

模态是信息的来源或者形式，而所述的多模态信息数据包括文字、语音、视频等可以记录人情绪的媒介数据。

S102：分别提取多模态信息数据的文本特征和图像特征；

作为一种或多种实施方式，采用BERT预训练模型提取文本的文本特征。具体的，BERT预训练模型是基于语义理解的深度双向语言模型，由多个Transformer编码器构造为一个多层双向的编码器网络，使所有层都联合上下文语境进行预训练。它使用强大的双向Transformer编码器，以遮蔽语言建模(MLM)和下一句话预测(NSP)为无监督目标，使模型输出的每个字与词的向量表示都能尽可能全面、准确地刻画输入文本的整体信息，为后续的微调任务提供更好的模型参数初始值；且其输入表征是通过对相应词的词块嵌入、段嵌入和位置嵌入求和来构造的，包含了更多的参数，因此具有更强的词向量表示能力。

BERT模型主要由双向Transformer编码器实现，输入的文本经过双向Transformer编码器得到文本的向量化表示。Transformer模型是BERT的核心构成，也是一个基于自注意力机制的序列到序列模型，主要结构是Transformer中的编码部分，其结构如图2所示。编码部分先将一段文本的字嵌入作为输入，之后与该段文本中每个字的位置信息进行求和，再经自注意力层来帮助编码部分在对每个字进行编码时查看该字的前后信息，然后再经过Add&Norm层。其中，Add表示将自注意力层的输入和输出结果进行相加，Norm表示对相加后的输出结果进行归一化。得到的向量列表会传到一层全连接的前馈神经网络，在该网络内部，也会有相应的Add&Norm层处理，最后输出全新的归一化后的词向量列表。该向量列表能有效学习每个单词的前后信息，从而获得更好的词向量表示。BERT使用Transformer编码器作为特征抽取器，通过大量数据训练为一个语言表征模型，既解决了一词多义的问题，又融合了单词的上下文语境，在多个自然语言处理任务中取得很好的效果。

作为一种或多种实施方式，采用基于注意力机制的多层卷积神经网络提取图像的图像特征。

具体的，本实施的图像特征提取网络结构如图3所示。在这个基于注意力机制的多层卷积神经网络中，每一个卷积步骤都经历了卷积、注意力权重计算以及特征图加权计算3个小步骤。首先，对卷积层输出的特征图进行注意力加权计算。然后，将计算得到的注意力特征图输入到下一个卷积步骤中继续计算。最后，将最终卷积步骤的输出结果输入到全连接层来获取图像情感特征向量。

设一个图像-文本对为(S，I)，其中S为单条文本，I是单幅图像。I＝{I₁,I₂,…,I_n}表示数量为n的图像数据集。基于注意力机制的卷积神经网络完成了CNNa(I)→V_i的特征映射。将图片输入CNNa模型，获取图像特征向量V_i。在图3中，F_il表示第i张图片经过第l层卷积层后所得到的特征图。F'_il为经注意力加权后得到的注意力特征图。其中

C为通道数，H为特征图的长，W为特征图的宽。

为第i个图像的第l个特征图的注意力权重，其表达式如下：

其中，

为第i个图像的第l个特征图的通道注意力权重。

为第i个图像的第l个特征图的空间注意力权重。

通道注意力体现了经过卷积后的每个特征图对于关键信息的贡献大小。通道注意力权重

的计算公式如下:

其中，global_avg表示全局平均池函数，计算每个特征图的所有特征点的平均值，所得结果特征空间为

其中C为特征图数；global_max表示全局最大池化函数，计算每个特征图的最大特征值，所得结果的特征空间为

其中C为特征图的通道数；σ为sigmoid函数，将结果映射到(0,1)以获得标准的通道注意力权重；通道注意力权重

C为特征图数。在公式(2)中，W₁、W₀是该神经网络中的参数，可以通过前向传播和后向反馈来自主学习。

空间注意力权重体现了图片局部区域对关键信息的贡献大小，能够找出图片信息中需要被关注的区域。空间注意力权重

的计算公式如下:

其中，⊙表示逐元素相乘；avg为平均池化函数，沿着通道轴对特征点求平均值，输出结果的特征空间为

max为最大池化函数，沿着通道轴对求最大值，输出结果的特征空间为

avg和max实现了对特征图的信息的聚合，同时减少了计算量。f^7×7为卷积运算，通过卷积计算来获取特征图不同局部区域对关键信息的影响力。卷积核大小为7×7，作为该神经网络中参数的一部分，通过前向传播和后向反馈来自主学习。f^7×7的输出结果的特征空间为

σ为sigmoid函数，将结果映射到(0,1)以获得标准的空间注意力权重。

注意力特征图的计算公式如下:

最后，将注意力特征图作为下一个卷积层的输入继续计算。将最终卷积结构的输出经过一个全连接层转换为一维向量，得到最终的图像特征表示V_i。

S103：采用张量融合方法将文本特征和图像特征进行融合，得到融合特征；

具体的，张量是多向阵列，可以看作是向量、矩阵的高阶扩展，其维度被称为张量的阶。向量是一阶张量，矩阵是二阶张量。

x阶张量

与y阶张量

之间的张量积为

定义如下：

一阶张量

与一阶张量

的张量积计算如式(6)所示:

本实施例使用张量融合方法对图像特征V_i＝{v₁,v₂,…,v_n}和文本特征T_i＝{t₁,t₂,…,t_n}进行融合。第i个图文数据对的联合特征记作U_i，其计算式如下:

在公式(5)、公式(6)以及公式(7)中，

为求张量积运算。在每个单模态特征的末尾增加一个值为1的特征点再进行张量积计算。这使得在联合特征U_i中，不仅包含了图像与文本的模态交互信息，还包含了各单模态的特征信息。最后，为了便于计算，将U_i转换成为向量表示来进行情感分类。

S104：提取融合特征的情感特征；

作为一种或多种实施方式，采用特定信息提取模型提取融合特征的情感特征。

作为一种或多种实施方式，情感特征提取的过程包括：

步骤(1)：利用一维卷积核对捕获活动局部特征，每个内核对应一个特征检测器，该检测器提取特定模式的活动局部特征；

步骤(2)：计算卷积核对的权值，即G_a和G_b，采用tanh激活函数映射G_a对应的卷积核，得到特征a；采用sigmoid激活函数映射G_b对应的卷积核，得到特征b；

步骤(3)：将两个特征相乘，得到情感特征元素；

步骤(4)：采用过滤器在融合特征中活动，构建情感特征。

示例的，张量融合能够充分获取模态间的交互信息，但是也容易造成信息冗余。我们需要减少冗余信息，提取交互信息中最有用的情感特征，并控制最终用于情感分类的比例。

特定信息提取模型结构如图4所示。该模型基于卷积层和门控单元。首先，利用n_k一维卷积核对捕获活动局部特征。每个内核对应一个特征检测器，该检测器提取特定模式的活动局部特征。核对的第一个内核被用来转换信息，得到信息表示。核对的第二个内核是一个门，它控制第一个核的结果流向最终表示的比例。卷积核对的权值分别是

G_a对应的卷积核用tanh激活函数将接受域的r列映射为特征a。G_b对应的卷积核用sigmoid激活函数将r列映射为特征b。a与b相乘得到e，它表示特征提取后的结果。当过滤器在整个句子中活动时，可以得到一个新的特征序列e＝{e₁,e₂,…,e_k-r+1}：

a_i＝tanh(q_i:i+r-1*G_a+b_a) (9)

b_i＝sigmoid(q_i:i+r-1*G_b+b_b) (10)

e_i＝a_i×b_i (11)

其中

是卷积核对的偏差。“*”表示卷积操作。输出的新特征可以形成矩阵

S105：将情感特征输入全连接层，再采用分类器完成情感分类。

具体的，使用一个极大池化层，得到一个大小等于过滤器对数量n_k的向量z:

使用softmax分类器进行情感分类。

为了证明本实施例基于张量融合网络的社交媒体情感分析方法的情感分类准确度，将本实施的基于张量融合网络的社交媒体情感分析方法与其他几个基线方法在MVSA-Single和MVSA-Multiple这两个公共的多模态情感数据集上进行了实验。选择准确率和F1-分数作为本实施例的实验评估指标。如下表所示：

表1基线方法和本实施例的方法在两个MVSA数据集上的实验结果

实验结果证明，本实施的方法提取出了能更好表示语言本质的文本语义特征，提取出了图像中更为关键的情感特征。在张量融合方案的基础上，设计的基于门控卷积机制的特定信息提取模块，有效地解决了多模态情感分析任务中的信息冗余问题，因此获得了较好的实验结果。

实施例二

本实施例提供了一种基于张量融合网络的社交媒体情感分析系统。

本实施例基于张量融合网络的社交媒体情感分析系统的目标是正确预测文本-图像对的情感极性u∈{positive，negative，neutral}。本系统采用多模态情感分析模型，该模型的底层是文本特征提取模块和基于注意力机制的图像特征提取模块。模型的下一层是一个张量融合模块，它能够较好地保留多模态数据中各模态之间的交互信息。然后，模型的下一层是一个特定信息提取模块，它能够减少冗余信息，提取融合信息中最有用的情感特征。模型的顶层是一个全连接层，将来自信息提取模块的情感特征作为输入，使用softmax分类器完成情感分类任务。

一种基于张量融合网络的社交媒体情感分析系统，包括：

获取模块，其被配置为：获取多模态信息数据；

其中，特征提取模块包括文本特征提取模块和图像特征提取模块。文本特征提取模块用于提取文本的文本特征，图像特征提取模块用于提取图像的图像特征。

此处需要说明的是，上述获取模块、特征提取模块、特征融合模块、特定信息提取模块和输出模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。本实施例的具体应用实现过程与实施例二相同，但不限于上述实施例二所公开的内容。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于张量融合网络的社交媒体情感分析方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于张量融合网络的社交媒体情感分析方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于张量融合网络的社交媒体情感分析方法，其特征在于，包括：

获取多模态信息数据；

分别提取多模态信息数据的文本特征和图像特征；

提取融合特征的情感特征；采用特定信息提取模型提取融合特征的情感特征；

所述特定信息提取模型包括：卷积层和门控单元；

所述情感特征提取的过程包括：

步骤(3)：将两个特征相乘，得到情感特征元素；

步骤(4)：采用过滤器在融合特征中活动，构建情感特征；

将情感特征输入全连接层，再采用分类器完成情感分类。

2.根据权利要求1所述的基于张量融合网络的社交媒体情感分析方法，其特征在于，所述文本特征的提取包括：采用BERT预训练模型提取文本的文本特征。

3.根据权利要求1所述的基于张量融合网络的社交媒体情感分析方法，其特征在于，所述图像特征的提取包括：采用基于注意力机制的多层卷积神经网络提取图像的图像特征。

4.根据权利要求2所述的基于张量融合网络的社交媒体情感分析方法，其特征在于，所述BERT预训练模型包括多个Transformer编码器。

5.一种基于张量融合网络的社交媒体情感分析系统，其特征在于，包括：

获取模块，其被配置为：获取多模态信息数据；

特定信息提取模块，其被配置为：提取融合特征的情感特征；采用特定信息提取模型提取融合特征的情感特征；

所述特定信息提取模型包括：卷积层和门控单元；

所述情感特征提取的过程包括：

步骤(3)：将两个特征相乘，得到情感特征元素；

步骤(4)：采用过滤器在融合特征中活动，构建情感特征；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于张量融合网络的社交媒体情感分析方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于张量融合网络的社交媒体情感分析方法中的步骤。