CN112508077A

CN112508077A - 一种基于多模态特征融合的社交媒体情感分析方法及系统

Info

Publication number: CN112508077A
Application number: CN202011390807.2A
Authority: CN
Inventors: 耿玉水; 张康; 赵晶; 刘建鑫; 李文骁
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-16
Anticipated expiration: 2040-12-02
Also published as: CN112508077B

Abstract

本公开公开的一种基于多模态特征融合的社交媒体情感分析方法及系统，包括：获取待识别的图文数据；从待识别的图文数据中提取文本特征；从待识别的图文数据中提取图像特征；将文本特征和图像特征进行跨模态融合，获取文本融合特征和图像融合特征；根据文本融合特征和图像融合特征进行情感分类识别。将提出的文本特征和图像特征进行跨模态融合，获取了文本融合特征和图像融合特征，通过两个融合特征进行情感识别，提高情感识别的准确率。

Description

一种基于多模态特征融合的社交媒体情感分析方法及系统

技术领域

本发明涉及情感分类技术领域，尤其涉及一种基于多模态特征融合的社交媒体情感分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着计算机技术的不断发展，加上机器学习的助力，各种各样的智能设备开始出现在日常工作以及生活中，为人们带来了极大的便利，促进了社会的发展。但是这些智能设备大多数还停留在执行简单的具有规律性的任务上面，如何让机器变得更加智能，如何更好地实现人机交互成为新阶段的研究热点。其中关于情感分析的研究引起了研究人员的广泛关注，越来越多的学者投身于相关研究中。情感分析，就是赋予机器识别使用者情感的能力，同时可以在此基础上让机器给出相应的回应，赋予机器“思考”的能力。情感分析融合了数字图像处理、语音信号处理、模式识别、心理学等多种学科，是人机交互的重要分支，可以应用于教育、医疗、交通等各个领域。例如，在车载系统中，利用情感分析对驾驶者的状态进行监控，判断其是否处于安全状态，从而能在发现驾驶人员状态不佳时予以提醒，避免交通事故的发生；在服务行业中，通过情感分析对用户的情感状态进行监控，及时对情绪不满的用户提供更佳周到的服务，优化用户体验，提高整个服务水平；在智能机器人研究中，情感分析可以帮助机器人更好地理解人类的感情，做出友好且智能的回应。

随着社交媒体的日益流行，越来越多的人们热衷于在社交媒体上表达自己的看法或观点。在社交媒体上每天都会有数以亿计的数据记录产生，这其中的大量数据是以文本和图像联合的形式出现，这就构成了海量的多模态数据。海量的多模态数据中蕴含着丰富的情感信息，对多模态数据进行情感分析有利于了解人们对某些事件的态度和看法。在社交媒体的图文数据中，文本和图像都分别包含了各自的情感信息，它们彼此不同而又相辅相成。

情感分析的实质就是在上述情感载体中提取出特征，并找出其中隐藏的情感信息。当前很多情感分析的方法都只依赖于单一载体传递的信息，这种识别情感的方式称为单模态情感分析，然而这种情感分析往往是片面的，主要原因在于人类情感表达方式的多样性。单个模态传递的信息缺乏完整性，相比文本或图像的单模态数据，多模态数据包含的信息更丰富，能更好地展现和揭示用户的真实情感，成熟的情感分析需要各个模态之间的相互融合。另外，以往的情感分析研究中对于单模态文本情感分析主要是运用传统的统计方法，这些方法非常依赖所提取特征的质量。对于单模态图像的情感分析，主要采用人工设计特征提取器，再对提取的特征进行二次筛选的特征提取方法，这些特征中往往包含着冗余的情感信息。以往的方法大多不能有效地利用文本和图像模态的内部信息和模态之间的交互作用信息，实现起来比较繁琐而且效率往往较低。

发明内容

本公开为了解决上述问题，提出了一种基于多模态特征融合的社交媒体情感分析方法及系统，将提出的文本特征和图像特征进行跨模态融合，获取了文本融合特征和图像融合特征，通过两个融合特征进行情感识别，提高情感识别的准确率。

为实现上述目的，本公开采用如下技术方案：

第一方面，一种基于多模态特征融合的社交媒体情感分析方法，包括：

获取待识别的图文数据；

从待识别的图文数据中提取文本特征；

从待识别的图文数据中提取图像特征；

将文本特征和图像特征进行跨模态融合，获取文本融合特征和图像融合特征；

根据文本融合特征和图像融合特征进行情感分类识别。

进一步的，将文本特征和图像特征输入特征融合模块进行特征融合，具体为：

特征融合模块分别以文本特征为主输入，图像特征为副输入，输出文本融合特征，以图像特征为主输入，以文本特征为副输入，输出图像融合特征。

进一步的，将文本融合特征和图像融合特征经全连接层连接后由输出层输出至softmax分类器中进行情感分类识别。

第二方面，一种基于多模态特征融合的社交媒体情感分析系统，包括：

数据采集模块，用于获取待识别的图文数据；

文本特征提取模块，用于从待识别的图文数据中提取文本特征；

图像特征提取模块，用于从待识别的图文数据中提取图像特征；

特征融合模块，用于将文本特征和图像特征进行跨模态融合，获取文本融合特征和图像融合特征；

情感分类识别模块，用于根据文本融合特征和图像融合特征进行情感识别。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于多模态特征融合的社交媒体情感分析方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于多模态特征融合的社交媒体情感分析方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开在对图文数据进行情感分类识别时，根据注意力机制将提取的文本特征和图像特征进行了跨模态融合，获取了文本融合特征和图像融合特征，通过两个融合特征进行情感识别，提高情感识别的准确率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开的多模态情感分析模型的整体结构框图；

图2为本公开实施例1公开的基于注意力的变分自动编码器的网络结构图；

图3为本公开实施例1公开的特征融合模块的结构图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在对包含文本和图像的图文数据进行情感分类识别时，图文数据中并不是所有的图像区域都与情感表达相关，也不是所有的单词都与情感有关。因此，为了从图文数据中提取文本特征和图像特征，用于情感分类识别时，应该突出图像情感关键区域，消除文本数据中的噪声干扰。对于多模态情感分析任务，其核心挑战在于如何更好地利用模态内部信息和模态之间的交互作用信息。模态内部信息就是单个独立的模态所能被挖掘并利用的信息；而模态之间的交互作用则是不同模态之间的相互关联与联系所能带来的有用信息。如何利用不同模态之间的交互信息，也是多模态任务与单模态任务的最大区别。因此，多模态情感分析需要找到正确结合各模态信息的有效方式，通过捕捉不同模态数据之间的相似结构来捕获传统任务中缺失的有效信息，以最大化地融合各模态信息以及各模态间的交互信息。

针对以上问题，在该实施例中提出了一种基于多模态特征融合的社交媒体情感分析方法，首先，针对文本数据噪声较大的特点，使用降噪自动编码器从图文数据中提取出更加准确地代表原始文本的文本特征；其次，使用改进的结合注意力机制的变分自动编码器从图文数据中提取图像特征；然后，提出了一种基于注意力机制的特征融合模块来交互地学习图像和文本特征的模态融合表示向量，这一特征融合模块可以聚焦于文本和图像的相关部分，并将两者最有用的信息融合在一起，从而使用融合后的特征进行情感分类识别时，提高了情感分类识别的准确率。

一种基于多模态特征融合的社交媒体情感分析方法，包括：

获取图文数据；

将图文数据输入多模态情感分析模型中，进行情感分类识别。

其中，多模态情感分析模型，结构如图1所示，包括文本特征提取模块、图像特征提取模块、特征融合模块和分类器；图文数据分别输入文本特征提取模块和图像特征提取模块，输出文本特征和图像特征，将文本特征和图像特征输入特征融合模块，特征融合模块交互式的学习文本特征和图像特征，将文本特征和图像特征进行跨模态融合，输出文本融合特征和图像融合特征，将文本融合特征和图像融合特征经输出层输出后，进入分类器进行情感分类识别。

对多模态情感分析模型进行具体说明。

设一个图像-文本对为(X,I)，其中X为单条文本，并且X＝{X₁,X₂,...,X_M}，I是单幅图像。多模态情感分析模型的目标是正确预测文本-图像对的情感极性u∈{positive,negative,neutral}。该模型的底层是文本特征提取模块和图像特征提取模块，对文本进行从X＝{X₁,X₂,...,X_M}到

的变换，其中d_w表示单词向量的维数，同时将图像转换为固定大小的向量。模型的下一层是一个特征融合模块，它包含了一个注意力机制，可以交互式地学习文本和图像的共享隐表征，从而将它们跨模态融合。模型的顶部是一个全连接层，将来自融合模块的两种不同的主副特征连接起来作为输入，完成情感分类。

(1)文本特征提取模块

文本特征提取层的功能是将每个单词映射到一个低维向量，也叫做单词嵌入。社交媒体中的文本数据存在许多噪声，会影响特征提取的准确性。为了消除噪声干扰,获得更加鲁棒的特征,使用降噪自编码器(DAE)来提取文本特征。所谓降噪自动编码器就是以一定概率分布(通常使用二项分布)去擦除原始input矩阵，即每个值都随机置0,这样看起来部分数据的部分特征是丢失了。由于数据特征的丢失使得原始数据的“不纯净”，这种数据“不纯净”类似于加入噪声，编码器为了解除“噪声”的干扰和腐蚀进行一系列的训练，最终达到复现原始数据的目的，这就是“降噪”的含义。具体来说，将文本的向量化矩阵表示x先经过破坏处理得到矩阵

然后将破坏后的矩阵

输入到编码器得到编码,再经过解码器重构得到一个重构矩阵,将重构矩阵与原始矩阵比较得到重构误差,调整编码器和解码器的参数使得重构误差最小,得到最终的编码。再将上层得到的编码特征作为下层的输入,采用相同的方法得到下层的编码,如此不断进行,直到得到规定数量层数的编码。简单地说，通过构建一个深度网络，逐层训练得到一个低维的特征编码，提取出最能代表文本的低维特征，实现高维文本数据的特征降维。

编码器

用于高维数据的降维。首先对输入向量x进行破坏处理得到

然后输入到编码器

经过线性变换和激活函数的作用,最后得到隐含的编码结果y。解码器g(y)用于低维编码的重构过程,即将隐含层数据映射回重构z,分别表示为如下函数:

z＝g(y)＝S_g(W′y+b_z) (2)

其中,S_f是非线性激活函数,其表达式为:

S_g是解码器的激活函数,本文也采用sigmoid函数,W′＝W^T,是W的转置,因此只需要训练W即可,b_y和b_z是偏倚向量。

DAE的训练过程即是在训练样本集上寻找参数θ＝{W,b_y,b_z}的最小化重构误差,重构误差的表达式如下:

其中,L为重构误差函数,在实验过程中,交叉熵损失函数一直优于平方差损失函数,因此本文采用交叉熵损失函数,表达式如下:

其中,n是训练集样本数,x_i是第个输入,z_i为对应的第i个解码重构后的数据。

自动编码器采用经典的随机梯度下降算法进行训练,在每个迭代过程中,利用公式(6)更新权重矩阵:

其中,

是学习率,b_y和b_z采用与之相同的更新方式。

(2)图像特征提取模块

使用改进的基于注意力的变分自动编码器进行图像特征的提取。目的是从数据中自动学习到从原始的图文数据到数据表征之间的映射。VAE作为深度神经网络，由编码器和解码器构成，结构如图2所示。VAE本质是提取数据的隐特征，构建从隐特征到生成目标的模型。编码器从原始数据中提取潜在的合理变量，再对编码结果加上高斯噪声加以约束，使之成为服从高斯分布的隐含特征。解码器构建的模型将隐特征映射到重新生成的概率分布中，重构的分布需尽量与原始分布相同。

VAE网络有两个组件:具有参数φ的编码器网络E和具有参数μ的解码器D，其损失函数为:

L(φ,μ,a)＝E_qφ(d|a)[logp_μ(a|d)]-D_KL(q_φ(d|a)||p_μ(d)) (9)

式中：q_φ(d|a)表示从数据空间到隐含空间的编码器；p_μ(a|d)表示从隐含空间到数据空间的解码器。

损失函数由两方面构成:式(9)第一项为重构误差，驱使重构的p_θ(a|d)分布更接近于输入分布p_u(a)；第二项旨在减小KL散度，驱使q_φ(d|a)更接近于先验分布p_θ(d)。为了实现这种重构，VAE将捕捉到可以代表原始输入数据的最重要的特征因素。

特别地，我们尝试用VAE的变体β-VAE进行实验。β-VAE引入解缠性先验，假设数据是基于互相独立的因素生成的，因此可以用表征中不同的独立变量表示这些因素。该解缠性先验可促进编码器学习数据简洁的抽象表示，从而用于各种下游任务并提升样本效率。

L(φ,μ,a)＝E_qφ(d|a)[logp_μ(a|d)]-βD_KL(q_φ(d|a)||p_μ(d)) (10)

如式(10)所示，β-VAE引入了一个可调节的超参数β，它可控制隐变量的维度以及重建精度之间的平衡，同时高斯先验的各向同性性质也给学习的后验带来了隐形的约束。β变化会改变训练期间的学习程度，从而鼓励学习不同的表征。实验中需要调整它的值以促进使用解缠后的表征。

具有适合特定任务和数据域的表征可以显著提高训练模型的学习成功率和稳健性。因此，本实施例对VAE提取的高级表征构建注意力机制。自注意力机制与人类视觉注意力机制起着类似的作用，从大量的信息中筛选出部分关键的信息，并聚焦到这些重要的信息上。注意力模块通过分析输入数据的总特征，捕获通道间依赖关系，预测通道重要性，从而选择性地强调某些特征。

根据预训练编码器产生的隐特征γ构建注意力模块的输入，γ∈R^b×h×w×c，其中b为批大小，h和w为特征图的长和宽，c是通道数。如式(11)－式(14)所示，Q和K是由输入特征γ通过1×1大小的卷积核的跨通道信息整合而得的新的特征图，并将维度变换为R^a×c。其中a＝h×w，接着在Q和K的转置之间执行矩阵乘法，最后使用softmax函数进行归一化，得到维度为c×c的注意力概率分布α_ij。这样设计的意义在于计算γ的每个通道数之间的影响力权重，可以突出关键特征图的作用，减少冗余特征对整体分类性能的影响。

Q＝reshape(F_CNN(γ；μ₁)) (11)

K＝reshape(F_CNN(γ；μ₂)) (12)

V＝reshape(γ) (13)

最后，将权重系数α_ij与原始特征进行加权求和，再用尺度系数β加以调整，即可获得辨别性高的特征表达Q_j:

其中，β初始化为0，在学习的过程中逐渐分配到更大的权重。

(3)特征融合模块

对于文本特征提取模块和图像特征提取模块所提取的特征，我们设计了一个特征融合模块(CFF-ATT)来对其进行融合。将前两个模块输出的特征作为特征融合模块的输入，其中一种是主输入，另一种是副输入，将两种输入模态融合来生成目标模态输出，结构如图3所示。设一个主输入

副输入

我们将主输入E和副输入G投影到同一个共享向量空间中：

上式的

是训练参数，d_v表示共享向量空间的维数。我们使用E_emb和G_emb来计算注意力矩阵

M_ij表示主输入的第i个内容与副输入的第j个内容之间的相关性。可以用下式表示注意力矩阵M：

为了衡量每个副输入对主输入的重要性，使用softmax函数来量化M:

之后就得到了基于注意力机制的副输入J：

J＝G·M^T (20)

最后，主输入E和基于注意力机制的副输入J在全连接层进行拼接，得到融合特征U＝{U₁,U₂,...,U_n}：

U＝tanh(P_u[E_i:J_i]+C_u) (21)

上式中，

(4)输出层

通过以上各个模块我们得到了融合后的特征，它们一部分是以文本特征为主，图像特征为辅输出的文本融合特征，另一部分是以图像特征为主，文本特征为辅输出的图像融合特征。将文本融合特征和图像融合特征连接起来，输入最后的输出层，使用softmax分类器进行情感分类。

(5)实验

将该实施例中提出的一种基于多模态特征融合的社交媒体情感分析方法和其他几个基线方法在MVSA-Single和MVSA-Multiple这两个公共的多模态情感数据集上进行了实验，选择准确率和F1-分数作为实验评估指标。

表1展示了在MVSA两个数据集上，本实施例中提出的一种基于多模态特征融合的社交媒体情感分析方法和其他基线方法的比较结果。本实施例中提出的一种基于多模态特征融合的社交媒体情感分析方法，消除了文本数据中的噪声干扰，提取出了更为关键的图像特征，使用基于细粒度注意力机制的特征融合模块，交互式地学习了图像和文本信息的模态融合特征，因此获得了更好的实验结果。

表1实验结果

实施例2

在该实施例中，公开了一种基于多模态特征融合的社交媒体情感分析系统，包括：

数据采集模块，用于获取待识别的图文数据；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于多模态特征融合的社交媒体情感分析方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于多模态特征融合的社交媒体情感分析方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，包括：

获取待识别的图文数据；

从待识别的图文数据中提取文本特征；

从待识别的图文数据中提取图像特征；

根据文本融合特征和图像融合特征进行情感分类识别。

2.如权利要求1所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，通过降噪自编码器，从待识别的图文数据中提取文本特征。

3.如权利要求1所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，通过基于注意力的变分自动编码器，从待识别的图文数据中提取图像特征。

4.如权利要求3所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，基于注意力的变分自动编码器的损失函数为：L(φ,μ,a)＝E_qφ(d|a)[logp_μ(a|d)]-βD_KL(q_φ(d|a)||p_μ(d))。

5.如权利要求1所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，将文本特征和图像特征输入特征融合模块进行特征融合，具体为：

6.如权利要求1所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，根据主输入和副输入计算输出融合特征的具体过程为：

将主输入和副输入投影到同一个共享向量空间中；

通过注意力机制计算主输入和副输入间的相关性；

通过主输入与主输入和副输入间的相关性，获得基于注意力机制的副输入；

将主输入和基于注意力机制的副输入进行拼接，获得融合特征。

7.如权利要求1所述的一种基于多模态特征融合的社交媒体情感分析方法，其特征在于，将文本融合特征和图像融合特征经全连接层连接后由输出层输出至softmax分类器中进行情感分类识别。

8.一种基于多模态特征融合的社交媒体情感分析系统，其特征在于，包括：

数据采集模块，用于获取待识别的图文数据；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于多模态特征融合的社交媒体情感分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于多模态特征融合的社交媒体情感分析方法的步骤。