CN112559683A

CN112559683A - 基于多模态数据及多交互记忆网络的方面级情感分析方法

Info

Publication number: CN112559683A
Application number: CN202011440133.2A
Authority: CN
Inventors: 何慧华
Original assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Current assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-26

Abstract

本发明公开了基于多模态数据及多交互记忆网络的方面级情感分析方法，本发明中融合了文本和图像这两种不同模态的信息来进行方面级的情感分析，发明包括两个交互式记忆网络，分别对给定方面的文本和图片信息进行建模，不仅学习跨模态数据之间的交互影响，而且还学习单模态数据中的自我影响。交互式记忆网络中使用多个记忆跃点用于多交互注意力的提取并将得到的多交互注意力进行非线性组合以学习全局记忆抽象。本发明提出的基于多模态数据及多交互记忆网络的方面级情感分析方法通过增强单模态数据和跨模态数据的交互影响提升方面级情感分析的准确率，在方面级别的多模态情感分析任务上有了重大突破。

Description

基于多模态数据及多交互记忆网络的方面级情感分析方法

技术领域

本发明涉及自然语言处理、计算机视觉、深度学习、多模态情感分析领域，具体涉及一种基于多模态数据及多交互记忆网络的方面级情感分析方法。

背景技术

方面级别的情感分析是情感分析领域中的一项基本任务，它在商业、公共管理和社会保障等领域具有许多实际应用。现有的关于方面情感分析的工作大多基于文本模态。随着近年来互联网上多模态用户生成的内容(例如文本和图像)的普及，多模态情感分析已引起越来越多的研究和关注。在方面级别的情感分析任务中，多模态数据通常比纯文本数据更重要。例如，客户将在购买产品之前浏览产品评论，而这些多模态评论更有可能吸引顾客的注意力。在每个淘宝商品条目下，大约有40％的评论同时包含文字和图片，这些多模态评论中的回复和点赞数量比纯文本评论大3倍到4倍，这凸显了分析多模态数据方面级情感的重要性。

对于方面情感分析，图像信息与文本信息一样具有指示性。一方面，在多模态数据中，文本和图像都与方面级情感高度相关。例如，当查看衣服的“上身效果”方面时，客户可能会写下正面的单词并将高质量的照片添加到评论中以表示满意，或者负面的单词和错误图像样本(例如衣服上身后与预期相差太大)以表达他们的不满。此外，不同方面可能与每个模态数据上的不同部分相关。换句话说，客户可以针对不同方面写下不同的单词或附加不同的图像。另一方面，文本和图像信息可以相互补充和互补，以增强对特定方面情感的分析。总而言之，多模态数据中存在各种相关性可用于方面级别的情感分析。然而，到目前为止，在方面级别和多模态情感分析的交叉点上尚未进行任何相关工作。

发明内容

为了应用多模数据融合方法解决方面级情感分析任务，本发明提出了一种基于多模态数据及多交互记忆网络的方面级情感分析方法。

为了达到上述目的，本发明基于多模态数据及多交互记忆网络的方面级情感分析方法通过以下技术方案实现：

一种基于多模态数据及多交互记忆网络的方面级情感分析方法，包含以下步骤：

S1：从淘宝网上爬取衣服类别中的热搜商品的第1页到第100页的带图评论，元数据共计27454条，涵盖132个品牌，1064种商品；

S2：对获取到的元数据进行清洗，筛除不相关的评论，并通过人工标注的方式，将每条元数据对应至少一个至多不超过八个的方面级标签。八个方面级标签包括性价比、面料、版型、外观、质量、颜色、尺寸、上身效果。通过将每个方式与多模态数据匹配可以得到54372个方面-评论样本对。对于每个方面，评论的情感分数都在0到10的整数之间；

S3：构建输入编码层和特征提取层对输入的多模态数据和标签进行编码，并提取其中的文本特征和图像特征；

S4：构建基于多交互注意力机制的记忆网络，其中包括一个文本记忆网络和一个视觉记忆网络，用于学习跨模态数据引起的交互影响以及单模态数据的自我影响；

S5：构建情感分类器从融合了多模态数据的特征向量中获得情感分数；

S6：将数据集按照8:1:1的比例分割成训练集、验证集和测试集，并将构建好的多交互记忆网络在此数据集上进行训练和推理，证明该方法在处理多模态方面级情感分类任务中有良好的表现。

进一步地，所述步骤3中的特征提取过程包括：

S31：使用双向长短期记忆网络(BiLSTM)模型进行方面特征嵌入，给定方面短语A＝{A₁,A₂,…,A_N}，则每个单词A_j的D_text维嵌入矢量a_j通过单词表示方法进行初始化。在每个时间步，LSTM单元都会学习嵌入a_j的每个方面单词的隐藏表示

从而获得方面特征向量；

S32：给定一个图像集{I₁,I₂,…,I_K}，使用预训练好的卷积神经网络(CNN)，并删除顶部的完全连接层，以从每个图像I_k中提取D_img维视觉特征向量x_k,然后LSTM单元将视觉特征向量x_k放入隐藏空间；

S33：给定文本内容T＝{W₁,W₂,…,W_L}，将每个单词W_i嵌入到单词向量

中，并通过单词表示方法进行初始化。LSTM单元将词嵌入w_i作为输入并输出隐藏状态

进一步地，所述步骤4中的构建基于多交互注意力机制的记忆网络包括：

S41：构建文本记忆网络提取重要的词来表达情感，并用给定方面的表示形式聚合文本记忆，以解决方面对文本带来的影响。它以外部文本记忆矩阵M^T和方面特征向量v^A作为输入，并通过多层感知器网络将每段文本存储器

与方面特征向量v^A组合在一起，以生成文本隐藏表示h_i。最后，关注层使用关注权重a_i通过这些文本存储块的加权平均值输出文本特征向量v_text；

S42：构建视觉记忆网络将图像特征与给定方面的表征相结合，以完全捕获方面对图像带来的影响。将视觉记忆M^I和方面特征向量v^A作为视觉记忆网络的输入，以提取视觉特征向量v_img。

进一步地，所述步骤S5中的情感分类器构成如下：

经过H次交互式记忆跃点后，提取GRU的最后输出作为最终的文本和视觉特征向量，并将它们连接起来作为softmax层的输入，以预测某个方面的情感得分。

进一步地，步骤S31中，所述最终方面特征向量v^A采用所有隐藏表示形式v_j的平均值：

步骤S32中，还堆叠每个隐藏状态

以构建视觉记忆M^I，该记忆网络记录所有视觉信息

步骤S33中，堆叠隐藏状态

并将它们表示为外部文本存储矩阵

进一步地，所述步骤S4中，通过多层感知器网络将每段文本存储器

与方面特征向量v^A组合在一起，以生成文本隐藏表示h_i：

接着按照以下方式计算归一化权重：

最后，关注层使用关注权重a_i通过这些文本存储块的加权平均值输出文本特征向量v_text：

提取视觉特征向量v_img采用以下公式：

进一步地，所述步骤S4中，构建基于多交互注意力机制的记忆网络，对于文本注意力，使用文本和视觉记忆网络得到原始的文本特征向量v_text和视觉特征向量v_img后，在文本记忆网络的第t跳中，输入文本特征向量v_text来生成文本形态注意特征

然后使用视觉特征向量v_img再次查询文本记忆网络M^T以得到跨模态注意功能

最后，将它们平均为文本注意特征向量

对于视觉注意力，同样结合视觉特征向量v_img和文本特征向量v_text，在视觉记忆网络的第t跳中具有视觉记忆M^I；中间结果被平均为下一个操作的视觉注意特征向量

同时，采用GRU来合并所有交互式注意力记忆结果并将交互式注意力机制与几种记忆跃点进行堆叠，以学习多模态数据的深度抽象；在第t个记忆跃点上，使用我们的多重交互注意机制获得文本和视觉注意特征向量；然后，GRU单元为下一个操作更新新的文本和视觉特征向量。

进一步地，所述步骤S6中，，训练过程中使用Adam优化算法及最小化交叉熵损失函数来训练模型；为了避免过度拟合，采用了Dropout机制；同时，还采用了早停策略，即如果训练损失连续几个时期下降率低于预设值，则停止训练。

本发明的有益效果：

本发明中融合了文本和图像这两种不同模态的信息来进行方面级的情感分析。该发明包括两个交互式记忆网络，分别对给定方面的文本和图片信息进行建模，不仅学习跨模态数据之间的交互影响，而且还学习单模态数据中的自我影响。交互式记忆网络中使用多个记忆跃点用于多交互注意力的提取并将得到的多交互注意力进行非线性组合以学习全局记忆抽象。本发明提出的基于多模态数据及多交互记忆网络的方面级情感分析方法通过增强单模态数据和跨模态数据的交互影响提升方面级情感分析的准确率，在方面级别的多模态情感分析任务上有了重大突破。

附图说明

图1为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的流程图；

图2为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的网络结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实例中技术方案进行清楚，完整地描述。本发明包括但不仅限于下述实施例。

如图1所示为本发明的基于多模态数据及多交互记忆网络的方面级情感分析方法的整体实施流程图，具体步骤如下：

S1：从淘宝网上自动化爬取衣服类别中的热搜商品的第1页到第100页的带图评论，元数据共计27454条，涵盖132个品牌，1064种商品；

其中使用双向长短期记忆网络(BiLSTM)模型进行方面特征嵌入，给定方面短语A＝{A₁,A₂,…,A_N}，则每个单词A_j的D_text维嵌入矢量a_j通过单词表示方法进行初始化。在每个时间步，LSTM单元都会学习嵌入a_j的每个方面单词的隐藏表示

a_j＝Embed(A_j),j∈[1,N]

然后我们将所有隐藏表示形式v_j的平均值作为最终方面特征向量

给定一个图像集{I₁,I₂,…,I_K}，使用预训练好的卷积神经网络(CNN)，并删除顶部的完全连接层，以从每个图像I_k中提取D_img维视觉特征向量x_k,然后LSTM单元将视觉特征向量x_k放入隐藏空间；

x_k＝CNN(I_k),k∈[1,K]

堆叠每个隐藏状态

以构建视觉记忆M^I，该记忆网络记录所有视觉信息。

给定文本内容T＝{W₁,W₂,…,W_L}，将每个单词W_i嵌入到单词向量

w_i＝Embed(W_i),i∈[1,L]

堆叠这些隐藏状态并将它们表示为外部文本存储矩阵M^T。

其中,文本记忆网络提取重要的词来表达情感，并用给定方面的表示形式聚合文本记忆，以解决方面对文本带来的影响。它以外部文本记忆矩阵M^T和方面特征向量v^A作为输入，并通过多层感知器网络将每段文本存储器

与方面特征向量v^A组合在一起，以生成文本隐藏表示h_i。

接着按照以下方式计算归一化权重：

最后，关注层使用关注权重a_i通过这些文本存储块的加权平均值输出文本特征向量v_text。

构建视觉记忆网络将图像特征与给定方面的表征相结合，以完全捕获方面对图像带来的影响。将视觉记忆M^I和方面特征向量v^A作为视觉记忆网络的输入，以提取视觉特征向量v_img。

对于多模态数据，文本和视觉信息在情感分析中可以相互补充和互补。为了完全捕获图像和文本之间的双向交互，本发明使用了一种多交互注意力机制。该机制包括跨模态注意和单模态注意。通过这种设计，模型不仅可以学习由跨模态数据引起的交互影响，而且可以学习由单模态数据(即文本到文本及图像到图像)引起的自我影响。

对于文本注意力，使用文本和视觉记忆网络得到原始的文本特征向量v_text和视觉特征向量v_img后，在文本记忆网络的第t跳中，输入文本特征向量v_text来生成文本形态注意特征

然后，为了解图像带给文本的交互影响，使用视觉特征向量v_img再次查询文本记忆网络M^T以得到跨模态注意功能

最后，将它们平均为文本注意特征向量

其中

和H是记忆跃点数。Att是关注层。

对于视觉注意力，同样结合视觉特征向量v_img和文本特征向量v_text，在视觉记忆网络的第t跳中具有视觉记忆M^I。中间结果被平均为下一个操作的视觉注意特征向量

同时，采用GRU来合并所有交互式注意力记忆结果并将交互式注意力机制与几种记忆跃点进行堆叠，以学习多模态数据的深度抽象。形式上，在第t个记忆跃点上，使用我们的多重交互注意机制获得文本和视觉注意特征向量。然后，GRU单元为下一个操作更新新的文本和视觉特征向量。

具体的，经过H次交互式记忆跃点后，提取GRU的最后输出作为最终的文本和视觉特征向量，并将它们连接起来作为softmax层的输入，以预测方面的情感得分。

Pred＝Softmax(w_multi[v_text,v_img]+b_multi)

整体网络结构如图2所示。

具体的，训练过程中使用Adam优化算法及最小化交叉熵损失函数来训练模型。为了避免过度拟合，采用了Dropout机制。同时，本发明还采用了早停策略，即如果训练损失连续几个时期下降率低于预设值，则停止训练。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思在现有技术的基础上通过逻辑分析，推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，包括以下步骤：

S1：从购物网站上爬取分析对象的用户带图评论的元数据；

S2：对获取到的元数据进行清洗，筛除不相关的评论，并通过人工标注的方式，将每条元数据分别对应至少一个、至多不超过八个的方面级标签；

S5：构建情感分类器，从融合了多模态数据的特征向量中获得情感分数；

S6：将数据集按照8∶1∶1的比例分割成训练集、验证集和测试集，并将构建好的多交互注意力机制的记忆网络在数据集上进行训练和推理，证明该方法在处理多模态方面级情感分类任务中有良好的表现。

2.根据权利要求1所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，所述单模态数据的获取步骤包括：

S31：使用双向长短期记忆网络模型进行方面特征嵌入，给定方面短语A＝{A₁，A₂，...，A_N}，则每个单词A_j的D_text维嵌入矢量a_j通过单词表示方法进行初始化；在每个时间步，长短期记忆网络单元都会学习嵌入a_i的每个方面单词的隐藏表示

从而获得最终方面特征向量；

S32：给定一个图像集{I₁，I₂，...，I_K}，使用预训练好的卷积神经网络，并删除顶部的完全连接层，以从每个图像集中提取D_img维视觉特征向量x_k，然后长短期记忆网络单元将视觉特征向量x_k放入隐藏空间；

S33：给定文本内容T＝{W₁，W₂，...，W_L}，将每个单词W_i嵌入到单词向量

中，并通过单词表示方法进行初始化；长短期记忆网络单元将词嵌入wi作为输入并输出隐藏状态

3.根据权利要求1所述的一种基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，步骤S4中，所述构建基于多交互注意力机制的记忆网络的步骤包括：

S41：构建文本记忆网络提取词汇来表达情感，并用给定方面的表示形式聚合文本记忆，以解决方面对文本带来的影响；它以外部文本记忆矩阵M^T和方面特征向量v^A作为输入，并通过多层感知器网络将每段文本记忆器

与方面特征向量v^A组合在一起，以生成文本隐藏表示h_i；最后，关注层使用关注权重a_i通过这些文本存储块的加权平均值输出文本特征向量v_text；

S42：构建视觉记忆网络将图像特征与给定方面的表征相结合，以完全捕获方面对图像带来的影响；将视觉记忆M^I和方面特征向量v^A作为视觉记忆网络的输入，以提取视觉特征向量v_img。

4.根据权利要求1所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，所述步骤S5中，情感分类器构成方法包括：经过H次交互式记忆跃点后，提取GRU的最后输出作为最终的文本和视觉特征向量，并将它们连接起来作为softmax层的输入，以预测某个方面的情感得分。

5.根据权利要求2所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，步骤S31中，所述最终方面特征向量v^A采用所有隐藏表示形式v_j的平均值：

步骤S32中，还堆叠每个隐藏状态

以构建视觉记忆M^I，该记忆网络记录所有视觉信息

步骤S33中，堆叠隐藏状态

并将它们表示为外部文本存储矩阵

6.根据权利要求3所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，所述步骤S4中，通过多层感知器网络将每段文本存储器

与方面特征向量v^A组合在一起，以生成文本隐藏表示h_i：

接着按照以下方式计算归一化权重：

提取视觉特征向量v_img采用以下公式：

7.根据权利要求6所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，所述步骤S4中，构建基于多交互注意力机制的记忆网络，对于文本注意力，使用文本和视觉记忆网络得到原始的文本特征向量v_text和视觉特征向量v_img后，在文本记忆网络的第t跳中，输入文本特征向量v_text来生成文本形态注意特征

然后使用视觉特征向量v_img再次查询文本记忆网络MT以得到跨模态注意功能

最后，将它们平均为文本注意特征向量

8.根据权利要求1所述的基于多模态数据及多交互记忆网络的方面级情感分析方法，其特征在于，所述步骤S6中，，训练过程中使用Adam优化算法及最小化交叉熵损失函数来训练模型；为了避免过度拟合，采用了Dropout机制；同时，还采用了早停策略，即如果训练损失连续几个时期下降率低于预设值，则停止训练。