CN116541520A

CN116541520A - 一种情感分析方法、装置、电子设备及存储介质

Info

Publication number: CN116541520A
Application number: CN202310273805.2A
Authority: CN
Inventors: 过弋; 范东旭
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-04

Abstract

本发明实施例涉及自然语言处理技术领域，公开了一种情感分析方法、装置、电子设备及存储介质。本发明中，获取数据集中的文本和与文本对应的图片；其中，文本中至少包含一个方面词；方面词是所述文本中的句子的一部分；从图片中获取至少一个目标区域；分别计算方面词与文本之间的全局相似度，和方面词与目标区域之间的局部相似度，根据局部相似度和全局相似度计算得到方面词和目标区域之间的对应关系；根据对应关系和文本判断方面词对应的情感极性。通过上述方式可以过滤绝大多数视觉噪声的同时捕捉到对情感分析有用的局部信息，并有效过滤图片噪声信息，图文细粒度进行充分的信息交互，准确且可信的实现了对方面词情感极性的判断。

Description

一种情感分析方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及自然语言处理技术领域，特别涉及一种情感分析方法、装置、电子设备及存储介质。

背景技术

随着生活服务在线电子商务平台的兴起，各平台商家致力于通过人工智能来连接消费者和商户，努力为消费者提供更高品质的体验。餐饮酒店等作为这类平台的核心业务，满足了用户出门在外饮食住宿和娱乐的消费需求，在服务百万级别的商户和亿级别客户端用户的过程中，积累了海量的用户评论数据，随着服务平台的逐渐成熟，用户也越来越多的使用附加图片来表达自己的真实体验和观点，图像也正成为情感表达的一种关键的数据类型。从丰富的文本和图片内容中有效提取其中的关键的情感极性、观点表达，不仅可以辅助更多用户做出消费决策，同时也可以帮助商户收集用户对其商品的反馈信息，来改善自己的服务质量从而提升经营状况。

由于大量不同模态数据的涌现，多模态方面级情感分析任务受到越来越多的关注。针对该任务，近几年涌现了一些深度学习方法。同样受到注意力机制在其他自然语言处理任务中获得上下文信息优势的启发，Yu、Xu和Liu设计了不同的有效注意力机制来建模方面词、文本和图像之间的交互。Yu和Jiang设计了名为TwitterBERT的模型，结合预训练和微调,调整了现有的预训练语言模型bert来捕获文本和图像之间的交互，获得了较为出色的效果。Yu等人提出了基于多模态提示的微调方法来解决不同粒度的情感预测任务。Zhao等人通过从图像中提取形容词-名词对来帮助模型进行文本和图像对齐。Fu提出了基于Transformer的模型，将图像翻译为辅助句子，将原始句子和辅助句子结合来进行有针对性的情感分类的方法。Yu等人设计了分层交互式多模态变压器来捕获文本和图像的交互信息并消除两者间的语义差异。Ju等人提出用端到端的方式联合提取方面词及其情感极性。

发明人发现相关技术中至少存在如下问题：包括以上模型在内的情感分析模型都使用图像和文本整体特征进行融合，没有进行充分的信息交互，不能有效的过滤图片噪声信息，这会使得对方面词进行情感分析的准确率大大下降。

发明内容

本发明实施方式的目的在于提供一种情感分析方法、装置、电子设备及存储介质，使得运用方面词和图像局部信息的强对应关系有效过滤了图片噪声信息，并进行图文细粒度融合交互，提高对方面词进行情感分类的准确率。

为解决上述技术问题，本发明的实施方式提供了一种情感分析方法，包括：获取数据集中的文本和与所述文本对应的图片；其中，所述文本中至少包含一个方面词；所述方面词是所述文本中的句子的一部分；从所述图片中获取至少一个目标区域；分别计算所述方面词与所述文本之间的全局相似度，和所述方面词与所述目标区域之间的局部相似度，根据所述局部相似度和所述全局相似度计算得到所述方面词和所述目标区域之间的对应关系；根据所述对应关系和所述文本判断所述方面词对应的情感极性。

本发明的实施方式还提供了一种情感分析装置，包括：数据获取模块，用于获取数据集中的文本和与所述文本对应的图片；其中，所述文本中至少包含一个方面词；从所述图片中获取至少一个目标区域；数据对齐模块，用于分别计算所述方面词与所述文本之间的全局相似度，和所述方面词与所述目标区域之间的局部相似度，根据所述局部相似度和所述全局相似度计算得到所述方面词和所述目标区域之间的对应关系；情感分析模块，用于根据所述对应关系和所述文本判断所述方面词对应的情感极性。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的情感分析方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的情感分析方法。

在本发明实施方式中，获取数据集中的文本和与文本对应的图片；其中，文本中至少包含一个方面词；方面词是所述文本中的句子的一部分；从图片中获取至少一个目标区域；分别计算方面词与文本之间的全局相似度，和方面词与目标区域之间的局部相似度，根据局部相似度和全局相似度计算得到方面词和目标区域之间的对应关系；根据对应关系和文本判断方面词对应的情感极性。通过上述方式可以过滤绝大多数视觉噪声的同时捕捉到对情感分析有用的局部信息，由于重视这些局部相似度并使用可信细粒度对齐机制来有效过滤图片噪声信息，此外在计算对应关系时并没有完全使用局部相似度作为唯一参数，使得图文细粒度进行充分的信息交互，避免了过于重视局部信息而对其他的方面词的判断做干扰，正确、准确且可信的实现对方面词的情感极性的判断。

另外，所述根据所述局部相似度和所述全局相似度计算得到所述方面词和所述视觉特征之间的对应关系，包括：根据所述全局相似度对所述局部相似度进行置信度约束，使用约束后的所述局部相似度进行多层自注意力计算得到所述方面词和所述视觉特征之间的对应关系。将全局相似度与局部相似度结合，更加使得得出的相似度作为对应关系的判断更加精确且可信，增加细粒度对齐之后的关联性，准确的描述方面词和目标区域之间的详细对应关系，并在不同的模态之间进行视觉语义对齐。

另外，所述根据所述对应关系和所述文本判断所述方面词对应的情感极性，包括：根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量；将所述多模态向量输入归一化指数函数中，判断所述方面词对应的情感极性。在方面词和目标区域细粒度对齐的基础上，让方面词、文本、视觉对象、完整图片信息充分交互协同互补，主要通过多头注意力机制来实现。

另外，所述根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量，包括：根据所述对应关系获取与所述方面词对应的目标区域，通过多头交互注意力机制计算所述方面词与所述图片、所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文两两之间的跨模态细粒度交互信息，将所述方面词与所述图片之间的跨模态细粒度交互信息和所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文之间的跨模态细粒度交互信息通过低秩双线性池进行融合，根据所述融合的结果计算所述方面词对应的多模态向量。通过方面词与图像、视觉实体与文本两两之间的跨模态细粒度交互，相比于简单的进行特征串联，这种方式会更加突出各种信息之间的高阶交互作用。

另外，所述从所述图片中提取至少一个目标区域，包括：使用卷积神经网络模型从所述图片中提取多个图片区域，使用训练好的目标检测模型从所述多个图片区域中选取至少一个目标区域。

另外，所述卷积神经网络模型为剩余网络模型。在图像处理任务中具有良好的性能，能够捕获对任务有用的高级特征。

另外，使用交叉熵损失函数计算出的数值判断所述方面词对应的情感极性是否准确，若所述使用交叉熵损失函数计算出的数值小于预设阈值，则认为所述判断是准确的。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明一实施方式提供的情感分析方法流程图；

图2是根据本发明一实施方式提供的情感分析中的数据集示意图；

图3是根据本发明一实施方式和本领域其他方式所产生的技术效果的数据对比示意图；

图4根据本发明一实施方式调节k值后所产生的技术效果的数据对比示意图；

图5是根据本发明另一实施方式提供的情感分析装置示意图；

图6是根据本发明另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的一实施方式涉及一种情感分析方法，可以应用在如手机，电脑等终端设备。在本实施方式中，获取数据集中的文本和与文本对应的图片；其中，文本中至少包含一个方面词；方面词是所述文本中的句子的一部分；从图片中获取至少一个目标区域；分别计算方面词与文本之间的全局相似度，和方面词与目标区域之间的局部相似度，根据局部相似度和全局相似度计算得到方面词和目标区域之间的对应关系；根据对应关系和文本判断方面词对应的情感极性，通过上述方式可以过滤绝大多数视觉噪声的同时捕捉到对情感分析有用的局部信息，可信细粒度对齐机制来有效过滤图片噪声信息，图文细粒度进行充分的信息交互，正确、准确且可信的实现对方面词的情感极性的判断。下面对本实施方式的情感分析方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

如图1所示，在步骤101中，如手机，电脑等终端设备获取数据集中的文本和与文本对应的图片；为了便于理解本申请情感分析的对象，图2中将给出某一个经过本申请情感分析后输出的一个数据集，图中明显分为三个部分：图片部分(image)，文本部分(Text)和情感预测部分(Output)，上文中获取的数据集仅包括图片部分和文本部分，图片部分显示的是与文本对应的图片，文本部分展示的文本由句子组成，句子里至少包含一个方面词(在图中以[]符号标记)；方面词是所述文本中的句子的一部分；情感预测部分使用为本申请的方法后产生的预测结果，图2中的Positive(积极)便是针对方面词[Lady Gaga]做出的情感分析，因为图片中有Lady Gaga所以是积极的分析结果，而对于方面词[bar](酒吧)、[TheOscars](奥斯卡)，在图片中并这些内容并没有明显的出现，但是因为有奖杯和宴会服饰的人，而情感分析的结果均是Neutral(中立)，说明了情感分析结果是准确的。

在一个特定的具体例子中，本申请在训练该模型时，给定的训练样本数据集D，其中每一个样本d∈D，包含一个有n个单词的句子T＝{w₁，w₂，w₃，……，w_n},和一个与该句子相关的图片I，以及一个包含m个单词的方面词A＝{w_a+1，w_a+2，w_a+3，……，w_a+m}，方面词是句子L的一部分，其中a为方面项起始单词在文本中的位置。样本中的每一个方面项，都有一个对应的情感极性标签y，y∈{positive，negative，neutral}(分别意为积极、消极、中立)。本文模型的任务是将D作为训练数据集，训练一个模型可以根据T和I准确的判断出样本中方面词A的情感极性。

在步骤102中，如手机，电脑等终端设备从所述图片中获取至少一个目标区域；在图像处理任务中，需要获取可以对执行任务有用的视觉特征，这些视觉特征存在于目标区域之中，或者说，计算出的视觉特征可以帮助我们锁定图片中的区域，如图2图片中的各个视觉框所框出的多个图片区域，其中对任务有用的则是目标区域。

在一个例子中，从图片中提取至少一个目标区域的方式，包括：使用卷积神经网络模型从图片中提取多个图片区域，卷积神经网络模型(CNN模型)可以采用较为先进的剩余网络模型(ResNet模型)，然后使用训练好的目标检测模型从多个图片区域中选取至少一个目标区域。

深度CNN模型在大部分图像处理任务中具有良好的性能，能够捕获对任务有用的高级特征，在上述特定的具体例子中，本申请在处理图片之前，要先获得文本的向量化全局表示，而文本表示需要使用一个预训练好的词嵌入矩阵Glove来获得每一个单词固定的初始词嵌入向量，假如词嵌入矩阵为M∈R^d*|V|，其中，d是词向量的维度，|V|是词典大小，文本中每一个单词对应M矩阵中的一行。转换后的句子表示为其中然后将/>送入双向LSTM来获得文本的上下文依赖关系，并把其最后一层的隐藏状态作为最终文本向量表示/>如果方面词由多个单词组成则取所有单词的词嵌入的平均值作为最终方面词的向量表示H_avg。基于这些隐藏状态，进一步采用广泛使用的注意力机制来计算文本的全局表示T^glo，使用H_avg作为注意力机制中的查询向量(query)，其计算过程如下：

其中，分别表示双向LSTM第k层正向与反向隐藏状态，注意力权重w_i是H_i和H_avg之间的归一化相似性。

在处理完文本全局向量表示后，开始处理图像视觉表示，本申请在处理输入图片I的时候，首先将其大小调整为固定224*224格式以适应网络输入需求。然后将转换后的图片送入ResNet模型中，使用模型最后一个卷积层的输出作为图片视觉特征表示然后使用线性转换函数/>将视觉特征/>投影到与上述文本特征的相同空间R中，其中W_I∈R^d*2048,R∈R^d*49，计算过程如下：

ResNet(i)＝{r_i|r_i∈R²⁰⁴⁸,j＝1,2,……,49}

可以观察到在ResNet(I)中，其中49为图片区域的个数，然而方面词与图像中的对象有很强的一致性，而和其他区域没有关系，使用注意力机制在所有的区域不仅会引入噪声，而且会导致模型更难从图像中提取出有用的特征。因此为了从图片中提取出对象级图片信息,本文使用预先训练好的FasteRCNN目标检测模型来检测图像中的显著区域。通常情况下，只有图像中的较为显著的区域与文本信息相关，因此只取分类得分较高的前k个图像区域，准确的说是非最大抑制处理后的前k个视觉实体区域{r₁,r₂,……,r_k}，并使用ResNet对检测到的视觉区域r_i进行编码得到x_i∈R²⁰⁴⁸，然后通过线性投影v_i＝W_vx_i+b_i,W_v∈R^d*2048,b_i∈R^d将x_i转换到和文本相同的向量中间中，从而得到最终图像I的细粒度表示为v＝{v₁,v₂,……,v_k},v_i∈R^d，并使用R的最大池化结果作为图像的全局表示I^glo。

上文已根据上述这一特定例子对本申请中如何获取图片中的目标区域做出了具体解释，至于计算的文本全局表示和图像全局表示将在下文计算方面词和目标区域之间的详细对应关系的过程中起到重要作用。

在步骤103中，如手机，电脑等终端设备分别计算方面词与文本之间的全局相似度，和方面词与目标区域之间的局部相似度，根据局部相似度和全局相似度计算得到方面词和目标区域之间的对应关系；本申请运用了方面词和图像局部信息而非全局信息的强对应关系来降低图片噪音，在一个例子中，所述根据所述局部相似度和所述全局相似度计算得到所述方面词和所述视觉特征之间的对应关系的方法可以是：根据所述全局相似度对所述局部相似度进行置信度约束，使用约束后的所述局部相似度进行多层自注意力计算得到所述方面词和所述视觉特征之间的对应关系。

为了描述方面词和视觉区域之间的详细对应关系，我们接着上文中提到的特定的例子介绍如何根据所述全局相似度对所述局部相似度进行置信度约束，并使用约束后的所述局部相似度进行多层自注意力计算得到所述方面词和所述视觉特征之间的对应关系。本文使用标准化的基于距离的表示来体现异构模式之间的语义相似性。具体的图像区域v_i与方面词H_avg之间的局部语义相似性表示为，计算过程如下：

其中，W_s ^v∈R^p*d，W_s ^v是一个可学习的参数矩阵，p为超参数，本文进一步测量了整个图像I^glo和全文T^glo之间的全局语义相似性S^glo，同样，W^glo∈R^p*d，W^glo也是一个可学习的参数矩阵。

在这个特定的例子中，使用全局语义相似性S^glo和局部语义相似性之间的归一化相似性来匹配置信度c_i。计算方法如下：

c＝σ(LayerNorm[ξ₁，ξ₂，......，ξ_k])

其中，c是由c_i组成的可学习参数向量，即c＝[c₁,c₂,……,c_k]，上述w_i∈R^1*p，×表示两个向量对应元素相乘，σ为sigmoid激活函数，LayerNorm表示归一化操作。该置信度的关键思想便是上文提到的从图像文本的整体语义相似度中包含了多少方面词和视觉区域之间的语义相似性，也就是该视觉区域是否真的从图像文本全局的角度来对文本中方面词进行描述。为了过滤不可靠视觉区域和方面词的相似性匹配，因此用每个视觉区域的相似度乘以相应的置信度c_i。因此全局的语义相似性以及被置信度约束后的局部相似性一起收集为：

然后对S进行多层自注意力计算，以增强模态间的细粒度信息对齐：

其中，和/>分别是用来转换第l层的查询向量(query)和键值(key)的参数矩阵，/>用来将输出维度映射到适合l+1层输入的参数矩阵。然后将最后一层输出S^l的后k列按列做最大池化得到α∈R^k，从α中取最大值的下标q，并取出相同下标的图片区域的特征表示v_q，作为对齐模块的输出。

截至此处为了描述方面词和视觉区域之间的详细对应关系，已在不同的模态之间实现了视觉语义的细粒度对齐，得到了方面词和目标区域之间的对应关系。

在步骤104中，如手机，电脑等终端设备根据所述对应关系和所述文本判断所述方面词对应的情感极性。

由于通过上述步骤101-103之后已经实现了细粒度对齐，因此此时可以直接生成向量表示送入情感分析模型中，以Softmax函数分析方式为主结合文本对所述方面词对应的情感极性进行判断，但这样的直接判断的结果并不能非常精准，所以对应关系需要与文本进一步结合，对应关系与文本的结合方式在一个例子中，根据所述对应关系和所述文本判断所述方面词对应的情感极性，通过以下方式实现：根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量；将所述多模态向量输入归一化指数函数中，判断所述方面词对应的情感极性。

在方面词和视觉对象细粒度对齐的基础上，选择让方面词、文本、视觉对象、完整图片信息这些充分交互协同互补，可以选择有效的利用文本上下文关系进行分析，整合信息然后综合判断情感极性。对方面词的上下文共同联合建模，对于提取相关的情感信息很重要，因此本申请实施例采用注意力机制来决定文本要更加关注哪些部分。

在一个例子中，所述根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量，包括：根据所述对应关系获取与所述方面词对应的目标区域，通过多头交互注意力机制计算所述方面词与所述图片、所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文两两之间的跨模态细粒度交互信息，将所述方面词与所述图片之间的跨模态细粒度交互信息和所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文之间的跨模态细粒度交互信息通过低秩双线性池进行融合，根据所述融合的结果计算所述方面词对应的多模态向量。

为便于理解，此处接着使用上述的特定的例子来实现这一步骤，上述特定的例子在实现对齐后输出了图片区域的特征表示v_q，并有与之对应的图片完整信息R，通过这些元素来利用注意力机制帮助模型只关注与视觉实体相关的可视块。其中注意力机制中计算相关性分数的公式如下：

H_asp＝tanh(W_aspH_asp+b_asp)

其中，W_asp∈R^d*d,b_asp∈R^d,W_TA∈R^d*d,b_TA∈R均为可训练参数，以此得到了关于文本的注意力分数向量α^TA∈Rⁿ，同样的关于图像的注意力分数向量α^IO由v_q与R计算得到，基于α^TA和α^IO可以分别计算以得到最终的文本、视觉上下文的向量表示H_T和H_I。

在本领域中实现方面词与图像、视觉实体与文本两两之间的跨模态细粒度交互，可以通过多种方式实现，虽然许多先进的方法都使用简单的特征串联，但本申请中并不采用这种方式，因为这种方式会忽略他们之间的高阶交互作用，因此本文使用多头交互注意力机制来计算跨模态交互信息。

H_TO＝CATT(v_q,H,H)

H_IA＝CATT(H_asp,R,R)

其中m为交互注意力头的数量，分别对应的是注意力机制中查询向量(query)、键值(key)和价值(value)的权重矩阵，W_m∈R^d*d是多头交互注意力机制的参数矩阵，计算出的H_TO和H_IA分别是方面词与图像、视觉实体与文本两两之间的跨模态细粒度交互信息。

随后采用低秩双线性池对H_TO和H_IA进行融合，可以保证在用更少的参数情况下保持标准双线性运算符的性能，其计算过程如下：

其中的W_M,W₁,W₂∈R^d*d,b_M∈R^d均为可训练参数，σ是非线性变换函数tanh函数，公式中符号表示将两端按元素相乘，将上文计算得到的H_I、H_T和H_M结合起来得到最终的多模态向量表示H_final。

H_final＝[H_I|H_T|H_M]

此时，将融合后的多模态向量表示H_final送入softmax中用于方面级情感分类，取输出中概率最高的标签作为最终结果。其中上文中的W∈R^3b*3,b∈R³为可学习参数。

为了优化本文模型中所有的参数,在一个例子中，在完成验证之后，使用交叉熵损失函数计算出的数值判断所述方面词对应的情感极性是否准确，若所述使用交叉熵损失函数计算出的数值小于预设阈值，则认为所述判断是准确的。所使用的最小化交叉熵损失函数如下：

为了证实本申请的技术效果，以下将使用两个真实的数据集TWITTER-2015和TWITTER-2017来评估，主要包含2014-2015年和2016-2017年发布的多模态用户帖子，所有方面词实体都属于四种类别：人、地点、组织和其他。其中包含文本和与之对应的图片，并且标注了目标方面词以及图文对该方面词的情感倾向，情感标注为三分类数据集按照3：1：1的比例划分训练集、验证集、测试集，下表为三种数据集的情感标签分布。

图3为本文模型与各基线模型的准确性对比，为了避免模型训练过程中的随机性，本文所有实验均进行了5次，并取平均值，进而更加客观的对模型结果进行描述。观察实验结果可以发现，在两个数据集上，本文TFGA模型在ACC和F1两个指标上都优于绝大部分基线模型。这是由于TFGA模型对文本和图片进行细粒度对齐，并将文本、方面词、图片、可视对象之间做了充分交互融合，弱化了图像中噪声信息对模型的影响，从而提取出有用的关键信息。TD-LSTM模型将文本方面词的上下文分开建模的性能非常有限，这表明方面词的局部上下文对情感分析的综合影响不应忽视。由于视觉模态的加入，模型性能得到了一定的改进，说明图像确实可以对文本起到支持作用，提供补充信息。而Res-aspect模型效果欠佳，主要是因为上下文信息没有得到很好的利用。另外可以观察到TomBERT模性性能优于变形的TomLSTM，这是合理的，因为TomBERT采用了预训练语言模型，其特征提取能力优于LSTM。MIMN模型在图像和文本信息两者中使用注意力机制建模文本与图像之间的交互，性能优于大部分模型，但MIMN使用完整图像信息与文本信息相融合，作为最终方面词的向量表示。基于这些隐藏状态，进一步采用广泛使用的注意力机制对应关系，并引入了图片中的噪声信息，因此它的性能逊于本文模型，充分说明本文模型中的细粒度对齐的必要性。

为了进一步展示本文的细粒度对齐步骤所产生的效果，本文使用TomLSTM、TomLSTM+align、TFGA在论文提出的从Twitter2017中随机选择的图像目标匹配数据集上的情感分类结果来测试细粒度对齐的实验效果。

实验结果如下表所示：

首先结果显示TFGA模型优于其他两个模型，说明本文提出的细粒度对齐机制在视觉区域和方面词对齐方面较有优势，能够帮助提升MABSA任务的准确性。其次TomLSTM+align对齐比TomLSTM效果差，我们推测其原因是，使用Resnet获得视觉特征中包含较少的视觉目标信息，并且会给对齐过程带来一定的噪声。

对于上述对于TFGA模型，本文通过从图片中提取不同个数的视觉区域来比较模型的性能，如图4所示，随着参数k(视觉区域的个数)的变大，模型准确率不断提升，当k＝8时到达顶峰，然后随着k再次变大，准确率逐渐减小。因为所使用的数据集中大部分样本所包含的方面词不多余4个，当k值过多时会引入噪声，因此性能变差。

在本实施方式中，获取数据集中的文本和与文本对应的图片；其中，文本中至少包含一个方面词；方面词是所述文本中的句子的一部分；从图片中获取至少一个目标区域；分别计算方面词与文本之间的全局相似度，和方面词与目标区域之间的局部相似度，根据局部相似度和全局相似度计算得到方面词和目标区域之间的对应关系；根据对应关系和文本判断方面词对应的情感极性。通过上述方式可以过滤绝大多数视觉噪声的同时捕捉到对情感分析有用的局部信息，可信细粒度对齐机制来有效过滤图片噪声信息，图文细粒度进行充分的信息交互，正确、准确且可信的实现对方面词的情感极性的判断。

上面方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明另一施方式涉及一种情感分析装置，如图5所示，包括：数据获取模块501，用于获取数据集中的文本和与所述文本对应的图片；其中，所述文本中至少包含一个方面词；所述方面词是所述文本中的句子的一部分；从所述图片中获取至少一个目标区域；数据对齐模块502，用于分别计算所述方面词与所述文本之间的全局相似度，和所述方面词与所述目标区域之间的局部相似度，根据所述局部相似度和所述全局相似度计算得到所述方面词和所述目标区域之间的对应关系；情感分析模块503，用于根据所述对应关系和所述文本判断所述方面词对应的情感极性。

在一个例子中，所述根据所述局部相似度和所述全局相似度计算得到所述方面词和所述视觉特征之间的对应关系，包括：根据所述全局相似度对所述局部相似度进行置信度约束，使用约束后的所述局部相似度进行多层自注意力计算得到所述方面词和所述视觉特征之间的对应关系。

在一个例子中，所述根据所述对应关系和所述文本判断所述方面词对应的情感极性，包括：根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量；将所述多模态向量输入归一化指数函数中，判断所述方面词对应的情感极性。

在一个例子中，所述从所述图片中提取至少一个目标区域，包括：使用卷积神经网络模型从所述图片中提取多个图片区域，使用训练好的目标检测模型从所述多个图片区域中选取至少一个目标区域。

在一个例子中，所述卷积神经网络模型为剩余网络模型。

在一个例子中，所述装置还包括：判断验证模块，用于使用交叉熵损失函数计算出的数值判断所述方面词对应的情感极性是否准确，若所述使用交叉熵损失函数计算出的数值小于预设阈值，则认为所述判断是准确的。

不难发现，本实施方式为与上述方法实施方式相对应的装置实施例，本实施方式可与上述方法实施方式互相配合实施。上述方法实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述方法实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明的另一实施方式涉及一种电子设备，如图6所示，包括至少一个处理器601；以及，与至少一个处理器通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行，以使至少一个处理器601能够执行如上述的情感分析方法。

其中，存储器602和处理器601采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器601。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种情感分析方法，其特征在于，包括：

获取数据集中的文本和与所述文本对应的图片；

其中，所述文本中至少包含一个方面词；所述方面词是所述文本中的句子的一部分；

从所述图片中获取至少一个目标区域；

分别计算所述方面词与所述文本之间的全局相似度，和所述方面词与所述目标区域之间的局部相似度，根据所述局部相似度和所述全局相似度计算得到所述方面词和所述目标区域之间的对应关系；

根据所述对应关系和所述文本判断所述方面词对应的情感极性。

2.根据权利要求1所述的情感分析方法，其特征在于，所述根据所述局部相似度和所述全局相似度计算得到所述方面词和所述视觉特征之间的对应关系，包括：

根据所述全局相似度对所述局部相似度进行置信度约束，使用约束后的所述局部相似度进行多层自注意力计算得到所述方面词和所述视觉特征之间的对应关系。

3.根据权利要求1至2中任一项所述的情感分析方法，其特征在于，所述根据所述对应关系和所述文本判断所述方面词对应的情感极性，包括：

根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量；

将所述多模态向量输入归一化指数函数中，判断所述方面词对应的情感极性。

4.根据权利要求3所述的情感分析方法，其特征在于，所述根据所述方面词在所述文本中对应的上下文和所述对应关系，通过多头交互注意力机制计算所述方面词对应的多模态向量，包括：

根据所述对应关系获取与所述方面词对应的目标区域，通过多头交互注意力机制计算所述方面词与所述图片、所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文两两之间的跨模态细粒度交互信息，将所述方面词与所述图片之间的跨模态细粒度交互信息和所述与所述方面词对应的目标区域与所述方面词在所述文本中对应的上下文之间的跨模态细粒度交互信息通过低秩双线性池进行融合，根据所述融合的结果计算所述方面词对应的多模态向量。

5.根据权利要求1所述的情感分析方法，其特征在于，所述从所述图片中提取至少一个目标区域，包括：

使用卷积神经网络模型从所述图片中提取多个图片区域，使用训练好的目标检测模型从所述多个图片区域中选取至少一个目标区域。

6.根据权利要求5所述的情感分析方法，其特征在于，所述卷积神经网络模型为剩余网络模型。

7.根据权利要求1所述的情感分析方法，其特征在于，所述方法，还包括：

使用交叉熵损失函数计算出的数值判断所述方面词对应的情感极性是否准确，若所述使用交叉熵损失函数计算出的数值小于预设阈值，则认为所述判断是准确的。

8.一种情感分析装置，其特征在于，包括：

数据获取模块，用于获取数据集中的文本和与所述文本对应的图片；其中，所述文本中至少包含一个方面词；所述方面词是所述文本中的句子的一部分；从所述图片中获取至少一个目标区域；

数据对齐模块，用于分别计算所述方面词与所述文本之间的全局相似度，和所述方面词与所述目标区域之间的局部相似度，根据所述局部相似度和所述全局相似度计算得到所述方面词和所述目标区域之间的对应关系；

情感分析模块，用于根据所述对应关系和所述文本判断所述方面词对应的情感极性。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的情感分析方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的情感分析方法。