CN113449085B

CN113449085B - 多模态情感分类方法、装置以及电子设备

Info

Publication number: CN113449085B
Application number: CN202111026202.XA
Authority: CN
Inventors: 宋正新; 薛云; 古东宏
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-26
Anticipated expiration: 2041-09-02
Also published as: CN113449085A

Abstract

本发明涉及一种多模态情感分类方法、装置以及电子设备，该方法包括：获取社交媒体的评论数据，包括文本和图像，获得上下文语义表示，将目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示，将图像输入至残差网络和单层胶囊网络，获得图像的位置表示，将文本输入至LDA主题模型，获得主题嵌入表示，将上下文语义表示、隐藏层状态表示、图像的位置表示、以及主题嵌入表示输入至多头交互注意力机制，获得融合信息，输入至多模态融合层，获得多模态信息的特征表示，输入至softmax分类器获得情感分类结果，通过门控机制对各模态进行选择，引入主题信息对文本进行增强表示，从而提高了多模态情感分类的精度。

Description

多模态情感分类方法、装置以及电子设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种多模态情感分类方法、装置以及电子设备。

背景技术

情感分析，也称为意见挖掘，其目的是从大量非结构化文本中提取意见，并将情绪极性分为：积极的，中性的和消极的。随着社交媒体的发展，情感分析任务不再仅仅只针对单一的文本模态，通过不同形式(文本、听觉和视觉)的多模态数据来精确捕捉情感具有重要意义。

然而，目前的多模态情感分析方法通常都是分别学习不同模态的特征，对其融合进行情感分析，没有考虑到引入的模态信息是否有利于情感的分析。同时，由于社交媒体评论数据中的文本简短且缺少具体的对实体描述信息，从而导致多模态情感分类任务中情感分类精度低。

发明内容

基于此，本发明的目的在于，提供一种多模态情感分类方法、装置以及电子设备，其具有提高情感分类精度的优点。

根据本申请实施例的第一方面，提供一种多模态情感分类方法，包括如下步骤：

获取社交媒体的评论数据，所述评论数据包括文本和图像；

获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示；

将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；

将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示；

将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息；

将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；

将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。

根据本申请实施例的第二方面，提供一种多模态情感分类装置，包括：

数据获取模块，用于获取社交媒体的评论数据，所述评论数据包括文本和图像；

向量获取模块，用于获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

向量编码模块，用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示；

图像特征提取模块，用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；

文本主题提取模块，用于将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示；

融合信息获得模块，用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息；

特征表示获得模块，用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；

分类结果获得模块，用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。

根据本申请实施例的第三方面，提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态情感分类方法。

本申请实施例通过获取社交媒体的评论数据，所述评论数据包括文本和图像，获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示，将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示，将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示，将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示，将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息，将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示，将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择，使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息，对文本进行增强表示，从而提高了多模态情感分类的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明多模态情感分类方法的流程示意图；

图2为本发明多模态情感分类方法中S20的流程示意图；

图3为本发明多模态情感分类方法中S30的流程示意图；

图4为本发明多模态情感分类方法中S40的流程示意图；

图5为本发明多模态情感分类方法中S50的程示意图；

图6为本发明多模态情感分类方法中S60的程示意图；

图7为本发明多模态情感分类方法中S70的程示意图；

图8为本发明多模态情感分类方法装置的结构框图；

图9为本发明多模态情感分类装置向量获取模块82的结构框图；

图10为本发明多模态情感分类装置向量编码模块83的结构框图；

图11为本发明多模态情感分类装置图像特征提取模块84的结构框图；

图12为本发明多模态情感分类装置文本主题提取模块85的结构框图；

图13为本发明多模态情感分类装置融合信息获得模块86的结构框图；

图14为本发明多模态情感分类装置特征表示获得模块87的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或 B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，本发明实施例提供一种多模态命名实体识别方法，包括的步骤如下：

S10.获取社交媒体的评论数据，所述评论数据包括文本和图像。

社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等，以图片和文字等形式发布。在本申请实施例中，获取社交媒体推特上发布的用户帖子，所述用户帖子包含一段文本和与所述文本对应的一张图片。

S20.获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示。

对于文本数据，包括目标词和上下文词，所述目标词为文本数据中携带情感极性的单词，所述上下文词为文本数据中不是目标词的剩余单词。利用预训练的Glove词向量将每个单词映射到一个低维实值向量中，获得文本的单词向量，包括所述文本的上下文词向量和目标词向量，所述上下文词向量表示为

，所述目标词向量表示为

。

在对文本进行编码时，由于多头自注意力机制只关注输入内容之间的依赖关系，忽略了输入内容的位置信息，为此，本申请实施例使用每个上下文词与目标词之间的相对偏移量来获得每个上下文词的位置信息，进一步地，使用Glove词向量将所述位置信息编码为位置词向量，具体的，所述位置词向量表示为

。

S30.将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示。

双向门控循环单元，是为了解决长期记忆和反向传播中的梯度等问题提出的循环神经网络（Recurrent Neural Network, 简称RNN）的变体模型，引入了重置门和更新门，修改了RNN中隐藏状态的计算方式。

预设的主题词向量可以是人工根据文本和图片的内容确定的主题词，再对该主题词通过词嵌入表编码获得，具体的，所述预设的主题词向量表示为

。本申请实施例通过引入预设的主题词向量，实可充分利用图片的信息，同时为后面LDA主题模型生成的主题起到了监督作用。

由于目标词和预设的主题词均为短文本序列，因此，采用参数量较少，更易于计算的双向门控循环单元来进行信息提取，获得隐藏层状态表示。

S40.将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示。

残差网络是一种卷积神经网络，能够进行图像分类和物体识别。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

胶囊网络是一种新的深度神经网络模型，主要应用在图像识别领域，能够很好的处理不同类型的视觉刺激并对诸如位置、形制、速度等信息进行编码。将所述图像输入至残差网络进行图像的特征提取，之后再输入至单层胶囊网络，获得图像的位置表示。

S50.将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示。

在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的主题词，是这些主题词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的主题词，这些主题词与这个主题有很强的相关性。

LDA(Latent Dirichlet Allocation)主题模型是一种文档生成模型，以一定的概率生成某个主题，即文档的主题概率分布，然后再在这个主题下以一定的概率生成某一个词，即主题的词概率分布。由于多模态社交媒体帖子的文本内容自然较短，有时甚至是不完整的，因此仅学习文本表示可能还不足以做出正确的情感预测。在本申请实施例中，使用LDA 主题模型对输入的文本进行主题提取，获得所述文本的主题嵌入表示。

S60.将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息。

多头交互注意力机制分别引导所述上下文语义表示和所述隐藏层状态表示、所述隐藏层状态表示和所述图像的位置表示、以及所述上下文语义表示和所述主题嵌入表示之间发生交互作用，从而从多模态输入中提取关键信息。

S70.将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示。

利用多头交互注意力机制去除了与目标无关的上下文，但在融合的过程中，没有考虑各模态对目标实体作用是否一致。因此，在多模态融合层使用门控机制来选择性地学习各模态对目标实体的影响，从而获得多模态信息的特征表示。

S80.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。

在本申请实施例中，将所述多模态信息的特征表示输入至softmax分类器，获得各个情感类别的预测概率值，根据所述预测概率值，从而判断多模态情感的极性，得到多模态情感分类结果。

应用本申请实施例，通过获取社交媒体的评论数据，所述评论数据包括文本和图像，获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示，将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示，将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示，将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示，将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息，将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示，将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择，使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息，对文本进行增强表示，从而提高了多模态情感分类的精度。

在一个可选的实施例中，请参阅图2，所述步骤S20，包括S21~S22，具体如下：

S21.获取所述文本中的上下文、目标词、以及所述上下文与所述目标词之间的相对位置，通过词嵌入表将所述上下文、所述目标词以及所述上下文与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量；

S22.将所述上下文词向量和所述位置词向量进行拼接之后，输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

其中，获得所述文本的上下文语义表示的公式为：

是所述上下文词向量，

是所述位置词向量，

表示所述上下词向量和所述位置词向量的拼接，

是所述多头自注意力机制的第

个头的注意力，

，h是所述多头自注意力机制的头数，

是标度因子，

是

激活函数，

、

和

是所述多头自注意力机制的权重参数，

表示拼接，

是所述文本的上下文语义表示。

在一个可选的实施例中，请参阅图3，所述步骤S30，包括S31~S32，具体如下：

S31.将所述目标词向量和所述预设的主题词向量进行拼接，获得拼接后的词向量；

S32.将所述拼接后的词向量输入至双向门控循环单元进行编码，获得所述隐藏层状态表示；

其中，获得所述隐藏层状态表示的公式为：

表示第i个目标词向量，

，

是所述预设的主题词向量，

是所述拼接后的词向量，

是对所述词向量进行向前方向编码的隐藏层状态表示，

是对所述词向量进行向后方向编码的隐藏层状态表示，

是所述隐藏层状态表示，

是对所述词向量进行向前方向编码的门控循环单元，

是对所述词向量进行向后方向编码的门控循环单元。

在一个可选的实施例中，请参阅图4，所述步骤S40，包括S41~S42，具体如下：

S41.将所述图像输入至残差网络进行特征提取，获得图像特征向量；

S42.将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示。

在图像识别任务中，残差网络具有良好的性能，为了充分利用图像信息，采用ResNet-152来提取不同视觉块的视觉特征，对于给定的一个输入图像I，将其大小调整为224×224像素的图像I'，然后用预训练好的ResNet-152，得到图像特征向量，所述图像特征向量是一个大小为7*7*2048 的张量。

由于残差网络只能识别到图像中所包含的特征，但不会识别这些特征之间的相互关系，从而缺乏对图像中目标位置信息的处理。因此，利用单层胶囊网络获得目标的位置信息，将所述图像特征向量输入到单层胶囊网络中，得到图像的位置表示。

在一个可选的实施例中，请参阅图5，所述步骤S50，包括S51~S53，具体如下：

S51.将所述文本输入至LDA主题模型进行主题提取，获得主题词中每个主题词的概率分布；其中，所述主题中至少包括多个主题词；

S52.将所述主题中每个主题词的概率分布进行归一化处理，获得每个主题词的权重；

S53.将所述权重与所述每个主题词对应的词向量进行加权求和，获得所述文本的主题嵌入表示；

其中，获得每个主题词的权重的公式为：

是所述每个主题词的概率分布，

是所述每个主题词的权重，

是以e为底的函数，

，

；

获得所述文本的主题嵌入表示的公式为：

是第

个主题中第

个主题词对应的词向量，

是所述文本的主题嵌入表示。

在一个可选的实施例中，请参阅图6，所述步骤S60，包括S61~S63，具体如下：

S61.将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述上下文语义表示为键和值，获得第一融合信息；

S62.将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述图像的位置表示为键和值，获得第二融合信息；

S63.将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层，以所述主题嵌入表示为查询向量，以所述上下文语义表示为键和值，获得第三融合信息；

其中，获得第一融合信息的公式为：

是所述隐藏层状态表示，

是所述上下文语义表示，

是所述第一多头交互注意力层的第

个头的注意力，

，

是所述第一多头交互注意力层的头数，

是标度因子，

是

激活函数，

、

和

是所述第一多头交互注意力层的权重参数，

是转置，

表示拼接，

是所述第一融合信息；

获得第二融合信息的公式为：

是所述图像的位置表示，

是所述第二多头交互注意力层的第

个头的注意力，

，

是所述第二多头交互注意力层的头数，

是标度因子，

、

和

是所述第二多头交互注意力层的权重参数，

是所述第二融合信息；

获得第三融合信息的公式为：

是第I个所述主题嵌入表示，

是所述第三多头交互注意力层的第

个头的注意力，

，

是所述第三多头交互注意力层的头数，

是标度因子，

、

和

是所述第三多头交互注意力层的权重参数，

是所述第三融合信息。

在一个可选的实施例中，请参阅图7，所述步骤S70，包括S61~S63，具体如下：

S71.将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；

S72.将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；

S73.将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；

S74.将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；

S75.将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；

S76.将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示；

其中，获得多模态融合特征表示的公式为：

是所述第一融合信息，

是所述第二融合信息，

表示所述第一融合信息

和所述第二融合信息

的乘积，

是所述第一融合信息和所述第二融合信息经过

激活函数的非线性变换结果，

是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果，

是sigmoid激活函数，

是所述多模态融合特征表示，

和

是权重参数，

和

是偏置参数；

获得主题特征表示的公式为：

是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率，

是所述第三融合信息，

是所述主题特征表示；

获得平均上下文语义表示的公式为：

是第

个所述上下文语义表示，

，

是所述上下文语义表示的总数量，

是所述平均上下文语义表示；

获得平均隐藏层状态表示的公式为

是第

个所述隐藏层状态表示，

是所述隐藏层状态表示的总数量，

是所述平均隐藏层状态表示；

获得图像特征表示的公式为：

是所述图像特征向量，

是所述多头自注意力机制的第

个头的注意力，

，n是所述多头注意力机制的头数，

是标度因子，

是

激活函数，

、

和

是所述多头注意力机制的权重参数，

表示拼接，

是所述图像特征表示；

获得多模态信息的特征表示的公式为：

是所述多模态信息的特征表示，[ , ]表示组合。

在多模态融合层中，使用门控机制，如果图像模态与文本模态对实体情感作用是互补的，则门控机制有利于图像模态对文本模态的补充说明，如果图片模态不含对实体的表征或文本模态表征自给自足，则门控机制将更倾向于文本特征。

在一个可选的实施例中，所述步骤S80，包括S81，具体如下：

S81.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，计算概率分布，获得情感分类结果；

获得情感分类结果的公式为；

是所述情感分类结果，

是所述softmax分类器的权重参数，

是所述softmax分类器的偏置参数。

在获得多模态情感分类结果之后，可通过计算最小化损失函数的值来优化网络参数进行训练。在本申请实施例中，所述损失函数为带有正则项的分类交叉熵损失函数，所述交叉熵损失函数为：

其中，

为句子中目标词的数量，

为第

个目标词的索引，

为情感类别的数量，

为第

种情感类别的索引，

为第

个目标词第

种情感类别的真实分布，

为第

个目标词第

种情感类别的预测分布，

是正则化项的超参数，

是模型的参数集合，包括多模态情感分类模型中所有的参数，符号

表示L2范数，

表示所有参数的L2范数。

相应于上述方法实施例，请参阅8，本发明实施例提供一种多模态情感分类装置8，包括：

数据获取模块81，用于获取社交媒体的评论数据，所述评论数据包括文本和图像；

向量获取模块82，用于获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

向量编码模块83，用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示；

图像特征提取模块84，用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；

文本主题提取模块85，用于将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示；

融合信息获得模块86，用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息；

特征表示获得模块87，用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；

分类结果获得模块88，用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。

可选的，请参阅图9，所述向量获取模块82，包括：

词获取单元821，用于获取所述文本中的上下文词、目标词、以及所述上下文与所述目标词之间的相对位置，通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量；

向量编码单元822，用于将所述上下文词向量和所述位置词向量进行拼接之后，输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示。

可选的，请参阅图10，所述向量编码模块83，包括：

向量拼接单元831，用于将所述目标词向量和所述预设的主题词向量进行拼接，获得拼接后的词向量；

词向量编码单元832，用于将所述拼接后的词向量输入至双向门控循环单元进行编码，获得所述隐藏层状态表示。

可选的，请参阅图11，所述图像特征提取模块84，包括：

向量获得单元841，用于将所述图像输入至残差网络进行特征提取，获得图像特征向量；

位置表示获得单元842，用于将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示。

可选的，请参阅图12，所述文本主题提取模块85，包括：

文本输入单元851，用于将所述文本输入至LDA主题模型进行主题提取，获得主题的词概率分布；

概率归一化单元852，用于将所述主题的词概率分布中每个词的生成概率进行归一化处理，获得每个词的权重；

主题嵌入表示获得单元853，用于将所述权重与所述每个词对应的词向量进行加权求和，获得所述文本的主题嵌入表示。

可选的，请参阅图13，所述融合信息获得模块86，包括：

第一交互单元861，用于将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述上下文语义表示为键和值，获得第一融合信息；

第二交互单元862，用于将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述图像的位置表示为键和值，获得第二融合信息；

第三交互单元863，用于将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层，以所述主题嵌入表示为查询向量，以所述上下文语义表示为键和值，获得第三融合信息。

可选的，请参阅图14，所述特征表示获得模块87，包括：

融合信息输入单元871，用于将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；

主题特征表示获得单元872，用于将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；

第一平均池化单元873，用于将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；

第二平均池化单元874，用于将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；

图像特征表示获得单元875，用于将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；

表示组合单元876，用于将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示。

可选的，所述分类结果获得模块88，包括：

概率分布计算单元881，用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，计算概率分布，获得情感分类结果。

本申请还提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态情感分类方法，其特征在于，包括如下步骤：

获取社交媒体的评论数据，所述评论数据包括文本和图像；

将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；其中，将所述图像输入至残差网络进行特征提取，获得图像特征向量；将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示；

将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；其中，将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示；其中，获得多模态融合特征表示的公式为：

是所述第一融合信息，

是所述第二融合信息，

表示所述第一融合信息

和所述第二融合信息

的乘积，

是所述第一融合信息和所述第二融合信息经过

激活函数的非线性变换结果，

是sigmoid激活函数，

是所述多模态融合特征表示，

和

是权重参数，

和

是偏置参数；

获得主题特征表示的公式为：

是所述第三融合信息，

是所述主题特征表示；

获得平均上下文语义表示的公式为：

是第

个所述上下文语义表示，

，

是所述上下文语义表示的总数量，

是所述平均上下文语义表示；

获得平均隐藏层状态表示的公式为

是第

个所述隐藏层状态表示，

是所述隐藏层状态表示的总数量，

是所述平均隐藏层状态表示；

获得图像特征表示的公式为：

是所述图像特征向量，

是所述多头自注意力机制的第

个头的注意力，

，n是所述多头注意力机制的头数，

是标度因子，

是

激活函数，

、

和

是所述多头注意力机制的权重参数，

表示拼接，

是所述图像特征表示；

获得多模态信息的特征表示的公式为：

是所述多模态信息的特征表示，[ , ]表示组合；

2.根据权利要求1所述的多模态情感分类方法，其特征在于，所述获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示，包括：

获取所述文本中的上下文词、目标词、以及所述上下文词与所述目标词之间的相对位置，通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量；

将所述上下文词向量和所述位置词向量进行拼接之后，输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

其中，获得所述文本的上下文语义表示的公式为：

是所述上下文词向量，

是所述位置词向量，

表示所述上下词向量和所述位置词向量的拼接，

是所述多头自注意力机制的第

个头的注意力，

，h是所述多头自注意力机制的头数，

是标度因子，

是

激活函数，

、

和

是所述多头自注意力机制的权重参数，

表示拼接，

是所述文本的上下文语义表示。

3.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示，包括：

将所述目标词向量和所述预设的主题词向量进行拼接，获得拼接后的词向量；

将所述拼接后的词向量输入至双向门控循环单元进行编码，获得所述隐藏层状态表示；

其中，获得所述隐藏层状态表示的公式为：

表示第i个目标词向量，

，

是所述预设的主题词向量，

是所述拼接后的词向量，

是对所述词向量进行向前方向编码的隐藏层状态表示，

是对所述词向量进行向后方向编码的隐藏层状态表示，

是所述隐藏层状态表示，

是对所述词向量进行向前方向编码的门控循环单元，

是对所述词向量进行向后方向编码的门控循环单元。

4.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示，包括：

将所述文本输入至LDA主题模型进行主题提取，获得主题词中每个主题词的概率分布；其中，所述主题中至少包括多个主题词；

将所述主题中每个主题词的概率分布进行归一化处理，获得每个主题词的权重；

将所述权重与所述每个主题词对应的词向量进行加权求和，获得所述文本的主题嵌入表示；

其中，获得每个主题词的权重的公式为：

是所述每个主题词的概率分布，

是所述每个主题词的权重，

是以e为底的函数，

，

；

获得所述文本的主题嵌入表示的公式为：

是第

个主题中第

个主题词对应的词向量，

是所述文本的主题嵌入表示。

5.根据权利要求1所述的多模态情感分类方法，其特征在于，所述多头交互注意力机制包括第一多头交互注意力层、第二多头交互注意力层和第三多头交互注意力层，所述将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息，包括：

将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述上下文语义表示为键和值，获得第一融合信息；

将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述图像的位置表示为键和值，获得第二融合信息；

将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层，以所述主题嵌入表示为查询向量，以所述上下文语义表示为键和值，获得第三融合信息；

其中，获得第一融合信息的公式为：

是所述隐藏层状态表示，

是所述上下文语义表示，

是所述第一多头交互注意力层的第

个头的注意力，

，

是所述第一多头交互注意力层的头数，

是标度因子，

是

激活函数，

、

和

是所述第一多头交互注意力层的权重参数，

是转置，

表示拼接，

是所述第一融合信息；

获得第二融合信息的公式为：

是所述图像的位置表示，

是所述第二多头交互注意力层的第

个头的注意力，

，

是所述第二多头交互注意力层的头数，

是标度因子，

、

和

是所述第二多头交互注意力层的权重参数，

是所述第二融合信息；

获得第三融合信息的公式为：

是第I个所述主题嵌入表示，

是所述第三多头交互注意力层的第

个头的注意力，

，

是所述第三多头交互注意力层的头数，

是标度因子，

、

和

是所述第三多头交互注意力层的权重参数，

是所述第三融合信息。

6.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果，包括：

将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，计算概率分布，获得情感分类结果；

获得情感分类结果的公式为；

是所述情感分类结果，

是所述softmax分类器的权重参数，

是所述softmax分类器的偏置参数。

7.一种多模态情感分类装置，其特征在于，包括：

图像特征提取模块，用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；其中，将所述图像输入至残差网络进行特征提取，获得图像特征向量；将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示；

特征表示获得模块，用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；其中，将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示；其中，获得多模态融合特征表示的公式为：