CN112801219B

CN112801219B - 一种多模态情感分类方法、装置及设备

Info

Publication number: CN112801219B
Application number: CN202110304264.6A
Authority: CN
Inventors: 杨驰; 蔡倩华; 古东宏; 宋正新; 薛云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-18
Anticipated expiration: 2041-03-22
Also published as: CN112801219A

Abstract

本发明提供一种多模态情感分类方法、装置及设备，该方法包括：获取图像的特征向量表示和文本的词向量表示；将两种表示输入语义特征提取模型得到上下文的语义表示、目标词的语义表示、图像的第一特征表示和第二特征表示；将上述输出结果输入多通道交互模型得到目标词增强的上下文的语义表示和目标词增强的图像的第一特征表示；将上述输出结果再输入多模态融合模型得到多模态数据表示；拼接平均池化的上下文的语义表示、平均池化的多模态数据表示和图像的第二特征表示得到目标多模态数据表示；根据目标多模态数据表示和归一化分类模型得到目标词在各属性上的情感分类结果。相对于现有技术，本申请能够充分地捕捉情感分类线索，提高情感分类准确性。

Description

一种多模态情感分类方法、装置及设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种多模态情感分类方法、装置及设备。

背景技术

情感分类是自然语言处理（Natural Language Processing，NLP）中的重要任务，其目的在于对带有情感色彩的主观性文本进行分类。

但是，目前针对目标词的情感分类方法更多地是集中在对文本模态数据的挖掘，其能够捕捉的对目标词情感分类的线索有限，导致分类结果的准确性相对较低，并且，由于现有方法往往只能分析目标词在某一个属性方面的情感极性，因而也无法满足目前对目标词在不同属性方面的情感分类需求。

发明内容

为克服相关技术中存在的问题，本发明实施例提供了一种多模态情感分类方法、装置及设备。

根据本发明实施例的第一方面，提供一种多模态情感分类方法，包括如下步骤：

获取目标图像的特征向量表示和目标文本的词向量表示；其中，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示；

将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示；其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示；

将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示；

将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示；

对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接，得到目标多模态数据表示；

根据所述目标多模态数据表示和预设的归一化分类模型，得到所述目标词在若干个所述属性上的情感分类结果。

根据本发明实施例的第二方面，提供一种多模态情感分类装置，包括：

第一获取单元，用于获取目标图像的特征向量表示和目标文本的词向量表示；其中，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示；

语义特征提取单元，用于将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示；其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示；

多通道交互单元，用于将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示；

多模态融合单元，用于将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示；

池化拼接单元，用于对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接，得到目标多模态数据表示；

分类单元，用于根据所述目标多模态数据表示和预设的归一化分类模型，得到所述目标词在若干个所述属性上的情感分类结果。

根据本发明实施例的第三方面，提供一种多模态情感分类设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述方法的步骤。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面所述方法的步骤。

在本申请实施例中，通过获取目标图像的特征向量表示和目标文本的词向量表示；其中，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示；将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示；其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示；将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示；将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示；对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接，得到目标多模态数据表示；根据所述目标多模态数据表示和预设的归一化分类模型，得到所述目标词在若干个所述属性上的情感分类结果。本申请实施例通过挖掘目标图像和目标文本的信息，最大化各模态数据对情感分类的贡献，充分捕捉对目标词情感分类的线索，提高情感分类的准确性，并且，还能够分析目标词在多个属性方面的情感极性，满足目前对目标词在不同属性方面的情感分类需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明一个示例性实施例提供的多模态情感分类方法的流程示意图；

图2为本发明一个示例性实施例提供的多模态情感分类方法中S101的流程示意图；

图3为本发明一个示例性实施例提供的多模态情感分类方法中S102的流程示意图；

图4为本发明一个示例性实施例提供的多模态情感分类方法中S103的流程示意图；

图5为本发明一个示例性实施例提供的多模态情感分类方法中S104的流程示意图；

图6为本发明另一个示例性实施例提供的多模态情感分类方法的流程示意图；

图7为本发明一个示例性实施例提供的多模态情感分类模型的内部结构示意图；

图8为本发明一个示例性实施例提供的多头交互注意力中头数对情感分类结果的影响的对比示意图；

图9为本发明一个示例性实施例提供的多模态情感分类模型具体应用的示意图；

图10为本发明一个示例性实施例提供的多模态情感分类装置的结构示意图；

图11为本发明一个示例性实施例提供的多模态情感分类设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语 “如果”/“若” 可以被解释成为 “在……时” 或“当……时” 或 “响应于确定”。

请参阅图1，图1为本发明一个示例性实施例提供的多模态情感分类方法的流程示意图，所述方法由多模态情感分类设备（以下简称情感分类设备）执行，包括如下步骤：

S101：获取目标图像的特征向量表示和目标文本的词向量表示；其中，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示。

在本申请实施例中，情感分类设备先获取目标图像的特征向量表示和目标文本的词向量表示。

其中，所述目标文本包括上下文、目标词以及目标词对应的属性。因此，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示。

在本申请实施例中，所述目标词可以理解为实体在目标文本内所对应的词语，例如：实体为人、组织或地点等，目标词为人、组织或地点等实体所对应的词语，比如人名、组织名或地名等。

不同类型的目标对应的属性（或者称之为方面）是存在不同的，例如：若实体为人，目标词为人名，那么与人有关的属性（或者称之为方面）包括时间、氛围、环境以及食物等等。

除目标文本外，与目标文本相对应的目标图像也一同用于进行情感分类，从而丰富情感分类的线索，提高情感分类的准确性。

目标图像的特征向量表示是通过预设的图像特征提取网络提取到的目标图像中特征。

其中，预设的图像特征提取网络设置在情感分类设备中，对于其网络的具体类型在此不进行限定。

在一个可选的实施例中，请参阅图2，为了更准确地获取目标图像的特征向量表示和目标文本的词向量表示，步骤S101包括步骤S1011~S1013，具体如下：

S1011：获取所述目标图像和所述目标文本；其中，所述目标文本中包括所述上下文、所述目标词和所述目标词对应的若干个属性。

S1012：将所述上下文、所述目标词和若干个所述属性输入至预设的词嵌入网络，得到所述上下文的词向量表示、所述目标词的词向量表示和所述目标词对应的若干个所述属性的词向量表示。

所述词嵌入网络预先设置在情感分类设备中，是一个预训练好的词嵌入网络，其能够对文本进行数字化表示的处理方式，将单词映射到向量中。

由于目标文本内包括上下文、目标词以及目标词对应的若干个属性，因此情感分类设备将上下文、目标词和若干属性输入至预设的词嵌入网络，可以得到上下文的词向量表示

、目标词的词向量表示

以及目标词对应的若干个属性的词向量表示

。其中，n 表示上下文中单词的个数，m表示目标词中单词的个数。

在一个可选的实施例中，预设的词嵌入网络可以为预训练好的GloVe词嵌入网络。

S1013：将所述目标图像输入至预设的图像残差处理网络，得到所述目标图像的特征向量表示。

在一个可选的实施例中，情感分类设备将目标图像输入至预设的图像残差处理网络，得到所述图像的特征向量表示。

在另一个可选的实施例中，情感分类设备对目标图像

先进行大小调整，将其调整为

像素的

，之后再将

输入值预设的图像残差处理网络，得到所述图像的特征向量表示

。

其中，预设的图像残差处理网络可以为预训练好的ResNet-152网络，也可以为其他残差网络。

S102：将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示；其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示。

预设的语义特征提取模型是一个预训练好的模型，设置在情感分类设备中，用于对目标图像进行特征提取，对上下文和目标词进行语义提取。

具体地，情感分类设备在获取到目标图像的特征向量表示、上下文的词向量表示、目标词的词向量表示和属性的词向量表示之后，将目标图像的特征向量表示、上下文的词向量表示、目标词的词向量表示和属性的词向量表示输入至预设的语义特征提取模型，从而得到预设的语义特征提取模型的输出，获取到上下文的语义表示、目标词的语义表示、目标图像的第一特征表示和目标图像的第二特征表示。

其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示。

在一个可选的实施例中，为了提取到更为丰富的特征，并去除掉无用的冗余信息，请参阅图3，步骤S102包括步骤S1021~S1025，具体如下：

S1021：获取所述上下文中每个单词在所述文本中的位置与所述目标词在所述文本中的位置之间的位置偏移量，得到所述上下文的位置词向量表示。

情感分类设备获取所述上下文中每个单词在所述目标文本中的位置与所述目标词在所述目标文本中的位置之间的位置偏移量，将位置偏移量进行词嵌入处理，得到上下文的位置词向量表示

。

其中，

分别表示上下文中各个单词对应的位置偏移量的词向量表示，n表示上下文中单词的个数。

S1022：对所述上下文的词向量表示和所述上下文的位置词向量表示进行多头自注意力编码，得到所述上下文的语义表示。

注意力机制的本质来自于人类视觉注意力机制，将注意力机制应用于情感分类，目的在于能够使在分类过程中分配更多的注意力到关键单词。具体地，可以将一句文本想象成是由一系列的<Key,Value>数据对组成，也即由一系列的<主键,数值>对组成，此时给定某个元素Query（查询），通过计算Query和各个Key的相似性或者相关性，得到每个Key对应的Value的权重系数，再通过softmax函数归一化后，对权重系数和相应Value进行加权求和，得到注意力结果。目前的研究中，Key和Value常常都是相等的，即Key=Value。

多头注意力编码（Multi-head Attention）表示进行多次注意力编码运算，每运算一次代表一头，头之间的参数不进行共享，最后将结果进行拼接，在进行一次线性变换得到多头编码结果。

多头注意力编码又分为多头自注意力编码和多头交互注意力编码。其中，多头自注意力的Query与Key相同，多头交互注意力编码的Query与Key不相同。对于多头自注意力编码，其需要实现某一句文本中的每个单词与该句文本的所有单词之间的注意力值的计算。

情感分类设备对上下文的词向量表示和所述上下文的位置词向量表示进行多头自注意力编码，得到所述上下文的语义表示。

具体地，情感分类设备根据上下文的词向量表示

、上下文的位置词向量表示

和预设的多头自注意力编码公式，得到所述上下文的语义表示

。

其中，预设的多头自注意力编码公式如下：

其中，

表示上下文的语义表示，

表示将上下文的词向量表示

和上下文的位置词向量表示

拼接；

分别表示上下文对应的第1个头至第n个头的注意力结果，

表示将上下文对应的n个头的注意力结果拼接再进行线性变换后的结果；

、

和

均相同为

，

表示可训练参数矩阵；

表示因子，用于约束点积的值；

表示

的转置，

表示归一化指数函数。

S1023：将所述目标词的词向量表示和所述属性的词向量表示拼接后输入至预设的双向GRU网络，得到所述目标词的语义表示。

在本申请实施例中，预设的双向GRU网络是预训练好的神经网络，并设置在情感分类设备中。

预设的双向GRU网络的输入输出结构与循环神经网络RNN的结构类似，其内部的执行思想与双向长短期记忆网络Bi-LSTM相似，虽然比双向长短期记忆网络Bi-LSTM缺少一个门控，参数也更少，但是能够达到同样的效果，因此，采用预设的双向GRU网络获取目标词的语义表示不仅效率更高，而且能够捕捉到隐藏信息。

具体地，情感分类设备将所述目标词的词向量表示

和所述属性的词向量表示

拼接后输入至预设的双向GRU网络，得到所述目标词的语义表示

。

其中，

表示将

和

拼接；

是双向GRU网络其中一个方向的输出，

是双向GRU网络另一个方向的输出；

表示是目标词中的第

个单词；m表示目标词中单词的个数；

表示将目标词中第j个单词的词向量表示和属性的词向量表示

拼接；

和

分别表示双向GRU网络中不同方向上的处理过程。

由于双向GRU网络为现有的网络，因此，其内部的详细计算过程在此不展开说明。

通过双向GRU网络处理目标词的词向量表示和所述属性的词向量表示，能够发挥双向GRU网络在处理短序列文本的优势，有利于目标词的语义表示的提取。

S1024：将所述目标图像的特征向量表示输入至预设的胶囊网络，得到所述目标图像的第一特征表示。

在本申请实施例中，预设的胶囊网络是预训练好的神经网络，并设置在情感分类设备中。胶囊网络相较于ResNet残差网络，能够对目标图像中的元素位置信息进行处理，从而使得获取的目标图像的第一特征表示是结合了所述目标图像内元素位置信息的特征表示。

具体地，

，

表示将目标图像的特征向量

输入了胶囊网络中，

表示目标图像的第一特征表示。

由于胶囊网络为现有的网络，因此，关于

内部具体如何对目标图像的特征向量

在此不展开说明。

S1025：对平均池化后的所述目标词的语义表示和所述目标图像的特征向量表示进行单头注意力编码，得到所述目标图像的第二特征表示。

情感分类设备先对目标词的语义表示

进行平均池化操作，得到平均池化后的目标词的语义表示

。

其中，

，

表示目标词中第i个单词的语义表示，n表示目标词中单词的个数。

之后，情感分类设备对平均池化后的所述上下文的语义表示

、平均池化后的所述多模态数据表示

和所述目标图像的第二特征表示

进行拼接，得到目标多模态数据表示

。

其中，

为

；

和

相同为

；

表示因子，用于约束点积的值；

表示

的转置；

表示归一化指数函数；

和

均表示可训练参数矩阵。

S103：将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示。

预设的多通道交互模型是一个预训练好的模型，设置在情感分类设备中，用于分析目标词与上下文、目标图像之间的关系，从多模态输入中提取关键信息，获取特定于目标词的文本表示和特定于目标词对应的目标的图像表示，也即，获取目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示。

具体地，情感分类设备在获取到上下文的语义表示、目标词的语义表示和目标图像的第一特征表示之后，将上下文的语义表示、目标词的语义表示和目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示。

在一个可选的实施例中，为了充分捕捉对目标词情感分类的线索，请参阅图4，步骤S103包括步骤S1031~S1032，具体如下：

S1031：对所述上下文的语义表示和所述目标词的语义表示进行多头交互注意力编码，得到所述目标词增强的所述上下文的语义表示。

关于注意力机制的说明请参见S1022，在此不进行赘述。在本申请实施例中，情感分类设备为了获取目标词增强的上下文的语义表示，对上下文的语义表示和目标词的语义表示进行多头交互注意力编码。

具体地，情感分类设备根据上下文的语义表示

、目标词的语义表示

和预设的第一多头交互注意力编码公式，得到目标词增强的所述上下文的语义表示

。

预设的第一多头交互注意力编码公式如下：

其中，

表示目标词增强的所述上下文的语义表示；

表示目标词的语义表示；

表示上下文的语义表示；

分别表示上下文的语义表示对应的第1个头至第n个头的注意力结果；

表示上下文的语义表示对应的第i个头的注意力结果；

表示将上下文的语义表示对应的第1个头至第n个头的注意力结果拼接再进行线性变换后的结果；

为

，

表示可训练参数矩阵；

和

是相同的，为

，

表示可训练参数矩阵；

表示因子，用于约束点积的值；

表示

的转置，

表示归一化指数函数。

S1032：对所述目标图像的第一特征表示和所述目标词的语义表示进行多头交互注意力编码，得到所述目标词增强的所述目标图像的第一特征表示。

情感分类设备根据目标图像的第一特征表示

、目标词的语义表示

和预设的第二多头交互注意力编码公式，得到目标词增强的目标图像的第一特征表示

。

预设的第二多头交互注意力编码公式如下：

其中，

表示目标词增强的目标图像的第一特征表示；

表示目标词的语义表示；

表示目标图像的第一特征表示；

分别表示目标图像的第一特征表示对应的第1个头至第n个头的注意力结果；

表示目标图像的第一特征表示对应的第i个头的注意力结果；

表示将目标图像的第一特征表示对应的第1个头至第n个头的注意力结果拼接再进行线性变换后的结果；

为

，

表示可训练参数矩阵；

和

是相同的，为

，

表示可训练参数矩阵；

表示因子，用于约束点积的值；

表示

的转置，

表示归一化指数函数。

S104：将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示。

预设的多模态融合模型是一个预训练好的模型，设置在情感分类设备中，用于整个各模态的表示，最大化各模态数据对情感分类的贡献。

具体地，情感分类设备在获取到上下文的语义表示、目标词增强的目标图像的第一特征表示和目标词的语义表示之后，将上下文的语义表示、目标词增强的目标图像的第一特征表示和目标词的语义表示输入至预设的多模态融合模型，得到多模态数据表示。

在一个可选的实施例中，请参阅图5，步骤S104包括步骤S1041，具体如下：

S1041：对所述目标词增强的所述上下文的语义表示、所述目标词增强的所述目标图像的第一特征表示和所述目标词的语义表示进行多头注意力编码，得到所述多模态数据表示。

情感分类设备根据目标词增强的所述上下文的语义表示

、目标词增强的所述目标图像的第一特征表示

和目标词的语义表示

和预设的第三多头交互注意力编码公式，得到多模态数据表示。

预设的第三多头交互注意力编码公式如下：

其中，

表示多模态数据表示；

表示目标词的语义表示；

表示目标词增强的目标图像的第一特征表示；

表示目标词增强的所述上下文的语义表示；

分别表示多模态数据对应的第1个头至第n个头的注意力结果；

表示多模态数据对应的第i个头的注意力结果；

表示多模态数据对应的第1个头至第 n个头的注意力结果拼接再进行线性变换后的结果；

为

，

表示可训练参数矩阵；

为

，

表示可训练参数矩阵；

为

，

表示可训练参数矩阵；

表示因子，用于约束点积的值；

表示

的转置，

表示归一化指数函数。

S105：对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接，得到目标多模态数据表示。

情感分类设备先对上下文的语义表示

和多模态数据表示

进行平均池化操作，得到平均池化后的上下文的语义表示

、平均池化后的多模态数据表示

。

之后，情感分类设备对平均池化后的所述上下文的语义表示

、平均池化后的所述多模态数据表示

和所述目标图像的第二特征表示

进行拼接，得到目标多模态数据表示

。

S106：根据所述目标多模态数据表示和预设的归一化分类模型，得到所述目标词在若干个所述属性上的情感分类结果。

预设的归一化分类模型为预训练好的模型，设置在情感分类设备中，用于获取目标词在若干个所述属性上的情感分类结果。

具体地，情感分类设备根据目标多模态数据表示

和预设的归一化分类公式，得到目标词在若干述属性上的情感分类结果。

其中，预设的归一化分类公式如下：

表示可训练权重；

为可训练的偏置；

是情感分类的种类数量；k是累加变量。

在另一个实施例中，请参阅图6，所述情感分类方法还包括步骤S107~S108，具体如下：

S107：获取用于训练多模态情感分类模型的训练集；其中，所述多模态情感分类模型包括所述预设的语义特征提取模型、所述预设的多通道交互模型、所述预设的多模态融合模型和所述预设的归一化分类模型。

情感分类设备获取训练多模态情感分类模型的训练集。其中，多模态情感分类模型（EF-NET）包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型。

关于所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型已在上述实施例中进行说明，不再赘述。

S108：基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述多模态情感分类模型，更新所述多模态情感分类模型内的训练参数，直至满足训练终止条件，得到训练好的多模态情感分类模型。

所述训练参数包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型内的所有可训练参数。

在本申请实施例中，预设的损失函数为

正则化的交叉熵函数，具体如下：

预设的反向传播算法中计算梯度和更新参数的公式如下：

其中，m表示目标文本内包括的目标词对应的属性的数量，i表示属性数量的下标表示；C是情感分类的类别数量，j表示情感分类的类别的下标表示；

表示目标词的第i个属性的真实情感极性分布，

表示目标词的第i个属性在第j个类别下的情感分类概率，

表示

正则项的权重，

表示学习率，

表示可训练参数，

表示关于

的损失函数，

表示计算出的梯度。

在本实施例中，通过训练集对多模态情感分类模型（EF-NET）进行训练，能够尽可能地优化多模态情感分类模型（EF-NET）中的每个模型的可训练参数，提高情感分类的准确性。

请参阅图7，其为本发明一个示例性实施例提供的多模态情感分类模型的内部结构示意图。图7中更加形象化地展现了多模态情感分类模型（EF-NET）的内部处理过程。

下面将对本申请实施例提出的多模态情感分类模型进行实验论证，论证过程如下：

一、数据集

基于两个公开的TMSC数据集，数据集1（Twitter15）和数据集2（Twitter17），手动标注了一个大规模TABMSA数据集。三位从事自然语言处理(NLP)工作的资深研究人员被邀请提取句子中的目标和方面，并标注它们的情感极性。首先，预先从数据集中随机抽取500个样本，揭示出现最多的实体类型和属性类型，即“people”、“place”、“time”、“organization”和“other”。表1列出了各实体以及相应的属性。用这种方法标注后的数据集1（Twitter15）包含训练样本3259个，验证样本1148个，测试样本1059个，而数据集2（Twitter17）对应的数据分别为3856、1140、1331。

考虑到TABMSA任务，本申请数据集中的每个样本都由图像和文本组成，以及特定情绪极性的目标和方面。表达的情绪极性被定义为积极的、中性的和消极的。表2展示了本申请数据集的详细信息。

二、实验参数设置（Experimental setting）

本申请是在上述专门注释好的数据集上进行实验来评估模型的性能。本申请将数据集1（Twitter15）中文本内容的最大填充长度设置为36，数据集2（Twitter17）的最大填充长度设置为31。图片用预训练好的Resnet-152网络生成7*7*2048维视觉特征向量。对于本申请的模型EF-Net，本申请设定learning rate为0.0001，dropout rate为0.3，batch size为118，注意力的头数设置为4。

三、对比模型

为了验证本申请的模型的有效性，本申请将与经典的文本情感分析模型(LSTM、GRU、ATAE-LSTM、MemNet和IAN)和代表性的多模态情感分析模型(Res-MemNet和Res-IAN)进行比较。

模型1：LSTM，利用LSTM网络检测上下文的隐藏状态。

模型2：GRU，作为LSTM的轻量化版本，GRU模型结构简单，对长时间文本序列建模能力强。

模型3：ATAE-LSTM，采用LSTM方法和连接过程得到方面嵌入，注意力网络的目标是选择情感显著性的词。

模型4：MemNet，在常用词嵌入层的基础上引入多层注意机制，建立了深层记忆网络。

模型5：IAN，在基于LSTM的交互式注意力网络的基础上，对表征进行建模。隐藏层表示通过池化过程计算注意权值。

模型6：Res-MemNet和模型7： Res-IAN，以ResNet的最大池化层与MemNet或IAN的隐藏层表示拼接，进行多模态情感分类。

值得注意的是，对于上述所有模型，最终使用Softmax分类函数确定目标词的情感极性分布。

四、实验结果分析

在本实验中，本申请采用准确率(accuracy)和宏观综合值（Macro-F1）作为评价指标来评估模型的性能。表3显示了主要结果。在经典的TABSA任务中，去掉图像处理部分的EF-Net (Text)模型在两个数据集上的结果最好、最一致。在所有模型中，LSTM由于缺乏句子中目标和上下文的区分，表现最差。通过目标和方面的分析，使其工作性能得到了较大的优化。此外，注意力机制的使用也有助于提高分类精度。EF-Net (Text)模型同时利用了位置信息和语义信息，因此本申请模型中的表示在传递情感过程中提供了更多的信息。此外，MHA网络捕获目标方面与语境之间的交互，并在此基础上保留了用于情感分类更重要的信息。

另一方面，多模态情感分类模型通常比基础的文本情感分类模型更具竞争力。通过整合视觉图像信息与上下文信息，可以达到更高的分类精度。在TABMSA任务上，EF-Net仍然显著优于其他baseline模型。与准确率第二高的Res-EF-Net (Text)模型相比，EF-Net在数据集1（Twitter15）和数据集2（Twitter17）的准确率也分别高出1.89%和0.9%，见表3。EF-Net比EF-Net（Text）有效，另一个解释是本申请将图像数据融合到文本中，同时研究了多模态交互，这利用了情感信息和多模态的关系。总的来说，EF-Net在所有对比模型中取得了最高的准确率，这说明了本申请的EF-Net模型处理TABMSA任务的能力更强，证明了EF-Net模型在TABMSA任务上的有效性。

五、MHA头数影响分析

由于多头注意力机制MHA 涉及多个head的注意力，本申请进一步研究了MHA的注意力头数的影响，以便更好地获得模态之间的关系。在这个阶段，本申请改变注意力的头数head={1，2，3，4，5，6}。不同head在数据集1（Twitter15）和数据集2（Twitter17）上的结果如图8所示，图8为本发明一个示例性实施例提供的多头交互注意力中头数对情感分类结果的影响的对比示意图。可以看出，本申请的模型在head为4时准确率最高。对于较小的head(即1、2、3)，MHA不能保持重要信息，特别是对于较长的文本。由于参数的增加和模型的过拟合问题，分类精度随着head的继续增加(即5,6)而下降。

下面将对本申请实施例提出的多模态情感分类模型（EF-Net）通过案例验证其有效性，如下所示：

请参阅图9，图9为本发明一个示例性实施例提供的多模态情感分类模型具体应用的示意图。目标文本为“@ABQJournal Bad accident at San Mateo and H751.Motorcycle hits car and flip”，目标图像如图9(a)所示。目标文本中的目标词和对应的属性分别为“San Mateo”和“event”。从图9(b)可以看出，本申请的模型在图中更加关注发生事故的摩托车。此外，MHA模型(head=4)在句子中对“Motorcycle”，“bad ”，“accident”等重要词有较大的关注权重，如图9(c)所示。最后，本申请的模型将样本的情感预测为负面，这表明本申请的模型能够很好地捕获多模态的信息和交互作用。

请参见图10，图10为本发明一个示例性实施例提供的多模态情感分类装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为多模态情感分类设备的全部或一部分。该装置10包括：

第一获取单元1011，用于获取目标图像的特征向量表示和目标文本的词向量表示；其中，所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示；

语义特征提取单元1012，用于将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示；其中，所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示，所述目标图像的第二特征表示为去除了冗余信息的特征表示；

多通道交互单元1013，用于将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示；

多模态融合单元1014，用于将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示；

池化拼接单元1015，用于对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接，得到目标多模态数据表示；

分类单元1016，用于根据所述目标多模态数据表示和预设的归一化分类模型，得到所述目标词在若干个所述属性上的情感分类结果。

需要说明的是，上述实施例提供的多模态情感分类装置在执行多模态情感分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多模态情感分类装置与多模态情感分类方法属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

请参见图11，为本发明一个示例性实施例提供的多模态情感分类设备的结构示意图。如图11所示，该多模态情感分类设备11可以包括：处理器110、存储器111以及存储在该存储器111并可以在该处理器110上运行的计算机程序112，例如：多模态情感分类程序；该处理器110执行该计算机程序112时实现上述各方法实施例中的步骤，例如图1所示的步骤S101至S106。或者，该处理器110执行该计算机程序112时实现上述各装置实施例中各模块/单元的功能，例如图10所示单元1011至1016的功能。

其中，处理器110可以包括一个或多个处理核心。处理器110利用各种接口和线路连接多模态情感分类设备11内的各个部分，通过运行或执行存储在存储器111内的指令、程序、代码集或指令集，以及调用存储器111内的数据，执行多模态情感分类设备11的各种功能和处理数据，可选的，处理器110可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble Logic Array，PLA）中的至少一个硬件形式来实现。处理器110可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

其中，存储器111可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器111包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器111可用于存储指令、程序、代码、代码集或指令集。存储器111可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器111可选的还可以是至少一个位于远离前述处理器110的存储装置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质可以存储有多条指令，该指令适用于由处理器加载并执行上述图1至图6所示实施例的方法步骤，具体执行过程可以参见图1至图6所示实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态情感分类方法，其特征在于，包括步骤：

2.根据权利要求1所述的多模态情感分类方法，其特征在于，所述获取目标图像的特征向量表示和目标文本的词向量表示，包括步骤：

获取所述目标图像和所述目标文本；其中，所述目标文本中包括所述上下文、所述目标词和所述目标词对应的若干个属性；

将所述上下文、所述目标词和若干个所述属性输入至预设的词嵌入网络，得到所述上下文的词向量表示、所述目标词的词向量表示和所述目标词对应的若干个所述属性的词向量表示；

将所述目标图像输入至预设的图像残差处理网络，得到所述目标图像的特征向量表示。

3.根据权利要求1或2所述的多模态情感分类方法，其特征在于，所述将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型，得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示，包括步骤：

获取所述上下文中每个单词在所述目标文本中的位置与所述目标词在所述目标文本中的位置之间的位置偏移量，得到所述上下文的位置词向量表示；

对所述上下文的词向量表示和所述上下文的位置词向量表示进行多头自注意力编码，得到所述上下文的语义表示；

将所述目标词的词向量表示和所述属性的词向量表示拼接后输入至预设的双向GRU网络，得到所述目标词的语义表示；

将所述目标图像的特征向量表示输入至预设的胶囊网络，得到所述目标图像的第一特征表示；

对平均池化后的所述目标词的语义表示和所述目标图像的特征向量表示进行单头注意力编码，得到所述目标图像的第二特征表示。

4.根据权利要求1或2所述的多模态情感分类方法，其特征在于，所述将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型，得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示，包括步骤：

对所述上下文的语义表示和所述目标词的语义表示进行多头交互注意力编码，得到所述目标词增强的所述上下文的语义表示；

对所述目标图像的第一特征表示和所述目标词的语义表示进行多头交互注意力编码，得到所述目标词增强的所述目标图像的第一特征表示。

5.根据权利要求1或2所述的多模态情感分类方法，其特征在于，所述将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型，得到多模态数据表示，包括步骤：

对所述目标词增强的所述上下文的语义表示、所述目标词增强的所述目标图像的第一特征表示和所述目标词的语义表示进行多头注意力编码，得到所述多模态数据表示。

6.根据权利要求1或2所述的多模态情感分类方法，其特征在于，所述获取目标图像的特征向量表示和目标文本的词向量表示之前，包括步骤：

获取用于训练多模态情感分类模型的训练集；其中，所述多模态情感分类模型包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型；

基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述多模态情感分类模型，更新所述多模态情感分类模型内的训练参数，直至满足训练终止条件，得到训练好的多模态情感分类模型。

7.一种多模态情感分类装置，其特征在于，包括：

8.根据权利要求7所述的多模态情感分类装置，其特征在于，还包括：

第二获取单元，用于获取用于训练多模态情感分类模型的训练集；其中，所述多模态情感分类模型包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型；

训练单元，用于基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述多模态情感分类模型，更新所述多模态情感分类模型内的训练参数，直至满足训练终止条件，得到训练好的多模态情感分类模型。

9.一种多模态情感分类设备，其特征在于，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一所述方法的步骤。