CN116089619A

CN116089619A - 情感分类方法、装置、设备以及存储介质

Info

Publication number: CN116089619A
Application number: CN202310353912.6A
Authority: CN
Inventors: 蔡倩华; 曾德鸿; 陈枭松; 宋正新; 薛云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-05-09
Anticipated expiration: 2043-04-06
Also published as: CN116089619B

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种情感分类方法、装置、设备以及存储介质，通过提取文本对应的图像的语义特征以及全局特征，进行图文对齐，获得图像增强语义特征表示，以增强图像的语义表达能力，并通过提取文本对应的文本语义特征，结合图像增强语义特征表示来构建跨模态邻接矩阵，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高情感分类精度。

Description

情感分类方法、装置、设备以及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种情感分类方法、装置、设备以及存储介质。

背景技术

情感分类是自然语言处理领域的重要课题之一。文档级情感分类旨在识别整个文本所表达的对一个主要话题的看法。在商业需求的驱动下，基于深度学习算法的文档级情感分类目前被广泛用于在线产品评论领域。最近，智能手机的普及使人们有更多的机会通过不同的模态（即文字、声音和视觉模态）来表达意见。在社交媒体上，文字和图像通常被认为是相互加强和补充的。因此，目前的趋势是设计文档级多模态情感分类方法来处理多模态信息。

目前的文档级多模态情感分类方法中，图像仅仅用来作为文本的补充，然后将文本信息与图像信息拼接，整合到多模态情感分类神经网络模型中，来处理模态内部以及模态之间的关系，然而，上述方法存在着一定的局限性，不仅不能去除不相关的视觉信息，而且给神经网络模型引入了大量的无关信息，导致多模态噪声大、情感分类精度低。

发明内容

基于此，本发明提供一种情感分类方法、装置、设备以及存储介质，其具有降低噪声、提高情感分类精度的优点。该技术方法如下：

第一方面，本申请实施例提供了一种情感分类方法，包括以下步骤：

获得文档数据以及预设的情感分类模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块；

将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示；

将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示；

将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示；

采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵；

将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示；

将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文档数据的情感分类结果。

第二方面，本申请实施例提供了一种情感分类装置，包括：

数据获取模块，用于获得文本数据，所述文本数据对应的若干个图像以及若干个图像的标签数据，以及获得预设的情感分类模型，其中，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块；

语义特征提取模块，用于将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示；

全局特征提取模块，用于将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示；

图文对齐模块，用于将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示；

邻接矩阵构建模块，用于采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵；

特征交互模块，用于将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示；

情感分类模块，用于将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文档数据的情感分类结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的情感分类方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的情感分类方法的步骤。

在本实施例中，提供一种情感分类方法、装置、设备以及存储介质，通过提取文本对应的图像的语义特征以及全局特征，进行图文对齐，获得图像增强语义特征表示，以增强图像的语义表达能力，并通过提取文本对应的文本语义特征，结合图像增强语义特征表示来构建跨模态邻接矩阵，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高情感分类精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请第一实施例提供的情感分类方法的流程示意图；

图2为本申请一个实施例提供的情感分类方法中S2的流程示意图；

图3为本申请一个实施例提供的情感分类方法中S3的流程示意图；

图4为本申请一个实施例提供的情感分类方法中S4的流程示意图；

图5为本申请一个实施例提供的情感分类方法中S5的流程示意图；

图6为本申请一个实施例提供的情感分类方法中S6的流程示意图；

图7为本申请一个实施例提供的情感分类方法中S7的流程示意图；

图8为本申请一个实施例提供的情感分类装置的结构示意图；

图9为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请第一实施例提供的情感分类方法的流程示意图，包括如下步骤：

S1：获得文档数据以及预设的情感分类模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块。

本申请的情感分类方法的执行主体为情感分类方法的分类设备（以下简称分类设备）。

在一个可选的实施例中，分类设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

分类设备获得文档数据，在一个可选的实施例中，所述文档数据源自于社交媒体，其中，社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。

具体地，分类设备可以与所述社交媒体进行连接，获取社交媒体上发布的文档数据，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述标签数据可以为图像的描述信息，所述标签数据包括若干个标签语句，所述标签语句包括若干个单词。

所述文本数据包括若干个文本语句，所述文本语句包括若干个单词，如下所示：

式中，为第 i个文本语句， L为文本数据的文本语句数目。

分类设备获取预设的情感分类模型，其中，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块。

S2：将所述待分类文本以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示。

在本实施例中，分类设备将所述待分类文本以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示。

所述语义特征提取模块包括词嵌入模块、卷积模块以及编码模块；请参阅图2，图2为本申请一个实施例提供的情感分类方法中S2的流程示意图，包括步骤S21~S23，具体如下：

S21：分别将所述文本数据、标签数据输入至所述词嵌入模块中，获得所述若干个文本语句的若干个单词的词嵌入向量，以及所述若干个标签语句的若干个单词的词嵌入向量。

在本实施例中，分类设备采用预训练的GLOVE词嵌入模型作为所述词嵌入模块，分类设备通过该预训练的GLOVE词嵌入模型初始化得到一个嵌入矩阵。其中是训练数据中单词的数量，是词嵌入向量的维度。通过该嵌入矩阵将文本语句中的各个单词转换为对应的词嵌入向量，以及将标签语句中的各个单词转换为对应的词嵌入向量，从而获得所述若干个文本语句的若干个单词的词嵌入向量，以及所述若干个标签语句的若干个单词的词嵌入向量。

S22：分别将所述若干个文本语句的若干个单词的词嵌入向量、所述若干个标签语句的若干个单词的词嵌入向量输入至所述卷积模块，获得所述若干个文本语句的第一卷积特征向量，以及所述若干个标签语句的第一卷积特征向量。

在本实施例中，分类设备采用TEXTCNN卷积网络作为所述卷积模块，使用3个大小分别为3，4，5的卷积核提取各个语句的各个单词的n-gram特征向量，并采用Top-K函数对获得的各个单词的n-gram特征向量进行池化操作，获得各个单词的池化特征向量，保留了每个特征映射中最大的K个值，将各个单词的池化特征向量经Elu激活函数进行归一化处理，获得各个单词的归一化特征向量，并输入到100维的线性层中，对各个语句的各个单词的归一化特征进行聚合，获得所述若干个文本语句的第一卷积特征向量，以及所述若干个标签语句的第一卷积特征向量。如下所示：

式中，为第 i个文本语句的第一卷积特征向量，为第 j个标签语句的第一卷积特征向量，TEXTCNN（）表示TEXTCNN卷积网络，为第 i个文本语句的第 t个单词的词嵌入向量，为第 i个文本语句的第 t个单词的词嵌入向量。

S23：分别将所述若干个文本语句的第一卷积特征向量、所述若干个标签语句的第一卷积特征向量输入至所述编码模块，获得所述文档数据的隐藏状态特征表示，作为所述文本语义特征表示，以及获得所述标签数据的隐藏状态特征表示，作为所述图像语义特征表示。

在本实施例中，分类设备采用Bi-GRU编码模型作为所述编码模块，分类设备将所述若干个文本语句的第一卷积特征向量进行组合，构建文本卷积特征表示，将所述若干个标签语句的第一卷积特征向量，构建标签卷积特征表示。

分类设备分别将文本卷积特征表示、标签卷积特征表示输入至Bi-GRU编码模型，对于每个文本语句，获得各个文本语句的前向隐藏状态向量以及反向隐藏状态向量，对同一个文本语句的前向隐藏状态向量以及反向隐藏状态向量进行拼接，获得所述文档数据的隐藏状态特征表示，如下所示：

式中，为文档数据的隐藏状态特征表示，为第 L个文本语句的隐藏状态特征向量，Bi-GRU（）表示为Bi-GRU编码模型，X为文本卷积特征表示。

对于每个标签语句，获得各个标签语句的前向隐藏状态向量以及反向隐藏状态向量，对同一个标签语句的前向隐藏状态向量以及反向隐藏状态向量进行拼接，获得所述标签数据的隐藏状态特征表示，作为所述图像语义特征表示，如下所示：

式中，为标签数据的隐藏状态特征表示，为第 N个标签语句的隐藏状态特征向量， C为标签卷积特征表示。

采用分层结构的形式，以依次相连的词嵌入模块、卷积模块以及编码模块的构建特征提取模块，能够针对文档数据以及标签数据中单词数量较多的特点，更好地实现对文档数据以及标签数据的语义信息的提取，提高情感分类的准确性。

S3：将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示。

在本实施例中，分类设备将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示。

请参阅图3，图3为本申请一个实施例提供的情感分类方法中S3的流程示意图，包括步骤S31~S32，具体如下：

S31：根据所述若干个图像以及预设的第二卷积特征计算算法，获得图像卷积特征表示。

在本实施例中，分类设备采用VGG卷积网络作为所述图像特征提取模块，分类设备将所述若干个图像输入至VGG卷积网络中，根据所述若干个图像以及预设的第二卷积特征计算算法，获得VGG卷积网络最后一个全连接层输出的数据，作为所述图像卷积特征表示，其中，所述图像卷积特征表示包括若干个图像的第二卷积特征向量，所述第二卷积特征计算算法为：

式中，为第 j个图像的卷积特征向量， VGG（）为卷积函数，表示第 j个图像。

S32：根据所述图像卷积特征表示以及预设的图像全局特征计算算法，获得所述图像全局特征表示。

所述图像全局特征计算算法为：

式中，为所述图像全局特征表示，为第一权重矩阵， M为所述图像卷积特征表示，为第一偏置参数。

在本实施例中，分类设备根据所述图像卷积特征表示以及预设的图像全局特征计算算法，获得所述图像全局特征表示。

S4：将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示。

考虑到图像表达情感的能力较弱，在本实施例中，分类设备通过引入各个图像对应的标签数据，获得各个图像对应的图像全局特征表示，结合各个图像对应的图像语义特征表示，输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示，以提高情感分类的准确性。

请参阅图4，图4为本申请一个实施例提供的情感分类方法中S4的流程示意图，包括步骤S41~S42，具体如下：

S41：根据所述图像语义特征表示、图像全局特征表示以及预设的多头自注意力特征计算算法，获得若干个注意力特征。

所述多头自注意力特征计算算法为：

式中，为第 i个所述注意力特征， softmax（）为归一化函数，为第二权重矩阵，为所述图像语义特征表示，为第三权重矩阵，为第四权重矩阵，为维度参数。

在本实施例中，分类设备根据所述图像语义特征表示、图像全局特征表示以及预设的多头自注意力特征计算算法，获得若干个注意力特征。运用多头注意力机制，使图像与其对应的标签数据对齐，从而增强图像的语义表达能力。

S42：将所述若干个注意力特征进行拼接，获得图像拼接表示，根据所述图像拼接表示以及预设的隐藏状态计算算法，获得所述图像增强语义特征表示。

鉴于来自同一文档数据的不同图像之间可能存在一些内在联系，在本实施例中，分类设备将所述若干个注意力特征进行拼接，获得图像拼接表示，并输入到Bi-GRU中，根据所述图像拼接表示以及预设的隐藏状态计算算法，获得所述图像增强语义特征表示，其中，所述图像增强语义特征表示为：

式中，为所述图像增强语义特征表示，Bi-GRU（）为隐藏状态提取函数，为所述图像拼接表示。

S5：采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵。

为了更好地进行句子间长距离的信息传递，同时滤除与文本无关的视觉噪声，在本实施例中，分类设备采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵。

请参阅图5，图5为本申请一个实施例提供的情感分类方法中S5的流程示意图，包括步骤S51~S54，具体如下：

S51：根据所述文本语义特征表示以及预设的第一邻接矩阵构建算法，获得第一邻接矩阵。

对于相同模态的节点间边的构造，文本节点全连接，在本实施例中，分类设备采用自注意力机制，根据所述文本语义特征表示以及预设的第一邻接矩阵构建算法，得到各个文本语句间的语义关系，并将计算得到的注意力权重作为连接节点的边权重，用于捕捉各个文本语句间的长距离依赖关系，获得第一邻接矩阵，其中，所述第一邻接矩阵包括若干个文本节点之间的依赖关系向量，所述第一邻接矩阵构建算法为：

式中，为第一邻接矩阵， softmax（）为归一化函数，为第五权重矩阵，为所述文本语义特征表示，为第六权重矩阵，为维度参数。

S52：根据所述图像增强语义特征表示以及预设的第二邻接矩阵构建算法，获得第二邻接矩阵。

对于相同模态的节点间边的构造，图像节点全连接，在本实施例中，分类设备采用自注意力机制，根据所述图像增强语义特征表示以及预设的第二邻接矩阵构建算法，得到各个图像间的语义关系，并将计算得到的注意力权重作为连接节点的边权重，用于捕捉各个图像间的长距离依赖关系，获得第二邻接矩阵，其中，所述第二邻接矩阵包括若干个图像节点之间的依赖关系向量，所述第二邻接矩阵构建算法为：

式中，为第二邻接矩阵，为第七权重矩阵，为所述文本语义特征表示，为第八权重矩阵。

S53：根据所述文本语义特征表示、图像增强语义特征表示以及预设的第三邻接矩阵构建算法，获得第三邻接矩阵。

对于不同模态节点间边的构造，为了避免无关图像对文档信息聚合造成干扰，在本实施例中，分类设备采用自注意力机制，根据所述文本语义特征表示、图像增强语义特征表示以及预设的第三邻接矩阵构建算法，计算每个文本节点对于每个图像节点的重要性权重。之后，为避免无关图像对文档信息聚合造成干扰，本发明采用top-k的方法，只在每个文本节点和权重最大的若干个图像节点之间建立边，使得图像跟文本语句对齐，并将计算得到的注意力权重矩阵作为连接节点的边权重矩阵，获得第三邻接矩阵，其中，所述第三邻接矩阵包括各个文本节点与各个图像节点之间的依赖关系向量，所述第三邻接矩阵构建算法为：

式中，为第三邻接矩阵， topk（）为选择函数，为第八权重矩阵，为第九权重矩阵。

S54：对所述第三邻接矩阵进行转置，获得第四邻接矩阵，根据所述第一邻接矩阵、第二邻接矩阵、第三邻接矩阵以及第四邻接矩阵，构建第五邻接矩阵，对所述跨模态邻接矩阵进行归一化处理，获得所述跨模态邻接矩阵对应的图拉普拉斯矩阵，作为所述跨模态邻接矩阵。

为了更好地区分若干个文本节点之间的依赖关系向量、若干个图像节点之间的依赖关系向量以及各个文本节点与各个图像节点之间的依赖关系向量，在本实施例中，分类设备对所述第三邻接矩阵进行转置，获得第四邻接矩阵，采用不同的边加权策略，根据所述第一邻接矩阵、第二邻接矩阵、第三邻接矩阵以及第四邻接矩阵，构建第五邻接矩阵，其中，所述第五邻接矩阵包括若干个节点之间的依赖关系向量，所述节点包括文本节点以及图像节点，具体如下：

式中，为第五邻接矩阵中第 i个节点与第 j个节点之间的依赖关系向量，为第一超参数，为第二超参数， L为文本节点数目， N为图像节点数目，为第四邻接矩阵。

分类设备对所述跨模态邻接矩阵进行归一化处理，获得所述跨模态邻接矩阵对应的图拉普拉斯矩阵，作为所述跨模态邻接矩阵。

S6：将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示。

为了更好地进行不同模态信息的交互和融合，提取用于情感分类的线索，提高情感分类的精准性，在本实施例中，分类设备将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示。

所述多模态交互模块为多层跨模态图卷积网络；请参阅图6，图6为本申请一个实施例提供的情感分类方法中S6的流程示意图，包括步骤S61，具体如下：

S61：将所述文本语义特征表示以及图像增强语义特征表示作为所述多层跨模态图卷积网络的首层输入数据，根据所述跨模态邻接矩阵以及预设的图卷积算法，获得所述多层跨模态图卷积网络的最后一层的输出的特征表示，作为所述多模态特征表示。

所述图卷积算法为：

式中，为多层跨模态图卷积网络的第 l+1层的输出的特征表示，为第三超参数，用于控制残差连接，使得多层跨模态图卷积网络的每个节点的最终表示由输入特征的一部分组成，用于缓解层数过深时的过平滑问题；

P为所述跨模态邻接矩阵， I为单位矩阵，为多层跨模态图卷积网络的第 l层的权重矩阵，为多层跨模态图卷积网络的第 l层的偏置参数，保证了权重矩阵的衰减随多层跨模态图卷积网络的层数的增加而自适应地调整。

在本实施例中，分类设备将所述文本语义特征表示以及图像增强语义特征表示作为所述多层跨模态图卷积网络的首层输入数据，根据所述跨模态邻接矩阵以及预设的图卷积算法，获得所述多层跨模态图卷积网络的最后一层的输出的特征表示，作为所述多模态特征表示。

S7：将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文本数据的情感分类结果。

在本实施例中，分类设备将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文本数据的情感分类结果。

请参阅图7，图7为本申请一个实施例提供的情感分类方法中S7的流程示意图，包括步骤S91~S92，具体如下：

S71：对所述多模态特征表示进行编码处理，获得编码处理后的多模态特征表示，根据所述编码处理后的多模态特征表示、跨模态邻接矩阵以及预设的情感分类特征计算算法，获得情感分类特征表示。

在本实施例中，分类设备对所述多模态特征表示进行编码处理，获得编码处理后的多模态特征表示，其中，所述编码处理后的多模态特征表示包括若干个多模态特征向量。

分类设备采用软注意力机制，根据所述编码处理后的多模态特征表示、跨模态邻接矩阵以及预设的情感分类特征计算算法，将融合了图像信息以及文档信息的多模态特征通过非线性激活函数投影到注意空间，获得情感分类特征表示，其中，所述情感分类特征计算算法为：

式中， d为所述情感分类特征表示，为第九权重矩阵，为第 i个多模态特征向量，tanh（）为激活函数，为第二偏置参数。

S72：根据所述情感分类特征表示以及预设的情感概率分布计算算法，获得情感概率分布向量，根据所述情感概率分布向量，获取概率最大的维度对应的情感极性，将所述情感极性作为所述文本数据的情感分类结果。

所述情感概率分布计算算法为：

式中，为所述情感概率分布向量，为第十权重矩阵，为第三偏置参数。

在本实施例中，分类设备根据所述情感分类特征表示以及预设的情感概率分布计算算法，获得情感概率分布向量，根据所述情感概率分布向量，获取概率最大的维度对应的情感极性，将所述情感极性作为所述文本数据的情感分类结果。

具体地，当计算得到=[积极，消极，中性]=[0.1，0.7，0.2]，概率最大为消极，其概率最大的维度对应的情感极性为消极，将所述情感极性作为所述文本数据的情感分类结果。

请参阅图8，图8为本申请一个实施例提供的情感分类装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现情感分类方法的全部或一部分，该装置8包括：

数据获取模块81，用于获得文档数据以及预设的情感分类模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块；

语义特征提取模块82，用于将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示；

全局特征提取模块83，用于将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示；

图文对齐模块84，用于将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示；

邻接矩阵构建模块85，用于采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵；

特征交互模块86，用于将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示；

情感分类模块87，用于将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文档数据的情感分类结果。

在本申请的实施例中，通过数据获取模块，获得文档数据以及预设的情感分类模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块；通过语义特征提取模块，将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示；通过全局特征提取模块，将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示；通过图文对齐模块，将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示；通过邻接矩阵构建模块，采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵；通过特征交互模块，将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示；通过情感分类模块，将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文档数据的情感分类结果。通过提取文本对应的图像的语义特征以及全局特征，进行图文对齐，获得图像增强语义特征表示，以增强图像的语义表达能力，并通过提取文本对应的文本语义特征，结合图像增强语义特征表示来构建跨模态邻接矩阵，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高情感分类精度。

请参考图9，图9为本申请一个实施例提供的计算机设备的结构示意图，计算机设备9包括：处理器91、存储器92以及存储在存储器92上并可在处理器91上运行的计算机程序93；计算机设备可以存储有多条指令，指令适用于由处理器91加载并执行上述图1至图7所述实施例的方法步骤，具体执行过程可以参见图1至图7所述实施例的具体说明，在此不进行赘述。

其中，处理器91可以包括一个或多个处理核心。处理器91利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器92内的指令、程序、代码集或指令集，以及调用存储器92内的数据，执行情感分类装置7的各种功能和处理数据，可选的，处理器91可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble Logic Array，PLA）中的至少一个硬件形式来实现。处理器91可集成中央处理器91（Central ProcessingUnit，CPU）、图像处理器91（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器91中，单独通过一块芯片进行实现。

其中，存储器92可以包括随机存储器92（Random Access Memory，RAM），也可以包括只读存储器92（Read-Only Memory）。可选的，该存储器92包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器92可用于存储指令、程序、代码、代码集或指令集。存储器92可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器92可选的还可以是至少一个位于远离前述处理器91的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图7所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的情感分类方法，其特征在于：所述文本数据包括若干个文本语句，所述文本语句包括若干个单词；所述标签数据包括若干个标签语句，所述标签语句包括若干个单词；所述语义特征提取模块包括词嵌入模块、卷积模块以及编码模块；

所述将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示，包括步骤：

分别将所述文本数据、标签数据输入至所述词嵌入模块中，获得所述若干个文本语句的若干个单词的词嵌入向量，以及所述若干个标签语句的若干个单词的词嵌入向量；

分别将所述若干个文本语句的若干个单词的词嵌入向量、所述若干个标签语句的若干个单词的词嵌入向量输入至所述卷积模块，获得所述若干个文本语句的第一卷积特征向量，以及所述若干个标签语句的第一卷积特征向量；

分别将所述若干个文本语句的第一卷积特征向量、所述若干个标签语句的第一卷积特征向量输入至所述编码模块，获得所述文档数据的隐藏状态特征表示，作为所述文本语义特征表示，以及获得所述标签数据的隐藏状态特征表示，作为所述图像语义特征表示。

3.根据权利要求1所述的情感分类方法，其特征在于，所述将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示，包括步骤：

根据所述若干个图像以及预设的第二卷积特征计算算法，获得图像卷积特征表示，其中，所述图像卷积特征表示包括若干个图像的第二卷积特征向量，所述第二卷积特征计算算法为：

式中，为第j个图像的卷积特征向量，VGG（）为卷积函数，表示第j个图像；

根据所述图像卷积特征表示以及预设的图像全局特征计算算法，获得所述图像全局特征表示，其中，所述图像全局特征计算算法为：

式中，为所述图像全局特征表示，为第一权重矩阵，M为所述图像卷积特征表示，为第一偏置参数。

4.根据权利要求3所述的情感分类方法，其特征在于，所述将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示，包括步骤：

根据所述图像语义特征表示、图像全局特征表示以及预设的多头自注意力特征计算算法，获得若干个注意力特征，其中，所述多头自注意力特征计算算法为：

式中，为第i个所述注意力特征，softmax（）为归一化函数，为第二权重矩阵，为所述图像语义特征表示，为第三权重矩阵，为第四权重矩阵，为维度参数；

将所述若干个注意力特征进行拼接，获得图像拼接表示，根据所述图像拼接表示以及预设的隐藏状态计算算法，获得所述图像增强语义特征表示，其中，所述图像增强语义特征表示为：

5.根据权利要求3所述的情感分类方法，其特征在于，所述采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵，包括步骤：

根据所述文本语义特征表示以及预设的第一邻接矩阵构建算法，获得第一邻接矩阵，其中，所述第一邻接矩阵包括若干个文本节点之间的依赖关系向量，所述第一邻接矩阵构建算法为：

式中，为第一邻接矩阵，softmax（）为归一化函数，为第五权重矩阵，为所述文本语义特征表示，为第六权重矩阵，为维度参数；

根据所述图像增强语义特征表示以及预设的第二邻接矩阵构建算法，获得第二邻接矩阵，其中，所述第二邻接矩阵包括若干个图像节点之间的依赖关系向量，所述第二邻接矩阵构建算法为：

式中，为第二邻接矩阵，为第七权重矩阵，为所述文本语义特征表示，为第八权重矩阵；

根据所述文本语义特征表示、图像增强语义特征表示以及预设的第三邻接矩阵构建算法，获得第三邻接矩阵，其中，所述第三邻接矩阵包括各个文本节点与各个图像节点之间的依赖关系向量，所述第三邻接矩阵构建算法为：

式中，为第三邻接矩阵，topk（）为选择函数，为第八权重矩阵，为第九权重矩阵；

对所述第三邻接矩阵进行转置，获得第四邻接矩阵，根据所述第一邻接矩阵、第二邻接矩阵、第三邻接矩阵以及第四邻接矩阵，构建第五邻接矩阵，对所述跨模态邻接矩阵进行归一化处理，获得所述跨模态邻接矩阵对应的图拉普拉斯矩阵，作为所述跨模态邻接矩阵，其中，所述第五邻接矩阵包括若干个节点之间的依赖关系向量，所述节点包括文本节点以及图像节点，具体如下：

式中，为第五邻接矩阵中第i个节点与第j个节点之间的依赖关系向量，为第一超参数，为第二超参数，L为文本节点数目，N为图像节点数目，为第四邻接矩阵。

6.根据权利要求5所述的情感分类方法，其特征在于：所述多模态交互模块为多层跨模态图卷积网络；

所述将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示，包括步骤：

将所述文本语义特征表示以及图像增强语义特征表示作为所述多层跨模态图卷积网络的首层输入数据，根据所述跨模态邻接矩阵以及预设的图卷积算法，获得所述多层跨模态图卷积网络的最后一层的输出的特征表示，作为所述多模态特征表示，其中，所述图卷积算法为：

式中，为多层跨模态图卷积网络的第l+1层的输出的特征表示，为第三超参数，P为所述跨模态邻接矩阵，I为单位矩阵，为多层跨模态图卷积网络的第l层的偏置参数，为多层跨模态图卷积网络的第l层的权重矩阵。

7.根据权利要求6所述的情感分类方法，其特征在于，所述将所述多模态特征表示以及跨模态邻接矩阵输入至所述情感分类模块中进行情感分类，获得所述文档数据的情感分类结果，包括步骤：

对所述多模态特征表示进行编码处理，获得编码处理后的多模态特征表示，其中，所述编码处理后的多模态特征表示包括若干个多模态特征向量，根据所述编码处理后的多模态特征表示、跨模态邻接矩阵以及预设的文档特征计算算法，获得文档特征表示，其中，所述文档特征计算算法为：

式中，d为所述文档特征表示，为第九权重矩阵，为第i个多模态特征向量，tanh（）为激活函数，为第二偏置参数；

根据所述文档特征表示以及预设的情感概率分布计算算法，获得情感概率分布向量，根据所述情感概率分布向量，获取概率最大的维度对应的情感极性，将所述情感极性作为所述文档数据的情感分类结果，其中，所述情感概率分布计算算法为：

8.一种情感分类装置，其特征在于，包括：

数据获取模块，用于获得文档数据以及预设的情感分类模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述情感分类模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及情感分类模块；

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的情感分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情感分类方法的步骤。