CN117009925A

CN117009925A - 一种基于方面的多模态情感分析系统和方法

Info

Publication number: CN117009925A
Application number: CN202311278200.9A
Authority: CN
Inventors: 张涛; 杜晔; 孟文君; 闫昱名; 初宝昌; 胡勇; 李刚
Original assignee: Beijing Huadian E Commerce Technology Co ltd
Current assignee: Beijing Huadian E Commerce Technology Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117009925B

Abstract

本发明提供的基于方面的多模态情感分析系统和方法，属于人工智能领域，包括目标检测模块，对多模态数据中的图片信息进行目标检测；特征提取模块，提取多模态数据中的方面词、语句以及图片信息的特征，并生成特征向量；跨模态融合模块，将方面词特征信息、语句特征信息和图片特征信息融合，得到图片融合特征信息和语句融合特征信息；情感分析模块，通过线性变换生成情感分析向量，并以此确定情感极性。本发明将目标检测所得到的图片的细粒度信息与方面词进行特征融合，剔除了图片的噪音数据对情感分析结果的影响；构造跨模态融合模块和多层结构提高了语句和图片信息的融合效果，进而提高了基于方面的多模态情感分析的准确率和精确度。

Description

一种基于方面的多模态情感分析系统和方法

技术领域

本发明涉及自然语言处理和计算机视觉技术领域，尤其涉及一种基于方面的多模态情感分析系统和方法。

背景技术

情感分析是自然语言处理中的一个重要任务，近些年来在商业智能、社交媒体、公共管理等方面都有着亮眼的表现，因此也得到了越来越多的关注和发展。情感分析的目的便是利用自然语言处理技术对带有主观性的文本信息进行分析、处理，以此来提取其中所包含的情感色彩。以电商购物平台为例，情感分析可以通过分析用户本身行为所带有的情感倾向来获取用户对商品属性的偏好，以此为基础可以有效地判断用户对于不同商品所抱有的情感倾向，进而完成对用户的个性商品推荐，以此来减轻用户的认知负担，改善用户体验，增加用户粘性。

基于方面的多模态情感分析是情感分析中的一个分支，其所进行的是更加细粒度的情感分析，对给定的语句和对应的图片中的某一特定方面进行情感倾向的分析。对于基于方面的多模态情感分析来说，现存的方法大多使用的是图片的全局特征来进行分析，并没有进一步地考虑图片中所包含的更加详细的信息，这对于分析特定方面的情感倾向是不利的，因为图片中往往包含有多种不同方面的信息，而图片的全局特征往往没有将与分析方面无关的噪音信息去除。在考虑到提取图片中细粒度信息的工作中，有人通过多头自注意力机制提取的图像的局部上下文特征来进行情感分析，但是该工作所使用到的图片的细粒度信息还是较为模糊的。

公开号为CN114936623A的专利申请提出一种融合多模态数据的方面级情感分析方法，其仅通过ResNet50来完成图片特征的提取，并以此全局特征为基础来完成与方面词之间的对齐。该方法并没有考虑和处理图片中的局部特征，没有剔除无关噪声的影响。

公开号为CN115293170A的专利申请提出一种基于协同注意力融合的方面级多模态情感分析方法，其通过多头注意力机制提取的图片的局部上下文特征，但是该特征并不直观、具体,无法有效剔除无关噪声的影响。

发明内容

针对这些存在的问题，本发明通过使用目标检测方法得到图片中明确的细粒度信息，对注意力机制进行优化改进，并在此基础上构建了图片融合单元和语句融合单元来完成基于方面的多模态情感分析。

根据本发明的一方面，提出一种基于方面的多模态情感分析系统，包括目标检测模块、特征提取模块、跨模态融合模块和情感分析模块；其中，

目标检测模块，用于对多模态数据中的图片信息进行目标检测，得到图片中存在的所有目标，并对每一个目标，提取图片信息，所述图片信息包括图像信息和置信度信息或者图像信息、描述性标签信息和置信度信息；

特征提取模块，用于提取多模态数据中的方面词、语句，以及目标检测模块传送的图片信息的特征，并生成方面词特征信息、语句特征信息和图片特征信息，所述图片特征信息包括图像特征信息和置信度信息或者图像特征信息、描述性标签特征信息和置信度信息；

跨模态融合模块，用于将方面词特征信息、语句特征信息和图片特征信息融合，得到图片融合特征信息和语句融合特征信息。

情感分析模块，用于将跨模态融合模块传送的图片融合特征信息和语句融合特征信息输入到线性层，通过线性变换生成情感分析向量。

进一步地，在跨模态融合模块包含2组图片融合单元和语句融合单元以及第二GRU 网络和第三GRU网络；图片融合单元，采用目标注意力机制完成方面词特征信息、语句特征信息和图片特征信息的融合；语句融合单元，采用注意力机制完成方面词特征信息、语句特征信息和图片特征信息的融合；目标注意力机制为注意力机制的改进，改进之处在于使用作为注意力矩阵，其中，X为注意力机制的注意力矩阵，为置信度信息。

进一步地，第1组图片融合单元包括的第一目标注意力机制，用于接收方面词特征信息、图像特征信息和置信度信息，计算输出第一方面词和图片融合信息，并作为第1组图片融合特征信息；第1组语句融合单元包括的注意力机制，用于融合方面词和语句特征信息，获得第1组语句融合特征信息。

进一步地，第1组图片融合单元中，还包括第二目标注意力机制和第一GRU网络；第二目标注意力机制，用于接收方面词特征信息、图像特征信息、描述性标签特征信息和置信度信息，计算输出第二方面词和图片融合信息；第一GRU网络，用于融合第一方面词和图片融合信息与第二方面词和图片融合信息为第1组图片融合特征信息。

进一步地，第2组图片融合单元包括的第一目标注意力机制接收第1组的语句融合特征信息、图像特征信息和置信度信息，生成第2组第一初始图片融合特征信息，并作为第2组初始图片融合特征信息；第二GRU网络，用于将第2组初始图片融合特征信息和第1组的语句融合特征信息融合为第2组图片融合特征信息；

第2组语句融合单元包括的注意力机制接收第1组的图片融合特征信息和语句特征信息，生成第2组初始语句融合特征信息；第三GRU网络，用于将第2组初始语句融合特征信息和第1组的图片融合特征信息融合为第2组语句融合特征信息。

进一步地，第2组图片融合单元包括的第二目标注意力机制接收第1组的语句融合特征信息和图像特征信息、描述性标签特征信息和置信度信息，生成第2组第二初始图片融合特征信息；第2组图片融合单元包括的第一GRU网络，用于将第2组第一初始图片融合特征信息和第二初始图片融合特征信息融合为第2组初始图片融合特征信息。

进一步地，包括多个顺次连接的跨模态融合模块，组成多层结构；其中，从第二层跨模态融合模块开始，每层跨模态融合模块的第1组图片融合单元的输入为图片特征信息和上一层得到的第2组图片融合特征信息，每层跨模态融合模块的第1组语句融合单元的输入为语句特征信息和上一层得到的第2组语句融合特征信息。

进一步地，情感分析模块包括线性层，用于接收跨模态融合模块输出的图片融合特征信息和语句融合特征信息，生成情感分析向量。

进一步地，还包括训练模块，用于将样本数据输入目标检测模块，然后将情感分析模块输出的情感分析向量与样本数据的情感标签进行比较，通过反向传播算法调整多模态情感分析系统中可训练网络的参数。

根据本发明的另一方面，提出一种基于方面的多模态情感分析方法，包括：

S1、将多模态数据中的图片信息输入到目标检测模块，得到图片中存在的所有目标、目标的图片信息；

S2、提取多模态数据中的方面词、语句，以及目标检测模块传送的图片信息的特征，并生成方面词特征信息、语句特征信息和图片特征信息；

S3、将方面词特征信息、语句特征信息和图片特征信息输入跨模态融合模块，获得图片融合特征信息和语句融合特征信息。

S4、将图片融合特征信息和语句融合特征信息输入情感分析模块，生成情感分析向量。

本发明相比于现有技术的有益效果为：

（1）本发明通过将目标检测所得到的图片的细粒度信息与细粒度的方面词进行特征融合，剔除了图片中与方面词无关的噪音数据对情感分析结果的影响。

（2）通过构造跨模态融合模块和多层结构提高了语句和图片之间信息融合的效果，进而提高了基于方面的多模态情感分析的准确率和精确度。

（3）在基于方面的多模态情感分析数据集2015上所进行的实验中，本发明所得到的F1值比现有模型的表现更好。

附图说明

为了更清楚地说明本发明的公开实施例，下面将对发明的实施中所需要使用到的附图进行简单的介绍。

图1为本发明一个实施例的多模态情感分析系统的结构示意图；

图2为本发明一个实施例的多模态情感分析系统的数据流程示意图；

图3为本发明一个实施例的跨模态融合单元的结构示意图；

图4为本发明一个实施例的图片融合单元的结构示意图；

图5为本发明另一个实施例的图片融合单元的结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1、2所示，本发明提出一种基于方面的多模态情感分析系统，包括目标检测模块、特征提取模块、跨模态融合模块、情感分析模块。

目标检测模块，用于对多模态数据中的图片信息进行目标检测，得到图片中所存在的所有目标，并对每一个目标，提取图片信息，图片信息包括目标所占的图片区域的图像信息和置信度信息，或者图片信息包括目标所占的图片区域的图像信息、置信度信息和目标的描述性标签信息。

特征提取模块，用于提取多模态数据中的方面词、语句，以及目标检测模块传送的图片信息的特征，并生成方面词特征信息、语句特征信息、图片特征信息，相应的，图片特征信息包括图像特征信息、置信度信息，也可以包括标签特征信息。

跨模态融合模块，用于将方面词特征信息、语句特征信息、图片特征信息融合，得到图片融合特征信息和语句融合特征信息。

每个多模态数据包含方面词、语句和对应的图片的数据，在目标检测模块中，使用现有的目标检测方法Faster R-CNN算法对数据中的图片进行目标检测处理（a 为图片的颜色通道数，分别为图片的长和宽），得到图片中所包含的n个目标，并得到每一个目标所占图片区域的局部图片信息、检测出该目标的置信度信息。在一个实施例中，目标检测模块还可以得到目标的文本描述性标签信息（在后面描述中，方面词和图片的融合信息的举例中，一个例子未包括描述性标签信息，另一个包括了该信息）。比如一个餐桌的图片中可能检测出桌子上的食物、放食物的盘子、叉子，整个桌子，等等，局部图片信息就是在图片中通过长方形截取该目标的区域，标签就是每个截取出区域的标签，就比如上文中提到的“食物”“叉子”“桌子”等，置信度就是对截取出该目标的自信程度，数值越高就是对识别出这个目标越自信。之后将图片整体信息和目标的局部信息组合得到本发明所使用到的图片信息，该信息包含有图像信息，图像对应的标签信息以及置信度信息。其中代表目标检测方法所检测出目标的规定数量，则分别代表图片中目标的图像信息、标签信息、置信度信息；用于表示图片的整体信息，其中为整个图片的图像信息、用于表示整体图片的标签、用于表示整体图片的置信度。

Faster R-CNN是 two-stage目标检测模型中的典型代表，由任少卿等人于2016年提出，其主要包括两个模块：一是通过深度全卷积网络RPN来产生候选区域，二是通过FastR-CNN对产生的候选区域进行分类和边框回归计算。整体结构通过RPN区域提取网络和R-CNN网络联合训练实现了高效的目标检测。

在特征提取模块中，对于不同信息采用不同的处理方式提取特征，在之后情感分析模型的计算中，每一种信息的特征都被用来代表本信息所包含的内容，并以此为基础完成不同信息之间的融合。此处按照信息来源对处理方式进行分别介绍。

对于多模态数据中的方面词，本发明通过获取该方面词的字嵌入、段嵌入、位置嵌入并输入到可训练的BERT模型中来获取其向量化表示（BERT模型可以用于提取输入文本的向量化表示，所得到的进行特征提取后的向量维度固定是768），其中用于表示每个方面词被限定的长度。将词转为向量的方式还有很多，此处的BERT模型仅为示例。

BERT模型为Google于2018年发布的一个预训练语言表示模型，其以文本的字嵌入、段嵌入、位置嵌入为输入，以文本所对应的向量表示为输出。其使用的策略主要分为两种：基于特征的方法和基于微调的方法。本发明通过使用基于微调的方法，首先利用经过预训练的BERT模型提取文本的特征，并使用该文本特征来完成本发明的任务目标。之后根据本发明所使用到的数据集和标签来对经过预训练的BERT模型进行参数上的优化。

对于多模态数据中的语句，上文提到的方面词为其子句，因此本发明将语句划分为两个部分：方面词，以及语句中的方面词被替换为 “”后的完整语句。之后以“”的格式组合成用于特征提取的语句。[CLS]、[SEP]是BERT模型使用的分割符号），通过可训练的BERT模型，以的字嵌入、段嵌入、位置嵌入为输入，最终获取所对应的特征信息，其中用于表示每个语句所被限定的长度。

对于多模态数据中图片的特征信息提取主要分为两部分：图像信息和图像对应的标签信息的特征信息提取。对于图像信息中每一个信息，本发明首先将其通过缩放、水平翻转、切割和归一化处理转化为图片（比如，224像素*224像素大小），之后通过使用现有的已经过预训练的残差网络ResNet152对其进行特征信息的提取，得到该图像所对应的特征信息。以此操作对图像信息中的所有图像完成特征信息提取后得到该图像信息所对应的图像特征信息。残差网络是现有的技术，在提取图片特征这方面用使用得很普遍。

而对于每一个图像的特征信息所对应的标签信息，本发明使用可训练的模型以的词嵌入、段嵌入、位置嵌入为输入，对其进行特征信息的提取，得到其所对应的特征信息，其中为每个标签所被限定的长度。以此操作对中的所有标签完成特征信息提取后得到其所对应的标签特征信息。

在跨模态融合模块中，包含2组图片融合单元和语句融合单元以及第二GRU网络和第三GRU网络，如图3所示。图片融合单元采用目标注意力机制完成方面词、语句和图片之间的特征信息融合。目标注意力机制为对现有注意力机制的改进，改进之处在于使用作为注意力矩阵，其中，X为现有注意力机制的注意力矩阵，为多模态数据中所有目标的置信度信息。

现有的注意力机制可以通过公式进行表示。其中用于代表待处理的特征向量，为向量的维度，被用于完成矩阵的归一化，稳定梯度，为权重矩阵，可以进行调整。

其实现的过程主要可以分为三步，其一是通过权重矩阵对输入的特征向量信息进行处理，计算得到向量；其中是经过初始化的权重矩阵，在模型训练的过程中进行参数优化；其二为通过计算得到和之间的注意力矩阵；最后一步所进行的为通过注意力矩阵和向量计算得到最终的结果。对于第二步中得到的注意力矩阵，其中的参数代表中的第个元素对中的第个元素的注意力值，可以认为越大，与之间就有着越高的相关性，反之亦然。在实现的过程中，注意力机制通过对的注意力值来作为对的注意力值，并将以此为权值计算得到的用于代表所对应的向量的综合信息。

在目标注意力机制中，的计算方法与注意力机制相同，通过计算得到，因此和所代表的均为图像的特征信息。考虑到中所包含的为图片中所有目标的图像信息，因此若直接将此处得到的作为注意力机制的输入，并将得到的输出作为融合结果，则会丢失掉图片通过目标检测方法所得到的一部分先验知识，即图片中所含目标的可信度信息。一般而言，拥有更高置信度的目标所存在的图片区域含有的图像信息会有着更高的清晰度以及更加明确的特征信息，因此应当获得更多的注意，即应当具有更大的注意力值。为此，本发明在通过注意力机制来进行不同信息融合时引入了目标检测方法所得到的置信度信息来对注意力矩阵的计算进行优化改进，即将式子中所得到的矩阵作为新的注意力矩阵，也就是通过计算的方式对向量中的元素重新分配注意力权重，将作为向量中的第i个元素对向量中第j个目标的注意力值。之后通过矩阵和向量之间的计算得到融合信息。

在一个实施例中，第1组图片融合单元，如图4所示，包括第一目标注意力机制，用于接收并融合方面词、图像特征信息和置信度信息，生成第1组图片融合特征信息。第1组语句融合单元，包括注意力机制（为现有注意力机制），用于接收并融合方面词和语句特征信息，获得第1组语句融合特征信息。

第1组图片融合单元中，第一目标注意力机制的输入为方面词的特征信息、图片中所有目标的图像特征信息和置信度信息，输出为第一方面词和图片融合信息，其计算过程可以用表示。可以将作为第1组图片融合特征信息。

在另一个实施例中，第1组图片融合单元中，还包括第二目标注意力机制和第一 GRU网络，如图5所示。由于标签信息是对图片中检测出的目标进行的文字标注，是对目标的分类，概括了图片中目标的主要特征，因此也可以在一定程度上用于代表其所对应的图像信息。该标签信息与图片本身的图像信息相比，其所包含的信息较为简单，但相对来说也更加的清晰易于理解，因此本发明中，第二目标注意力机制用于方面词和图片信息融合时选择引入图像所对应的标签信息，其输入为方面词的特征信息、图片中所有目标的图像特征信息、描述性标签特征信息和置信度信息，通过传统方式计算，得出第二目标注意力所需的向量，然后计算得到方面词与目标的所有标签信息之间的注意力矩阵，其中被用于代表方面词中的第个元素对第个标签信息所具有的注意力值。考虑到目标的标签与其图像之间的对应关系，也可以被认定为方面词的第个元素对第个目标的图像信息所具有的注意力值。同时，考虑到目标的置信度信息可以起到对该注意力值进行优化的效果，因此在第二目标注意力机制中同样采用计算的方式来对向量中的元素重新分配注意力权值。之后，通过与之间的计算得到第二方面词与图片融合信息，其计算过程可以用表示。

第一GRU网络用于融合和，以得到第1组图片融合特征信息，其为现有技术，具体实现方法和过程不再赘述。

从上面两个实施例可以看出，图片融合单元有两种结构，在第2组图片融合单元中，可以任意使用其中的一种。

在一定程度上，跨模态融合模块的第1组图片融合特征信息和第1组语句融合特征信息和都可以被认为是同时含有方面词的特征信息、语句的特征信息、图片的特征信息的融合特征信息，即均可以用于代表方面词、语句、图片三者的信息融合结果，但两者本质上都只是经过筛选和加权求和得到的图片特征信息和语句特征信息，为了更准确地进行情感分析，我们设置了第2组图片融合单元和语句融合单元进一步提取多模态之间的特征融合信息。

第2组图片融合单元中的目标注意力机制与第1组图片融合单元的目标注意力机制的方法相同，但是输入不同，根据输入的不同，中间计算有所不同，但本领域技术人员可以理解其原理是一致的。

第1组图片融合单元，根据具体结构的不同，接收的分别为（1）方面词的特征信息、图片中所有目标的图像特征信息和置信度信息或者（2）方面词的特征信息、图片中所有目标的图像特征信息、描述性标签特征信息和置信度信息，而第2组图片融合单元，根据结构的不同，接收的分别是（1）第1组的语句融合特征信息、图像特征信息和置信度信息；或者（2）第1组的语句融合特征信息、图像特征信息、描述性标签特征信息和置信度信息；从而生成第2组初始图片融合特征信息；然后第二GRU网络将第2组初始图片融合特征信息和第1组语句融合特征信息融合为第2组图片融合特征信息。

语句融合单元，包括注意力机制（即传统的注意力机制），用于融合输入的信息。具体来说，第一语句融合单元，接收方面词的特征信息、语句特征信息输入到注意力机制中，获取第1组语句融合特征信息。具体的实现上，以式子计算得到所需的、、向量。并计算得到注意力矩阵，其中的参数可以用于表示方面词的第个元素对语句中第个词的注意力值，最终结果中的参数可以用于表示第个方面词所对应的语句信息的加权结果，即综合的语句特征信息。语句融合单元使用上述注意力机制来完成信息融合的整个处理流程可以用表示。

第2组语句融合单元包含的注意力机制与第1组语句融合单元的注意力机制的原理相同，但接收内容不同，其接收第1组图片融合特征信息和语句特征信息，生成第2组初始语句融合特征信息，然后通过第三GRU网络将第2组初始语句融合特征信息和第1组的图片融合特征信息融合为第2组语句融合特征信息。

在一个实施例中，为了获得更好的效果，跨模态融合模块可以有多个，顺次连接，组成多层结构，如图2所示，这样可以更好地融合方面词、语句、图片信息。比如后面的实验中，跨模态融合模块为3个。

第i层（2<=i<=人为设定的数值）跨模态融合模块中的第1组图片融合单元、第1组语句融合单元和第1层跨模态融合模块中的第1组图片融合单元、第1组语句融合单元结构相同，但是输入不同。虽然输入不同，但是计算的过程完全相同。在此仅对输入变化所带来的变化部分进行介绍。

第一层跨模态融合模块中的第1组图片融合单元以方面词特征、图片特征信息为输入；从第二层开始的跨模态融合模块中的第1组图片融合单元以图片特征信息和上一层跨模态融合模块所得到的第2组图片融合特征信息为输入。具体的计算部分没有变化。

第一层跨模态融合模块中的第1组语句融合单元以方面词特征、语句特征信息为输入；从第二层开始的跨模态融合模块中的第1组语句融合单元以语句特征信息和上一层跨模态融合模块所得到的第2组语句融合特征信息为输入。具体的计算部分没有变化。

在情感分析模块中，接收最后一组跨模态融合模块输出的图片融合特征信息和语句融合特征信息，通过线性层生成情感分析向量，其中，为需要判断的情感极性分类的数量（如分析结果包括积极、中性、消极，则m为3）。线性层为现有技术，此处不再赘述。

本发明还包括训练模块，用于将样本数据输入目标检测模块，然后将情感分析模块输出的情感分析向量与样本数据的情感标签进行比较，通过反向传播算法调整多模态情感分析系统中可训练网络的参数（比如BERT模型、GRU网络、注意力机制、目标注意力机制）。

上述步骤中，目标检测模块、特征提取模块、跨模态融合模块、情感分析模块在上文多模态情感分析系统中有具体描述。

下面通过实验对比了本发明所述模型与未采用本发明所述方法产生的模型的分析效果。

参数选择：本发明将训练过程中的Batch Size设置为10，学习率初始化为，并根据实验得到的结果进行一定的微调，Dropout Rate设置为。跨模态融合模块的组数为3。用于提取文本特征信息的BERT模型，参数被进行统一的初始化，权值设置为1.0，偏差值设置为0，并随着训练的进行，通过反向传播算法等进行调整。

本实施例在公开数据集上进行实验，在训练集、测试集相同的情况下，以准确率和F1为评测指标，对不同的方法进行实验和比较，结果如下：

结果标明：当模型所包含的多模态融合模块数为1时，准确率下降了，F1下降了2.11%；当去掉图片与语句的信息融合部分，即每个多模态融合模块的第二组图片融合单元和语句融合单元时，准确率下降了1.06%，F1下降了2.05%；当去掉模型中所有的目标注意力机制，并替换为传统注意力机制时，准确率下降了1.63%，F1下降了2.19%。因此可以证明，利用多组跨模态融合模块（包含目标注意力机制、图片与语句的信息融合），可以有效地提升基于方面的多模态情感分析的效果。

我们选择了国际顶级会议ACL上发表的基于方面的多模态情感分析论文《Exploiting BERT For Multimodal Target Sentiment Classification Through InputSpace Translation》为基线系统。可以得到如下实验结果。

实验结果标明：在的测试集上，本发明的准确率和F1比基线系统分别高了0.47%和0.37%。因此，在测试集数据相同的情况下，采用本发明所述方法与不使用本发明的方法相比，基于方面的多模态情感分析的结果具有明显的提升。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于方面的多模态情感分析系统，其特征在于，所述多模态情感分析系统包括目标检测模块、特征提取模块、跨模态融合模块和情感分析模块；其中，

跨模态融合模块，用于将方面词特征信息、语句特征信息和图片特征信息融合，得到图片融合特征信息和语句融合特征信息；

2.根据权利要求1所述的多模态情感分析系统，其特征在于，在跨模态融合模块包含2组图片融合单元和语句融合单元以及第二GRU网络和第三GRU网络；图片融合单元，采用目标注意力机制完成方面词特征信息、语句特征信息和图片特征信息的融合；语句融合单元，采用注意力机制完成方面词特征信息、语句特征信息和图片特征信息的融合；目标注意力机制为注意力机制的改进，改进之处在于使用作为注意力矩阵，其中，X为注意力机制的注意力矩阵，/>为置信度信息。

3.根据权利要求2所述的多模态情感分析系统，其特征在于，第1组图片融合单元包括的第一目标注意力机制，用于接收方面词特征信息、图像特征信息和置信度信息，计算输出第一方面词和图片融合信息，并作为第1组图片融合特征信息；第1组语句融合单元包括的注意力机制，用于融合方面词和语句特征信息，获得第1组语句融合特征信息。

4.根据权利要求3所述的多模态情感分析系统，其特征在于，第1组图片融合单元中，还包括第二目标注意力机制和第一GRU网络；第二目标注意力机制，用于接收方面词特征信息、图像特征信息、描述性标签特征信息和置信度信息，计算输出第二方面词和图片融合信息；第一GRU网络，用于融合第一方面词和图片融合信息与第二方面词和图片融合信息为第1组图片融合特征信息。

5.根据权利要求2所述的多模态情感分析系统，其特征在于，第2组图片融合单元包括的第一目标注意力机制接收第1组的语句融合特征信息、图像特征信息和置信度信息，生成第2组第一初始图片融合特征信息，并作为第2组初始图片融合特征信息；第二GRU网络，用于将第2组初始图片融合特征信息和第1组的语句融合特征信息融合为第2组图片融合特征信息；

6.根据权利要求5所述的多模态情感分析系统，其特征在于，第2组图片融合单元包括的第二目标注意力机制接收第1组的语句融合特征信息和图像特征信息、描述性标签特征信息和置信度信息，生成第2组第二初始图片融合特征信息；第2组图片融合单元包括的第一GRU网络，用于将第2组第一初始图片融合特征信息和第二初始图片融合特征信息融合为第2组初始图片融合特征信息。

7.根据权利要求1所述的多模态情感分析系统，其特征在于，包括多个顺次连接的跨模态融合模块，组成多层结构；其中，从第二层跨模态融合模块开始，每层跨模态融合模块的第1组图片融合单元的输入为图片特征信息和上一层得到的第2组图片融合特征信息，每层跨模态融合模块的第1组语句融合单元的输入为语句特征信息和上一层得到的第2组语句融合特征信息。

8.根据权利要求1所述的多模态情感分析系统，其特征在于，情感分析模块包括线性层，用于接收跨模态融合模块输出的图片融合特征信息和语句融合特征信息，生成情感分析向量。

9.根据权利要求1所述的多模态情感分析系统，其特征在于，还包括训练模块，用于将样本数据输入目标检测模块，然后将情感分析模块输出的情感分析向量与样本数据的情感标签进行比较，通过反向传播算法调整多模态情感分析系统中可训练网络的参数。

10.一种基于方面的多模态情感分析方法，其特征在于，包括：

S3、将方面词特征信息、语句特征信息和图片特征信息输入跨模态融合模块，获得图片融合特征信息和语句融合特征信息；