CN116108186B

CN116108186B - 一种多模态方面级情感分析方法

Info

Publication number: CN116108186B
Application number: CN202310390653.4A
Authority: CN
Inventors: 张莹; 周如; 郭文雅; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-06-20
Anticipated expiration: 2043-04-13
Also published as: CN116108186A

Abstract

本发明涉及人工智能技术领域，提供一种多模态方面级情感分析方法。该方法包括：采集数据并对数据进行预处理，生成图片数据和文本数据对应的语法依赖树，并抽取数据的多模态特征；搭建方面词注意模块，并通过方面词注意模块获取与方面词相关的方面词语义信息，生成语义特征；根据多模态特征和语法依赖树构建第一卷积网络，并构建多模态权重关联矩阵，通过多模态权重关联矩阵对第一卷积网络迭代更新；引入语义特征对应的情感值，并使用第一卷积网络对带有情感值的语义特征进行训练，生成面向方面词的情感特征；根据语义特征和情感特征构建第二卷积网络，输入待识别数据并获取识别结果，该方法有效地提高了情感分析的准确度和效率。

Description

一种多模态方面级情感分析方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态方面级情感分析方法。

背景技术

随着互联网的发展，社交媒体平台成为人们发表言论和观点的主要阵地，高效地识别用户对重要组织、重要人物等方面的情感对平台治理用户的不当言论、建模用户偏好以实现精准的个性化推荐有重要的实用意义。同时也有助于监控消费者行为、评估产品质量、监控舆情、调研市场等。

多模态方面级情感分析通过分析用户发表的多模态帖子，识别用户描述的所有对象即方面词并推测它们对应的情感。在多模态细粒度情感分类场景中，用户帖子往往包含多个方面词且情感不一致，且输入的文本-图像对往往是复杂的，增加了情感分析的难度。首先，句子的语义复杂增加了不同方面词情感的混淆。其次，图像包含大量的细节信息，但往往只与其中一个或几个方面词相关，对图像不恰当的关注容易误导最后的情感分类。考虑到多模态输入，现有的方法致力于关联图像和文本内容，主要采用的方法有：利用图文关系决定是否在情感分析中考虑图像的信息、对齐图像和文本的物体特征表示。

现有方法中首先未能对齐图片区域和相关的方面词，粗粒度的整张图片和方面词的对齐引入了与方面词不相关的图像噪音，其次，这些方法忽略了句子结构复杂时，不同方面词的观点描述相互干扰，文本噪音影响了最终的情感预测。

发明内容

本发明提供一种多模态方面级情感分析方法，旨在解决现有的图文粗粒度对齐和去除结构复杂引入的噪音，分别面向方面词的语义信息和情感信息检测，降低噪音提升准确率。

本发明提供一种多模态方面级情感分析方法，包括如下步骤：

S100：采集带有用户情感倾向的方面词的数据并对所述数据进行预处理，生成所述数据对应的语法依赖树，并抽取预处理后的所述数据的多模态特征；

S200：搭建用于对齐所述方面词的所述多模态特征的方面词注意模块，并通过所述方面词注意模块获取与所述方面词相关的方面词语义信息，生成语义特征；

S300：根据所述多模态特征和所述语法依赖树构建第一卷积网络，并构建多模态权重关联矩阵，通过所述多模态权重关联矩阵对所述第一卷积网络迭代更新；

S400：引入所述语义特征对应的情感值，并使用所述第一卷积网络对带有所述情感值的所述语义特征进行训练，生成面向所述方面词的情感特征；

S500：根据面向所述方面词的所述语义特征和所述情感特征构建第二卷积网络，输入待识别数据并获取识别结果。

根据本发明提供的一种多模态方面级情感分析方法，步骤S100包括如下步骤：

S110：采集带有用户情感倾向方面词的数据，所述数据包括图片数据和文本数据；

S120：对于所述文本数据包含的所有所述方面词判断抽取到的所述方面词对应的情感倾向，生成方面词情感对；

S130：通过依赖树工具生成与所述文本数据对应的语法依赖树；

S140：处理所述图片数据，生成与所述文本数据对应的图片索引；

S150：将所述方面词情感对、所述语法依赖树和所述图片索引保存；

S160：抽取预处理后的所述数据的多模态特征。

根据本发明提供的一种多模态方面级情感分析方法，步骤S160包括如下步骤：

S161：对于所述文本数据进行序列分类处理，获取所述文本数据对应的单词嵌入式特征，并对应生成文本序列；

S162：对于所述图片数据进行卷积训练，获取所述图片数据对应的区域特征，并对应生成图片序列；

S163：通过线性层将所述区域特征的维度转为与所述单词嵌入式特征相同的维度；

S164：将所述文本序列拼接在所述图片序列后，生成多模态序列；

S165：将所述多模态序列进行编码处理，生成多模态特征。

根据本发明提供的一种多模态方面级情感分析方法，步骤S200中搭建用于对齐所述方面词的所述多模态特征的方面词注意模块包括如下步骤：

S210：在文本数据中获取候选方面词，并生成候选方面词信息；

S220：对所述候选方面词信息进行加权处理，生成与候选方面词信息对应的候选方面词语义信息；

S230：对所述候选方面词语义信息进行动态加权处理，生成候选方面词语义特征；

S240：对所述候选方面词语义特征进行分类预训练，生成所述方面词注意模块。

根据本发明提供的一种多模态方面级情感分析方法，步骤S210还包括，根据注意力机制对获取到的所述候选方面词进行加权处理。

根据本发明提供的一种多模态方面级情感分析方法，S300中所述构建多模态权重关联矩阵的过程包括如下步骤：

S311：建立多模态布尔矩阵，所述多模态布尔矩阵包括文本文本部分、图片图片部分、文本图片部分和图片文本部分；

S312：将所述文本文本部分中任意两文本存在联系的文本文本部分节点置为1；

S313：将所述图片图片部分初始化为对角矩阵；

S314：当任一文本图片部分或图片文本部分中的文本为所述候选方面词时，将该文本图片部分节点或图片文本部分节点置为1；

S315：通过余弦相似度计算不同节点之间的关联强度，生成多模态权重关联矩阵。

根据本发明提供的一种多模态方面级情感分析方法，步骤S312中，根据所述语法依赖树小于等于两代内的文本数据，判断所述文本文本部分中两文本是否存在联系。

本发明提供的一种多模态方面级情感分析方法，通过将名词短语作为候选方面词引导注意的方法，多模态中考虑到不同的图片区域关联到不同的方面词，不同的文本描述观点关联到不同的方面词，且各类型信息之间关联程度不同的性质，聚焦于检测方面词对应的图文信息，削弱了与体现情感不相关的图片区域和文字描述的噪音，减少了对特定方面词用于情感判断的干扰，有效地提高了情感分析的准确度和效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种多模态方面级情感分析方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1描述本发明提供的实施例。

S100：采集带有用户情感倾向的方面词的数据并对数据进行预处理，生成所述数据对应的语法依赖树，并抽取预处理后的数据的多模态特征；

其中，步骤S100包括如下步骤：

在一些实施例中，在数据预处理阶段，首先收集部分推特用户发表的包含图片和文本的多模态帖子，并提取每个帖子包含的方面词，同时初步判断每个方面词在该语境中的情感倾向，初步判断所得的情感倾向包括消极、中性和积极。

在一些实施例中，根据上述所得初步判断的情感倾向，可以获得方面词情感对的数据标签，其后使用依赖树工具生成句子的语法依赖树作为帖子的语法信息保存。

在一些实施例中，对于帖子中的图片部分，则生成与文字部分对应的索引，将图片保存到统一的文件夹中。也就是说，对应保存的样本数据包括预处理后的文本数据、方面词情感对、语法依赖树和图片索引。

S160：抽取预处理后的所述数据的多模态特征。

其中，步骤S160包括如下步骤：

在一些实施例中，鉴于深度学习领域中BART模型在文本表示上的优越能力，使用与训练后的BART模型获取初始化的抽取到的单词嵌入式特征。而对于采集到的图片，首先将图片尺寸统一调整至224*224像素，其后使用ResNet模型获取图片中的49个区域特征，并通过线性层将图片的特征维度转换至与单词嵌入式特征相同的维度。

在一些实施例中，为了区分不同数据的模态特点，需要在每个图片获取到的49个区域特征前后分别补充<img>和</img>，以表示图片的开始和结束，另外需要在每个单词前后分别补充<bos>和<eos>，以表示单词的开始和结束。

S165：将所述多模态序列进行编码处理，生成多模态特征。

在一些实施例中，是在图片序列后拼接文本序列形成多模态序列的，其次再将多模态序列输入到BART编码器中，获得每一个图片区域和单词的隐藏特征序列，从而获得多模态特征。

S200：搭建用于对齐所述方面词的多模态特征的方面词注意模块，并通过方面词注意模块获取与方面词相关的方面词语义信息，生成语义特征；其中，步骤S200中搭建用于对齐所述方面词的所述多模态特征的方面词注意模块包括如下步骤：

其中，步骤S210还包括，根据注意力机制对获取到的所述候选方面词进行加权处理。

在一些实施例中，首先考虑到方面词通常是句子中的名词短语，所以使用神经语言程序学工具抽取名词短语作为候选方面词，其次进行如上述的操作，根据BART编码器的输出，获取候选方面词的特征。

在一些实施例中，为了获取候选方面词和原子特征的关系，应用了候选方面词引导的注意力机制，其中在候选方面词的注意力分布如下：

其中，

为候选方面词和隐藏特征的复合特征，/>

为激活函数，/>

为候选方面词特征，/>

为给定的第/>

个隐藏特征，/>

为候选方面词的注意力分布，/>

为矩阵和向量间操作符，/>

为归一化指数函数，/>

为第一可学习参数，/>

第二可学习参数，/>

为第三可学习参数，/>

为第四可学习参数，/>

为第五可学习参数，/>

为第六可学习参数。

在一些实施例中，接着通过加权求和所有的候选方面词来获取方面词相关的隐藏特征，表示如下：

其中，

为方面词相关的隐藏特征，/>

第/>

个隐藏特征在第/>

个候选方面词上的注意力权重，/>

第/>

个候选方面词的隐藏特征。

在一些实施例中，考虑到并不是每个视觉块都能对预测产生帮助，所以将学习获得值用以加和原子特征和它对应的方面词，表示如下：

其中，

为通过学习获得的权重值，/>

为神经元的非线性作用函数，/>

为词语原子特征，/>

为方面词注意模块的最终输出特征，/>

为第七可学习参数，/>

为第八可学习参数，/>

为第九可学习参数，/>

为第十可学习参数。

在一些实施例中，通过语义对齐和噪音削弱，获得了如上的面向方面词的语义特征，为了对齐两个模态和削弱噪音，会在方面词注意模块构建一个预训练任务。具体地来说，首先在TRC数据集上检测图文关系，从方面词注意模块获取图片区域的平均特征，然后通过全连接softmax层输出该图片是否与文本相关的概率分布，最后使用交叉熵损失训练模型进行训练。

S300：根据多模态特征和语法依赖树构建第一卷积网络，并构建多模态权重关联矩阵，通过多模态权重关联矩阵对第一卷积网络迭代更新；

在一些实施例中，第一卷积网络采用图卷积网络，且一般由于使用了两层图卷积网络，所以输出的特征在第一层之后得到了更新，第一层的输出特征继续输入至第二层网络得到二次更新，即迭代更新。

其中，步骤S300中所述构建多模态权重关联矩阵的过程包括如下步骤：

S312：将所述文本文本部分中任意两文本存在联系的节点置为1；

其中，步骤S312中，根据所述语法依赖树小于等于两代内文本数据，判断所述文本文本部分中两文本是否存在联系。

S313：将所述图片图片部分初始化为对角矩阵；

在一些实施例中，记引入的语义特征为情感特征，第一卷积网络以情感特征和多模态权重关联矩阵为输入，在多模态权重关联矩阵的引导下，卷积网络为每个特征聚合相关的情感信息，由此获得特征更新。

S400：引入语义特征对应的情感值，并使用第一卷积网络对带有情感值的语义特征进行训练，生成面向方面词的情感特征；

在一些实施例中，方面词注意模块方面词注意模块中视觉模态和文本模态之间的专注于方面词的交互聚焦于文本语义，对多模态方面级情感分析来说是不充分的。不同方面词之间的情感干扰仍然存在并影响着情感预测。因此，设计方面词指导的图卷积网络，引入外部的情感信息并在一定程度上减轻不同方面词之间的情感混淆。

在一些实施例中，对于句子中每一个单词都能从SenticNet获取它的情感得分，将得分投射到同维度空间上，由此可以获得情感特征，其后再将情感特征加到方面词注意模块的输出上，定义如下：

其中，

为情感特征，/>

为单词对应的情感得分，/>

为包含情感知识的特征，/>

为第/>

个特征的语义特征，/>

为第十一可学习参数，/>

为第十二可学习参数。

在一些实施例中，在视觉块和单词之间还需要获取一个布尔依赖矩阵，也就是所述的多模态权重关联矩阵，定义如下：

其中，

为获取的布尔依赖矩阵，/>

为文本文本部分的子阵，/>

为图片图片部分视觉依赖子阵，/>

文本图片部分的子阵，/>

图片文本部分的子阵；

其中，若两个单词在两代以内有关联，则

对应的元素置1，否则为0，/>

被初始化为对角矩阵，而单词和试卷块之间的依赖表示为/>

和/>

，且/>

和/>

互为转置矩阵，如果第i个单词是方面词，设置所有/>

第i行的元素为1，否则为0。

在一些实施例中，考虑到不同依赖的不同重要程度，基于上述布尔依赖矩阵赋予权重，表示如下：

其中，

为表示第i个特征和第j个特征之间的关联权重，/>

为第i个特征和第j个特征之间的依赖关系，/>

表示第j个特征的语义特征，/>

为余弦相似度函数。

在一些实施例中，使用上述的布尔依赖矩阵，作为所述多模态权重关联矩阵对所述第一卷积网络的特征向量迭代更新，定义如下：

其中，

为给定的第/>

层第/>

个节点的隐藏状态，/>

为ReLU激活函数，/>

为给定的第

-1层第/>

个节点的隐藏状态，/>

为第十三可学习参数，/>

为第十四可学习参数。

在一些实施例中，获得的最后一个GCN层的最终输出特征中包含了丰富的情感信息，并且每一个潜在的方面词都聚合了它相关的图文信息，同时多模态权重关联矩阵也使得不同方面词之间的情感混淆削弱，提升了准确率。

S500：根据面向方面词的语义特征和情感特征构建第二卷积网络，输入待识别数据并获取识别结果。在一些实施例中，获得输出结果的为BART编码器，BART解码器预测每个单词的概率分布，定义如下：

其中，

为方面词注意模块输出的隐藏特征，/>

为最后一个GCN层的最终输出，/>

为方面词注意模块输出的隐藏特征和最后一个GCN层的最终输出的加权特征，/>

为控制第一模块重要程度的超参，/>

为控制第二模块重要程度的超参，/>

为解码器解码运算，/>

为输入的词嵌入式特征，/>

为解码器/>

时刻之前的输出序列，/>

为解码器/>

时刻的输出，/>

为方面词注意模块输出的隐藏特征和最后一个GCN层的最终输出的加权特征中的文本部分，

为方面词注意模块输出的隐藏特征和最后一个GCN层的最终输出的加权特征中的文本部分与输入的词嵌入式特征的融合特征，/>

表示/>

时刻预测的注意力分布，/>

为表示情绪的嵌入式特征。

其中，损失函数如下：

其中，

为预测单词概率分布的损失函数，/>

为注意力分布，/>

为多模态输入，/>

为损失的期望。

本发明提供的一种多模态方面级情感分析方法将名词短语作为候选方面词引导注意的方法，考虑图片不同区域关联不同方面词且重要程度不同、文本不同观点描述对应不同方面词，利用候选方面词引导的注意生成蕴含方面词相关信息的语义特征，在此基础上引入情感信息，首次构建方面词注意的多模态权重关联矩阵，指导GCN更新结点的情感特征，融合语义特征和情感特征生成方面词及其对应的情感。本发明聚焦于检测方面词对应的图文信息，致力于削弱不相关图片区域、文字描述对特定方面词情感判断的干扰，有效提高了多模态方面级情感分析的效果和准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。