CN117235261A

CN117235261A - 一种多模态方面级情感分析方法、装置、设备及存储介质

Info

Publication number: CN117235261A
Application number: CN202311207960.0A
Authority: CN
Inventors: 曾碧卿; 谢梁琦; 钟广彬
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15

Abstract

本发明公开了一种多模态方面级情感分析方法、装置、设备及存储介质。本发明包括：获取多模态输入数据；所述多模态输入数据包括输入句子和输入图像；将所述输入图像输入预训练转换模型，输出所述输入图像的图像字幕；生成所述输入句子的上下文文本表示和所述图像字幕的上下文图像字幕描述表示；基于注意力机制，采用所述上下文文本表示和所述上下文图像字幕描述表示生成语义信息；采用所述语义信息构建句法掩码矩阵；对所述句法掩码矩阵进行图卷积运算，得到方面词表示；所述方面词表示包括文本表示和图像表示；对所述文本表示和图像表示进行交互预测，得到所述多模态输入数据的情感分类。

Description

一种多模态方面级情感分析方法、装置、设备及存储介质

技术领域

本发明涉及情感分析技术领域，尤其涉及一种多模态方面级情感分析方法、装置、设备及存储介质。

背景技术

情感分析，又称观点挖掘(Opinion Mining)，旨在确定说话者、作者或其他主体对象对于某个主题、文档或事件的观点和态度。情感分析的应用涉及到方方面面，其领域非常广阔，无论是在工业界、学术界还是日常生活中都有情感分析的存在。目前情感分析的相关研究在单模态领域已经较为成熟，其中在文本、图像和语音这三种模态中的应用最为广泛，产生了很多令人印象深刻的研究成果。

然而，单模态的情感表达能力是有限的，并不足以鉴别复杂的情感，还可能产生歧义。同时，越来越多的人们通过社交媒体分享日常、表达观点和情绪，使人与人之间建立了更为广泛的联系。在这些平台上，用户通过文本、图像、声音等多种方式共同表达他们的情绪和情感。基于多模态之间密不可分的关联性与互补性，近年来，研究热点也从各种基于单模态特征的情感分析转移到实际应用场合下的考虑多种不同模态之间相互影响的多模态情感分析。

多模态情感分析(Multimodal Sentiment Analysis，MSA)目的是利用图像、音频和文本来预测整体情感倾向。近年来，多模态情感分析人物引起了研究界的广泛关注。现有的研究主要围绕两个子任务，包括对话中的MSA和社交媒体帖子或产品评论中的MSA。对于会话中的MSA，以往的方法主要侧重于探索采用不同神经网络模型(如CNN、LSTM和GRU)构建不同模态间交互的能力，并已被证明在许多多模态SA任务(如情感分类)上取得了令人满意的性能。其次，对于社交媒体帖子或产品评论中的MSA，现有的一些研究集中于利用文本标签的情感或面向用户和项目的特征进行视觉情感分析。此外，一些后续研究旨在结合文本和图像来预测每个多模态社会帖子的总体情感倾向或产品评论。

多模态方面级情感分析(Multimodal Aspect-Based Sentiment Analysis，MABSA)是多模态情感分析中一个细粒度变体任务，其目的是预测句子和图像对中提到的意见目标的情感极性。在一个示例中，研究人员从数字产品评论平台上收集了一个基准的中文数据集，用于多模态方面级情感分析，并提出了一个多交互式记忆网络来迭代融合文本和视觉表示。在另一个示例中，研究人员在Twitter中注释了两个数据集，以实现多模态方面级情感分类，并利用BERT作为骨干，有效地结合了文本和视觉模态。还有研究人员提出一个目标敏感的注意力和融合网络，以解决基于文本和多模态的目标导向情感分类。此外，也有研究人员引入了一个输入空间翻译架构，用于从图像中构建辅助句子，并通过BERT将这些句子与文本融合。

然而，现有的多模态方面级情感分析方法大多是使用单独预训练的视觉和文本模型或是一般的预训练任务来提取特征，但是两种模态下意见目标的粒度不一致，导致视觉注意力有时无法捕捉到目标的相应视觉表征，而且对文本和视觉模态的方面提取和情感检测都不敏感。同时，现有的方法并没有有效地挖掘句法依存信息，忽略了句法结构和语义关联的有效融合可以获得更丰富的信息。因此极大地影响了情感极性判断的正确性。此外，现有的字幕生成是以一种直接的方式进行训练的，即所有的训练数据都被均匀地、平等地输入模型，忽略了不同的训练图像可能包含不同层次的信息。

发明内容

本发明提供了一种多模态方面级情感分析方法、装置、设备及存储介质，用于解决现有的多模态方面级情感分析方法准确率较低的技术问题。

本发明提供了一种多模态方面级情感分析方法，包括：

获取多模态输入数据；所述多模态输入数据包括输入句子和输入图像；

将所述输入图像输入预训练转换模型，输出所述输入图像的图像字幕；

生成所述输入句子的上下文文本表示和所述图像字幕的上下文图像字幕描述表示；

基于注意力机制，采用所述上下文文本表示和所述上下文图像字幕描述表示生成语义信息；

采用所述语义信息构建句法掩码矩阵；

对所述句法掩码矩阵进行图卷积运算，得到方面词表示；所述方面词表示包括文本表示和图像表示；

对所述文本表示和图像表示进行交互预测，得到所述多模态输入数据的情感分类。

可选地，所述预训练转换模型的训练过程包括：

获取图像训练数据集；所述图像训练数据集中包括若干个图像-文本对；

将所述图像数据集划分为M个第一子数据集；

采用所述第一子数据集训练初始转换模型；

计算各所述图像-文本对的第一难度得分；

根据所述难度得分计算各所述图像-文本对在所述第一子数据集的第二难度得分；

根据所述第二难度得分对所述图像-文本对进行排序，得到第一序列；

将所述第一序列划分为若干个第二子数据集；

按照预设阶段数从每个所述子数据集中提取样本数据，生成各预设阶段的样本数据集；

采用所述样本数据集训练所述初始转换模型，得到预训练转换模型。

可选地，所述基于注意力机制，采用所述上下文文本表示和所述上下文图像字幕描述表示生成语义信息的步骤，包括：

获取所述上下文文本表示的第一权重；

获取所述上下文图像字幕描述表示的第二权重；

采用所述上下文文本表示、所述上下文图像字幕描述表示、所述第一权重和所述第二权重计算方面感知注意力分数和自我注意力分数；

计算所述方面感知注意力分数和所述自我注意力分数的加和，得到所述多模态输入数据的语义信息。

可选地，所述采用所述语义信息构建句法掩码矩阵的步骤，包括：

获取所述语义信息中各单词间的距离；

根据所述距离生成带阈值的句法掩码矩阵；

采用所述带阈值的句法掩码矩阵和所述语义信息构建句法掩码矩阵。

本发明还提供了一种多模态方面级情感分析装置，包括：

多模态输入数据获取模块，用于获取多模态输入数据；所述多模态输入数据包括输入句子和输入图像；

图像字幕输出模块，用于将所述输入图像输入预训练转换模型，输出所述输入图像的图像字幕；

上下文表示生成模块，用于生成所述输入句子的上下文文本表示和所述图像字幕的上下文图像字幕描述表示；

语义信息生成模块，用于基于注意力机制，采用所述上下文文本表示和所述上下文图像字幕描述表示生成语义信息；

句法掩码矩阵构建模块，用于采用所述语义信息构建句法掩码矩阵；

图卷积运算模块，用于对所述句法掩码矩阵进行图卷积运算，得到方面词表示；所述方面词表示包括文本表示和图像表示；

交互预测模块，用于对所述文本表示和图像表示进行交互预测，得到所述多模态输入数据的情感分类。

可选地，所述预训练转换模型的训练过程包括：

图像训练数据集获取模块，用于获取图像训练数据集；所述图像训练数据集中包括若干个图像-文本对；

第一子数据集划分模块，用于将所述图像数据集划分为M个第一子数据集；

初始转换模型训练模块，用于采用所述第一子数据集训练初始转换模型；

第一难度得分计算模块，用于计算各所述图像-文本对的第一难度得分；

第二难度得分计算模块，用于根据所述难度得分计算各所述图像-文本对在所述第一子数据集的第二难度得分；

第一序列生成模块，用于根据所述第二难度得分对所述图像-文本对进行排序，得到第一序列；

第二子数据集划分模块，用于将所述第一序列划分为若干个第二子数据集；

样本数据集生成模块，用于按照预设阶段数从每个所述子数据集中提取样本数据，生成各预设阶段的样本数据集；

预训练转换模型训练模块，用于采用所述样本数据集训练所述初始转换模型，得到预训练转换模型。

可选地，所述语义信息生成模块，包括：

第一权重获取子模块，用于获取所述上下文文本表示的第一权重；

第二权重获取子模块，用于获取所述上下文图像字幕描述表示的第二权重；

方面感知注意力分数和自我注意力分数计算子模块，用于采用所述上下文文本表示、所述上下文图像字幕描述表示、所述第一权重和所述第二权重计算方面感知注意力分数和自我注意力分数；

语义信息生成子模块，用于计算所述方面感知注意力分数和所述自我注意力分数的加和，得到所述多模态输入数据的语义信息。

可选地，所述句法掩码矩阵构建模块，包括：

距离获取子模块，用于获取所述语义信息中各单词间的距离；

带阈值的句法掩码矩阵生成子模块，用于根据所述距离生成带阈值的句法掩码矩阵；

句法掩码矩阵构建子模块，用于采用所述带阈值的句法掩码矩阵和所述语义信息构建句法掩码矩阵。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的多模态方面级情感分析方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的多模态方面级情感分析方法。

从以上技术方案可以看出，本发明具有以下优点：本发明公开了一种多模态方面级情感分析方法，包括：获取多模态输入数据；多模态输入数据包括输入句子和输入图像；将输入图像输入预训练转换模型，输出输入图像的图像字幕；生成输入句子的上下文文本表示和图像字幕的上下文图像字幕描述表示；基于注意力机制，采用上下文文本表示和上下文图像字幕描述表示生成语义信息；采用语义信息构建句法掩码矩阵；对句法掩码矩阵进行图卷积运算，得到方面词表示；方面词表示包括文本表示和图像表示；对文本表示和图像表示进行交互预测，得到多模态输入数据的情感分类。本发明能够获取不同层次的视觉信息以及能够有效挖掘从局部到整体的句法依存信息和与方面相关的语义信息，从而提高了多模态方面级情感分析的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种多模态方面级情感分析方法的步骤流程图；

图2为一种Caption Transformer结构示意图；

图3为一种课程学习策略流程图；

图4为上下文文本表示或上下文图像字幕描述表示生成流程图；

图5为交叉注意力机制流程图；

图6为本发明实施例提供的一种多模态方面级情感分析装置的结构框图。

具体实施方式

本发明实施例提供了一种多模态方面级情感分析方法、装置、设备及存储介质，用于解决现有的多模态方面级情感分析方法准确率较低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种多模态方面级情感分析方法的步骤流程图。

本发明实施例提供的一种多模态方面级情感分析方法，具体可以包括以下步骤：

步骤101，获取多模态输入数据；多模态输入数据包括输入句子和输入图像；

多模态方面级情感分析(Multimodal Aspect-Based Sentiment Analysis，MABSA)是多模态情感分析中的一个细粒度变体任务，其目的是预测句子和图像对中提到的意见目标的情感极性。

在进行多模态方面级情感分析时，首先需要获取多模态输入数据，其中，多模态输入数据可以包括输入句子和输入图像。

步骤102，将输入图像输入预训练转换模型，输出输入图像的图像字幕；

图像字幕(Image Captioning)是一种结合了计算机视觉和自然语言处理的跨模态任务。其目的是为给定的单一图像生成一个句法和正确的描述，也就是说，从图像到语言的翻译。

在具体实现中，给定一个目标T_i，输入句子S_i和图像I_i组成的多模态输入数据Mi＝(T_i，S_i，I_i)。可以通过预训练转换模型ResNet作为图像编码器来编码输入图像。然后将编码后的图像通过一个预训练转换模型(如Caption Transformer)转换为图像字幕A＝(w₁,w₂,…w_m)，并用3、H、W分别代表输入图像的通道数、宽度和高度。具体过程如图2所示。

给定输入图像通过预训练模型ResNet，获得最后一个卷积层的输出作为特征映射f∈C×H×W，其中C＝2048，且/>然后，对通道维度C进行1x1卷积，将其减少到d＜＜C以获得新的特征图z₀，其中d＝256，/>然后沿空间维度进行平铺，最终的特征映射表示为/> 特征图的位置信息用固定的位置编码进行增强，将这些特征图送入DETR编码器层的堆栈中。然后使用解码器通过在一次前向传递中预测输入图像的描述来进行非自回归文本生成。

在一个示例中，预训练转换模型的训练过程包括：

S11，获取图像训练数据集；图像训练数据集中包括若干个图像-文本对；

S12，将图像数据集划分为M个第一子数据集；

S13，采用第一子数据集训练初始转换模型；

S14，计算各图像-文本对的第一难度得分；

S15，根据难度得分计算各图像-文本对在第一子数据集的第二难度得分；

S16，根据第二难度得分对图像-文本对进行排序，得到第一序列；

S17，将第一序列划分为若干个第二子数据集；

S18，按照预设阶段数从每个子数据集中提取样本数据，生成各预设阶段的样本数据集；

S19，采用样本数据集训练初始转换模型，得到预训练转换模型。

在具体实现中，受由易到难的学习过程的启发，本发明实施例采用课程学习作为字幕生成的训练策略，然后引入一个交叉审查机制来区分训练图像的难度，具体流程如图3所示。

课程学习(Curriculum Learning)是一种训练策略，模仿人类的学习过程，主张让模型先从容易的样本开始学习，并逐渐进阶到复杂的样本和知识。

为了获得更具可比性和稳定性的难度得分，首先将图像训练数据集统一分割为M部分，构建M个第一子数据集，用D_i表示。然后，分别在第一子数据集上训练一个CaptionTransformer模型θ_i。每个只能使用的训练数据集进行训练。这些模型的参数可以通过以下优化来学习，具体公式如下：

其中，(I，S)是第i个第一子数据集中的图像-文本对。定义了θ_i(I)的概率预测和相应的地面真实标题S之间的交叉熵损失函数。

由于图像字幕是一个从图像到文本的跨模态匹配任务，难度评价应该与相应的评价指标如BLEU-1和BLEU-2一致。因此，本发明实施例采用交叉审查机制来确定所有训练实例的难度等级。在M个第一子数据集上训练Caption Transformer模型后，评估每个训练例子的难度等级。每个图像-文本的例子(I，S)∈D_i在训练期间已经被模型θ_i看过。因此，使用另一个模型θ_k来评估(I，S)的难度，公式如下：

ε_k(I，S)＝1-Metric(θ_k(I)，S)

其中，ε_k(I，S)是图像-文本对(I，S)的难度得分。Metric代表一个公式，可以是BLEU-1、BLEU-2、BLEU-3和BLEU-4等图像说明指标之一。本模型采用BLEU-1得分的平均值来表示难度。其他Caption Transformer模型的评估分数之和，公式如下：

其中，DS((I，S))是文本-图像对(I，S)在子数据集D_i的难度得分。

首先根据难度分数DS对所有图像-文本进行排序，然后将其分为M个第二子数据集U_i。然后将训练数据集从U₁(最容易的)到U_M(最难的)排列。每个类别中的样本数被定义为|U₁|，|U₂|，......，|U_M|。本模型采取M阶段来训练，它可以定义为C_i(i＝1，...，M)。在每个阶段的C_i，图像到文本的例子仍然被混洗以保持局部随机性，而且不同阶段的每个例子不会重叠，以防止过拟合。对于每个学习阶段C_i，根据难度从上述类别中按一定比例选择例子，具体数量如下公式所示：

当在C_M上达到训练阶段时，模型应该准备好在整个数据集的图像样本上进行训练，所以增加了另一个学习阶段C_M+1。

通过课程学习策略训练Caption Transformer模型后，就可以用它来把输入的图像翻译成自然语言描述的图像，生成输入图像的字幕A＝(w₁，w₂，...w_m)，其中m是生成句子的字数。

步骤103，生成输入句子的上下文文本表示和图像字幕的上下文图像字幕描述表示；

在本发明实施例中，上下文的理解对于情感分析任务是至关重要的。由于预训练语言模型RoBERTa已被证明在各种NLP任务上取得了有竞争力的性能，包括方面级情感分析(ABSA)，因此将其作为本发明实施例模型的文本编码器和图像字幕描述编码器，对输入的句子和图像字幕描述进行编码，构建单词上下文表示。具体流程如图4所示。

在每个输入句子中插入两个特殊的标记，即在句子开头添加标记<s>，在句子末尾添加标记</s>。形式上，使用X＝(x_<s>，x₁，x₂，...，x_n，x_</s>)表示输入，并且使用X＝(x_<s>，x₁，x₂，...，x_n，x_</s>)来表示每个标记在X的嵌入，其中xi是第i个标记的词嵌入和位置嵌入的和。词嵌入和位置嵌入是从预训练RoBERTa模型中的词嵌入矩阵和位置嵌入矩阵中获取的。基于输入嵌入，将X送入RoBERTa编码器，以获得上下文的上下文文本表示或上下文的上下文图像字幕描述表示。公式如下：

(c_<s>，c₁，c₂，...，c_n，c_</s>)＝RoBERTa(x_<s>，x₁，x₂，...，x_n，x_</s>)

其中，C＝(c₁，c₂，...，c_n)是生成的单词上下文表示(上下文文本表示或上下文图像字幕描述表示)，d是单词上下文表示的维度。

步骤104，基于注意力机制，采用上下文文本表示和上下文图像字幕描述表示生成语义信息；

与句子级情感分类任务不同，基于方面的情感分析旨在判断上下文句子中特定方面术语的情感，因此需要基于不同方面术语建立特定的语义相关性模型。因此将方面感知注意力和自我注意力结合起来，不仅可以学习与方面相关的语义关联，还可以学习句子的全局语义。

在一个示例中，基于注意力机制，采用上下文文本表示和上下文图像字幕描述表示生成语义信息的步骤，包括：

S41，获取上下文文本表示的第一权重；

S42，获取上下文图像字幕描述表示的第二权重；

S43，采用上下文文本表示、上下文图像字幕描述表示、第一权重和第二权重计算方面感知注意力分数和自我注意力分数；

S44，计算方面感知注意力分数和自我注意力分数的加和，得到多模态输入数据的语义信息。

在具体实现中，方面感知注意力分数计算公式如下：

其中，使用方面词作为Q₁，K、V都等于由特征提取层产生的文本表示或图像字幕表示，和/>是可学习的权重。模型使用P头方面感知的注意力来获得一个句子的方面感知注意力分数矩阵，/>表示通过第i个注意力头获得的方面感知注意力分数。

自我注意力分数计算公式如下：

其中，Q₂、K、V都等于由特征提取层产生的文本表示或图像字幕表示，和/>是可学习的权重。

然后将方面感知注意力分数与自我注意力分数相结合，如下公式所示，可以得到多模态输入数据的语义信息。

其中，用作后面的语法掩码层计算的输入。对于每个A_i，它表示一个全连通图。

步骤105，采用语义信息构建句法掩码矩阵；

句法掩码矩阵(Syntax Mask Matrix)是一种用于自然语言处理的技术，可以用来识别和提取句子中的语法信息。它将每个句子转换为一个矩阵，其中每个单词都与其语法角色相对应。句法掩码矩阵可以更轻松地进行句法分析、命名实体识别和其他自然语言处理任务。

在本发明实施例中，步骤105可以包括以下子步骤：

S51，获取语义信息中各单词间的距离；

S52，根据距离生成带阈值的句法掩码矩阵；

S53，采用带阈值的句法掩码矩阵和语义信息构建句法掩码矩阵。

在具体实现中，在句法掩码层中，把句法依赖树看作一个无向图，把每个标记看作一个节点。然后，将节点v_i和v_j之间的距离定义为d(v_i，v_j)。由于在句法依赖树上的节点之间存在多个路径，因此可以将最短路径的距离定义为D，公式如下：

D(i，j)＝mind(v_i，v_j)

应用注意力机制找到和方面最相关的词。但是如果直接通过注意力的话肯定是所有的方面自己得到的注意力分数最高，为了缓解这一问题，因此加入掩码。根据单词之间不同的句法距离构造句子的句法掩码矩阵。在前一部分中的P头注意力机制中可以获得P个邻接矩阵。因此，可以将基于不同句法距离的句法掩码矩阵的数目设置为与注意头的数目相同。当句法距离较小时，模型可以学习局部信息，相反，如果句法距离相对较大，则将考虑全局结构信息。带阈值k的句法掩码矩阵M^k的计算如下公式所示：

其中，k∈[1，p]。为了获得全局信息和局部特征，注意力范围受到不同句法距离的限制：

M＝{M¹，...，M^k，...，M^p}

其中，基于距离i的句法掩码矩阵记为

步骤106，对句法掩码矩阵进行图卷积运算，得到方面词表示；方面词表示包括文本表示和图像表示；

由于有P个不同的句法掩码矩阵，所以需要对进行P次图卷积运算。将h^l-1表示为第l层的输入状态，h¹表示为第l层的输出状态，h⁰就是句子编码层的输出。第l个GCN层的每个节点根据其邻域的隐藏表示进行更新，公式如下

其中，W^l是线性转换权重，b^l是偏置项，σ是非线性函数。l层GCN的最终输出表示是将各层的节点表示汇总后，可以得到最终的特征表示。将GCN层学习到的输出表示中的非方面词屏蔽掉，以获得方面词表示(包括文本表示和图像表示)。此外，通过平均池化来保留方面术语表示中的大部分信息/>如下公式所示：

其中，f是一个平均池化函数，适用于GCN层的增强方面表示。

步骤107，对文本表示和图像表示进行交互预测，得到多模态输入数据的情感分类。

在本发明实施例中，在获取到文本表示和图像表示后，可以对文本表示和图像表示进行交互预测，得到多模态输入数据的情感分类。

在具体实现中，如图5所示，现有两个特征表示H_T和H_I，模型通过应用交叉注意力机制来学习文本和图像字幕之间的互动关系。将文本表示H_T作为查询Q，将图像表示H_I作为键K和值V，其目的是在给定每个词作为查询的情况下自动学习图像中每个区域的注意力权重，为更重要的特征自适应地分配更高的注意值，得到最终表示公式如下：

其中，Q₃为文本表示，K₁和V₁为图像表示，W_q、W_k、W_v是交叉注意力中查询、键和值的权重矩阵。

模型在融合表示的顶部进一步堆叠两个子层，如下公式所示：

其中，LN表示层的归一化，FFN表示前馈网络。

然后，将H_f送入线性层，然后用Softmax函数得到对特定目标的情感概率y。公式如下：

y＝Softmax(W_aH_f+b)

其中，W_a和b是可学习的权重和偏差。

采用交叉熵误差的方法对模型进行训练，其损失函数如下所示：

在计算得到对特定目标的情感概率y后，可以根据情感概率确定特定目标的情感分类。

本发明实施例的字幕生成模块结合了课程学习策略，并且引入一个交叉审查机制来区分训练图像的难度。从易到难的课程学习策略大大地提高了字幕生成模块的能力，获取更丰富的视觉信息。此外，本发明实施例构建了由句子的句法依存结构中的不同词间距离计算的句法掩码矩阵，来学习从局部到整体的结构信息。将邻接矩阵与句法掩码矩阵相结合，以增强图卷积网络。通过多层图卷积运算得到面向方面的特征，用于方面级情感分类，能够有效挖掘从局部到整体的句法依存信息和与方面相关的语义信息，进而提高了多模态方面级情感分析的准确性。

请参阅图6，图6为本发明实施例提供的一种多模态方面级情感分析装置的结构框图。

本发明实施例提供了一种多模态方面级情感分析装置，包括：

多模态输入数据获取模块601，用于获取多模态输入数据；多模态输入数据包括输入句子和输入图像；

图像字幕输出模块602，用于将输入图像输入预训练转换模型，输出输入图像的图像字幕；

上下文表示生成模块603，用于生成输入句子的上下文文本表示和图像字幕的上下文图像字幕描述表示；

语义信息生成模块604，用于基于注意力机制，采用上下文文本表示和上下文图像字幕描述表示生成语义信息；

句法掩码矩阵构建模块605，用于采用语义信息构建句法掩码矩阵；

图卷积运算模块606，用于对句法掩码矩阵进行图卷积运算，得到方面词表示；方面词表示包括文本表示和图像表示；

交互预测模块607，用于对文本表示和图像表示进行交互预测，得到多模态输入数据的情感分类。

在本发明实施例中，预训练转换模型的训练过程包括：

图像训练数据集获取模块，用于获取图像训练数据集；图像训练数据集中包括若干个图像-文本对；

第一子数据集划分模块，用于将图像数据集划分为M个第一子数据集；

初始转换模型训练模块，用于采用第一子数据集训练初始转换模型；

第一难度得分计算模块，用于计算各图像-文本对的第一难度得分；

第二难度得分计算模块，用于根据难度得分计算各图像-文本对在第一子数据集的第二难度得分；

第一序列生成模块，用于根据第二难度得分对图像-文本对进行排序，得到第一序列；

第二子数据集划分模块，用于将第一序列划分为若干个第二子数据集；

样本数据集生成模块，用于按照预设阶段数从每个子数据集中提取样本数据，生成各预设阶段的样本数据集；

预训练转换模型训练模块，用于采用样本数据集训练初始转换模型，得到预训练转换模型。

在本发明实施例中，语义信息生成模块604，包括：

第一权重获取子模块，用于获取上下文文本表示的第一权重；

第二权重获取子模块，用于获取上下文图像字幕描述表示的第二权重；

方面感知注意力分数和自我注意力分数计算子模块，用于采用上下文文本表示、上下文图像字幕描述表示、第一权重和第二权重计算方面感知注意力分数和自我注意力分数；

语义信息生成子模块，用于计算方面感知注意力分数和自我注意力分数的加和，得到多模态输入数据的语义信息。

在本发明实施例中，句法掩码矩阵构建模块605，包括：

距离获取子模块，用于获取语义信息中各单词间的距离；

带阈值的句法掩码矩阵生成子模块，用于根据距离生成带阈值的句法掩码矩阵；

句法掩码矩阵构建子模块，用于采用带阈值的句法掩码矩阵和语义信息构建句法掩码矩阵。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明实施例的多模态方面级情感分析方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的多模态方面级情感分析方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态方面级情感分析方法，其特征在于，包括：

采用所述语义信息构建句法掩码矩阵；

2.根据权利要求1所述的方法，其特征在于，所述预训练转换模型的训练过程包括：

将所述图像数据集划分为M个第一子数据集；

采用所述第一子数据集训练初始转换模型；

计算各所述图像-文本对的第一难度得分；

将所述第一序列划分为若干个第二子数据集；

3.根据权利要求1所述的方法，其特征在于，所述基于注意力机制，采用所述上下文文本表示和所述上下文图像字幕描述表示生成语义信息的步骤，包括：

获取所述上下文文本表示的第一权重；

获取所述上下文图像字幕描述表示的第二权重；

4.根据权利要求1所述的方法，其特征在于，所述采用所述语义信息构建句法掩码矩阵的步骤，包括：

获取所述语义信息中各单词间的距离；

根据所述距离生成带阈值的句法掩码矩阵；

5.一种多模态方面级情感分析装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述预训练转换模型的训练过程包括：

7.根据权利要求5所述的装置，其特征在于，所述语义信息生成模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述句法掩码矩阵构建模块，包括：

9.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的多模态方面级情感分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的多模态方面级情感分析方法。