CN115809438B

CN115809438B - 多模态情感分析方法、系统、设备及存储介质

Info

Publication number: CN115809438B
Application number: CN202310061480.1A
Authority: CN
Inventors: 张越一; 马飞鹏; 孙晓艳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-06-16
Anticipated expiration: 2043-01-18
Also published as: CN115809438A

Abstract

本发明公开了一种多模态情感分析方法、系统、设备及存储介质，它们是一一对应的技术方案，相关技术方案中：一方面，能够更准确地提取出文本模态中和任务相关的信息，另一方面，减少了模态之间的不必要的交互，不仅减小了模型参数量，还可以获得三个模态之间的共有信息，从而获得高质量的多模态融合特征；实验表明将本发明获得的多模态融合特征应用与多模态情感分析任务时，能够获得较高的任务性能。

Description

多模态情感分析方法、系统、设备及存储介质

技术领域

本发明涉及多模态情感分析技术领域，尤其涉及一种多模态情感分析方法、系统、设备及存储介质。

背景技术

在多模态学习中，最核心的五个挑战是表征（Representation），翻译（Translation），对齐（Alignment），融合（Fusion）和协同学习（Co-learning）。这五个问题囊括了所有多模态学习任务的解决方案。而在多模态情感分析中，对齐和融合是最主要的问题。

多模态对齐是在不同模态之间识别不同元素之间的关联，多模态情感分析由于输入模态（音频，视频和文本）都是序列数据，存在时序和语义上的对齐问题。因此一些方法会预先将不同模态进行对齐，探索不同模态之间的关联，深入挖掘不同模态中蕴含的情感信息。

多模态融合是核心问题，传统的方法可以分为前融合（early fusion）和后融合（late fusion），在深度神经网络广泛应用后，有更多的基于注意力机制，记忆机制等的融合方法被应用到多模态情感分析领域中。

然而，现有的方法缺乏对不同模态之间的差异性的考虑，由于情感分析领域的数据来自于网络用户个人上传的视频，不同模态之间的差异大，比如从噪声的角度，文本模态由于经过人工提取，其模态噪声比音频，视频模态的更小；从信息冗余的角度，由于文本模态通常会采用大规模预训练的语言模型进行处理，会从大规模预训练模型中获取更丰富的信息，可能带来冗余。

有鉴于此，有必要研发新的多模态信息融合方案，以提升多模态情感分析任务的性能。

发明内容

本发明的目的是提供一种多模态情感分析方法、系统、设备及存储介质，可以更好的提取出多模态信息，从而提升多模态情感分析任务的性能。

本发明的目的是通过以下技术方案实现的：

一种多模态情感分析方法，包括：

步骤S1、从获取到视频数据中提取视觉模态、音频模态与文本模态的原始数据；

步骤S2、使用注意力机制，将文本模态的原始数据分别与视觉模态的原始数据以及音频模态的原始数据进行融合，获得两部分最终融合特征；

步骤S3、将所述视觉模态的原始数据以及音频模态的原始数据分别进行编码后与两部分最终融合特征进行合并，获得多模态融合特征；

步骤S4、利用所述多模态融合特征进行情感分析，获得情感分析结果。

一种多模态情感分析系统，包括：

多模态原始数据提取模块，用于执行步骤S1，所述步骤S1包括：从获取到视频数据中提取视觉模态、音频模态与文本模态的原始数据；

优先融合模块，用于执行步骤S2，所述步骤S2包括：使用注意力机制，将文本模态的原始数据分别与视觉模态的原始数据以及音频模态的原始数据进行融合，获得两部分最终融合特征；

特征合并模块，用于执行步骤S3，所述步骤S3包括：将所述视觉模态的原始数据以及音频模态的原始数据分别进行编码后与两部分最终融合特征进行合并，获得多模态融合特征；

情感分析模块，用于执行步骤S4，所述步骤S4包括：利用所述多模态融合特征进行情感分析，获得情感分析结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，一方面，能够更准确地提取出文本模态中和情感相关的信息，另一方面，减少了模态之间的不必要的交互，不仅减小了模型参数量，还可以获得三个模态之间的共有信息，从而获得高质量的多模态融合特征；实验表明将本发明获得的多模态融合特征应用与多模态情感分析任务时，能够获得较高的任务性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种多模态情感分析方法的流程图；

图2为本发明实施例提供的一种多模态情感分析方法的框架图；

图3为本发明实施例提供的次要模态与主导模态的相似度变化示意图；

图4为本发明实施例提供的一种多模态情感分析系统的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种多模态情感分析方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种多模态情感分析方法，针对不同模态之间的异质性问题设计了一种针对主导模态的优先融合方法，减少信息的冗余，得到更可靠的多模态融合特征，从而提升多模态情感分析任务的性能，如图1所示，相关方法的流程图，主要包括：

步骤S1、从获取到视频数据中提取视觉模态、音频模态与文本模态的原始数据。

本发明实施例中，从视频数据的图像中提取面部动作单元（Facial ActionUnits）作为视觉模态初始数据O _c，从视频数据的音频中提取声学特征作为音频模态的初始数据O _a，通过人工标注的方式从视频数据的文字中提取文本模态的初始数据O _t。将视觉模态、音频模态与文本模态的初始数据映射至相同的维度d，获得视觉模态、音频模态与文本模态的原始数据，对应的记为h _c、h _a、h _t。

示例性的：可以使用面部动作编码系统（Facial Action Coding System）提取面部动作单元；可以使用COVAREP软件提取声学特征，包括梅尔倒谱系数，音高，浊音/清音的分割特征等。

步骤S2、使用注意力机制，将文本模态的原始数据分别与视觉模态的原始数据以及音频模态的原始数据进行融合，获得两部分最终融合特征。

本发明实施例中，使用的注意力机制可以基于现有注意力的架构实现，例如，使用Transformer（变换器）模型。Transformer模型的注意力模块有三个输入矩阵，分别代表询问矩阵Q，关键矩阵K，值矩阵V，标准的注意力机制

公式可以写为：

其中，W ^(Q)、W ^(K)、W ^(V)分别为询问矩阵Q，关键矩阵K，值矩阵V对应的线性映射矩阵，d表示维度，T为转置符号，softmax(.)表示softmax函数。

注意力机制的思想可以简述为根据输入的询问矩阵Q和关键矩阵K的相似度，为值矩阵V进行加权。

本发明实施例中，提出了一种优先融合的方法（通过优先融合模块来执行），针对模态异质性问题，研究发现文本模态相比其他模态有更高的信息密度，需要关注文本模态和音频模态，文本模态和视频模态的交互。在优先融合的方法中，先通过注意力模块（Multi-head Cross attention）得到文本模态与音频模态的融合特征，以及文本模态与视觉模态的融合特征后，以上两部分融合特征称为初步的融合特征，再通过Transformer编码器（变换器编码器）的注意力机制使融合特征对内部不同位置的特征进行关注，从而更进一步学习融合特征，获得最终融合特征。注意力模块与Transformer编码器中注意力机制相同，主要区别在于输入的信息（即Q、K、V）不同，以及对应线性映射矩阵不同。在两个分支的注意力模块中，输入分别是文本模态和音频模态，以及文本模态和视觉模态，进行交叉注意力运算，而在两个分支的Transformer编码器中，输入是前端的注意力模块输出的初步的融合特征，进行自注意力计算，获得最终融合特征；具体的：设置两个支路，两个支路结构相同，均包含注意力模块和Transformer编码器，第一个支路输入为文本模态的原始数据，以及音频模态的原始数据，第二个支路输入为文本模态的原始数据，以及视觉模态的原始数据。

本发明实施例中，在每一个支路的注意力模块中，使用一个主导模态，来引导模态之间的特征学习和融合。在本发明实施例中，询问矩阵Q，关键矩阵K，值矩阵V来自不同模态，其中的K，V来自主导模态，Q来自次要模态，因此注意力机制可以重写为：

其中，p对应主导模态，即文本模态，K ^p与V ^p分别表示利用主导模态的原始数据计算的关键矩阵K与值矩阵V；s对应次要模态，即音频模态和视觉模态，Q ^s表示利用次要模态的原始数据计算的询问矩阵Q；

为主导模态和次要模态的初步的融合特征。

基于上述介绍，本发明实施例提供的融合方式可以描述为：将所述文本模态作为主导模态，将视觉模态与音频模态作为两个次要模态，每一支路中，分别使用注意力机制，将次要模态的原始数据分别与主导模态的原始数据进行融合；次要模态的原始数据与主导模态的原始数据进行融合时，将所述主导模态的原始数据通过线性映射得到注意力机制中的关键矩阵K与值矩阵V，将次要模态的原始数据通过线性映射得到注意力机制中的询问矩阵Q，通过注意力机制结合关键矩阵K、值矩阵V与询问矩阵Q，获得文本模态分别和音频模态，视觉模态融合的特征，即两部分初步的融合特征；两个支路中分别获得的初步的融合特征均输入所在支路后端的Transformer编码器进行自注意力计算，得到最终融合特征。

以上融合的原理为：由于主导模态在优先融合的方法中是作为键值对输入的，次要模态实际上决定了如何进行融合以提取主导模态的信息，并且主导模态并不会通过其他路径参与到最终的预测中，这意味着次要模态的分布将被迫更接近主导模态以便获得更多与情感相关的信息，在融合中包含了隐式的对齐。

步骤S3、将所述视觉模态的原始数据以及音频模态的原始数据分别进行编码后与两部分最终融合特征进行合并，获得多模态融合特征。

本发明实施例中，可以将编码后的两种的模态的数据与两部分最终融合特征拼接在一起，得到用于后续感情分析任务的多模态融合特征。两种模态的原始数据可利用各自对应的私有编码器进行编码，获得编码特征。

所述的私有编码器是指编码相应类型数据的编码器，例如，视觉模态的原始数据对应的私有编码器为视觉编码器，音频模态的原始数据对应的私有编码器为音频编码器。

本发明实施例中，情感分析任务可以包括：情感分类与情感回归。情感分类任务主要通过分类器识别多模态融合特征对应的情感类别，例如，可通过多层感知机（MLP）进行情感分类；情感回归是指预测出一个具体数值表示视频中人物的情感，该数值的正负表示情感的积极与消极，数值的绝对值大小表示情感的强烈程度。此部分所涉及具体分类方式与回归方式可参照常规技术实现，本发明不做赘述。

优选的，为了增强优先融合的方法的特征融合效果，本发明实施例采用数据增强与对比学习的方式训练优先融合模块，基于模态之间共有的信息有更高的概率是任务相关信息的假设，在不同模态之间使用对比学习能够捕捉模态之间的共有信息，由于本发明的输入有三个模态，直接对三个模态使用对比学习，难以同时捕捉到三个模态的共有信息，因为两两对齐会带来更高的难度，而且可能带来错误的对齐。因此，在优先融合模块中加入对比学习来捕捉三个模态的共有信息，主要步骤如下：

训练时，对从视频数据中提取的视觉模态的原始数据以及音频模态的原始数据分别进行数据增强，例如，对原始数据序列进行时序翻转，尺度缩放等，从而获得视觉模态的增强数据以及音频模态的增强数据，再将文本模态的原始数据分别与视觉模态的增强数据以及音频模态的增强数据进行融合，将同一个视频数据中融合获得的两部分最终融合特征均作为正样本，构成一个正样本对，视频数据所属的同一个批次中其他视频数据的最终融合特征均作为负样本，进行有监督的对比学习，通过设置的对比学习损失函数（例如，噪声对比估计损失函数），在特征空间中拉近正样本对之间的距离，增大正负样本之间的距离。

图2展示了本发明的主要框架，左侧输入部分包含视频数据的音频、文本与视觉（图像）信息，并提取出三个模态的原始数据，音频模态与视觉模态的原始数据经过数据增强（特征级别的数据增强）后分别与文本模态的原始数据进行融合，得到文本模态分别与两个次要模态的初步的融合特征，再通过对应的Transformer编码器，得到最终融合特征，同时在训练中引入有监督的对比学习进一步帮助融合特征的学习，最终再分别将视觉模态的原始数据和音频模态的原始数据进行编码（通过对应的私有编码器进行编码）后与两部分最终融合特征合并，进行情感分析。在测试时，视觉模态的原始数据以及音频模态的原始数据分别进行编码后与两部分最终融合特征与合并，再进行情感分析，图2提供了使用MLP进行情感分析的示例。

本发明实施例提供的上述方案，不仅可以获得可靠的多模态融合特征，而且可以提升情感分析任务的性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

为了应证本发明上述方案的效果，下面通过验证实验进行说明。

验证实验中使用了四个数据集对两类情感分析任务的性能进行验证，如表1所示。

表1：数据集信息

数据集	数据采集来源	样本数	任务类型
				MOSEI	网络视频	23453	情感回归
MOSI	网络视频	2199	情感回归
				UR-FUNNY	影视作品	16514	情感分类
SIMS	影视作品	2281	情感回归

以上四个数据集均为现有数据集，样本数是指数据集中视频数据的数目。情感分析任务分为情感回归和情感分类两种任务。情感回归任务是将视频中人物的情感用连续数值衡量，比如将情感定义为从-3到3的连续数值，正负表示情感的积极与消极，绝对值大小表示情感的强度，因此情感回归任务是预测一个浮点数值。情感分类任务是预测视频中人物的情感类型，比如预测视频中人物是否为兴奋，难过，愤怒等情绪。

情感回归任务的性能主要体现在预测的数值和真实的情感数值的差距，差距越小，情感回归任务的性能越高；情感分类任务的性能主要体现在情感分类的准确率，准确率越高，情感分类任务的性能越高。

验证结果如下：

（1）学习模态共有信息。

基于模态共有信息是任务相关信息的假设，本发明能够将次要模态向主导模态拉近，学习三个模态之间的共享信息，并在四个数据集上验证这个性质。在优先融合中会计算次要模态和主导模态的余弦相似度，于是以两个模态之间的余弦相似度为度量，分析本发明能否学习次要模态和主导模态之间的共享信息。结果如图3所示，每一列代表不同的数据集，从左至右依次对应MOSEI、MOSI、SIMS、UR-FUNNY；每一行代表数据集的分割，从上至下依次对应于训练集（train）、验证集（eval）、测试集（test）；每个子图的横轴代表训练迭代次数，纵轴代表相似度，数值越大，相似度越高。可以看到在不同的数据集中，本发明都能够使次要模态向主导模态靠近，学习到模态之间的共享信息。

（2）在多个情感分析任务中达到了领先水平。

在公平对比的前提下，本发明的方案与多个现有的先进方案进行对比，并达到了领先水平。

表2~表5展示了在四个数据集上的对比结果。

表2：在MOSEI数据集上的对比结果

表3：在MOSI数据集上的对比结果

表4：在SIMS数据集上的对比结果

表5：在UR-FUNNY数据集上的对比结果

表2~表5中最左侧一列表示不同的方案，其右侧表示不同的指标，箭头向上表示该指标越大越好，反之亦然。加粗数字表示在所有方案中是最好的，*表示在相同条件下复现实验得到的结果。B表示该方案使用了大规模预训练的语言模型BERT，PriSA表示本发明的方案。

情感分析常用的指标有平均绝对误差（MeanAbsolute Error，简写为MAE），皮尔逊相关系数（Pearson Correlation，简写为Corr），7分类准确率（Acc-7），二分类准确率（Acc-2）和F1分数（F1-Score）。平均绝对误差衡量的是预测的情感数值与标注的情感数值的差距，越小表示预测的误差越小，性能越好。皮尔逊相关系数用来度量预测值和真实值之间的相关性，越大表示预测值与真实值之间的相关性越高。为了更全面地衡量效果，引入了分类指标，包括七类准确率(Acc-7)、二进制准确率(Acc-2)和F1-Score。具体的做法是将连续值区间划分为7个子区间或2个子区间，每个子区间为一个类别。对于二分类指标和F1分数，涉及到将情感数值为0的样本视为积极样本还是消极样本的问题。有两种不同的方法来处理这个问题。一种是消极/非消极分类，其中非消极的标签是分数大于或等于0。另一种是消极/积极的，只考虑小于或大于0的情绪得分。其中UR-FUNNY数据集上的任务是情感分类任务。使用二分类准确率（Acc-2）在UR-FUNNY数据集上评估本发明的方案。

对比的方案有基于图神经网络的记忆融合网络（Graph-MFN），多注意力循环网络（MARN），循环多阶段融合网络（RMFN），多视角的长短期记忆网络（MV-LSTM），双向语境的长短期记忆网络（BC-LSTM），递归关注的变化嵌入网络（RAVEN），多模态循环翻译网络（MCTN），语境感知的交互注意力网络（CIA），用于非对齐的多模态序列的多模态Transformer（MulT），通过跨模态预测进行多模态情感分析的以文本为中心的共享-私有框架（TCSP），张量融合网络（TFN），低秩多模态融合网络（LMF），记忆融合网络（MFN），多模态因式分解模型（MFM），基于相互作用的典型相关网络（ICCN），模态不变-特有表征学习网络（MISA），自监督多任务学习网络（Self-MM）等。其中：TFN为张量融合网络，该方案提出对进行张量融合，学习到端到端的模态内和模态间的信息；LMF为低秩多模态融合方法，该方案提出通过低秩分解的方法进行多模态融合以降低计算量；MFN为记忆融合网络，该方案用LSTM网络学习模态内部的信息，并且通过设计的注意力机制学习模态之间的信息；MulT为多模态Transformer，该方案用交叉注意力机制来学习模态两两之间的信息，学习到全面的模态信息交互；TCSP为以文本为中心学习模态共享和私有信息的框架，该方案设计了跨模态预测掩码的方法，并利用得到的掩码和其他模态来帮助增强文本模态的信息提取；MISA是学习模态不变和特定表征的模型，该方案将不同的模态映射到同一个特征空间获得模态共有信息，将不同的模态映射到各自的模态特征空间得到模态独有的信息，再将共有信息和独有信息融合进行情感分析；Self-MM是自监督多任务多模态情感分析方法，该方案提出一种自监督的方法计算出每个模态的伪标签，并用伪标签引导单模态的特征学习，从而学习到模态独有的信息。考虑到对比的方案均为现有技术，故不做赘述。

可以看到，本发明的方案在MOSEI数据集上Acc-2指标提升了1.31%，本发明的方案在MOSI上提升1.16%，本发明的方案在SIMS数据集上提升了1.61%，本发明的方案在UR-Funny数据集上提升了1.06%。

实施例二

本发明还提供一种多模态情感分析系统，其主要基于前述实施例提供的方法实现，如图4所示，该系统主要包括：

本发明实施例中，所述使用注意力机制，将文本模态的原始数据分别与视觉模态的原始数据以及音频模态的原始数据进行融合，获得两部分最终融合特征包括：

设置两个支路，第一个支路输入为文本模态的原始数据，以及音频模态的原始数据，第二个支路输入为文本模态的原始数据，以及视觉模态的原始数据；

将所述文本模态作为主导模态，将视觉模态与音频模态作为两个次要模态，每一支路中，分别使用注意力机制，将次要模态的原始数据分别与主导模态的原始数据进行融合；次要模态的原始数据与主导模态的原始数据进行融合时，利用所述主导模态的原始数据计算注意力机制中的关键矩阵K与值矩阵V，利用次要模态的原始数据计算注意力机制中的询问矩阵Q，通过注意力机制结合关键矩阵K、值矩阵V与询问矩阵Q，获得主导模态与次要模态的初步的融合特征；两个支路中分别获得的初步的融合特征均输入至所在支路中的Transformer编码器，进行自注意力计算，获得最终融合特征。

本发明实施例中，使用数据增强与对比学习的方式训练所述优先融合模块，步骤如下：

训练时，对从视频数据中提取的视觉模态的原始数据以及音频模态的原始数据分别进行数据增强，获得视觉模态的增强数据以及音频模态的增强数据，再将文本模态的原始数据分别与视觉模态的增强数据以及音频模态的增强数据进行融合，将同一个视频数据中融合获得的两部分最终融合特征作为一个正样本对，视频数据所属的同一个批次中其他部分最终融合特征作为负样本，进行对比学习；通过设置的对比学习损失函数，在特征空间中拉近正样本对之间的距离，增大正负样本之间的距离。

本发明实施例中，所述提取视觉模态、音频模态与文本模态的原始数据包括：

从视频数据的图像中提取面部动作单元作为视觉模态初始数据，从视频数据的音频中提取声学特征作为音频模态的初始数据，通过人工标注的方式从视频数据的文字中提取文本模态的初始数据；

将视觉模态、音频模态与文本模态的初始数据映射至相同的维度，获得视觉模态、音频模态与文本模态的原始数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多模态情感分析方法，其特征在于，包括：

步骤S4、利用所述多模态融合特征进行情感分析，获得情感分析结果；

所述使用注意力机制，将文本模态的原始数据分别与视觉模态的原始数据以及音频模态的原始数据进行融合，获得两部分最终融合特征包括：

将所述文本模态作为主导模态，将视觉模态与音频模态作为两个次要模态，每一支路中，分别使用注意力机制，将次要模态的原始数据分别与主导模态的原始数据进行融合；次要模态的原始数据与主导模态的原始数据进行融合时，利用所述主导模态的原始数据计算注意力机制中的关键矩阵K与值矩阵V，利用次要模态的原始数据计算注意力机制中的询问矩阵Q，通过注意力机制结合关键矩阵K、值矩阵V与询问矩阵Q，获得主导模态与次要模态的初步的融合特征；

两个支路中分别获得的初步的融合特征均输入至所在支路中的Transformer编码器，进行自注意力计算，获得最终融合特征；

该方法还包括：通过优先融合模块执行所述步骤S2，并使用数据增强与对比学习的方式训练所述优先融合模块，步骤如下：

2.根据权利要求1所述的一种多模态情感分析方法，其特征在于，所述提取视觉模态、音频模态与文本模态的原始数据包括：

3.一种多模态情感分析系统，其特征在于，包括：

情感分析模块，用于执行步骤S4，所述步骤S4包括：利用所述多模态融合特征进行情感分析，获得情感分析结果；

将所述文本模态作为主导模态，将视觉模态与音频模态作为两个次要模态，每一支路中，分别使用注意力机制，将次要模态的原始数据分别与主导模态的原始数据进行融合；次要模态的原始数据与主导模态的原始数据进行融合时，利用所述主导模态的原始数据计算注意力机制中的关键矩阵K与值矩阵V，利用次要模态的原始数据计算注意力机制中的询问矩阵Q，通过注意力机制结合关键矩阵K、值矩阵V与询问矩阵Q，获得主导模态与次要模态的初步的融合特征；两个支路中分别获得的初步的融合特征均输入至所在支路中的Transformer编码器，进行自注意力计算，获得最终融合特征；

使用数据增强与对比学习的方式训练所述优先融合模块，步骤如下：

4.根据权利要求3所述的一种多模态情感分析系统，其特征在于，所述提取视觉模态、音频模态与文本模态的原始数据包括：

5.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~2任一项所述的方法。

6.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~2任一项所述的方法。