CN116089906B

CN116089906B - 基于动态上下文表示和模态融合的多模态分类方法及系统

Info

Publication number: CN116089906B
Application number: CN202310232058.8A
Authority: CN
Inventors: 吴建龙; 杨浩哲; 高先强; 聂礼强; 甘甜; 丁宁; 姜飞俊
Original assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd; Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd; Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-16
Anticipated expiration: 2043-03-13
Also published as: CN116089906A

Abstract

本发明涉及自然语言处理中的对话情感识别技术领域，提供了一种基于动态上下文表示和模态融合的多模态分类方法及系统，其解决了每个模态的特征未得到充分的分析，也没有根据其特性进行针对性地处理的问题。其中，基于动态上下文表示和模态融合的多模态分类方法将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征，再根据动态路径选择方法融合上述表征，得到每个模态的初始融合特征；将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理，得到全融合结果、部分融合结果和带偏融合结果，再通过动态路径选择方法融合，得到最终用于分类的多模态融合特征。其提高了最终识别任务类别的准确性。

Description

基于动态上下文表示和模态融合的多模态分类方法及系统

技术领域

本发明涉及自然语言处理中的对话信息识别技术领域，尤其涉及一种基于动态上下文表示和模态融合的多模态分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

多模态分类是指利用多种类型的数据来源，如文本、图像、音频等，对一个对象或事件进行分类的过程。在现代计算机技术和机器学习的发展中，多模态分类已经变得越来越重要。通过整合来自多个感官的信息，可以更准确地理解和描述复杂的现实世界。例如，当处理社交媒体的文本时，机器通过同事考虑文本、图像、视频、语音等多方面的信息，可以更好的理解用户发出的消息。不同的模态数据通过互相补充，让机器可以更好地理解文本信息的上下文和情感含义。多模态分类可以广泛应用到多个领域，其中一个应用示例是多模态对话情感分类。

例如：对话情感分类（ERC）长期以来一直是多模态分类和自然语言处理（NLP）领域中一个活跃的话题。作为人类日常交流的重要组成部分，识别和追踪对话中说话者的情绪状态对人机交互、对话分析和视频理解等领域的发展至关重要，存在广泛的潜在应用价值。随着流媒体服务的发展，许多对话情感识别数据集，如IEMOCAP，MELD为相关的研究工作提供了一个新平台。对话情感识别的一个关键点是如何有效利用对话的上下文信息，最近提出的一些方法包括DialogueRNN和DialogueGCN。前者提出了一种基于RNN的上下文信息融合方法，该方法在整个对话过程中保持对各个说话者状态的跟踪；后者提出了一个基于图神经网络（GNN）的模型，在其中使用上下文滑动窗口来捕获上下文信息。

其中，在对话情感识别任务中，现有工作大体上可以根据其所使用的模态信息分为两类：单模态方法和多模态方法。单模态方法只使用文本模态的信息来完成情感识别的任务，而多模态方法则融合了文本、视觉和听觉三个模态的信息。例如，COGMEN除了使用一个基于图神经网络的架构来模拟对话中的依赖关系之外，还使用Transformer编码器来融合多种模态信息；MMGCN基于一个图卷积网络来融合多模态信息和长距离语境上下文信息。然而，尽管以上方法同时使用了多模态交互和语境信息，但其模态交互的实现方式仍旧十分简单：COGMEN只是简单地将不同模态的特征拼接起来，MMGCN几乎以同样的方式处理不同的模态。这样使得多模态数据集中的每个模态的特征都没有得到充分的分析，也没有根据其特性进行针对性地处理，最终降低了任务识别的准确性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于动态上下文表示和模态融合的多模态分类方法及系统，其对多模态过程中不同模态信息量不一致进行了区分和针对性处理，减少了模态融合过程中信息量较少的模态带来的噪音，能够提高最终识别任务类别的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于动态上下文表示和模态融合的多模态分类方法。

一种基于动态上下文表示和模态融合的多模态分类方法，其包括：

获取对话信息，提取所述对话信息中的所有模态的特征；

将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征，再根据动态路径选择方法融合上述表征，得到每个模态的初始融合特征；

将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理，得到全融合结果、部分融合结果和带偏融合结果，再通过动态路径选择方法融合，得到最终用于分类的多模态融合特征；

基于最终用于分类的多模态融合特征及分类器，得到所述对话信息的情感类别；

其中，所述动态路径选择方法为：基于注意力机制以及预先定义的特征，加权融合所有输入特征。

此处需要说明的是，动态路径选择方法可看成一个模型，这个预先定义的特征就是动态路径选择方法模型里的参数，动态路径选择方法模型接收多个输入后会和这个预先定义的特征计算相似度，加权求和，输出融合后（即加权求和后）的特征。

作为一种实施方式，所述对话信息中的模态包括声音模态、文本模态和视频模态。

作为一种实施方式，在每个模态的特征进行全局上下文表征的过程中，通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并，将合并的特征通过线性映射得到全局上下文表示特征。

作为一种实施方式，将每个模态的特征进行局部上下文表征的过程中，使用双向GRU 网络提取局部特征。

作为一种实施方式，将每个模态的特征进行直接映射表征的过程中，使用线性映射层提取特征。

作为一种实施方式，将所有模态的初始融合特征执行全融合处理的过程中，沿特征维度对所有模态的初始融合特征执行连接操作，并通过线性映射层控制维度。

作为一种实施方式，将所有模态的初始融合特征执行部分融合处理的过程中，首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征，随后与各个模态的初始融合特征一起通过注意力机制加权融合，得到局部融合模块的多模态融合特征。

作为一种实施方式，将所有模态的初始融合特征执行带偏融合处理的过程中，基于预先确定的主模态和辅助模态，将辅助模态分别和主模态进行融合，再对融合得到的特征再进行融合得到带偏融合结果。

本发明的第二个方面提供了一种基于动态上下文表示和模态融合的多模态分类系统。

一种基于动态上下文表示和模态融合的多模态分类系统，其包括：

特征提取模块，其用于获取对话信息，提取所述对话信息中的所有模态的特征；

特征表征模块，其用于将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征，再根据动态路径选择方法融合上述表征，得到每个模态的初始融合特征；

模态交互模块，其用于：

对话信息分类模块，其用于基于最终用于分类的多模态融合特征及分类器，得到所述对话信息的情感类别；

与现有技术相比，本发明的有益效果是：

（1）本发明使用全局上下文表征、局部上下文表征和直接映射表征分别表征每个模态的特征，针对性的提高了句子上下文表示过程中的判别性，还利用全融合、部分融合和带偏融合处理对多模态过程中不同模态信息量不一致进行了区分和针对性处理，减少了模态融合过程中信息量较少的模态带来的噪音。

（2）本发明提出动态路径选择方法，有效的融合多个相同阶段且信息互补的特征，使得特征判别性增强，网络鲁棒性增强，任务分类精度大大提高。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的多种上下文依赖关系；

图2是本发明实施例的基于动态上下文表示和模态融合的多模态分类方法的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明以对话信息的情感分类为例，如具体地，将对话信息的情感类别分为：兴奋、生气、沮丧和中性这四类情绪。

此处可以理解的是，本领域技术人员可根据实际情况，将对话信息的情感类别分成其他类型，并不影响本申请的整体方案的实施及其达到的效果，此处不再详述。

下面具体结合图1和图2来详细说明本发明的基于动态上下文表示和模态融合的多模态分类方法的过程。

根据图1可看出，本实施例的对话过程中不同的上下文依赖类型主要包括：无依赖的独立对话、依赖短距离上下文可推断的对话和依赖长距离上下文可推断的对话。

另外，本实施例在模态融合过程中的不同的模态间信息关系类型主要包括：平凡情况下的多模态一致类型、带噪音情况下的部分模态缺失类型和主辅模态信息量不一致类型。

参照图2，本实施例的基于动态上下文表示和模态融合的多模态分类方法的具体过程包括：

步骤1：获取对话信息，提取所述对话信息中的所有模态的特征。

在步骤1中，获取的对话信息包括若干段对话，每段对话由多条话语组成，每条话语由多个模态特征组成。其中，模态包括声音模态、文本模态和视频模态。也就是说，每条话语由多个模态特征包括声音特征、文本特征和视频特征。

此处还需要说明的是，本实施例的对话信息均经对话所属者同意，且通过合法途径获得的。

步骤2：将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征，再根据动态路径选择方法融合上述表征，得到每个模态的初始融合特征。

将上下文的信息融合到语句的特征中十分重要，但是不同的语句与其他语句之间建立依赖的需求不同。这会包含三种情况：需要依赖相邻上下文，需要依赖长距离的语句或两者兼具。同时，对一些语句来说，可能其不需要融合上下文也足够模型对其做出判断。因此，将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征来考虑上述几种情况。

在步骤2中的全局上下文表征具体过程为：

一段对话可能讨论多个话题，不同的话题可能会有不同的情感氛围。当前对话时的情感依托于在之前可能较长时间前提出该话题的语句的情感，这是一种长距离的情感依赖关系。针对这种关系，本实施例采用全局上下文表征。

在具体实施过程中，在每个模态的特征进行全局上下文表征的过程中，通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并，将合并的特征通过线性映射得到全局上下文表示特征。

记一段对话为

，其中/>

表示对话中的第/>

句话，/>

为对话的数量。对于多模态对话数据，进一步可将多模态对话数据拆分为声音、文本、视频特征，其中，声音、文本、视频特征分别为/>

，则对话中的第/>

句话可表示为/>

，其中/>

的维度分别为/>

。

本实施例通过多头自注意力机制来提取每个模态特征的全局上下文表示特征。首先介绍自注意力机制。对任意输入

，/>

是特征矩阵，/>

，首先通过以下公式得到向量矩阵/>

：

其中

，为向量矩阵参数。随后，自注意力操作首先通过向量矩阵

和向量矩阵/>

计算注意力图，随后该注意力图与向量矩阵/>

通过加权运算得到最终的输出。该过程可以通过以下的公式描述：

其中，

表示注意力机制函数；/>

表示归一化指数函数；T表示矩阵的转置操作，/>

表示对向量矩阵K的转置矩阵。/>

表示K的特征维度。

现在引入多头自注意力机制。对于 Attention 操作中得到的

，分别将其沿特征维度拆分成/>

部分，多头自注意力机制对其中的每部分单独计算自注意力操作后再合并，并通过线性映射得到最后的输出/>

。该过程可以由以下公式描述：

其中

表示多头注意力机制函数，/>

表示连接函数；

，/>

表示第/>

个注意力机制。/>

表示连接函数中的参数。

对任意模态的对话特征

，本实施例首先通过多头自注意力机制提取中间表示。再通过添加残差链接、/>

层、FeedForward层得到最终的全局上下文表示特征/>

，该过程整体可以被描述为：

其中，

，是全连接操作中的参数,/>

是二维矩阵，/>

是一维向量。/>

和/>

为/>

操作函数中的参数，/>

为激活函数。

多人对话时，一个人回复时的情感可能会受到另一个人的影响，这是一种在局部范围内发生的情感依赖。针对这种依赖关系，本实施例采用局部上下文表征。

在具体实施过程中，将每个模态的特征进行局部上下文表征的过程中，使用双向GRU 网络提取局部特征。

对任意模态的输入

，局部上下文表示特征/>

通过以下的方式计算：

其中，右箭头表示前向GRU操作，左箭头表示后向GRU 操作，两者合并为双向GRU网络。

对一些明显表露出情感的语句，使用全局或局部信息都可能导致在该语句的情感预测中引入不必要的噪音，此时不需要进行上下文的表示，对话提取特征过程中各个句子互相独立，这样进行直接映射表征。

在具体实施过程中，将每个模态的特征进行直接映射表征的过程中，使用线性映射层提取特征。

使用线性映射层提取特征

，该公式表示为：

其中，

，均是线性映射层的参数。

步骤3：将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理，得到全融合结果、部分融合结果和带偏融合结果，再通过动态路径选择方法融合，得到最终用于分类的多模态融合特征。

给定多模态特征

，模态编码器以多模态特征为输入，并输出一个融合后的模态特征/>

。使用多模态特征的模型效果好于使用单模态特征的模型的原因是不同模态特征的信息之间存在互补性，通过有效利用模态间的信息互补，融合后的多模态特征通常具有更好的判别性，使得情感识别模型能够做出更准确的预测。但是。不同模态具有的信息量有可能不同，实际的数据中也可能会存在模态缺失或没有信息量的情况，因此模态融合的过程需要将这些情况进行区分。

在具体实施过程中，将所有模态的初始融合特征执行全融合处理的过程中，沿特征维度对所有模态的初始融合特征执行连接操作，并通过线性映射层控制维度。

对所有模态互相补充，自身包含的信息量相对等同的理想情况，

对给定的多模态特征

，全融合模块沿特征维度对这三个特征执行 Concat操作，并通过线性映射层控制维度。融合后的模态特征/>

为：

其中，

，均是线性映射层的参数。

多模态场景下，某些数据的部分模态可能会存在缺失，或者无效、带噪音的情况，此时全融合方式得到的特征中会无法避免的降低特征判别性，对此，本实施例采用部分融合处理方法。

在具体实施过程中，将所有模态的初始融合特征执行部分融合处理的过程中，首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征，随后与各个模态的初始融合特征一起通过注意力机制加权融合，得到局部融合模块的多模态融合特征。

对给定的多模态特征

，局部融合模块首先将其两两进行融合得到双模态特征，随后与各个模态的初始融合特征一起通过注意力机制加权融合，得到局部融合模块的多模态融合特征/>

。

具体的，对任意两个模态

、/>

、/>

，本实施例首先将其沿特征维度进行Concat，随后通过线性映射层将其维度映射为和原来的单模态特征维度，得到/>

。以/>

为例，该过程表示为：

其中，

。随后，依次按该过程得到/>

。最后，引入注意力机制，定义特征/>

，部分模态融合特征和单模态特征/>

，计算定义特征/>

和这些特征的注意力图，并和相应的特征计算加权和，得到最终的局部融合特征/>

，该过程用公式表示为：

其中，

表示归一化指数函数；T表示矩阵的转置操作，/>

表示对向量矩阵K的转置矩阵。/>

表示向量矩阵K的特征维度。

除了模态缺失的情况外，在实验中还发现，不同模态的信息量整体上存在差异，这主要表现为文本包含了主要信息，而声音和视频仅包含了部分辅助信息，对于这种情况，本实施例采用带偏融合处理方法。

在具体实施过程中，将所有模态的初始融合特征执行带偏融合处理的过程中，基于预先确定的主模态和辅助模态，将辅助模态分别和主模态进行融合，再对融合得到的特征再进行融合得到带偏融合结果。

对多模态特征

，带偏融合以文本对应的模态特征/>

为主模态，其余的

为辅助模态分别和主模态进行融合得到/>

，最后再对这两个特征进行融合得到最后该模块的多模态融合特征/>

。以/>

为例，本发明基于残差连接的思想得到融合模态/>

。具体的，令/>

为残差连接中的主干，/>

为待学习的残差，通过一层线性映射层后和主干特征相加。该过程用公式表示为：

在用同样的方式得到

后，本文提出了局部的多头自注意力机制用于提取该模块最终的多模态融合特征。下面详细介绍局部多头自注意力机制。

对给定的输入特征

，定义超参数/>

，与/>

相关的二值向量/>

，/>

中第j个元素的值为：

输入特征

的注意力遮罩向量/>

。再将/>

沿特征维度 Concat 后的特征作为该局部多头自注意力操作的输入，最终通过残差连接、

、线性映射得到最终的带偏多模态融合特征/>

。

下面以

操作来表示动态路径选择方法。/>

与给定的三个特征/>

的最后一维的特征维度相同，从而可以进行矩阵操作。

对给定的三个特征

，最终的融合特征/>

，其中/>

操作使用定义特征/>

，计算/>

和输入特征的注意力图，并和相应的特征计算加权和，得到最终的加权融合特征，该过程用公式表示为：

在上下文表示阶段，以

为例，该阶段得到的三种上下文表示特征分别为

，并最终通过模块融合得到/>

。相同的方式可以获得/>

，分别作为/>

的上下文表示特征。在模态融合阶段，三个不同的融合模块分别以三个模态特征作为输入，分别得到/>

后，通过模块融合得到/>

，用于最后的分类特征。

步骤4：基于最终用于分类的多模态融合特征及分类器，得到所述对话信息的情感类别。

此处需要说明的是，本领域技术人员可根据实际情况来具体设置对话信息的情感类别，比如悲伤、喜悦、惊吓等。

对每个对话

，模型最终得到的特征为/>

，本实施例使用线性映射层得到该特征对应的类别特征/>

。令整个模型为/>

，/>

为模型的参数，最终本发明根据对应的真实标签

，其中，i=1,2，…，n；计算交叉熵/>

，用公式表示为：

此外，在模态融合过程，本发明还计算了对比损失。

为了提高多模态特征的判别性，使模型更充分利用模态特征之间的互补性，本实施例在模态融合过程的三个子模块部分引入了有监督对比损失。对相同维度的特征

中的子元素/>

，相同维度的特征/>

中的子元素/>

的对比损失子函数/>

通过以下的公式计算：

其中

用于计算两个向量的余弦相似度。相同维度的特征/>

的对比损失函数/>

通过以下公式计算：

对比损失分别对在全融合阶段的三个单模态特征两两之间，部分融合模块的三个双模态特征两两之间，带偏融合模块的两个双模态特征之间计算，总计这七个部分的对比损失，得到最终对比损失函数。

最终的损失

由两部分组成，表示为：

最终模型通过端到端的方式训练整个模型参数。

在表1中，在四个多模态情感分类数据集上对比了本发明与其他多模态情感分类算法的F1-score值，可以观察到在所有数据集上本方法均达到了最优的结果。表1中的英文缩写含义如下：

CIM：论文缩写 Multi-task Learning for Multi-modal Emotion Recognitionand Sentiment Analysis ；

MMGCN：论文缩写Multimodal Fusion via Deep Graph Convolution Networkfor Emotion Recognition in Conversation ；

COGMEN：论文缩写COntextualized GNN based Multimodal Emotionrecognition；

IEMOCAP-4：IEMOCAP是数据集，4 表示该数据集的4分类实验设置；

IEMOCAP-6：IEMOCAP的6分类实验设置；

MELD：数据集，取自老友记片段；

MOSEI：数据集，取自各大自媒体平台（如 YouTube）。

表 1 本发明和现有多模态情感分类算法在三个多模态对话数据集的四个实验指标上的F1-score值对比

其中，本实施例的该基于动态上下文表示和模态融合的多模态分类方法可应用到使用深度学习方法的情感识别系统或子系统中需要情感识别的系统中。

此处还需说明的是，本实施例的该基于动态上下文表示和模态融合的多模态分类方法也可在人机对话系统中会被应用。

在一个或多个实施例中，提供了一种基于动态上下文表示和模态融合的多模态分类系统，其包括：

模态交互模块，其用于：

其中，所述对话信息中的模态包括声音模态、文本模态和视频模态。

此处需要说明的是，本实施例中的各个模块与上述基于动态上下文表示和模态融合的多模态分类方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

在一个或多个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于动态上下文表示和模态融合的多模态分类方法中的步骤。

在一个或多个实施例中，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于动态上下文表示和模态融合的多模态分类方法中的步骤。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态上下文表示和模态融合的多模态分类方法，其特征在于，包括：

获取对话信息，提取所述对话信息中的所有模态的特征；

其中，所述动态路径选择方法为：基于注意力机制以及预先定义的特征，加权融合所有输入特征；

在每个模态的特征进行全局上下文表征的过程中，通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并，将合并的特征通过线性映射得到全局上下文表示特征；

将每个模态的特征进行局部上下文表征的过程中，使用双向 GRU 网络提取局部特征；

将每个模态的特征进行直接映射表征的过程中，使用线性映射层提取特征；

将所有模态的初始融合特征执行全融合处理的过程中，沿特征维度对所有模态的初始融合特征执行连接操作，并通过线性映射层控制维度；

将所有模态的初始融合特征执行部分融合处理的过程中，首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征，随后与各个模态的初始融合特征一起通过注意力机制加权融合，得到局部融合模块的多模态融合特征；

将所有模态的初始融合特征执行带偏融合处理的过程中，基于预先确定的主模态和辅助模态，将辅助模态分别和主模态进行融合，再对融合得到的特征再进行融合得到带偏融合结果。

2.如权利要求1所述的基于动态上下文表示和模态融合的多模态分类方法，其特征在于，所述对话信息中的模态包括声音模态、文本模态和视频模态。

3.基于动态上下文表示和模态融合的多模态分类系统，其特征在于，包括：

模态交互模块，其用于：

其中，在每个模态的特征进行全局上下文表征的过程中，通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并，将合并的特征通过线性映射得到全局上下文表示特征；

4.如权利要求3所述的基于动态上下文表示和模态融合的多模态分类系统，其特征在于，所述对话信息中的模态包括声音模态、文本模态和视频模态。