CN114118200B

CN114118200B - 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Info

Publication number: CN114118200B
Application number: CN202111120932.6A
Authority: CN
Inventors: 孔万增; 刘栋军; 唐佳佳; 金宣妤
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-05-12
Anticipated expiration: 2041-09-24
Also published as: CN114118200A

Abstract

本发明公开一种基于注意力引导双向胶囊网络的多模态情感分类方法。由于具有可训练的视点不变变换特性，胶囊网络目前在分析多模态学习的异质性问题上已经证明了它的有效性。在预处理阶段，本发明提供了多模态动态交互增强模块，在特征层面上显式地增强了跨模态同质性，这有利于模型在更加紧凑的局部公共空间内有效地执行多模态解耦过程。在此基础上，提出了基于注意力引导的双向胶囊网络(ABCN)，通过新的双向动态路由机制来探索全局多模态公共消息。然后，利用全局多模态上下文来指导多模态动态路由过程，同时研究每个模态的全局最优公共线索。这大大提高了学习效率，并提供了在所有模式之间架起桥梁的优越能力。

Description

一种基于注意力引导双向胶囊网络的多模态情感分类方法

技术领域

本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域，涉及一种基于注意力引导双向胶囊网络的多模态情感分类方法，具体是一种基于胶囊网络学习以及注意力机制的注意力引导的双向胶囊网络技术，对多模态信息进行双向探索解耦及融合，从而判断被试情感状态的方法。

背景技术

多模态学习提高了人们对人工智能系统的兴趣，语言、声学和视觉模式被广泛用于分析相关的研究任务。直观上，单个模态能够从特定的角度分析与任务相关的信息，而多种模态的整合则有利于我们有效地推理出多模态信息的复杂而全面的含义。由于不同内容之间的深度推理，相应的融合模型学会隐式地将联合的和本质的跨模态相互关联纳入最终的多模态表示。然而，传统的多模态情感分类方法在处理模态差异方面存在局限性，这并不能有效地减少模式之间的冗余。最近，基于胶囊的网络在计算机视觉中，借助可训练的视点不变变换，在捕获各种来源之间的部分-整体关系方面取得了显著的性能，因此受到了广泛的关注。但是，上述技术只是通过自下而上的注意力来关注表示层和输出层之间的空间关系。这确实忽略了多模态之间内在的上下文关系，未能为每个模态提供全局指导，导致局部次优解耦过程。

发明内容

本发明的一个目的是针对现有技术的不足，提出一种基于注意力引导双向胶囊网络的多模态情感分类方法。在预处理阶段，提出了多模态动态交互增强模块，以显式地增加原始特征空间的跨模态同质性，这自然为我们提供了在更紧凑的局部公共空间内有效执行多模态解耦任务的好处。此外，通过设计新的双向动态路由机制，提出了探索全局最优多模态公共信息的注意力引导的双向胶囊网络(ABCN)。具体来说，ABCN采用自上向下的基于注意力的模块(Transformer的编码器)，直接在特性级别提取内在的多模态上下文。然后，利用全局多模态上下文来指导多模态动态路由过程，使得学习模型具有在所有模态的指导下同时挖掘各模态上下文感知公共特性的强大能力。换句话说，全局最优推理流可以在多种模态之间有效度量。值得注意的是，与传统的胶囊网络相比，我们基于胶囊的架构用提出的多头卷积组件代替了变换矩阵。这在保持胶囊框架优点的同时，考虑了所需的卷积特性，从而提出了多路、全面的信息流。

一种基于注意力引导双向胶囊网络的多模态情感分类方法，采用的网络包括多模态动态交互增强模块和ABCN。多模态动态交互增强模块用于增强特征水平上的跨模态同质性。ABCN用于探索全局多模态公共线索。

该方法的具体步骤如下：

步骤1、获取多模态数据。

提取被测对象的三种模态数据；三种模态数据分别记为

T_i(i∈{a,v,t})是时域维度的尺寸，d_i(i∈{a,v,t})是每一个时刻的特征向量的长度。

步骤2、对三种模态数据进行交互增强。

步骤3、注意力引导的双向胶囊网络。

3-1.以步骤2的输出作为输入，通过注意力引导的双向胶囊网络提取全局多模态公共信息；注意力引导的双向胶囊网络包括低层多模态表示胶囊

和高层模态感知公共胶囊

其中，N_u和N_v分别为低层和高层胶囊的数量；

每个低层多模态表示胶囊u_i，均进行卷积投影，得到新的胶囊

如下：

其中，Conv(·)为卷积组件；kernel为可变卷积核。

进一步建立多头的投票矩阵

如下：

其中，s为卷积投影头的序数；kernel为第s个可变卷积核；i＝1,2,...,Nu。

3-2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文；第s个头的多模态上下文atten^[s]的表达式如下：

其中，Tran(·)表示Transformer的编码器。

3-3.采用具有N_v迭代的动态路由过程，获取多种模态之间的全局最优公共表示；在每次迭代时，利用耦合系数

来分析

和

之间的信息流，该耦合系数

通过基于初始化为0的临时累积变量

计算得到，具体表达式如下：

3-4.以胶囊

的加权和为基础，并借助相应的

和多模态上下文atten^[s]，获得高层胶囊

如下：

3-5.通过卷积操作，多头的高层胶囊

集成到最终的模态感知公共信息{com_a,com_v,com_t}中；然后，通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common＝conv(concat(com_a,com_v,com_t),kernel)。

步骤四、将步骤三所得的多模态公共表示common输入线性分类层，将输出信息与情感类别标签进行对比，得到被测对象在提取被测数据时所处的情感分类情况。

作为优选，步骤1中所述的三种模态数据分别为音频模态X_a、视频模态X_v、文本模态X_t。

作为优选，步骤2中，采用多模态动态交互增强模块对三种模态数据进行交互增强。多模态动态交互增强模块包括一个或多个进程头；每个进程头包括一个或多个自适应迭代。进程头数量为M；每个进程头中自适应迭代的数量为N。

多模态动态交互增强模块获取文本感知的音频表示

的过程如下：

对于单个进程头情况，

和

将先被输入模块中以寻找相似系数；经过N次迭代的文本增强的音频表示

公式如下：

其中，

为第m个进程头的第n次自适应迭代得到的文本增强音频表示，

为第m个进程头的第n-1次自适应迭代得到的文本增强音频表示，

为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(·)表示softmax函数运算。m＝1,2,...,M。

利用每个进程头迭代得到的文本增强的音频表示

获取多路文本增强表示X_a ^MulHead，并进一步获取文本感知的音频表示

计算过程如下：

其中，concat(·)为多头的连接函数；Conv(·)为卷积组件。

获取文本感知的音频表示

的过程与获取文本感知的音频表示

的过程相同；之后，将

与

以学习得到的第一比例C_a和第二比例C_v加到文本模态X_t中，获得增强的文本模态

具体如下：

作为优选，三种模态数据用于识别被测对象所处的公众情感基准；公众情感基准共有两种，分别为正类情感和负类情感。

作为优选，步骤三中，利用HingeLoss函数参与分析非线性信息，减少模态注意公共信息之间的差异；具体如下：

其中，SimilarityLoss为相似性误差；max(·)为取最大值运算；D(·)为查找向量运算。

计算差异性误差DifferenceLoss的表达式如下：

其中，

是弗罗贝尼乌斯范数。spe_i(i∈a,v,t)为模态的私有信息。

本发明还提供一种多模态情感分类系统，其包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现前述的多模态情感分类方法。

所述的存储器是一种机器可读存储介质，其存储的机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现前述的多模态情感分类方法。

本发明的有益效果如下：

1.本发明提出了多模态动态交互增强模块，以显式增强音频模态(视频模态)和文本模态之间的跨模态同质性，生成文本增强的音频(视频)表示，也代表局部跨模态公共信息。

2.本发明中的多模态动态交互增强模块直接突出双线性交互特性空间的跨模态依赖性，允许显式地促进和增强双模态同质性；为我们提供了强大的能力，以有效地从特征空间探索潜在的和内在的模态共享的共同信息。

3.本发明在单头跨模态增强模块的基础上，进一步建立多头跨模态增强网络，采集多路文本增强表示；此外，还引入了卷积组件对多路文本增强表示进行分析，从而更加深入探索文本增强信息之间的潜在交互，生成更加紧凑的文本感知的音频表示。

4.本发明中的多模态动态交互增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务；也就是说，ABCN可以专注于更加紧凑的表达空间，而不是原来庞大复杂的表达空间；这确实大大提高了学习效率，并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力。

5.本发明将线性替换为卷积投影，得到新的胶囊，其包含了理想的卷积非线性性质；这允许更细粒度的底层胶囊相对于高层胶囊的投影过程。

6.本发明将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况；多头机制确实有潜力促成低层胶囊与高层胶囊之间的多路、全面的信息流。

7.本发明进一步应用了的多模态上下文来指导动态路由过程，赋予了学习模型强大的能力，可以在所有模态的指导下，同时度量每个模态的上下文感知公共特性；也就是说，全局最优多模态推理流可以在多模态表示胶囊和公共胶囊之间有效学习，生成更有甄别性的原生表示。

附图说明

图1为本发明方法流程图；

图2为本发明方法整体架构图；

图3为本发明提供的多模态动态交互增强模块示意图；

图4为本发明提供的注意力引导的双向胶囊网络示意图。

具体实施方式

下面结合附图，对本发明方法做详细描述。

如图1和2所示，一种基于注意力引导双向胶囊网络的多模态情感分类方法，具体步骤如下：

如图1所示，该方法采用的基于注意力引导双向胶囊网络包括两个重要组成部分：1)多模态动态交互增强模块，用于增强特征水平上的跨模态同质性；2)ABCN，用于探索全局多模态公共线索。包括以下步骤：

步骤1、获取多模态数据

多模态数据表示多种类型模态数据：例如音频模态、视频模态、文本模态；多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息，从而增强任务表现；两种公众情感基准由音频、视频和文本三种模态组成；两种公众情感基准分别为正类(积极)情感和负类(消极)情感。三种模态表示形式分别为

T_i(i∈{a,v,t})分别是三种模态时域维度的尺寸，d_i(i∈{a,v,t})分别是三种模态每一个时刻的特征向量的长度；为简便起见，我们采用线性函数对{X_a,X_v,X_t}进行分析处理得到相同的特征维数d_i，即d_a＝d_v＝d_t；

步骤2、多模态动态交互增强模块

提出了如图2和3所示的多模态动态交互增强模块，以显式增强X_a(X_v)和X_t之间的跨模态同质性，生成文本增强的音频(视频)表示，以及音频和视频共同增强的文本表示，也代表局部跨模态公共信息；具体来说，所提出的多模态动态交互增强模块由M个进程头组成，每个进程头由N个自适应迭代组成；直观地说，多头机制允许在多视角下提取跨模态依赖关系，在双线性跨模态空间中得到综合的相互关系；对于单头情况，

和

将先被输入模块中以寻找相似系数(图3)；经过N次迭代的文本增强的音频表示

公式如下：

其中，

在迭代的第一阶段，采用点积运算将不同的模态显式投影到双线性交互特征空间X_a·X_t中，其中X_a·X_t的信息表示跨模态的相互关系；随后，引入softmax函数，分析音频模态中的话语如何受到文本模态中的话语的影响，得到文本模态对音频模态的影响系数；然后，利用得到的影响系数对原始音频模态进行处理，实现文本增强的音频表示；换句话说，直接突出双线性交互特性空间的跨模态依赖性，允许显式地促进和增强双模态同质性；这确实为我们提供了强大的能力，以有效地从特征空间探索潜在的和内在的模态共享的共同信息；在第一轮迭代的基础上，下一轮迭代利用前一轮迭代的输出动态更新双线性跨模态子空间；也就是说，将之前文本增强的音频表示作为输入数据交付给下一个迭代，并潜在地用于探索新的双线性交互子空间；之前的低阶双线性子空间

作为以下高阶双线性子空间

的动态移位(残差项)，得到更加紧凑和健壮的双线性跨模态交互子空间；注意X_v的过程与X_a相似；

在单头跨模态增强模块的基础上，进一步建立多头跨模态增强网络，采集多路文本增强表示X_a ^MulHead，concat(·)为多头的连接函数；Conv(·)为卷积组件；此外，还引入了卷积组件对X_a ^MulHead进行分析，从而更加深入探索文本增强信息

之间的潜在交互，生成更加紧凑的文本感知的音频表示

根据相似的方法获得文本感知的视频表示

之后，将

与

具体如下：

步骤3、注意力引导的双向胶囊网络(ABCN)

以增强模块的输出作为输入，通过ABCN来进一步研究全局多模态公共信息；直观地说，增强模块使ABCN能够在更紧凑的局部公共空间内有效地执行多模态解耦任务；也就是说，ABCN可以专注于更加紧凑的表达空间，而不是原来庞大复杂的表达空间；这确实大大提高了学习效率，并提供了基于局部次最优公共空间研究全局最优公共信息流的优越能力；

如图2和4所示，ABCN主要由低层多模态表示胶囊

和高层模态感知公共胶囊

组成；其中，N_u和N_v分别为低层和高层胶囊的数量；在传统的胶囊网络中，每个u_i乘以一个可训练的变换矩阵W_ij，得到投票矩阵

表示较低层u_i相对于较高层胶囊v_j的投影:

与传统的胶囊网络相比，我们将线性W_ij替换为卷积投影，得到新的

包含了理想的卷积非线性性质；这允许更细粒度的底层胶囊u_i相对于高层胶囊v_j的投影过程，其中Conv(·)为卷积组件；kernel是可变卷积核，可变卷积核为卷积组件进行卷积操作时所采用卷积核，本质是一个权重矩阵；投票矩阵

表示较低层u_i相对于较高层胶囊v_j的投影:

此外，我们将上述单头卷积投影设计扩展到拥有可变卷积核的多头情况；实际上，多头机制确实有潜力促成低层胶囊u_i与高层胶囊v_j之间的多路、全面的信息流，其中s为具体的卷积投影头，

对应第s个卷积投影头的投票矩阵:

值得注意的是，胶囊网络自下而上的注意力只能分析低级表示胶囊

与高级普通胶囊

之间的部分-整体(空间)关系；这只突出了一小部分低级胶囊u_i的贡献，而完全忽略了多模态表示

中内在和本质的上下文信息，导致在

和

之间的局部次优推理流；因此，在这项工作中，我们利用Transformer的编码器直接从表现空间中挖掘内在的多模态上下文；形式上，第s个头的多模态上下文atten^[s]定义如下，

分别为第一个和第N_u个投票矩阵:

其中，Tran表示Transformer的编码器；随后，采用具有N_v迭代的动态路由过程，探索多种模态之间的全局最优公共表示；在每次迭代时，利用耦合系数

来分析

和

之间的信息流，该耦合系数

是基于初始化为0的临时累积变量

计算的；具体流程如下，其中

分别为第1到第N_v个耦合系数、第1到第N_v个临时累积变量:

然后，高层胶囊

表示为

的加权和，并借助相应的

和多模态上下文线索atten^[s]；从本质上讲，与传统的胶囊网络中

只依赖于

和

不同，我们的模型进一步应用了atten^[s]来指导动态路由过程并更新

这确实赋予了学习模型强大的能力，可以在所有模态的指导下，同时度量每个模态(u_i)的上下文感知公共特性；也就是说，全局最优多模态推理流可以在多模态表示胶囊u_i和公共胶囊v_j之间有效学习，生成更有甄别性的原生表示；

当多头设置为2时，每个模态可以计算2个对应的模态感知公共信息

然后，通过卷积操作，公共信息可以进一步集成到最终的模态感知公共信息{com_a,com_v,com_t}中；例如，

然后，通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示中:common＝conv(concat(com_a,com_v,com_t),kernel)；

如前所述，卷积投影被用来分析底层胶囊u_i，它允许卷积非线性表示；因此,我们引入HingeLoss函数参与分析非线性信息，以减少模态注意公共信息之间的差异:

其中，SimilarityLoss为相似性误差；max(·)为取最大值运算；D(·)为查找向量运算，com_i和com_j会被赋予一个独立的向量。

此外,在我们的工作中,每个spe_i(i∈a,v,t)是模态的私有信息，由模态私有信息提取块(ABCN)来获得，

是弗罗贝尼乌斯范数。然后，按照MISA的约束设计，差异性误差公式为：

最后，将最终的融合信息输入线性分类层，将输出信息与情感类别标签进行对比，得到最终的分类结果。

如表1所示，使用本发明与现有多种多模态融合方法同时在多模态情感数据库CMU-MOSI进行情感状态判别任务。此外，还引入了以下评价指标来分析模型的性能:平均绝对误差(MAE)、皮尔逊相关(Corr)、二分类精度(Acc-2)、F-Score(F1)、七分类精度(Acc-7)。事实上，存在两种不同的方法来测量Acc-2和F1。1)在(Zadeh et al.2018b)的工作中，负类的标注范围为[-3,0)，而非负类的标注范围为[0,3]。2)在(Tsai et al.2019)的工作中，负类和正类的范围分别为[-3,0)和(0,3]。使用标记-/-来区分不同的策略，其中左边的值表示1)，右边的值表示2)。比较衡量多个现有多模态融合方法可知，本发明的结果都优于现有融合模型，证明了本发明所提出方法的有效性。

表1