CN112612936B

CN112612936B - 一种基于对偶转换网络的多模态情感分类方法

Info

Publication number: CN112612936B
Application number: CN202011581373.4A
Authority: CN
Inventors: 孔万增; 唐佳佳; 李康; 金宣妤; 张建海
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-03-08
Anticipated expiration: 2040-12-28
Also published as: CN112612936A

Abstract

本发明公开一种基于对偶转换网络的多模态情感分类方法。本发明结合对偶学习机制以及自注意力机制，在将一个模态转换为另一个模态的过程中，挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时，对偶学习技术能够增强模型的鲁棒性，因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。其次，在此基础上构建的分层融合框架，将所有具有同一个源模态的跨模态融合信息拼接在一块，从而采用一维卷积层进行融合操作，能够进一步挖掘多模态信息之间的高层次互补信息，是对当前情感识别领域的多模态融合框架的有效补充。

Description

一种基于对偶转换网络的多模态情感分类方法

技术领域

本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域，具体涉及一种基于对偶转换网络的多模态情感分类方法，具体是一种基于对偶学习以及注意力机制的对偶转换融合网络技术，对多模态信息进行双向长时分层融合，从而判断被试情感状态的方法。

背景技术

情感分析领域通常包含文本数据，视频数据以及语音数据。在以往的研究中，验证了这些单模态数据中包含着与情感状态相关的判别信息。同时，研究发现，这些单模态数据之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征，并且能够进一步增强模型表达能力及稳定性，提升情感任务分析性能。

现有的基于转换网络的多模态融合模型，由于所包含的自注意力机制能够一定程度上减轻多模态数据之间的不对齐问题带来的影响，因此引起了广泛关注。具体操作为，在一个模态转换为另一个模态的过程中，提取转换过程中的中间表示作为多模态融合信息。但是当某一种模态数据缺失时，中间融合数据将会缺少来自于这种模态数据的贡献，极大影响模型表现。此外，现有转换融合模型的核心模块通常采用标准的转换模型，导致模型过于笨重(即模型包含大量的参数)。另一方面，现有转换模型通常只把文本数据作为源模态，即只考虑文本到音频的转换以及文本到视频的单向转换，而并没有考虑到更复杂多样的模态转换例子，例如从音频到文本的反向转换以及视频-音频数据之间的双向转换，将会缺少更高层次的多模态融合信息，从而影响最终的任务表现。

发明内容

本发明的一个目的是针对现有技术的不足，提出一种基于对偶转换网络的多模态情感分类方法。首先，构建对偶转换融合网络模块，该模块包含相互耦合的两个转换器，在将一个模态转换为另一个模态的过程中，挖掘模态对之间具有方向性的长时交互的跨模态融合信息(融合信息对应于转换器中间层的输出数据)。其中，对偶学习技术能够增强模型的鲁棒性，因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着，在此基础上构建了一个分层融合框架，将所有具有同一个源模态的跨模态融合信息拼接在一块，进一步采用一维卷积层进行高层次的多模态融合，从而进行情感状态判别。

本发明所采用的技术方案是：

一种基于对偶转换网络的多模态分层融合方法，包括以下步骤：

步骤1、获取多模态数据

多模态数据表示多种类型模态数据：例如音频模态、视频模态、文本模态等；

多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息，从而增强任务表现；

步骤2、多模态信息数据预处理：抽取多模态信息线性变换初级表征

为了多模态数据是在特征层面上进行多模态融合操作，采用线性网络抽取每一个模态数据的初级特征表示；

X_m＝f(Z_m)＝W_m*Z_m+b_m 公式(1)

其中

为第m个模态的初级表征，Z_m为第m个模态的原始数据，W_m为第m个模态的线性网络的权重矩阵，b_m为线性网络的偏置向量，T_m为时域维度的尺寸，d_m为每一个时刻的特征向量的长度；

步骤3、基于对偶转换网络，对任意两模态信息构建闭环交互：

多模态分层融合框架中包含的核心处理模块之一为对偶转换网络模块，而对偶转换网络模块中包含若干个对偶转换网络；每个对偶转换网络用于获得第i个模态A_i与第j个模态A_j之间的跨模态交互融合信息；

对偶转换网络包含两个转换器，分别是主转换器

以及对偶转换器

其中

用于将源模态A_i转换为目标模态A_j，

用于将源模态A_j转换为目标模态A_i；上述转换器采用Transformer所包含的编码器(encoder)，其中的核心思想为注意力机制，即通过特定运算获取信息中与任务更相关的部分，具体是通过查询矩阵Q，关键矩阵K以及实值矩阵V，可以计算得到对应的注意力因子以及重要部分信息；

所述主转换器

以步骤2得到的模态A_i和A_j的初级表征X_i以及X_j作为输入数据，即X_i为源模态表征，X_j为目标模态表征；将X_i分别输入三个线性转换网络，得到对应的查询矩阵

关键矩阵

以及实值矩阵

(即对应于X_i在三个不同空间内的高维表征)，表示如下：

其中

以及

是分别对应于

以及

的线性网络的权重矩阵；

为模态A_i的时域维度尺寸，

为线性转换网络的输出向量尺寸；

基于查询矩阵

以及关键矩阵

可以计算得到源模态A_i中的注意力因子矩阵

再根据注意力因子矩阵和实值矩阵

相作用，得到模态A_i内部元素在时域上的长时相关性；由于模态A_j为转换器的目标模态，则模态A_i内部的长时相关性对应于模态A_j的生成信息X_j’，即伪X_j：

所述对偶转换器

以X_j’作为输入数据，X_i为目标模态表征，得到对应于模态A_i的生成信息

即伪X_i；

以上的过程对应于基于A_i的对偶学习过程，包含主任务和对偶任务，其中将X_i转换为X_j’的过程为主任务，而基于X_j’生成X_i’的过程为对偶任务；首先将X_i作为主转换器

的源输入数据(source input)，得到伪X_j(X_j’)，此处需计算判别误差||X_j-X_j’||；再将主转换器的输出数据——X_j’作为对偶转换器

的源输入数据，得到伪X_i(X_i’),此处需计算重构误差

因此基于A_i的主任务和对偶任务构成了半个闭环；

而基于A_j的对偶学习过程，主任务是将X_j转换为X_i’，而基于X_i’生成X_j’的过程为对偶任务；首先将X_j作为对偶转换器

的源输入数据，得到伪X_i(X_i’)，此处需计算判别误差||X_i-X_i’||；再将对偶转换器的输出数据——X_i’作为主转换器

的源输入数据，得到伪X_j(X_j’)，此处需计算重构误差

基于A_j的主任务和对偶任务同样构成了半个闭环；

以上训练过程需要计算两个判别误差以及两个重构误差，即对应的损失函数为min

当损失函数达到阈值δ时，则结束训练；

因此，当联合基于A_i和A_j的对偶学习过程时，这两个对偶学习任务就构成了完整的闭环，能够进一步增强模型的鲁棒性，同时能确保主转换器

以及对偶转换器

中间层的输出信息同时包含了模态A_i以及模态A_j的信息，实现了跨模态之间的双向、长时交互性信息的整合；当主转换器

以及对偶转换器

训练完毕后，若目标模态A_j信息缺失时，我们也可以有效地依据模态A_i的信息实现模态A_i以及模态A_j之间的跨模态融合操作，即能有效地应对多模态学习中存在的固有问题——模态缺失问题；

步骤4、多模态信息的卷积融合操作；

根据步骤3可得到任意模态A_i和模态A_j的对偶转换网络输出为：

其中L为编码器的总层数；

将所有对应同一个源模态的融合信息按照时域维度拼接：

其中M为模态的总个数，

为拼接操作；

再将以上信息分别通过一维卷积层，进一步进行多模态高层融合信息抽取：

其中Conv1D为一维卷积函数，K为卷积核；

最终将以上信息拼接得到最终的融合信息：

将最终的融合信息输入线性分类层，将输出信息与情绪类别标签进行对比，得到最终的分类结果。

本发明的有益效果是：本发明结合对偶学习机制以及自注意力机制，在将一个模态转换为另一个模态的过程中，挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时，对偶学习技术能够增强模型的鲁棒性，因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着，在此基础上构建了一个分层融合框架，将所有具有同一个源模态的跨模态融合信息拼接在一块，进一步采用一维卷积层进行高层次的多模态融合，是对当前情感识别领域的多模态融合框架的有效补充。

附图说明

图1为本发明方法流程图；

图2为对偶转换网络示意图；

图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图；

图4为三模态融合示意图。

具体实施方式

下面结合附图，对本发明方法做详细描述。

图1为本发明多模态情感分析方法流程图。

本发明方法基于对偶转换网络的多模态情感分析方法，如图1所示。

步骤1、获取多模态信息数据

在备试执行特定情感任务下，记录备试的文本模态数据、语音模态数据以及视频模态数据。

步骤2、多模态信息数据预处理

X_m＝f(Z_m)＝W_m*Z_m+b_m 公式(1)

其中

步骤3、基于对偶转换网络，对任意两模态信息构建3个闭环交互，得到音频模态-视频模态闭环交互，音频模态-文本模态闭环交互，文本模态-视频模态闭环交互。

音频模态-视频模态闭环交互为例：

音频模态(以A表示)和视频模态(以V表示)作为对偶转换网络模块的输入数据。对偶转换网络总共包含两个转换器，分别是主转换器Tran_A→V以及对偶转换器Tran_V→A，Tran_A→V对应的任务是将源模态A转换为目标模态V，对应的，Tran_V→A的任务是将源模态V转换为目标模态A。这里的转换器采用Transformer所包含的encoder。

对于主转换器Tran_A→V而言，根据步骤1得到的模态A和V的初级表征X_A以及X_V作为Tran_A→V的输入数据，其中X_A为源模态表征，X_V为目标模态表征。首先将X_A分别输入三个线性转换网络，得到对应的查询矩阵Q_A、关键矩阵K_A以及实值矩阵V_A，表示如下：

基于查询矩阵Q_A以及关键矩阵K_A可以计算得到源模态A中的注意力因子矩阵，则将该注意力因子矩阵和实值矩阵相作用，可以得到模态A内部的长时相关性，我们先假定其为对应于模态V的虚假生成信息X_V’，如下所示：

类似的，将X_V’作为对偶转换器Tran_V→A的源模态数据，则X_A为目标模态表征，得到对应于模态A的虚假生成信息X_A’＝Tran_V→A(X_V’，X_A)。以上的过程对应于主任务，而对偶任务相对于主任务而言，是将X_V作为源模态表征，而X_A作为目标模态表征。因此，对偶任务和主任务构成了封闭的环状结构，能够有效增强模型的鲁棒性，同时能确保主转换器Tran_A→V以及对偶转换器Tran_V→A中间层的输出信息同时包含了模态A以及模态V的信息，实现了跨模态之间的双向、长时交互性信息的整合。当主转换器Tran_A→V以及对偶转换器Tran_V→A训练完毕后，若目标模态V信息缺失时，我们也可以有效地依据模态A的信息实现模态A以及模态V之间的跨模态融合操作，即能有效地应对多模态学习中存在的固有问题——模态缺失问题。

步骤4、多模态信息的卷积融合操作；

基于步骤3，模态A和模态V的对偶转换网络输出为：

[Tran_A→V ^L/2，V’]＝Tran_A→V(A，V)

[Tran_V→A ^L/2，A’]＝Tran_V→A(V，A) 公式(4)

模态A和模态T(文本数据)的对偶转换网络输出为：

[Tran_A→T ^L/2，T’]＝Tran_A→T(A，T)

[Tran_T→A ^L/2，A’]＝Tran_T→A(T，A) 公式(5)

模态V和模态T的对偶转换网络输出为：

[Tran_V→T ^L/2，T’]＝Tran_V→T(V，T)

[Tran_T→V ^L/2，V’]＝Tran_T→V(T，V) 公式(6)

将所有对应同一个源模态的融合信息按照时域维度拼接：

最终将以上信息拼接得到最终的融合信息：

将最终的融合信息输入线性分类层，将输出信息与情绪类别标签进行对比，得到最终的分类结果。图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图。在此基础上，图4为三个模态A、V以及T的多模态融合流程图。

如表1所示，本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、MELD上进行情感状态判别任务，t为文本数据(text)，v为视频数据(video)，a为语音数据(audio)，表中结果为情感二分类任务对应的精确度。比较衡量多个现有多模态融合方法可知，本发明的结果都优于现有融合模型，证明了本发明所提出方法的有效性。

表1.结果对比表