CN116502181A

CN116502181A - 基于通道扩展与融合的循环胶囊网络多模态情感识别方法

Info

Publication number: CN116502181A
Application number: CN202310567609.6A
Authority: CN
Inventors: 孙强; 党鑫豪
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-07-28

Abstract

本发明公开了基于通道扩展与融合的循环胶囊网络多模态情感识别方法，具体为：从每个视频样本中分别提取音频模态特征序列、视觉模态特征序列和文本模态特征序列；将特征序列逐一输入时域卷积网络中，得到包含上下文信息的模态特征序列、视觉模态特征序列和文本模态特征序列；利用多通道可变形卷积网络从上述模态特征序列中逐一学习，得到包含高层语义信息的音频模态特征序列、视觉模态特征序列和文本模态特征序列，利用构建的多模态语义胶囊融合网络获取全局信息胶囊，并输入到双向长短期记忆网络中进行压缩，最后，送入密集层中进行多模态情感分类。本发明的基于通道扩展与融合的循环胶囊网络合理有效，能够达大大提高多模态情感识别的准确率。

Description

基于通道扩展与融合的循环胶囊网络多模态情感识别方法

技术领域

本发明属于情感识别技术领域，具体涉及基于通道扩展与融合的循环胶囊网络多模态情感识别方法。

背景技术

近些年伴随计算机硬件资源的提升，人工智能领域得到了飞速的发展。时至今日，人工智能已经融入到了生活的方方面面。例如人工智能中的多模态情感识别，通过结合多种模态信息可以有效识别被采集者的情感状态，在医疗诊断、智能驾驶、人机交互以及舆论监督等场景均发挥了重要的作用。然而，多模态情感识别虽然在各种工业应用中表现出色，但目前仍然有两个难点待解决。首先是如何有效提取各模态特征序列的高层语义信息，为后续的融合阶段提供更加强大、包含更多深层次语义信息的高级表示。其次是如何学习不同模态特征序列之间的潜在关系，有效地融合不同模态特征序列，得到一个更具代表性的多模态融合表示。

发明内容

本发明的目的是提供基于通道扩展与融合的循环胶囊网络多模态情感识别方法，通过通道扩展和融合的方式对各模态特征序列进行处理，以有效提取各模态特征序列的高层语义信息。

本发明所采用的技术方案是，基于通道扩展与融合的循环胶囊网络多模态情感识别方法，具体按照以下步骤实施：

步骤1、从多模态情感视频数据库中提取多个视频样本，从每个视频样本中分别提取音频模态特征序列视觉模态特征序列/>和文本模态特征序列

T为各模态特征序列的序列长度，d_a、d_l和d_v分别为音频模态、文本模态和视觉模态的特征向量维度；

步骤2、分别建立三个时域卷积网络，将每个视频样本的音频模态特征序列Z^a、视觉模态特征序列Z^v和文本模态特征序列Z^l分别送入对应时域卷积网络中，学习各模态特征序列的时域关系，各模态特征序列的特征向量维度被统一为d，最后，得到包含上下文信息的音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l；

步骤3、构建L个多通道可变形卷积网络并按顺序堆叠在一起，每个多通道可变形卷积网络由三个“通道扩展”模块和一个“通道融合”模块组成；然后，将包含上下文信息的音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l同时输入到堆叠的多通道可变形卷积网络中进行处理，得到包含高层语义信息的音频模态特征序列视觉模态特征序列/>和文本模态特征序列/>

步骤4、构建多模态语义胶囊融合网络，获得全局信息胶囊V；

步骤5、将全局语义胶囊V输入到双向长短期记忆网络中进行压缩，得到压缩的多模态融合

步骤6、将压缩的多模态融合送入密集层中进行多模态情感分类。

本发明的特点还在于，

步骤3中，每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成；“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成；

每个多通道可变形卷积网络的具体处理过程为：

步骤A、将包含上下文信息的音频模态特征序列视觉模态特征序列和文本模态特征序列/>分别输入到“通道扩展”模块中；在“通道扩展”模块中，使用大小为3×3和5×5的卷积核以及大小为3×3的最大池化操作分别处理各模态特征序列，提取各模态特征序列不同粒度的语义信息，具体计算过程如式(1)-(3)所示：

其中，i∈{a、v、l}，2Conv表示为二维卷积神经网络，和/>分别是使用为3×3卷积、5×5卷积和3×3最大池化的输出结果，/>是使用3×3卷积操作后的特征通道数，/>是使用5×5卷积操作后的特征通道数，/>是使用3×3最大池化操作后的特征通道数；

步骤B、将相同模态的和/>分别与Xⁱ拼接在一起，以得到“通道扩展”模块的最终输出/>即分别为/>和/>具体计算过程如式(4)所示：

其中，C是拼接后的特征通道维度，计算公式为

步骤C、将三个“通道扩展”模块的输出和/>输入到“通道融合”模块，在“通道融合”模块中，首先按照语义信息的粒度对/>和/>进行划分和拼接，并送入对应的可变形卷积网络中进行处理，具体计算过程如式(5)-(9)所示：

其中，X_3×3、X_5×5、X_pool和X_avl分别为各模态相同粒度的特征序列融合之后的结果，DeforConv表示为可变形卷积网络，和/>分别为“通道融合”模块输出的音频模态、文本模态和视觉模态的特征序列；

步骤D、引入残差网络以保证多通道可变形卷积网络不会随着网络层数增加而出现性能下降现象，具体计算过程如式(10)所示：

其中，表示矩阵加法操作，/>和分别为多通道可变形卷积网络输出的各模态特征序列；

步骤E、以和/>作为输入，重复L次步骤A-步骤D，得到堆叠多通道可变形卷积网络的最终输出/>和/>

步骤4中，具体为：

步骤A、将音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l按照维度T拼接在一起，得到输出特征序列/>然后从维度T对特征序列X进行划分，得到T个特征序列/>其中i∈{1,2,...,}；

步骤B、使用一维卷积神经网络分别处理特征序列得到T个局部语义信息胶囊/>其中r为一维卷积后的特征维度；

步骤C、分别给每个局部信息胶囊一个初始的权重值，将这些局部信息胶囊和对应的权重值加权求和得到一个新的特征序列将其称为全局信息胶囊；然后计算全局信息胶囊P和每个局部信息胶囊U_i之间的皮尔逊相关系数，并使用得到的皮尔逊相关系数去更新每个局部信息胶囊对应的权重值；其次，使用所有更新后的权重值重新与对应的局部信息胶囊加权求和，得到一个新的全局信息胶囊/>最后，计算新的全局信息胶囊M和每个局部信息胶囊U_i的皮尔逊相关系数，并继续更新对应的权重值，重复N次，得到最终输出的全局信息胶囊/>其中j∈{1,2,...,}，具体计算过程如式(11)-(15)所示：

其中，表示权重值，/>为中间胶囊，c_ij表示胶囊系数，用于和中间胶囊/>加权求和生成全局信息胶囊j_j，b_ij为1，“←”表示对数值进行更新，/>是/>和V_j的皮尔逊相关系数，/>是/>的均值，/>是V_j的均值，/>是/>的均值，是V_j ²的均值，/>是/>的均值。

步骤6中，密集层由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。

本发明的有益效果是：

1)本发明创新性地提出用于学习各模态特征序列的高层语义信息的网络，即多通道可变形卷积网络。该网络通过“通道扩展”和“通道融合”可以充分提取各模态特征序列不同粒度的语义信息，以及通过可变形卷积网络结合其他模态的语义信息，学习到各模态特征序列中隐式的语义信息。并且堆叠多个多通道可变形卷积网络重复处理各模态特征序列，可以充分的提取各模态特征序列的高层语义信息，使学习到各模态高级表示更具代表性，包含更多抽象的语义信息；

2)与以往使用胶囊网络的情感识别工作相比，本发明对标准的胶囊网络进行了改进，对每个单词上的所有模态特征序列进行组合以生成局部信息胶囊，并且将胶囊从向量形式变为矩阵形式，增强了胶囊网络的表示能力。此外，使用皮尔逊相关系数计算局部信息胶囊与全局信息胶囊之间的关系，使全局信息胶囊的生成过程更加严谨合理；

3)通过大量的实验分析和验证，本发明提出的基于通道扩展与融合的循环胶囊网络合理有效，能够达大大提高多模态情感识别的准确率。

附图说明

图1是本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法的流程图；

图2是本发明“通道扩展”模块的结构图；

图3是本发明“通道融合”模块的结构图；

图4是本发明多模态语义胶囊融合网络的结构图；

图5是本发明特征序列X的划分流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

实施例1

本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法，如图1所示，具体按照以下步骤实施：

步骤1、从多模态情感视频数据库中提取多个视频样本，通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征序列视觉模态特征序列和文本模态特征序列/>

其中，T为各模态特征序列的序列长度，d_a、d_l和d_v分别为音频模态、文本模态和视觉模态的特征向量维度；

多模态情感视频数据库包括CMU-MOSI、CMU-MOSEI和IEMOCAP；

步骤2、分别建立三个时域卷积网络，将每个视频样本的音频模态特征序列Z^a、视觉模态特征序列Z^v和文本模态特征序列Z^l分别送入对应建立好的时域卷积网络中，以学习各模态特征序列的时域关系，同时滤除各模态特征序列中的冗余信息，此外，通过时域卷积网络处理，各模态特征序列的特征向量维度被统一为d。最后，得到包含上下文信息的音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l；

步骤3、构建L个多通道可变形卷积网络并按顺序堆叠在一起，每个多通道可变形卷积网络由三个“通道扩展”模块和一个“通道融合”模块组成；然后，将包含上下文信息的音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l同时输入到堆叠的多通道可变形卷积网络中进行处理，在每个多通道可变形卷积网络中，各模态特征序列X^a、X^v和X^l首先被分别送入对应的“通道扩展”模块中，通过不同大小的卷积核提取多粒度语义信息，然后所有“通道扩展”模块的输出特征序列被送入“通道融合”模块进一步学习处理，最后得到包含高层语义信息的音频模态特征序列视觉模态特征序列/>和文本模态特征序列/>

其中，每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成，详细结构如图2所示；“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成，详细结构如图3所示；具体来说，每个多通道可变形卷积网络的具体过程为：

其中，i∈{a、v、l}，2Conv表示为二维卷积神经网络，和/>分别是使用为3×3卷积、5×5卷积和3×3最大池化的输出结果，/>是使用3×3卷积操作后的特征通道数，/>是使用5×5卷积操作后的特征通道数，/>是使用3×3最大池化操作后的特征通道数。

其中，C是拼接后的特征通道维度，计算公式为

其中，X_3×3、X_5×5、X_pool和X_avl分别为各模态相同粒度的特征序列融合之后的结果，DeforConv表示为可变形卷积网络，结构如表1所示，和/>分别为“通道融合”模块输出的音频模态、文本模态和视觉模态的特征序列。

步骤D、为了防止出现网络退化现象，引入残差网络以保证多通道可变形卷积网络不会随着网络层数增加而出现性能下降现象，具体计算过程如式(10)所示：

其中，表示矩阵加法操作，/>和分别为多通道可变形卷积网络输出的各模态特征序列。

表1可变形卷积网络的结构，₁和C₂表示特征图的通道数

Layer	Kernel	Activation	Filters	Padding	Output
						Input	-	-	-	-	C₁×T×d
Conv 1	3×3	-	C₁×2	1	C₁×2×T×d
						Offset 1	-	-	-	-	C₁×T×d
Conv 2	3×3	ReLU	C₂	1	C₂×T×d
						Batch Norm 1	-	-	-	-	C₂×T×d
Conv 3	3×3	-	C₂×2	1	C₂×2×T×d
						Offset 2	-	-	-	-	C₂×T×d
Conv 4	3×3	ReLU	1	1	1×T×d
						Batch Norm 2	-	-	-	-	1×T×d

步骤4、构建多模态语义胶囊融合网络，如图4所示，该网络将输入特征序列划分为T个部分，分别针对每个部分使用一维卷积神经网络处理，输出T个特征序列，将其称为局部信息胶囊；然后，分别给每个局部信息胶囊一个权重值，将这些局部信息胶囊加权求和得到一个新的特征序列，将其称为全局信息胶囊；其次，计算全局信息胶囊和每个局部信息胶囊的皮尔逊相关系数，使用得到皮尔逊相关系数去更新对应的权重值，再使用更新后的权重值重新与对应的局部信息胶囊加权求和，得到新的全局信息胶囊；最后，继续计算新的全局信息胶囊和每个局部信息胶囊的皮尔逊相关系数，并更新对应的权重值，重复N次，输出最后一次得到的全局信息胶囊；

步骤5、将全局语义胶囊V输入到双向长短期记忆网络中进行压缩，得到压缩的多模态融合具体计算过程如式(16)所示：

其中，Bi-LSTM表示双向长短期记忆网络；通过这种方法，模型的参数量从(b*6*r)²降低为(6*)²，减少了b²倍。此外，由于全局信息胶囊的个数b很小，所以双向长短期记忆网络的学习过程中不会存在长程依赖问题。

步骤6、将压缩的多模态融合送入密集层中进行多模态情感分类，具体计算过程如式(17)所示：

其中，Dense表示密集层，由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。对于不同的数据集和目标任务，o的维度取值是不同的；

实施例2

与实施例1的区别在于，多模态语义胶囊融合网络的具体构建过程为：

步骤A、音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l按照维度T拼接在一起，得到输出特征序列/>然后从维度T对特征序列X进行划分，具体划分步骤如图5所示，得到T个特征序列/>其中i∈{1,2,...,}。

步骤B、使用一维卷积神经网络分别处理特征序列得到T个局部语义信息胶囊/>其中r为一维卷积后的特征维度。

其中，表示权重值，/>为中间胶囊，c_ij表示胶囊系数，用于和中间胶囊/>加权求和生成全局信息胶囊V_j，b_ij是一个标量，初始值为1，用于衡量/>有多少信息应该被发送给V_j，当/>和V_j越相似时，就表明V_j包含/>的语义信息越多，对应/>的贡献就越大，因此b_ij就应该越大，“←”表示对数值进行更新，/>则是/>和V_j的皮尔逊相关系数，/>是/>的均值，/>是V_j的均值，/>是/>的均值，/>是/>的均值，/>是/>的均值。

实施例3

本发明在CMU-MOSI、CMU-MOSEI和IEMOCAP三个多模态情感数据集上进行了大量实验并分析讨论，以评估本发明在各方面指标上的性能。

实验结果对比如下：

对于CMU-MOSI和CMU-MOSEI数据集，本发明将其作为一个回归任务，因此评估指标包含常见的相关系数(Corr)和平均绝对误差(MAE)。此外，由于CMU-MOSI和CMU-MOSEI数据集的连续值标签的取值范围在[-3,3]之间，因此大多数多模态情感识别工作对这个取值范围进行划分，得到新的评估指标七类准确率(Acc₇，将[-3,3]划分为七类)、二类准确率(Acc₂，将[-3,3]划分为两类)和F1分数(F₁)。为了更公平的与大多数模型对比性能，本发明也选择使用这三个指标来评估基于通道扩展与融合的循环胶囊网络的性能。针对IEMOCAP数据集，本发明遵循现有大多数工作的评估方式，使用准确率(Acc)和F₁评估基于通道扩展与融合的循环胶囊网络在该数据集上的识别性能。

在CMU-MOSI数据集上不同网络模型的性能对比结果如表2所示；在CMU-MOSEI数据集上不同网络模型的性能对比结果如表3所示；在IEMOCAP数据集上不同网络模型的性能对比结果如表4所示；

表2 CMU-MOSI数据集上不同网络模型的性能对比结果

Methods	Acc₇	Acc₂	F₁	Corr	MAE
						EF-LSTM	33.7	75.3	75.2	0.608	1.023
LF-LSTM	35.3	76.8	76.7	0.625	1.015
						TFN	34.9	75.6	75.5	0.605	1.009
LMF	30.5	75.3	75.2	0.605	1.018
						QMF	33.5	79.7	79.6	0.696	0.915
CIA	38.9	79.8	79.5	0.689	0.914
						MCTN	35.6	79.3	79.1	0.676	0.909
MFM	31.9	76.2	75.8	0.622	0.988
						RAVEN	33.8	78.8	76.9	0.667	0.968
MARN	34.7	77.1	77.0	0.625	0.968
						RCN-CEF	34.4	81.1	81.4	0.712	0.908

表3在CMU-MOSEI数据集上不同网络模型的性能对比结果

Methods	Acc₇	Acc₂	F₁	Corr	MAE
						EF-LSTM	47.5	79.2	79.0	0.627	0.656
LF-LSTM	47.2	79.1	78.6	0.610	0.667
						Graph-MFN	45.0	76.9	77.0	0.54	0.71
TFN	47.3	79.3	78.2	0.618	0.657
						LMF	47.6	78.2	77.6	0.623	0.660
QMF	47.9	80.7	79.8	0.658	0.640
						MMMU-BA	48.4	80.7	80.2	0.672	0.627
MCTN	49.6	79.8	80.6	0.670	0.609
						RCN-CEF	50.8	79.7	80.7	0.681	0.596

表4在IEMOCAP数据集上不同网络模型的性能对比结果

由表2-表4的实验数据可以看出，本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法，可以准确地识别出用户的情感状态。此外，通过多通道可变形卷积网络的“通道扩展”和“通道融合”模块分别可以提取到各模态特征序列不同粒度的语义信息和各模态特征序列中隐式的语义信息，并且多通道可变形卷积网络模块通过堆叠的方式能够保证学习到各模态特征序列的高层语义信息。同时，多模态语义胶囊融合网络首先分别在局部区域融合各模态特征序列，然后通过集成这些局部融合表示得到一个完整的多模态融合表示，通过这种方法模型可以充分学习到所有的局部语义信息，同时保证学习到的全局语义信息更加完整充分。

综上所述，本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法整体上是优于现有方法，这验证了本发明提出方法的有效性，能够有效提取各模态特征序列的高层语义信息，同时学习不同模态特征序列之间的潜在关系，有效地融合不同模态特征序列，得到更具代表性的多模态融合表示。

Claims

1.基于通道扩展与融合的循环胶囊网络多模态情感识别方法，其特征在于，具体为：提取多个视频样本，并从每个视频样本中分别提取音频模态特征序列、视觉模态特征序列和文本模态特征序列；将上述模态特征序列逐一输入时域卷积网络中，分别得到包含上下文信息的模态特征序列、视觉模态特征序列和文本模态特征序列；利用多通道可变形卷积网络从上述模态特征序列中逐一学习，分别得到包含高层语义信息的音频模态特征序列、视觉模态特征序列和文本模态特征序列，利用构建的多模态语义胶囊融合网络获取全局信息胶囊，并输入到双向长短期记忆网络中进行压缩，最后，送入密集层中进行多模态情感分类。

2.根据权利要求1所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法，其特征在于，具体按照以下步骤实施：

3.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法，其特征在于，所述步骤3中，每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成；“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成；

每个多通道可变形卷积网络的具体处理过程为：

其中，C是拼接后的特征通道维度，计算公式为

其中，表示矩阵加法操作，/>和/>分别为多通道可变形卷积网络输出的各模态特征序列；

4.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法，其特征在于，所述步骤4中，具体为：

步骤A、将音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列X^a、视觉模态特征序列X^v和文本模态特征序列X^l按照维度T拼接在一起，得到输出特征序列/>然后从维度T对特征序列X进行划分，得到T个特征序列/>其中i∈{1,2,...,T}；

其中，表示权重值，/>为中间胶囊，c_ij表示胶囊系数，用于和中间胶囊加权求和生成全局信息胶囊V_j，b_ij为1，“←”表示对数值进行更新，/>是/>和V_j的皮尔逊相关系数，/>是/>的均值，/>是V_j的均值，/>是/>的均值，/>是V_j ²的均值，/>是/>的均值。

5.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法，其特征在于，所述步骤6中，密集层由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。