CN112818861B

CN112818861B - 一种基于多模态上下文语义特征的情感分类方法及系统

Info

Publication number: CN112818861B
Application number: CN202110141728.6A
Authority: CN
Inventors: 卢官明; 奚晨; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-07-26
Anticipated expiration: 2041-02-02
Also published as: CN112818861A

Abstract

本发明公开了一种基于多模态上下文语义特征的情感分类方法及系统。该方法包括：将短视频以话语为单位分割成相同数量的语义单元，生成对应的视频、语音和文本样本，并提取表情特征、语谱图和句子向量三种表征特征；将提取的三种表征特征分别输入到表情、语音、文本情感特征编码器，提取对应的情感语义特征；分别使用表情、语音、文本情感语义特征的上下文关系，构建相应的邻接矩阵；分别将表情、语音、文本情感语义特征以及相应的邻接矩阵输入对应的图卷积神经网络，提取对应的上下文情感语义特征，并融合得到多模态情感特征，用于情感的分类识别。本发明通过图卷积神经网络更好地利用情感语义特征的上下文关系，能有效地提高情感分类的准确率。

Description

一种基于多模态上下文语义特征的情感分类方法及系统

技术领域

本发明属于情感计算领域，具体涉及一种基于多模态上下文语义特征的情感分类方法及系统。

背景技术

在人们的日常交流中，情感是人与人之间相互理解的重要桥梁，情感的感知和理解能够帮助人们理解对方的各种行为和心理状态。面部表情、语音是人们表达情感的重要方式，针对这些单一模态的情感研究已经日益成熟，并在人们的生活中已经有了一定的应用。但随着研究的深入，研究人员发现，由于单一模态所表达的情感信息是不完整的，单模态情感分析存在一定的局限性。因此，越来越多的研究人员将目光转向基于多模态信息融合的情感分类研究，期望能够利用各个模态信息之间的互补性，来构建鲁棒的情感识别模型，以达到更高的情感分类准确率。

随着智能手机和互联网的普及，大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点，海量社交媒体数据的形态不再局限于单一的文本模态，更多的是融合了文本、图像、短视频的多模态数据。社交媒体是各种产品和用户服务意见的巨大来源，当用户在网络上针对某件商品发表评论时，他会不经意地表现出对这种商品的满意程度，也就是评论过程中表达的情感。对于商家来说，希望尽可能快速地了解用户群体对商品的态度，以便及时调整营销策略或者改进商品质量，从而提高用户对商品的满意程度。在多种模态数据同时存在的情况下，多模态情感分析在网络营销、电子商务、舆情监控、商品推荐等方面有广阔的应用前景。

如何对多种模态的数据进行融合来提高情感分析的准确率，是目前多模态情感分析的主要问题。现有的方法试图在不同的阶段学习多个模态之间的隐藏关联，或者分别根据不同模态的信息做出情感预测之后再进行投票融合，在一定程度上解决了相关问题并提升了多模态情感分类性能，但大都忽略了每种模态信息中的上下文依赖关系，没有考虑视频中每个话语的上下文信息，仍然存在有待改进的地方。

发明内容

发明目的：针对现有的情感分类技术的缺点，本发明提出了一种基于多模态上下文语义特征的情感分类方法及系统，通过引入各个模态的情感语义特征的上下文依赖关系以及图卷积操作，提取多模态的上下文情感语义特征，从而有效提升多模态情感分类的准确率。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于多模态上下文语义特征的情感分类方法，包括以下步骤：

(1)将短视频以话语为单元分割成相同数量的语义单元，每个语义单元作为一个样本，并从语义单元中生成对应的视频样本、语音样本和文本样本，并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征；

(2)将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器，提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量；

所述表情情感特征编码器，用于将多个时间步上的静态表情特征向量进行时序关联，输出动态表情特征向量；并通过注意力机制计算不同时间步上的表情特征向量的重要性权重，通过加权融合形成表情情感语义特征向量；

所述语音情感特征编码器，用于对语谱图进行卷积和池化操作，并将得到的特征图转换成若干组特征向量；以及通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成语音情感语义特征向量；

所述文本情感特征编码器，用于将句子向量转换为若干组特征向量，并通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成文本情感语义特征向量；

(3)分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系，构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵；

(4)分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络，提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量；

(5)将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合，得到最终的多模态情感特征向量；

(6)将步骤(5)得到的多模态情感特征向量输入到分类器中进行情感分类，得到情感类别。

作为优选，所述步骤(2)中的表情情感特征编码器，包括顺序连接的1个长短时记忆网络LSTM层和1个注意力机制模块；

LSTM层，包含d个输出神经元，用于将T个时间步上的静态表情特征向量进行时序关联，输出d维的动态表情特征向量，其中，d取值为128或256，T取值为32或64；

注意力机制模块，用于确定LSTM层在不同时间步上输出的表情特征向量的重要性权重，通过加权融合形成表情情感语义特征向量，其中LSTM层在第t个时间步上输出的表情特征向量的权重系数

以及表情情感语义特征向量F^V表示如下：

其中，t＝1,2,…,T，上标V代表视频模态，

表示LSTM层在第t个时间步上输出的d维表情特征向量，exp(·)表示以自然常数e为底的指数函数，W^V为可训练的d维线性变换参数向量。

作为优选，所述步骤(2)中的语音情感特征编码器，包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层和1个注意力机制模块；

数据处理层，用于对输入的每个语音样本的语谱图进行归一化处理；

卷积模块，包含1个卷积层和1个池化层，卷积层选用k个大小为k₁×k₂的卷积核对归一化后的语谱图进行卷积运算，使用ReLU激活函数进行非线性处理，其中，k取值为6或12，k₁在8、10中取值，k₂在8、12中取值；池化层选用1×k₃的池化核对卷积层的输出进行最大池化操作，其中，k₃在3、4中取值；

全连接层，包含w个输出神经元，用于将卷积模块输出的特征图映射为特征向量，w取值为512或640；

线性变换层，用于将全连接层输出的特征向量转换成R组特征向量，每组特征向量的维数为

其中R取值为8或10；

注意力机制模块，用来确定线性变换层输出的不同特征向量组的重要性权重，通过加权融合形成语音情感语义特征向量，其中线性变换层输出的第r组特征向量的权重

以及语音情感语义特征向量F^A表示为：

其中，r＝1,2,…,R，上标A代表语音模态，

表示线性变换层输出的第r组特征向量，W ^A为可训练的

维线性变换参数向量。

作为优选，所述步骤(2)中的文本情感特征编码器，包括顺序连接的1个数据处理层和1个注意力机制模块；

数据处理层，用于将输入的u维句子向量转换为S组特征向量，每组特征向量的维数为

其中S取值为8或12；

注意力机制模块，用来确定数据处理层输出的不同特征向量组的重要性权重，通过加权融合形成文本情感语义特征向量，其中数据处理层输出的第s组特征向量的权重

以及文本情感语义特征向量F^X表示为：

其中，s＝1,2,…,S，上标X代表文本模态，

表示数据处理层输出的第s组特征向量，W^X为可训练的

维线性变换参数向量。

作为优选，所述步骤(3)中构建表情/语音/文本情感语义特征邻接矩阵的步骤如下：

计算源自同一个短视频的第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度；

若第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度不低于设定的阈值，令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为1，否则令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为0，i,j∈{1,2,…,N}，N为从短视频中分割出来的语义单元数量。

作为优选，所述步骤(4)中的用于提取表情上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

数据处理层，用于将源自同一个短视频的视频样本的表情情感语义特征向量构成矩阵

由表情情感语义特征邻接矩阵A^V计算得到度矩阵D^V，即

其中，

为矩阵A^V第i行第j列元素；

再计算拉普拉斯矩阵L^V，即

其中，I表示N×N的单位矩阵，D^V为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵，σ(·)表示sigmoid非线性激活函数；

全连接层，用于将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的表情上下文情感语义特征向量，h取值为128或256。

作为优选，所述步骤(4)中的用于提取语音上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

数据处理层，用于将源自同一个短视频的语音样本的语音情感语义特征向量构成矩阵

为表情情感语义特征向量维数，由语音情感语义特征邻接矩阵A^A计算得到度矩阵D^A，即

其中，

为矩阵A^A第i行第j列元素；

再计算拉普拉斯矩阵L^A，即

其中，D^A为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵；

全连接层，用于将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的语音上下文情感语义特征向量。

作为优选，所述步骤(4)中的用于提取文本上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

数据处理层，用于将源自同一个短视频的文本样本的文本情感语义特征向量构成矩阵

由文本情感语义特征邻接矩阵A^X计算得到度矩阵D^X，即

其中，

为矩阵A^X第i行第j列元素；

再计算拉普拉斯矩阵L^X，即

其中，D^X为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵；

全连接层，用于将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的文本上下文情感语义特征向量。

基于相同的发明构思，本发明公开的一种基于多模态上下文语义特征的情感分类系统，包括以下模块：

预处理和表征特征提取模块，用于将短视频以话语为单元分割成相同数量的语义单元，每个语义单元作为一个样本，并从语义单元中生成对应的视频样本、语音样本和文本样本，并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征；

语义特征提取模块，用于将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器，提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量；所述表情情感特征编码器，用于将多个时间步上的静态表情特征向量进行时序关联，输出动态表情特征向量；并通过注意力机制计算不同时间步上的表情特征向量的重要性权重，通过加权融合形成表情情感语义特征向量；所述语音情感特征编码器，用于对语谱图进行卷积和池化操作，并将得到的特征图转换成若干组特征向量；以及通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成语音情感语义特征向量；所述文本情感特征编码器，用于将句子向量转换为若干组特征向量，并通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成文本情感语义特征向量；

邻接矩阵生成模块，用于分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系，构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵；

上下文情感语义特征提取模块，用于分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络，提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量；

特征融合模块，用于将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合，得到最终的多模态情感特征向量。

以及，情感分类识别模块，使用分类器对多模态情感特征向量进行分类，得到情感类别。

基于相同的发明构思，本发明公开的一种基于多模态上下文语义特征的情感分类系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于多模态上下文语义特征的情感分类方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)通过将短视频进行语义分割，以各语义单元为样本从中提取视频、语音和文本三种模态的表征特征，采用了表情、语音、文本三种模态融合作为情感识别的判别依据，丰富了模态信息；

(2)在提取了表情、语音和文本三种模态的情感表征特征基础上，增加了情感特征的编码模块，编码模块中使用注意力机制来专注于情感表征特征中特定的情感特征，以充分获取表情、语音和文本的情感语义特征，使得模型能够理解情感语义；

(3)采用了图卷积神经网络来学习上下文之间的依赖关系，以情感语义特征为图结构的结点信息，使用余弦相似度对同一短视频划分的样本构建邻接矩阵作为图结构的边信息，同时搭建并训练图卷积神经网络，将图结构中的上下文信息引入到情感特征中，获取上下文情感语义特征，进一步增加了多模态上下文依赖的特征信息，能够有效地提高多模态情感识别准确率，提升多模态情感识别系统的泛化能力。

附图说明

图1是本发明实施例的方法的流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明的技术方案做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于多模态上下文语义特征的情感分类方法，主要包括如下步骤：

步骤(1)数据预处理以及表征特征提取：将短视频以话语为单元分割成相同数量的语义单元(通常可根据视频长度分割为12≤N≤60个语义单元)，每个语义单元作为一个样本，并从语义单元中生成对应的视频样本、语音样本和文本样本，并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征。

本实施例使用CMU-MOSI(CMU Multi-modal Opinion-level SentimentIntensity)数据集，该数据集采集自93个针对不同话题发表评论的短视频，以话语(utterance)为单元将每个短视频分割成若干个语义单元，共包含2199个语义单元，每个语义单元都有一个与之相应的情感类别标签，情感类别被标注为积极或消极。我们将每个语义单元作为一个视频样本，并分别使用ffmpy3和SpeechRecognition工具库从这些语义单元中生成对应的语音样本和文本样本。然后对视频样本、语音样本和文本样本分别进行预处理，预处理包括对视频样本进行帧采样、统一帧图像的大小，对语音样本进行预加重、分帧、加窗，对文本样本进行截长补短操作使得文本的长度相等，并在此基础上提取表情特征向量、语谱图和句子向量三种表征特征。在本实施例中，为了对每个短视频中相邻语义单元间的上下文关系进行建模，我们做如下的处理：若CMU-MOSI数据集中某个短视频分割出来的语义单元数量少于24个，则通过插入所有特征数据为0的“哑元”语义单元来填充；反之，若从输入的短视频中分割出来的语义单元数量大于24个，则只保留前面24个语义单元，删除多余的语义单元，使得每个短视频所包含的语义单元数量都等于24个。这样，经过处理后得到的数据集分别包含视频样本、语音样本和文本样本各2232个，作为本实施例的训练样本。具体的，表征特征提取包括如下三个方面：

(1.1)对视频样本进行预处理和特征提取

首先对视频样本以每隔2帧截取1帧的方式进行帧采样操作，截取32帧图像，如果截取的帧数不足32帧，则采取“复制拷贝”方式补足32帧；然后，将截取的每帧图像大小调整为224×224像素，并使用在ImageNet上预训练好的VGG-16基础网络进行特征提取，从VGG-16的最后一个全连接层输出512维的表情特征向量。

(1.2)对语音样本进行预处理和特征提取

首先对语音样本进行预加重、分帧、加窗等预处理，帧长取25ms，帧移设置为15ms；然后对预处理之后的各帧语音信号进行傅里叶变换(FFT)，计算频谱能量，以时间为横轴、频率为纵轴、频谱能量为坐标值使用matplotlib工具库绘制语谱图，得到语音样本的语谱图。每个语音样本对应的语谱图的大小为256×256。

(1.3)对文本样本进行预处理和特征提取

首先对文本样本进行截长补短操作，对超过16个单词的文本样本进行截断，少于16个单词的样本添加特殊字符[defa]，使得文本样本的长度统一为16个单词；然后使用Google开源的Bert预训练模型提取768维的句子向量。

步骤(2)情感语义特征向量的提取：将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器，提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量；具体包括如下三个方面：

(2.1)表情情感特征编码器及表情情感语义特征向量的提取

表情情感特征编码器，用于将多个时间步上的静态表情特征向量进行时序关联，输出动态表情特征向量；并通过注意力机制计算不同时间步上的表情特征向量的重要性权重，通过加权融合形成表情情感语义特征向量。本实施例中，表情情感特征编码器包括顺序连接的1个长短时记忆网络(Long Short-Term Memory，LSTM)层、1个注意力机制模块。

进一步地，LSTM层包含d个输出神经元，用于将T个时间步上的静态表情特征向量进行时序关联，输出d维的动态表情特征向量。其中，d取值为128或256，T取值为32或64。在本实施例中，d取值为128，T取值为32；

进一步地，注意力机制模块，用于确定LSTM层在不同时间步上输出的表情特征向量的重要性权重，通过加权融合形成表情情感语义特征向量，具体过程如下：首先由式(1)计算出LSTM层在第t个时间步上输出的表情特征向量的权重系数

然后由式(2)得到128维的表情情感语义特征向量F^V，即

其中，t＝1,2,…,32，V代表视频模态，

表示LSTM层在第t个时间步上输出的128维表情特征向量，exp(·)表示以自然常数e为底的指数函数，W^V为可训练的128维线性变换参数向量。

为了训练表情情感特征编码器，需要在表情情感特征编码器之后连接一个softmax分类器，将注意力机制模块输出的表情情感语义特征向量F^V连接到softmax分类器的C个输出节点，经过softmax函数之后输出一个概率分布向量

其中c∈[1,C]，C为情感类别数。

进一步地，表情情感特征编码器由式(3)所示的交叉熵损失函数来训练模型参数。

其中，F^V为128维的表情情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

表示第m个视频样本的真实情感类别标签，当采用one-hot编码时，若第m个视频样本的真实情感类别标签为c，则

否则

表示softmax分类模型将第m个视频样本预测为类别c的概率；Loss^V表示表情情感特征编码器在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练表情情感特征编码器，直至模型参数达到最优。之后，就可将表情特征输入到训练好的表情情感特征编码器来提取表情情感语义特征向量F^V。

(2.2)语音情感特征编码器及语音情感语义特征向量的提取

语音情感特征编码器，用于对语谱图进行卷积和池化操作，并将得到的特征图转换成若干组特征向量；以及通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成语音情感语义特征向量。本实施例中语音情感特征编码器包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层、1个注意力机制模块。

进一步地，数据处理层，用于对输入的每个语音样本的语谱图进行归一化处理。

进一步地，卷积模块，包含1个卷积层和1个池化层，卷积层选用k个大小为k₁×k₂的卷积核对归一化后的语谱图进行卷积运算，使用ReLU激活函数进行非线性处理，其中，k取值为6或12，k₁在8、10中取值，k₂在8、12中取值；池化层选用1×k₃的池化核对卷积层的输出进行最大池化操作，其中，k₃在3、4中取值。在本实施例中，k取值为6，k₁取值为8，k₂取值为12，k₃取值为3。

进一步地，全连接层，包含w个输出神经元，用于将卷积模块输出的特征图映射为特征向量，w取值为512或640。在本实施例中，w取值为640。

进一步地，线性变换层，用于将全连接层输出的特征向量转换成R组特征向量，每组特征向量的维数为

其中R取值为8或10。在本实施例中,R取值为10，

进一步地，注意力机制模块，用来确定线性变换层输出的不同特征向量组的重要性权重，通过加权融合形成语音情感语义特征向量，具体过程如下：首先由式(4)计算出线性变换层输出的第r组特征向量的权重

其中，r＝1,2,…,10；然后由式(5)得到64维的语音情感语义特征向量F^A，即

其中，A代表语音模态，

表示线性变换层输出的第r组特征向量，W ^A为可训练的64维线性变换参数向量。

为了训练语音情感特征编码器，需要在语音情感特征编码器之后连接一个softmax分类器，将注意力机制模块输出的语音情感语义特征向量F^A连接到softmax分类器的C个输出节点，经过softmax函数之后输出一个概率分布向量

其中c∈[1,C]，C为情感类别数。

进一步地，语音情感特征编码器由式(6)所示的交叉熵损失函数来训练模型参数。

其中，F^A为64维的语音情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

表示第m个语音样本的真实情感类别标签，当采用one-hot编码时，若第m个语音样本的真实情感类别标签为c，则

否则

表示softmax分类模型将第m个语音样本预测为类别c的概率；Loss^A表示语音情感特征编码器在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练语音情感特征编码器，直至模型参数达到最优。之后，就可将语谱图输入到训练好的语音情感特征编码器来提取64维语音情感语义特征向量F^A。

(2.3)文本情感特征编码器及文本情感语义特征向量的提取

文本情感特征编码器，用于将句子向量转换为若干组特征向量，并通过注意力机制确定不同特征向量组的重要性权重，通过加权融合形成文本情感语义特征向量。本实施例中，文本情感特征编码器包括顺序连接的1个数据处理层、1个注意力机制模块。

进一步地，数据处理层，用于将输入的u维句子向量转换为S组特征向量，每组特征向量的维数为

其中S取值为8或12。在本实施例中,u768，S取值为8，

进一步地，注意力机制模块，用来确定数据处理层输出的不同特征向量组的重要性权重，通过加权融合形成文本情感语义特征向量，具体过程如下：首先由式(7)计算出数据处理层输出的第s组特征向量的权重

其中，s＝1,2,…,8；然后由式(8)得到96维的文本情感语义特征向量F^X，即

其中，X代表文本模态，

表示数据处理层输出的第s组特征向量，W^X为可训练的96维线性变换参数向量。

为了训练文本情感特征编码器，需要在文本情感特征编码器之后连接一个softmax分类器，将注意力机制模块输出的文本情感语义特征向量F^X连接到softmax分类器的C个输出节点，经过softmax函数之后输出一个概率分布向量

其中c∈[1,C]，C为情感类别数。

进一步地，文本情感特征编码器由式(9)所示的交叉熵损失函数来训练模型参数。

其中，F^X为96维的文本情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

表示第m个文本样本的真实情感类别标签，当采用one-hot编码时，若第m个文本样本的真实情感类别标签为c，则

否则

表示softmax分类模型将第m个文本样本预测为类别c的概率；Loss^X表示文本情感特征编码器在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练文本情感特征编码器，直至模型参数达到最优。之后，就可将句子向量特征输入到训练好的文本情感特征编码器来提取文本情感语义特征向量F^X。

步骤(3)邻接矩阵的构建：分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系，构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵。具体包括如下三个方面：

(3.1)表情情感语义特征邻接矩阵A^V的构建，具体步骤如下：

(3.1.1)由式(10)计算源自同一个短视频的第i个视频样本和第j个视频样本的情感语义特征向量之间的余弦相似度

即

其中，v_i和v_j分别表示第i个视频样本和第j个视频样本的情感语义特征向量，||·||表示取模操作，i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量，在本实施例中,N24；

(3.1.2)当

时，令表情情感语义特征邻接矩阵A^V的第i行第j列元素

当

时，令A^V的第i行第j列元素

其中i,j∈{1,2,…,24}。

(3.2)语音情感语义特征邻接矩阵A^A的构建，具体步骤如下：

(3.2.1)由式(11)计算源自同一个短视频的第i个语音样本和第j个语音样本的情感语义特征向量之间的余弦相似度

即

其中，α_i和α_j分别表示第i个语音样本和第j个语音样本的情感语义特征向量，||·||表示取模操作，i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量，在本实施例中,N24；

(3.2.2)当

时，令语音情感语义特征邻接矩阵A^A的第i行第j列元素

当

时，令A^A的第i行第j列元素

其中i,j∈{1,2,…,24}。

(3.3)文本情感语义特征邻接矩阵A^X的构建，具体步骤如下：

(3.3.1)由式(12)计算源自同一个短视频的第i个文本样本和第j个文本样本的情感语义特征向量之间的余弦相似度

即

其中，x_i和x_j分别表示第i个文本样本和第j个文本样本的情感语义特征向量，||·||表示取模操作，i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量，在本实施例中,N24；

(3.3.2)当

时，令文本情感语义特征邻接矩阵A^X的第i行第j列元素

当

时，令A^X的第i行第j列元素

其中i,j∈{1,2,…,24}。

步骤(4)上下文情感语义特征向量的提取：分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络，提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量。具体包括如下三个方面：

(4.1)表情上下文情感语义特征向量的提取。用于提取表情上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。

数据处理层，将源自同一个短视频的N个视频样本的d维表情情感语义特征向量构成矩阵

由表情情感语义特征邻接矩阵A^V计算得到度矩阵D^V，即

再由式(13)计算拉普拉斯矩阵L^V，即

其中，I表示NN的单位矩阵，D^V为NN的对角矩阵。在本实施例中,N24，d＝128。

图卷积模块，由式(14)对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵，σ(·)表示sigmoid非线性激活函数。Φ^V通过图卷积模块后的输出为

而第i个视频样本的表情情感语义特征向量通过图卷积模块后的输出为

的第i个行向量

全连接层，将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的表情上下文情感语义特征向量

在本实施例中,h取值为128。

为了训练用于提取表情上下文情感语义特征向量的图卷积神经网络，需要在该图卷积神经网络的全连接层之后连接一个softmax分类器，将全连接层输出的表情上下文情感语义特征向量

连接到softmax分类器的C个输出节点，经过softmax函数之后输出一个概率分布向量

其中c∈[1,C]，C为情感类别数。

进一步地，用于提取表情上下文情感语义特征向量的图卷积神经网络由式(15)所示的交叉熵损失函数来训练模型参数。

其中，

为图卷积神经网络输出的128维表情上下文情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

否则

表示softmax分类模型将第m个视频样本预测为类别c的概率；

表示用于提取表情上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练图卷积神经网络，直至模型参数达到最优。之后，就可利用训练好的图卷积神经网络来提取表情上下文情感语义特征向量

(4.2)语音上下文情感语义特征向量的提取。用于提取语音上下文情感语义特征的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。

数据处理层，将源自同一个短视频的N个语音样本的

维语音情感语义特征向量构成矩阵

由语音情感语义特征邻接矩阵A^A计算得到度矩阵D^A，即

再由式(16)计算拉普拉斯矩阵L^A，即

其中，I表示NN的单位矩阵，D^A为NN的对角矩阵。在本实施例中,N24，

图卷积模块，由式(17)对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵，σ(·)表示sigmoid非线性激活函数。Φ^A通过图卷积模块后的输出为

而第i个语音样本的语音情感语义特征向量通过图卷积模块后的输出为

的第i个行向量

全连接层，将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的语音上下文情感语义特征向量

在本实施例中,h取值为128。

为了训练用于提取语音上下文情感语义特征向量的图卷积神经网络，需要在该图卷积神经网络的全连接层之后连接一个softmax分类器，将全连接层输出的语音上下文情感语义特征向量

其中c∈[1,C]，C为情感类别数。

进一步地，用于提取语音上下文情感语义特征向量的图卷积神经网络由式(18)所示的交叉熵损失函数来训练模型参数。

其中，

为图卷积神经网络输出的128维语音上下文情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

否则

表示softmax分类模型将第m个语音样本预测为类别c的概率；

表示用于提取语音上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练图卷积神经网络，直至模型参数达到最优。之后，就可利用训练好的图卷积神经网络来提取语音上下文情感语义特征向量

(4.3)文本上下文情感语义特征向量的提取。用于提取文本上下文情感语义特征的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。

数据处理层，将源自同一个短视频的N个文本样本的

维文本情感语义特征向量构成矩阵

由文本情感语义特征邻接矩阵A^X计算得到度矩阵D^X，即

再由式(19)计算拉普拉斯矩阵L^X，即

其中，I表示N×N的单位矩阵，D^X为N×N的对角矩阵。

图卷积模块，由式(20)对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

为可训练的线性变换参数矩阵，σ(·)表示sigmoid非线性激活函数。Φ^X通过图卷积模块后的输出为

而第i个文本样本的文本情感语义特征向量通过图卷积模块后的输出为

的第i个行向量

全连接层，将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的文本上下文情感语义特征向量

在本实施例中,h取值为128。

为了训练用于提取文本上下文情感语义特征向量的图卷积神经网络，需要在该图卷积神经网络的全连接层之后连接一个softmax分类器，将全连接层输出的文本上下文情感语义特征向量

其中c∈[1,C]，C为情感类别数。

进一步地，用于提取文本上下文情感语义特征向量的图卷积神经网络由式(21)所示的交叉熵损失函数来训练模型参数。

其中，

为图卷积神经网络输出的128维文本上下文情感语义特征向量；

表示softmax分类模型预测情感类别的概率分布向量；

否则

表示softmax分类模型将第m个文本样本预测为类别c的概率；

表示用于提取文本上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

通过误差反向传播算法不断迭代训练图卷积神经网络，直至模型参数达到最优。之后，就可利用训练好的图卷积神经网络来提取文本上下文情感语义特征向量

步骤(5)特征融合：将步骤(4)提取的表情上下文情感语义特征向量

语音上下文情感语义特征向量

和文本上下文情感语义特征向量

通过串接方式进行融合，得到最终的多模态情感特征向量

步骤(6)情感分类：将步骤(5)得到的多模态情感特征向量F_context连接到全连接层，通过sigmoid激活函数进行情感分类，并且采用式(22)所示的交叉熵损失函数训练全连接层的参数。

其中，F_context为多模态情感特征向量，W_c和b_c分别为分类器的可训练权重和偏置向量，

表示模型预测情感类别的概率分布向量，y_m,c表示第m个训练样本的真实情感类别标签，当采用one-hot编码时，若第m个训练样本的真实情感类别标签为c，则y_m,c＝1，否则y_m,c＝0；

表示分类模型将第m个训练样本预测为类别c的概率；Loss为分类模型在训练过程中的损失函数；在本实施例中，情感被分为积极、消极2种类别，C＝2，M＝2232。

基于相同的发明构思，本发明实施例公开的一种基于多模态上下文语义特征的情感分类系统，包括以下模块：

各模块的具体实现参考上述方法实施例，不再赘述。本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例公开的一种基于多模态上下文语义特征的情感分类系统，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于多模态上下文语义特征的情感分类方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多模态上下文语义特征的情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(2)中的表情情感特征编码器，包括顺序连接的1个长短时记忆网络LSTM层和1个注意力机制模块；

以及表情情感语义特征向量F^V表示如下：

其中，t＝1,2,…,T，上标V代表视频模态，f_t ^V表示LSTM层在第t个时间步上输出的d维表情特征向量，exp(·)表示以自然常数e为底的指数函数，W^V为可训练的d维线性变换参数向量。

3.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(2)中的语音情感特征编码器，包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层和1个注意力机制模块；

其中R取值为8或10；

以及语音情感语义特征向量F^A表示为：

其中，r＝1,2,…,R，上标A代表语音模态，

表示线性变换层输出的第r组特征向量，W^A为可训练的

维线性变换参数向量。

4.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(2)中的文本情感特征编码器，包括顺序连接的1个数据处理层和1个注意力机制模块；

其中S取值为8或12；

以及文本情感语义特征向量F^X表示为：

其中，s＝1,2,…,S，上标X代表文本模态，

表示数据处理层输出的第s组特征向量，W^X为可训练的

维线性变换参数向量。

5.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(3)中构建表情/语音/文本情感语义特征邻接矩阵的步骤如下：

6.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(4)中的用于提取表情上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

N为从短视频中分割出来的语义单元数量，d为表情情感语义特征向量维数，由表情情感语义特征邻接矩阵A^V计算得到度矩阵D^V，即

其中，

为矩阵A^V第i行第j列元素；

再计算拉普拉斯矩阵L^V，即

其中，I表示N×N的单位矩阵，D^V为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

7.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(4)中的用于提取语音上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

N为从短视频中分割出来的语义单元数量，

其中，

为矩阵A^A第i行第j列元素；

再计算拉普拉斯矩阵L^A，即

其中，I表示N×N的单位矩阵，D^A为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

全连接层，用于将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的语音上下文情感语义特征向量，h取值为128或256。

8.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法，其特征在于，所述步骤(4)中的用于提取文本上下文情感语义特征向量的图卷积神经网络，包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层；

N为从短视频中分割出来的语义单元数量，

为表情情感语义特征向量维数，由文本情感语义特征邻接矩阵A^X计算得到度矩阵D^X，即

其中，

为矩阵A^X第i行第j列元素；

再计算拉普拉斯矩阵L^X，即

其中，I表示N×N的单位矩阵，D^X为N×N的对角矩阵；

图卷积模块，用于对数据处理层的输出进行图卷积操作，即

其中，

表示第l层图卷积层的输出，l＝0,1,2，并且

全连接层，用于将图卷积模块的输出全连接至本层的h个神经元，输出一个h维的文本上下文情感语义特征向量，h取值为128或256。

9.一种基于多模态上下文语义特征的情感分类系统，其特征在于，包括以下模块：

特征融合模块，用于将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合，得到最终的多模态情感特征向量；

10.一种基于多模态上下文语义特征的情感分类系统，其特征在于，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的一种基于多模态上下文语义特征的情感分类方法。