CN115758218A

CN115758218A - 一种基于长短时特征和决策融合的三模态情感分析方法

Info

Publication number: CN115758218A
Application number: CN202211470232.4A
Authority: CN
Inventors: 卢官明; 王慧芳; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

本发明公开一种基于长短时特征和决策融合的三模态情感分析方法，该方法包括：将多模态情感数据集中的样本分成训练集和测试集，分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列；分别构建基于长/短时特征的情感分类模型，使用预处理后的训练样本对其进行训练，训练好后分别对测试集样本进行情感分类，统计对应的分类混淆矩阵；使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类，并利用对应的分类混淆矩阵对分类结果进行决策融合，得到被测视频的情感类别。本发明以三模态时序信号的长/短时特征的互补性和差异性为出发点，将长/短时特征融合和决策融合相结合，有效提升情感分类的准确率和鲁棒性。

Description

一种基于长短时特征和决策融合的三模态情感分析方法

技术领域

本发明属于情感计算领域，具体涉及一种基于长短时特征和决策融合的三模态情感分析方法。

背景技术

在日常生活中，人们一般通过面部表情、说话语气、肢体动作等信息来获取他人的情感状态。情感分析通常是指利用计算机对带有主观性情感色彩的媒体数据进行自动分析、处理和推理，以确定说话者或其他主体对象对于某个主题或事件的观点态度，可以判断或评价他们的情感状态或想要传达的情感效果。情感分析技术在服务机器人、人机交互、舆情监控、网络营销、电子商务等领域具有广泛的应用前景。例如，微博、抖音、快手等社交媒体是各种产品和用户服务意见的主要来源，当用户在网络上针对某件商品发表评论时，他们会表达对这种商品的满意程度。商品网站可以根据消费者的评论，分析判断消费者对某个特定商品的评价，以便及时调整营销策略或者改善商品质量，从而提高用户对商品的满意程度。

在情感分析技术的发展初期，研究者主要根据文本、面部表情或语音的一种模态信息进行情感分析。由于单一模态，如文本仅依赖单词、短语和它们之间的语义关联，并不足以鉴别复杂的情感信息，单模态情感分析存在一定的局限性。相比单模态，两种或两种以上的模态往往能提供更生动的描述，传达更准确和丰富的情感信息。人类也是通过多模态的方式来表达情感信息的。因此，深度挖掘和融合多种模态信息，是进一步提高情感分析性能的一种有效途径。目前，海量社交媒体数据的形态不再局限于单一的文本模态，更多的是融合了文本、语音、视频的多模态数据。因此，随着研究的深入，基于多模态数据的情感分析应运而生。

与单模态情感分析不同的是，多模态情感分析除了需要特征学习以外，还需要将多个模态的信息进行融合，即要将来自不同模态(如文本、语音或视频)的数据进行整合分析，而如何将不同模态的信息进行有效的融合是多模态情感分析的一大难点。目前常用的多模态信息融合方法包括特征级融合和决策级融合。特征级融合是将每种模态的特征向量，如文本特征向量、语音特征向量等，通过特征融合单元融合为一个组合特征向量，然后对组合特征进行决策分析。特征级融合的优点是考虑了不同模态特征的互补性，但其缺点是各模态特征来自不同的语义空间，在时间、语义维度上存在较大差异，如果直接合并各模态特征，则没有考虑不同模态特征在情感分类中的差异性。决策级融合通常基于单模态情感分析的结果，再依据相关规则做出决策判断，得到最终的结果。相比之下，决策级融合方法根据不同模态信息的贡献不同，考虑了不同模态信息的差异性。但是，如何确定不同模态情感分类结果的权值，以体现不同模态在情感分类中的差异性，仍然是面临挑战的难题。

发明内容

发明目的：本发明的目的是为了解决现有多模态信息融合方法没有考虑时序信号的长时特征和短时特征的互补性和差异性，导致多模态情感分类准确率不高、鲁棒性差的问题，提供一种基于长短时特征和决策融合的三模态情感分析方法，将长时序列多模态特征融合、短时序列多模态特征融合和决策级融合相结合，旨在利用特征级融合和决策级融合的优点，同时克服两种融合方法的缺点，从而有效提升多模态时序信号情感分类的准确率和鲁棒性。

技术方案：本发明为实现上述发明目的采用以下技术方案：一种基于长短时特征与决策融合的三模态情感分析方法，该方法包含以下步骤：

S1：将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列；

S2：分别构建基于长/短时特征的情感分类模型，使用预处理后的训练样本对其进行训练，训练好后分别对测试集样本进行情感分类，统计对应的分类混淆矩阵；

S3：使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类，并利用对应的分类混淆矩阵对分类结果进行决策融合，得到被测视频的情感类别。

进一步的，所述步骤S1中，将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列的具体步骤如下：

S1.1：将多模态情感数据集中的视频分割成相同数量的话语单元，每个话语单元作为一个样本，按照m-fold交叉验证法，将每个话语单元中的每一情感类别的样本随机均分成m组，每次将其中1组的所有情感类别的样本构成测试集，剩下的(m-1)组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，重复m次，得到m个不同的{训练集，测试集}组合，其中m为正整数；

S1.2：分别对训练集和测试集样本进行预处理，从样本中生成对应的文本长时序列、表情长时序列、语音长时序列；

S1.3：将每个样本再以单词为粒度进行分割，从单词粒度中生成K个对应的文本短时序列、表情短时序列、语音短时序列，其中，K为正整数。

进一步的，所述步骤S2中，构建基于长时特征的情感分类模型，具体步骤如下：

S2.1.1：使用Bert模型从文本长时序列中提取第n个话语的文本长时情感特征向量

其中，上标X代表文本模态，n＝1,2,…,N，N为正整数；

S2.1.2：使用3D卷积神经网络从表情长时序列中提取第n个话语的表情长时情感特征向量

其中，上标E代表表情模态；

S2.1.3：使用OpenSmile从语音长时序列中提取第n个话语的语音长时情感特征向量

其中，上标A代表语音模态；

S2.1.4：将提取的第n个话语的文本长时情感特征

表情长时情感特征

和语音长时情感特征

和进行拼接，得到三模态拼接特征z_n，再将三模态拼接特征z_n输入到一个长短期记忆网络(Long Short-Term Memory networks，LSTM)，捕获三模态的互补信息，得到第n个话语的长时情感特征F_long,n，计算的表达式为：

F_long,n＝LSTM(z_n)

S2.1.5：使用softmax分类器对第n个话语的长时情感特征F_long,n进行情感分类以得到第n个话语的长时情感类别预测概率向量p_long,n。

进一步的，所述步骤S2中，构建基于短时特征的情感分类模型，具体步骤如下：

S2.2.1：使用Bert模型从文本短时序列中提取第n个话语中的第k个单词粒度的文本短时情感特征向量

其中，上标X代表文本模态，k＝1,2,…,K，n＝1,2,…,N，N为正整数，K指每个话语分割成K个单词粒度；

S2.2.2：使用3D卷积神经网络从表情短时序列中提取第n个话语中的第k个单词粒度的表情短时情感特征向量

其中，上标E代表表情模态；

S2.2.3：使用OpenSmile从语音短时序列中提取第n个话语中的第k个单词粒度的语音短时情感特征向量

其中，上标A代表语音模态；

S2.2.4：将第n个话语中的文本短时情感特征向量序列

输入到文本的双向门控循环单元(Gated Recurrent Unit，GRU)网络中，得到第n个话语的文本情感特征

将第n个话语中的表情短时情感特征向量序列

输入到表情的双向GRU网络中，得到第n个话语的表情情感特征

将第n个话语中的语音短时情感特征向量序列

输入到语音的双向GRU网络中，得到第n个话语的语音情感特征

计算的表达式为：

其中，GRU_F表示前向GRU网络，GRU_B表示后向GRU网络，

表示向量拼接操作；

S2.2.5：将第n个话语的文本情感特征

表情情感特征

和语音情感特征

输入到注意力模型，根据注意力机制确定第n个话语中各模态的贡献程度，通过加权融合得到第n个话语的短时情感特征F_short,n，计算的表达式为：

其中，M∈{X,E,A}表示模态类型，

是第n个话语中各模态的权重向量，

为权重向量，

为偏置向量，tanh为隐藏层激活函数，softmax为归一化函数，上标T代表向量的转置；

S2.2.6：使用softmax分类器对第n个话语的短时情感特征F_short,n进行情感分类以得到第n个话语的短时情感类别预测概率向量p_short,n。

进一步的，所述步骤S2中，使用预处理后的训练样本对其进行训练，训练好后分别对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

S2.3.1：使用预处理后的训练样本的文本长时序列、表情长时序列、语音长时序列，对基于长时特征的情感分类模型进行训练；训练时每次使用其中1个{训练集，测试集}组合中的训练样本训练1次，得到1个训练好的基于长时特征的情感分类模型，依次使用m个不同{训练集，测试集}组合中的训练样本对基于长时特征的情感分类模型训练m次，得到m个训练好的基于长时特征的情感分类模型；

S2.3.2：使用m个训练好的基于长时特征的情感分类模型分别对相应{训练集，测试集}组合中的测试集样本进行情感分类，最后对m次分类结果一起进行统计，得到长时情感分类混淆矩阵L，即

其中，L中的元素l_i,j代表第i类情感类别的样本被基于长时特征的情感分类模型预测为第j类情感类别的概率，i＝1,2,…,C，j＝1,2,…,C，C为情感类别总数。

进一步的，所述步骤S2中，使用预处理后的训练样本对基于短时特征的情感分类模型进行训练，训练好后对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

S2.4.1：使用预处理后的训练样本的文本短时序列、表情短时序列、语音短时序列，对基于短时特征的情感分类模型进行训练；训练时每次使用其中1个{训练集，测试集}组合中的训练样本训练1次，得到1个训练好的基于短时特征的情感分类模型，依次使用m个不同{训练集，测试集}组合中的训练样本对基于短时特征的情感分类模型训练m次，得到m个训练好的基于短时特征的情感分类模型；

S2.4.2：使用m个训练好的基于短时特征的情感分类模型分别对相应{训练集，测试集}组合中的测试集样本进行情感分类，最后对m次分类结果一起进行统计，得到短时情感分类混淆矩阵S，即：

其中，S中的元素s_i,j代表第i类情感类别的样本被基于短时特征的情感分类模型预测为第j类情感类别的概率，i＝1,2,…,C，j＝1,2,…,C，C为情感类别总数。

进一步的，所述步骤S3中使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类，并利用对应的分类混淆矩阵对分类结果进行决策融合，得到被测视频的情感类别，具体步骤如下：

S3.1：使用训练好的基于长时特征的情感分类模型对被测视频的N个话语分别进行情感分类，得到N个话语的长时情感类别预测概率向量{p_long,1,p_long,2,…,p_long,N}，对上述N个长时情感类别预测概率向量求平均得到被测视频的长时情感类别预测概率向量p_L＝[p_L,1p_L,2…p_L,C]^T，其中，p_L,i表示被测视频的长时情感类别为第i类情感的预测概率，i＝1,2,…,C，C为情感类别总数，下标L表示长时情感类别，上标T表示向量的转置；

S3.2：使用训练好的基于短时特征的情感分类模型对被测视频的N个话语分别进行情感分类，得到N个话语的短时情感类别预测概率向量{p_short,1,p_short,2,…,p_short,N}，对上述N个短时情感类别预测概率向量求平均得到被测视频的短时情感类别预测概率向量p_S＝[p_S,1p_S,2…p_S,C]^T，其中，p_S,i表示被测视频的短时情感类别为第i类情感的预测概率，i＝1,2,…,C，C为情感类别总数，下标S表示短时情感类别，上标T表示向量的转置；

S3.3：对长时情感分类混淆矩阵L主对角线上的元素的数值进行归一化，得到被测视频的长时情感特征被判决为第i类情感类别的权重系数

S3.4：对短时情感分类混淆矩阵S主对角线上的元素的数值进行归一化，得到被测视频的短时情感特征被判决为第i类情感类别的权重系数

S3.5：对被测视频的长时情感类别预测概率向量p_L和短时情感类别预测概率向量p_S进行加权融合，得到被测视频的情感类别预测概率向量p：

其中，p_i为第i类情感类别预测概率；

S3.6：比较向量p中每一维度的数值大小，其中，数值最大的维度所对应的类别就是被测视频的情感类别。

本发明还提出一种基于长短时特征与决策融合的三模态情感分析系统，该系统包括如下模块：

预处理模块，将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列；

基于长时特征的情感分类模型，用于从文本长时序列、表情长时序列和语音长时序列中分别提取文本长时情感特征、表情长时情感特征和语音长时情感特征，并对所提取的文本、表情和语音长时情感特征进行融合，生成长时情感特征，使用分类器对生成的长时情感特征进行情感分类；

基于短时特征的情感分类模型，用于从文本短时序列、表情短时序列和语音短时序列中分别提取文本短时情感特征、表情短时情感特征和语音短时情感特征，并对所提取的文本、表情和语音短时情感特征进行融合，生成短时情感特征，使用分类器对生成的短时情感特征进行情感分类；

网络模型训练模块，使用预处理后的训练样本分别对构建的基于长时特征的情感分类模型和基于短时特征的情感分类模型进行训练，优化网络模型参数；

分类混淆矩阵获取模块，用于分别利用训练好的基于长时特征的情感分类模型和基于短时特征的情感分类模型对测试集中的样本进行情感分类，并统计分类识别结果，得到长时情感分类混淆矩阵和短时情感分类混淆矩阵；

决策级融合模块，用于利用分类混淆矩阵获取模块得到的长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识，将基于长时特征的情感分类模型和基于短时特征的情感分类模型对被测视频进行情感分类得到的两种分类识别结果在决策级进行加权融合，得到被测视频的情感类别。

本发明还提出一种基于长短时特征与决策融合的三模态情感分析系统，该系统包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述任一项所述的一种基于长短时特征与决策融合的三模态情感分析方法。

有益效果：与现有技术相比，本发明的技术方案具有如下有益效果：

(1)本发明将多模态情感数据集中的视频以话语为单元进行分割，生成对应的文本长时序列、表情长时序列、语音长时序列；再将每个话语单元以单词为粒度进行分割，生成对应的文本短时序列、表情短时序列、语音短时序列；分别从长时序列和短时序列中提取文本、表情和语音的长时情感特征和短时情感特征，并进行三模态特征融合，分别生成长时情感特征和短时情感特征；分别使用基于长时特征的情感分类模型和基于短时特征的情感分类模型，得到两种不同的分类结果，再通过决策级融合得到最终的分类结果；

(2)本发明将长时序列三模态特征融合、短时序列三模态特征融合和决策级融合相结合，充分利用了特征级融合和决策级融合的优点，同时克服了两种融合方法的缺点，从而有效提升三模态时序信号情感分类的准确率和鲁棒性。

(3)在进行长时序列三模态特征融合时，本发明将文本、表情和语音的长时情感特征向量进行拼接后输入到长短期记忆网络(LSTM)进行融合，得到每个话语的长时情感特征，能够充分挖掘每个话语单元中文本、表情和语音情感特征的互补性及上下文长时依赖关系。

(4)在进行短时序列三模态特征融合时，本发明将文本、表情和语音的短时情感特征向量序列分别输入到双向门控循环单元(GRU)网络，生成文本、表情和语音的情感特征，然后再将它们输入到注意力模型，根据注意力机制确定各模态的贡献程度，通过加权融合得到每个话语的短时情感特征，能够充分挖掘每个话语单元中单词粒度之间的上下文依赖关系。

(5)本发明以三模态时序信号的长时特征和短时特征的互补性和差异性为出发点，在对基于长时特征的情感分类模型和基于短时特征的情感分类模型的分类结果进行决策级融合时，利用长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识来确定加权的权重值，对被测视频的长时情感类别预测概率向量和短时情感类别预测概率向量进行加权融合，得到被测视频的情感类别预测概率向量，充分考虑了长时情感特征和短时情感特征对情感分类结果的贡献程度和差异性，能有效提升三模态情感分类的准确率和鲁棒性。

附图说明

图1是本发明实施例的方法的流程图；

图2是本发明实施例构建的情感分类模型结构示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于长短时特征和决策融合的三模态情感分析方法，该方法包括如下步骤：

步骤1：将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列。

本实施例选用CMU-MOSI和CMU-MOSEI多模态情感数据集，CMU-MOSI(CMUMultimodal Opinion-level Sentiment Intensity)数据集采集自93个针对不同话题发表评论的视频，以话语(utterance)为单元将每个视频分割成若干个语义单元，共包含2199个话语单元，每个话语单元都有一个与之相应的情感类别标签。CMU-MOSEI(CMU MultimodalOpinion Sentiment and Emotion Intensity)数据集是目前最大的视频多模态情感分析数据集，包括3229段视频、22676个话语单元，每个话语单元都有一个与之相应的情感类别标签，其情感类别标签范围为[-3，+3]，其中，-3表示非常消极，-2表示比较消极，-1表示有点消极，0表示中性，1表示有点积极，2表示比较积极，3表示非常积极。在本实施例中，将标签为-3和-2的样本的情感类别归类为消极，将标签为-1、0和1的样本的情感类别归类为中性，将标签为2和3的样本的情感类别归类为积极，即令情感类别总数C＝3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。

进一步地，所述步骤1中将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列的具体步骤如下：

1.1：将多模态情感数据集中的视频分割成相同数量的话语单元，每个话语单元作为一个样本，按照m-fold交叉验证法，将每个话语单元中的每一情感类别的样本随机均分成m组，每次将其中1组的所有情感类别的样本构成测试集，剩下的(m-1)组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，重复m次，得到m个不同的{训练集，测试集}组合，其中m为正整数。在本实施例中，我们做如下的处理：若CMU-MOSI或CMU-MOSEI数据集中某个视频分割出来的话语单元数量少于24个，则通过插入所有特征数据为0的“哑元”来填充；反之，若从视频中分割出来的话语单元数量大于24个，则只保留前24个话语单元，删除多余的话语单元，使得每个视频所包含的话语单元数量都等于24个。然后，按照5-fold交叉验证法，即取m＝5，将经过处理后的24875个话语单元中的每一情感类别的样本随机均分成5组，每次将其中1组的所有情感类别的样本构成测试集，剩下的4组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，其中，训练集包含19900个话语单元，测试集包含4975个话语单元。重复5次，得到5个不同的{训练集，测试集}组合。

1.2：分别对训练集和测试集样本进行预处理，生成对应的文本长时序列、表情长时序列、语音长时序列。在本实施例中，我们将每个话语单元作为一个视频样本，并分别使用ffmpy3和SpeechRecognition工具库从这些话语单元中生成对应的语音样本和文本样本。然后，对文本样本进行截长补短操作，对超过16个单词的文本样本进行截断，少于16个单词的样本添加特殊字符[defa]，使得文本样本的长度统一为16个单词，从预处理好的文本样本中生成对应的文本长时序列；对视频样本以每隔2帧截取1帧的方式进行帧采样操作，截取36帧图像，如果截取的帧数不足36帧，则采取“复制拷贝”方式补足36帧，从预处理好的视频样本中生成对应的表情长时序列；对语音样本进行预加重、分帧、加窗等预处理，从预处理好的语音样本中生成对应的语音长时序列。

1.3：将每个样本再以单词为粒度进行分割，生成K个对应的文本短时序列、表情短时序列、语音短时序列，其中K为正整数，本实施例中K＝16。

步骤2：分别构建基于长/短时特征的情感分类模型，使用预处理后的训练样本对其进行训练，训练好后分别对测试集样本进行情感分类，统计对应的分类混淆矩阵。

进一步地，所述步骤2中构建基于长时特征的情感分类模型，具体步骤如下：

2.1.1：使用Bert模型从文本长时序列中提取第n个话语的文本长时情感特征向量

其中，上标X代表文本模态，n＝1,2,…,N，N为正整数，本实施例中N＝24。

2.1.2：使用3D卷积神经网络从表情长时序列中提取第n个话语的表情长时情感特征向量

其中，上标E代表表情模态。

2.1.3：使用OpenSmile从语音长时序列中提取第n个话语的语音长时情感特征向量

其中，上标A代表语音模态。

2.1.4：将提取的第n个话语的文本长时情感特征

表情长时情感特征

和语音长时情感特征

F_long,n＝LSTM(z_n)

2.1.5：使用softmax分类器对第n个话语的长时情感特征F_long,n进行情感分类，得到第n个话语的长时情感类别预测概率向量p_long,n。

进一步地，所述步骤2中构建基于短时特征的情感分类模型，具体步骤如下：

2.2.1：使用Bert模型从文本短时序列中提取第n个话语中的第k个单词粒度的文本短时情感特征向量

其中，上标X代表文本模态，k＝1,2,…,K，n＝1,2,…,N，N为正整数，本实施例中K＝16，N＝24。

2.2.2：使用3D卷积神经网络从表情短时序列中提取第n个话语中的第k个单词粒度的表情短时情感特征向量

其中，上标E代表表情模态。

2.2.3：使用OpenSmile从语音短时序列中提取第n个话语中的第k个单词粒度的语音短时情感特征向量

其中，上标A代表语音模态。

2.2.4：将第n个话语中的文本短时情感特征向量序列

输入到文本的双向GRU网络中，得到第n个话语的文本情感特征

将第n个话语中的表情短时情感特征向量序列

输入到表情的双向GRU网络中，得到第n个话语的表情情感特征

将第n个话语中的语音短时情感特征向量序列

输入到语音的双向GRU网络中，得到第n个话语的语音情感特征

计算的表达式为：

其中，GRU_F表示前向GRU网络，GRU_B表示后向GRU网络，

表示向量拼接操作。

2.2.5：将第n个话语的文本情感特征

表情情感特征

和语音情感特征

其中，M∈{X,E,A}表示模态类型，

是第n个话语中各模态的权重向量，

为权重向量，

为偏置向量，上标T代表向量的转置。

2.2.6：使用softmax分类器对第n个话语的短时情感特征F_short,n进行情感分类，得到第n个话语的短时情感类别预测概率向量p_short,n。

进一步地，所述步骤2中使用预处理后的训练样本对基于长时特征的情感分类模型进行训练，训练好后对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

2.3.1：使用预处理后的训练样本的文本长时序列、表情长时序列、语音长时序列，对基于长时特征的情感分类模型进行训练。训练时每次使用其中1个{训练集，测试集}组合中的训练样本训练1次，得到1个训练好的基于长时特征的情感分类模型，依次使用m个不同{训练集，测试集}组合中的训练样本对基于长时特征的情感分类模型训练m次，得到m个训练好的基于长时特征的情感分类模型，本实施例中m＝5。

S2.3.2：使用m个训练好的基于长时特征的情感分类模型分别对相应{训练集，测试集}组合中的测试集样本进行情感分类，本实施例中m＝5，最后对m次分类结果一起进行统计，得到长时情感分类混淆矩阵L，即

其中，L中的元素l_i,j代表第i类情感类别的样本被基于长时特征的情感分类模型预测为第j类情感类别的概率，i＝1,2,3，j＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。

进一步地，所述步骤2中使用预处理后的训练样本对基于短时特征的情感分类模型进行训练，训练好后对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

2.4.1：使用预处理后的训练样本的文本短时序列、表情短时序列、语音短时序列，对基于短时特征的情感分类模型进行训练。训练时每次使用其中1个{训练集，测试集}组合中的训练样本训练1次，得到1个训练好的基于短时特征的情感分类模型，依次使用m个不同{训练集，测试集}组合中的训练样本对基于短时特征的情感分类模型训练m次，得到m个训练好的基于短时特征的情感分类模型，本实施例中m＝5。

2.4.2：使用m个训练好的基于短时特征的情感分类模型分别对相应{训练集，测试集}组合中的测试集样本进行情感分类，本实施例中m＝5，最后对m次分类结果一起进行统计，得到短时情感分类混淆矩阵S，即

其中，S中的元素s_i,j代表第i类情感类别的样本被基于短时特征的情感分类模型预测为第j类情感类别的概率，i＝1,2,3，j＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。

步骤3：使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类，并利用对应的分类混淆矩阵对分类结果进行决策融合，得到被测视频的情感类别，具体过程包括如下子步骤：

3.1：使用训练好的基于长时特征的情感分类模型对被测视频的24个话语分别进行情感分类，得到24个话语的长时情感类别预测概率向量{p_long,1,p_long,2,…,p_long,24}，求其平均得到被测视频的长时情感类别预测概率向量p_L＝[p_L,1p_L,2p_L,3]^T＝[0.6920.0630.245]^T，其中，p_L,i表示被测视频的长时情感类别为第i类情感的预测概率，i＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极，下标L表示长时情感类别，上标T表示向量的转置。

3.2：使用训练好的基于短时特征的情感分类模型对被测视频的24个话语分别进行情感分类，得到24个话语的短时情感类别预测概率向量{p_short,1,p_short,2,…,p_short,24}，求其平均得到被测视频的短时情感类别预测概率向量p_S＝[p_S,1p_S,2p_S,3]^T＝[0.6270.1340.239]^T，其中，p_S,i表示被测视频的短时情感类别为第i类情感的预测概率，i＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极，下标S表示短时情感类别，上标T表示向量的转置。

3.3：对长时情感分类混淆矩阵L主对角线上的元素的数值进行归一化，代入

得到被测视频的长时情感特征被判决为第1类情感类别的权重系数为：

被测视频的长时情感特征被判决为第2类情感类别的权重系数为：

被测视频的长时情感特征被判决为第3类情感类别的权重系数为：

3.4：对短时情感分类混淆矩阵S主对角线上的元素的数值进行归一化，代入

得到被测视频的短时情感特征被判决为第1类情感类别的权重系数为：

被测视频的短时情感特征被判决为第2类情感类别的权重系数为：

被测视频的短时情感特征被判决为第3类情感类别的权重系数为：

3.5：对被测视频的长时情感类别预测概率向量p_L和短时情感类别预测概率向量p_S进行加权融合，得到被测视频的情感类别预测概率向量p：

其中，p_i为第i类情感类别预测概率，i＝1,2,3；

3.6：比较向量p中每一维度的数值大小，其中数值最大的维度所对应的类别就是被测视频的情感类别。在本实施例中，第1类情感类别预测概率p₁＝0.67，p₁的数值最大，所以，判决被测样本的情感类别为消极。

本发明另一实施例提供的一种基于长短时特征与决策融合的三模态情感分析系统，包括：

以及，决策级融合模块，用于利用分类混淆矩阵获取模块得到的长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识，将基于长时特征的情感分类模型和基于短时特征的情感分类模型对被测视频进行情感分类得到的两种分类识别结果在决策级进行加权融合，得到被测视频的情感类别。

上述基于长短时特征与决策融合的三模态情感分析系统实施例可以用于执行上述基于长短时特征与决策融合的三模态情感分析方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，上述描述的基于长短时特征与决策融合的三模态情感分析系统的具体工作过程及有关说明，可以参考前述基于长短时特征与决策融合的三模态情感分析方法实施例中的对应过程，在此不再赘述。

基于相同的发明构思，本发明公开的一种基于长短时特征和决策融合的三模态情感分析系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于长短时特征和决策融合的三模态情感分析方法。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理，属于本发明的保护范围之内。

Claims

1.一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，该方法包含以下步骤：

2.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S1中，将多模态情感数据集中的样本分成训练集和测试集，并分别对其进行预处理，生成文本、表情、语音的长时序列和短时序列的具体步骤如下：

3.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S2中，构建基于长时特征的情感分类模型，具体步骤如下：

其中，上标X代表文本模态，n＝1,2,…,N，N为正整数；

其中，上标E代表表情模态；

其中，上标A代表语音模态；

S2.1.4：将提取的第n个话语的文本长时情感特征

表情长时情感特征

和语音长时情感特征

F_long,n＝LSTM(z_n)

4.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S2中，构建基于短时特征的情感分类模型，具体步骤如下：

其中，上标X代表文本模态，k＝1,2,…,K，n＝1,2,…,N，N为正整数，K指的是每个话语分割成K个单词粒度；

其中，上标E代表表情模态；

其中，上标A代表语音模态；

S2.2.4：将第n个话语中的文本短时情感特征向量序列

将第n个话语中的表情短时情感特征向量序列

输入到表情的双向GRU网络中，得到第n个话语的表情情感特征

将第n个话语中的语音短时情感特征向量序列

输入到语音的双向GRU网络中，得到第n个话语的语音情感特征

计算的表达式为：

其中，GRU_F表示前向GRU网络，GRU_B表示后向GRU网络，

表示向量拼接操作；

S2.2.5：将第n个话语的文本情感特征

表情情感特征

和语音情感特征

其中，M∈{X,E,A}表示模态类型，

是第n个话语中各模态的权重向量，

为权重向量，

5.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S2中，使用预处理后的训练样本对其进行训练，训练好后分别对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

6.根据权利要求5所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S2中，使用预处理后的训练样本对基于短时特征的情感分类模型进行训练，训练好后对测试集样本进行情感分类，统计对应的分类混淆矩阵，具体步骤如下：

7.根据权利要求6所述的一种基于长短时特征与决策融合的三模态情感分析方法，其特征在于，所述步骤S3中使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类，并利用对应的分类混淆矩阵对分类结果进行决策融合，得到被测视频的情感类别，具体步骤如下：

S3.1：使用训练好的基于长时特征的情感分类模型对被测视频的N个话语分别进行情感分类，得到N个话语的长时情感类别预测概率向量{p_long,1,p_long,2,…,p_long,N}，对上述N个长时情感类别预测概率向量求平均得到被测视频的长时情感类别预测概率向量p_L＝[p_L, ₁p_L,2…p_L,C]^T，其中，p_L,i表示被测视频的长时情感类别为第i类情感的预测概率，i＝1,2,…,C，C为情感类别总数，下标L表示长时情感类别，上标T表示向量的转置；

其中，p_i为第i类情感类别预测概率；

8.一种基于长短时特征与决策融合的三模态情感分析系统，其特征在于，包括：

9.一种基于长短时特征与决策融合的三模态情感分析系统，其特征在于，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于长短时特征与决策融合的三模态情感分析方法。