CN115758218A - 一种基于长短时特征和决策融合的三模态情感分析方法 - Google Patents
一种基于长短时特征和决策融合的三模态情感分析方法 Download PDFInfo
- Publication number
- CN115758218A CN115758218A CN202211470232.4A CN202211470232A CN115758218A CN 115758218 A CN115758218 A CN 115758218A CN 202211470232 A CN202211470232 A CN 202211470232A CN 115758218 A CN115758218 A CN 115758218A
- Authority
- CN
- China
- Prior art keywords
- emotion
- long
- short
- term
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于长短时特征和决策融合的三模态情感分析方法,该方法包括:将多模态情感数据集中的样本分成训练集和测试集,分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;分别构建基于长/短时特征的情感分类模型,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵;使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别。本发明以三模态时序信号的长/短时特征的互补性和差异性为出发点,将长/短时特征融合和决策融合相结合,有效提升情感分类的准确率和鲁棒性。
Description
技术领域
本发明属于情感计算领域,具体涉及一种基于长短时特征和决策融合的三模态情感分析方法。
背景技术
在日常生活中,人们一般通过面部表情、说话语气、肢体动作等信息来获取他人的情感状态。情感分析通常是指利用计算机对带有主观性情感色彩的媒体数据进行自动分析、处理和推理,以确定说话者或其他主体对象对于某个主题或事件的观点态度,可以判断或评价他们的情感状态或想要传达的情感效果。情感分析技术在服务机器人、人机交互、舆情监控、网络营销、电子商务等领域具有广泛的应用前景。例如,微博、抖音、快手等社交媒体是各种产品和用户服务意见的主要来源,当用户在网络上针对某件商品发表评论时,他们会表达对这种商品的满意程度。商品网站可以根据消费者的评论,分析判断消费者对某个特定商品的评价,以便及时调整营销策略或者改善商品质量,从而提高用户对商品的满意程度。
在情感分析技术的发展初期,研究者主要根据文本、面部表情或语音的一种模态信息进行情感分析。由于单一模态,如文本仅依赖单词、短语和它们之间的语义关联,并不足以鉴别复杂的情感信息,单模态情感分析存在一定的局限性。相比单模态,两种或两种以上的模态往往能提供更生动的描述,传达更准确和丰富的情感信息。人类也是通过多模态的方式来表达情感信息的。因此,深度挖掘和融合多种模态信息,是进一步提高情感分析性能的一种有效途径。目前,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了文本、语音、视频的多模态数据。因此,随着研究的深入,基于多模态数据的情感分析应运而生。
与单模态情感分析不同的是,多模态情感分析除了需要特征学习以外,还需要将多个模态的信息进行融合,即要将来自不同模态(如文本、语音或视频)的数据进行整合分析,而如何将不同模态的信息进行有效的融合是多模态情感分析的一大难点。目前常用的多模态信息融合方法包括特征级融合和决策级融合。特征级融合是将每种模态的特征向量,如文本特征向量、语音特征向量等,通过特征融合单元融合为一个组合特征向量,然后对组合特征进行决策分析。特征级融合的优点是考虑了不同模态特征的互补性,但其缺点是各模态特征来自不同的语义空间,在时间、语义维度上存在较大差异,如果直接合并各模态特征,则没有考虑不同模态特征在情感分类中的差异性。决策级融合通常基于单模态情感分析的结果,再依据相关规则做出决策判断,得到最终的结果。相比之下,决策级融合方法根据不同模态信息的贡献不同,考虑了不同模态信息的差异性。但是,如何确定不同模态情感分类结果的权值,以体现不同模态在情感分类中的差异性,仍然是面临挑战的难题。
发明内容
发明目的:本发明的目的是为了解决现有多模态信息融合方法没有考虑时序信号的长时特征和短时特征的互补性和差异性,导致多模态情感分类准确率不高、鲁棒性差的问题,提供一种基于长短时特征和决策融合的三模态情感分析方法,将长时序列多模态特征融合、短时序列多模态特征融合和决策级融合相结合,旨在利用特征级融合和决策级融合的优点,同时克服两种融合方法的缺点,从而有效提升多模态时序信号情感分类的准确率和鲁棒性。
技术方案:本发明为实现上述发明目的采用以下技术方案:一种基于长短时特征与决策融合的三模态情感分析方法,该方法包含以下步骤:
S1:将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;
S2:分别构建基于长/短时特征的情感分类模型,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵;
S3:使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别。
进一步的,所述步骤S1中,将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列的具体步骤如下:
S1.1:将多模态情感数据集中的视频分割成相同数量的话语单元,每个话语单元作为一个样本,按照m-fold交叉验证法,将每个话语单元中的每一情感类别的样本随机均分成m组,每次将其中1组的所有情感类别的样本构成测试集,剩下的(m-1)组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组合,重复m次,得到m个不同的{训练集,测试集}组合,其中m为正整数;
S1.2:分别对训练集和测试集样本进行预处理,从样本中生成对应的文本长时序列、表情长时序列、语音长时序列;
S1.3:将每个样本再以单词为粒度进行分割,从单词粒度中生成K个对应的文本短时序列、表情短时序列、语音短时序列,其中,K为正整数。
进一步的,所述步骤S2中,构建基于长时特征的情感分类模型,具体步骤如下:
S2.1.4:将提取的第n个话语的文本长时情感特征表情长时情感特征和语音长时情感特征和进行拼接,得到三模态拼接特征zn,再将三模态拼接特征zn输入到一个长短期记忆网络(Long Short-Term Memory networks,LSTM),捕获三模态的互补信息,得到第n个话语的长时情感特征Flong,n,计算的表达式为:
Flong,n=LSTM(zn)
S2.1.5:使用softmax分类器对第n个话语的长时情感特征Flong,n进行情感分类以得到第n个话语的长时情感类别预测概率向量plong,n。
进一步的,所述步骤S2中,构建基于短时特征的情感分类模型,具体步骤如下:
S2.2.1:使用Bert模型从文本短时序列中提取第n个话语中的第k个单词粒度的文本短时情感特征向量其中,上标X代表文本模态,k=1,2,…,K,n=1,2,…,N,N为正整数,K指每个话语分割成K个单词粒度;
S2.2.4:将第n个话语中的文本短时情感特征向量序列输入到文本的双向门控循环单元(Gated Recurrent Unit,GRU)网络中,得到第n个话语的文本情感特征将第n个话语中的表情短时情感特征向量序列输入到表情的双向GRU网络中,得到第n个话语的表情情感特征将第n个话语中的语音短时情感特征向量序列输入到语音的双向GRU网络中,得到第n个话语的语音情感特征计算的表达式为:
S2.2.5:将第n个话语的文本情感特征表情情感特征和语音情感特征输入到注意力模型,根据注意力机制确定第n个话语中各模态的贡献程度,通过加权融合得到第n个话语的短时情感特征Fshort,n,计算的表达式为:
S2.2.6:使用softmax分类器对第n个话语的短时情感特征Fshort,n进行情感分类以得到第n个话语的短时情感类别预测概率向量pshort,n。
进一步的,所述步骤S2中,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
S2.3.1:使用预处理后的训练样本的文本长时序列、表情长时序列、语音长时序列,对基于长时特征的情感分类模型进行训练;训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于长时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于长时特征的情感分类模型训练m次,得到m个训练好的基于长时特征的情感分类模型;
S2.3.2:使用m个训练好的基于长时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,最后对m次分类结果一起进行统计,得到长时情感分类混淆矩阵L,即
其中,L中的元素li,j代表第i类情感类别的样本被基于长时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,…,C,j=1,2,…,C,C为情感类别总数。
进一步的,所述步骤S2中,使用预处理后的训练样本对基于短时特征的情感分类模型进行训练,训练好后对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
S2.4.1:使用预处理后的训练样本的文本短时序列、表情短时序列、语音短时序列,对基于短时特征的情感分类模型进行训练;训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于短时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于短时特征的情感分类模型训练m次,得到m个训练好的基于短时特征的情感分类模型;
S2.4.2:使用m个训练好的基于短时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,最后对m次分类结果一起进行统计,得到短时情感分类混淆矩阵S,即:
其中,S中的元素si,j代表第i类情感类别的样本被基于短时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,…,C,j=1,2,…,C,C为情感类别总数。
进一步的,所述步骤S3中使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别,具体步骤如下:
S3.1:使用训练好的基于长时特征的情感分类模型对被测视频的N个话语分别进行情感分类,得到N个话语的长时情感类别预测概率向量{plong,1,plong,2,…,plong,N},对上述N个长时情感类别预测概率向量求平均得到被测视频的长时情感类别预测概率向量pL=[pL,1pL,2…pL,C]T,其中,pL,i表示被测视频的长时情感类别为第i类情感的预测概率,i=1,2,…,C,C为情感类别总数,下标L表示长时情感类别,上标T表示向量的转置;
S3.2:使用训练好的基于短时特征的情感分类模型对被测视频的N个话语分别进行情感分类,得到N个话语的短时情感类别预测概率向量{pshort,1,pshort,2,…,pshort,N},对上述N个短时情感类别预测概率向量求平均得到被测视频的短时情感类别预测概率向量pS=[pS,1pS,2…pS,C]T,其中,pS,i表示被测视频的短时情感类别为第i类情感的预测概率,i=1,2,…,C,C为情感类别总数,下标S表示短时情感类别,上标T表示向量的转置;
S3.5:对被测视频的长时情感类别预测概率向量pL和短时情感类别预测概率向量pS进行加权融合,得到被测视频的情感类别预测概率向量p:
其中,pi为第i类情感类别预测概率;
S3.6:比较向量p中每一维度的数值大小,其中,数值最大的维度所对应的类别就是被测视频的情感类别。
本发明还提出一种基于长短时特征与决策融合的三模态情感分析系统,该系统包括如下模块:
预处理模块,将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;
基于长时特征的情感分类模型,用于从文本长时序列、表情长时序列和语音长时序列中分别提取文本长时情感特征、表情长时情感特征和语音长时情感特征,并对所提取的文本、表情和语音长时情感特征进行融合,生成长时情感特征,使用分类器对生成的长时情感特征进行情感分类;
基于短时特征的情感分类模型,用于从文本短时序列、表情短时序列和语音短时序列中分别提取文本短时情感特征、表情短时情感特征和语音短时情感特征,并对所提取的文本、表情和语音短时情感特征进行融合,生成短时情感特征,使用分类器对生成的短时情感特征进行情感分类;
网络模型训练模块,使用预处理后的训练样本分别对构建的基于长时特征的情感分类模型和基于短时特征的情感分类模型进行训练,优化网络模型参数;
分类混淆矩阵获取模块,用于分别利用训练好的基于长时特征的情感分类模型和基于短时特征的情感分类模型对测试集中的样本进行情感分类,并统计分类识别结果,得到长时情感分类混淆矩阵和短时情感分类混淆矩阵;
决策级融合模块,用于利用分类混淆矩阵获取模块得到的长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识,将基于长时特征的情感分类模型和基于短时特征的情感分类模型对被测视频进行情感分类得到的两种分类识别结果在决策级进行加权融合,得到被测视频的情感类别。
本发明还提出一种基于长短时特征与决策融合的三模态情感分析系统,该系统包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述任一项所述的一种基于长短时特征与决策融合的三模态情感分析方法。
有益效果:与现有技术相比,本发明的技术方案具有如下有益效果:
(1)本发明将多模态情感数据集中的视频以话语为单元进行分割,生成对应的文本长时序列、表情长时序列、语音长时序列;再将每个话语单元以单词为粒度进行分割,生成对应的文本短时序列、表情短时序列、语音短时序列;分别从长时序列和短时序列中提取文本、表情和语音的长时情感特征和短时情感特征,并进行三模态特征融合,分别生成长时情感特征和短时情感特征;分别使用基于长时特征的情感分类模型和基于短时特征的情感分类模型,得到两种不同的分类结果,再通过决策级融合得到最终的分类结果;
(2)本发明将长时序列三模态特征融合、短时序列三模态特征融合和决策级融合相结合,充分利用了特征级融合和决策级融合的优点,同时克服了两种融合方法的缺点,从而有效提升三模态时序信号情感分类的准确率和鲁棒性。
(3)在进行长时序列三模态特征融合时,本发明将文本、表情和语音的长时情感特征向量进行拼接后输入到长短期记忆网络(LSTM)进行融合,得到每个话语的长时情感特征,能够充分挖掘每个话语单元中文本、表情和语音情感特征的互补性及上下文长时依赖关系。
(4)在进行短时序列三模态特征融合时,本发明将文本、表情和语音的短时情感特征向量序列分别输入到双向门控循环单元(GRU)网络,生成文本、表情和语音的情感特征,然后再将它们输入到注意力模型,根据注意力机制确定各模态的贡献程度,通过加权融合得到每个话语的短时情感特征,能够充分挖掘每个话语单元中单词粒度之间的上下文依赖关系。
(5)本发明以三模态时序信号的长时特征和短时特征的互补性和差异性为出发点,在对基于长时特征的情感分类模型和基于短时特征的情感分类模型的分类结果进行决策级融合时,利用长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识来确定加权的权重值,对被测视频的长时情感类别预测概率向量和短时情感类别预测概率向量进行加权融合,得到被测视频的情感类别预测概率向量,充分考虑了长时情感特征和短时情感特征对情感分类结果的贡献程度和差异性,能有效提升三模态情感分类的准确率和鲁棒性。
附图说明
图1是本发明实施例的方法的流程图;
图2是本发明实施例构建的情感分类模型结构示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。
如图1所示,本发明实施例提供的一种基于长短时特征和决策融合的三模态情感分析方法,该方法包括如下步骤:
步骤1:将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列。
本实施例选用CMU-MOSI和CMU-MOSEI多模态情感数据集,CMU-MOSI(CMUMultimodal Opinion-level Sentiment Intensity)数据集采集自93个针对不同话题发表评论的视频,以话语(utterance)为单元将每个视频分割成若干个语义单元,共包含2199个话语单元,每个话语单元都有一个与之相应的情感类别标签。CMU-MOSEI(CMU MultimodalOpinion Sentiment and Emotion Intensity)数据集是目前最大的视频多模态情感分析数据集,包括3229段视频、22676个话语单元,每个话语单元都有一个与之相应的情感类别标签,其情感类别标签范围为[-3,+3],其中,-3表示非常消极,-2表示比较消极,-1表示有点消极,0表示中性,1表示有点积极,2表示比较积极,3表示非常积极。在本实施例中,将标签为-3和-2的样本的情感类别归类为消极,将标签为-1、0和1的样本的情感类别归类为中性,将标签为2和3的样本的情感类别归类为积极,即令情感类别总数C=3,第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。
进一步地,所述步骤1中将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列的具体步骤如下:
1.1:将多模态情感数据集中的视频分割成相同数量的话语单元,每个话语单元作为一个样本,按照m-fold交叉验证法,将每个话语单元中的每一情感类别的样本随机均分成m组,每次将其中1组的所有情感类别的样本构成测试集,剩下的(m-1)组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组合,重复m次,得到m个不同的{训练集,测试集}组合,其中m为正整数。在本实施例中,我们做如下的处理:若CMU-MOSI或CMU-MOSEI数据集中某个视频分割出来的话语单元数量少于24个,则通过插入所有特征数据为0的“哑元”来填充;反之,若从视频中分割出来的话语单元数量大于24个,则只保留前24个话语单元,删除多余的话语单元,使得每个视频所包含的话语单元数量都等于24个。然后,按照5-fold交叉验证法,即取m=5,将经过处理后的24875个话语单元中的每一情感类别的样本随机均分成5组,每次将其中1组的所有情感类别的样本构成测试集,剩下的4组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组合,其中,训练集包含19900个话语单元,测试集包含4975个话语单元。重复5次,得到5个不同的{训练集,测试集}组合。
1.2:分别对训练集和测试集样本进行预处理,生成对应的文本长时序列、表情长时序列、语音长时序列。在本实施例中,我们将每个话语单元作为一个视频样本,并分别使用ffmpy3和SpeechRecognition工具库从这些话语单元中生成对应的语音样本和文本样本。然后,对文本样本进行截长补短操作,对超过16个单词的文本样本进行截断,少于16个单词的样本添加特殊字符[defa],使得文本样本的长度统一为16个单词,从预处理好的文本样本中生成对应的文本长时序列;对视频样本以每隔2帧截取1帧的方式进行帧采样操作,截取36帧图像,如果截取的帧数不足36帧,则采取“复制拷贝”方式补足36帧,从预处理好的视频样本中生成对应的表情长时序列;对语音样本进行预加重、分帧、加窗等预处理,从预处理好的语音样本中生成对应的语音长时序列。
1.3:将每个样本再以单词为粒度进行分割,生成K个对应的文本短时序列、表情短时序列、语音短时序列,其中K为正整数,本实施例中K=16。
步骤2:分别构建基于长/短时特征的情感分类模型,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵。
进一步地,所述步骤2中构建基于长时特征的情感分类模型,具体步骤如下:
2.1.4:将提取的第n个话语的文本长时情感特征表情长时情感特征和语音长时情感特征和进行拼接,得到三模态拼接特征zn,再将三模态拼接特征zn输入到一个长短期记忆网络(Long Short-Term Memory networks,LSTM),捕获三模态的互补信息,得到第n个话语的长时情感特征Flong,n,计算的表达式为:
Flong,n=LSTM(zn)
2.1.5:使用softmax分类器对第n个话语的长时情感特征Flong,n进行情感分类,得到第n个话语的长时情感类别预测概率向量plong,n。
进一步地,所述步骤2中构建基于短时特征的情感分类模型,具体步骤如下:
2.2.1:使用Bert模型从文本短时序列中提取第n个话语中的第k个单词粒度的文本短时情感特征向量其中,上标X代表文本模态,k=1,2,…,K,n=1,2,…,N,N为正整数,本实施例中K=16,N=24。
2.2.4:将第n个话语中的文本短时情感特征向量序列输入到文本的双向GRU网络中,得到第n个话语的文本情感特征将第n个话语中的表情短时情感特征向量序列输入到表情的双向GRU网络中,得到第n个话语的表情情感特征将第n个话语中的语音短时情感特征向量序列输入到语音的双向GRU网络中,得到第n个话语的语音情感特征计算的表达式为:
2.2.5:将第n个话语的文本情感特征表情情感特征和语音情感特征输入到注意力模型,根据注意力机制确定第n个话语中各模态的贡献程度,通过加权融合得到第n个话语的短时情感特征Fshort,n,计算的表达式为:
2.2.6:使用softmax分类器对第n个话语的短时情感特征Fshort,n进行情感分类,得到第n个话语的短时情感类别预测概率向量pshort,n。
进一步地,所述步骤2中使用预处理后的训练样本对基于长时特征的情感分类模型进行训练,训练好后对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
2.3.1:使用预处理后的训练样本的文本长时序列、表情长时序列、语音长时序列,对基于长时特征的情感分类模型进行训练。训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于长时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于长时特征的情感分类模型训练m次,得到m个训练好的基于长时特征的情感分类模型,本实施例中m=5。
S2.3.2:使用m个训练好的基于长时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,本实施例中m=5,最后对m次分类结果一起进行统计,得到长时情感分类混淆矩阵L,即
其中,L中的元素li,j代表第i类情感类别的样本被基于长时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,3,j=1,2,3,第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。
进一步地,所述步骤2中使用预处理后的训练样本对基于短时特征的情感分类模型进行训练,训练好后对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
2.4.1:使用预处理后的训练样本的文本短时序列、表情短时序列、语音短时序列,对基于短时特征的情感分类模型进行训练。训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于短时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于短时特征的情感分类模型训练m次,得到m个训练好的基于短时特征的情感分类模型,本实施例中m=5。
2.4.2:使用m个训练好的基于短时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,本实施例中m=5,最后对m次分类结果一起进行统计,得到短时情感分类混淆矩阵S,即
其中,S中的元素si,j代表第i类情感类别的样本被基于短时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,3,j=1,2,3,第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。
步骤3:使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别,具体过程包括如下子步骤:
3.1:使用训练好的基于长时特征的情感分类模型对被测视频的24个话语分别进行情感分类,得到24个话语的长时情感类别预测概率向量{plong,1,plong,2,…,plong,24},求其平均得到被测视频的长时情感类别预测概率向量pL=[pL,1pL,2pL,3]T=[0.6920.0630.245]T,其中,pL,i表示被测视频的长时情感类别为第i类情感的预测概率,i=1,2,3,第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极,下标L表示长时情感类别,上标T表示向量的转置。
3.2:使用训练好的基于短时特征的情感分类模型对被测视频的24个话语分别进行情感分类,得到24个话语的短时情感类别预测概率向量{pshort,1,pshort,2,…,pshort,24},求其平均得到被测视频的短时情感类别预测概率向量pS=[pS,1pS,2pS,3]T=[0.6270.1340.239]T,其中,pS,i表示被测视频的短时情感类别为第i类情感的预测概率,i=1,2,3,第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极,下标S表示短时情感类别,上标T表示向量的转置。
3.3:对长时情感分类混淆矩阵L主对角线上的元素的数值进行归一化,代入
得到被测视频的长时情感特征被判决为第1类情感类别的权重系数为:
被测视频的长时情感特征被判决为第2类情感类别的权重系数为:
被测视频的长时情感特征被判决为第3类情感类别的权重系数为:
3.4:对短时情感分类混淆矩阵S主对角线上的元素的数值进行归一化,代入
得到被测视频的短时情感特征被判决为第1类情感类别的权重系数为:
被测视频的短时情感特征被判决为第2类情感类别的权重系数为:
被测视频的短时情感特征被判决为第3类情感类别的权重系数为:
3.5:对被测视频的长时情感类别预测概率向量pL和短时情感类别预测概率向量pS进行加权融合,得到被测视频的情感类别预测概率向量p:
其中,pi为第i类情感类别预测概率,i=1,2,3;
3.6:比较向量p中每一维度的数值大小,其中数值最大的维度所对应的类别就是被测视频的情感类别。在本实施例中,第1类情感类别预测概率p1=0.67,p1的数值最大,所以,判决被测样本的情感类别为消极。
本发明另一实施例提供的一种基于长短时特征与决策融合的三模态情感分析系统,包括:
预处理模块,将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;
基于长时特征的情感分类模型,用于从文本长时序列、表情长时序列和语音长时序列中分别提取文本长时情感特征、表情长时情感特征和语音长时情感特征,并对所提取的文本、表情和语音长时情感特征进行融合,生成长时情感特征,使用分类器对生成的长时情感特征进行情感分类;
基于短时特征的情感分类模型,用于从文本短时序列、表情短时序列和语音短时序列中分别提取文本短时情感特征、表情短时情感特征和语音短时情感特征,并对所提取的文本、表情和语音短时情感特征进行融合,生成短时情感特征,使用分类器对生成的短时情感特征进行情感分类;
网络模型训练模块,使用预处理后的训练样本分别对构建的基于长时特征的情感分类模型和基于短时特征的情感分类模型进行训练,优化网络模型参数;
分类混淆矩阵获取模块,用于分别利用训练好的基于长时特征的情感分类模型和基于短时特征的情感分类模型对测试集中的样本进行情感分类,并统计分类识别结果,得到长时情感分类混淆矩阵和短时情感分类混淆矩阵;
以及,决策级融合模块,用于利用分类混淆矩阵获取模块得到的长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识,将基于长时特征的情感分类模型和基于短时特征的情感分类模型对被测视频进行情感分类得到的两种分类识别结果在决策级进行加权融合,得到被测视频的情感类别。
上述基于长短时特征与决策融合的三模态情感分析系统实施例可以用于执行上述基于长短时特征与决策融合的三模态情感分析方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,上述描述的基于长短时特征与决策融合的三模态情感分析系统的具体工作过程及有关说明,可以参考前述基于长短时特征与决策融合的三模态情感分析方法实施例中的对应过程,在此不再赘述。
基于相同的发明构思,本发明公开的一种基于长短时特征和决策融合的三模态情感分析系统,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的一种基于长短时特征和决策融合的三模态情感分析方法。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。
Claims (9)
1.一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,该方法包含以下步骤:
S1:将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;
S2:分别构建基于长/短时特征的情感分类模型,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵;
S3:使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别。
2.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S1中,将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列的具体步骤如下:
S1.1:将多模态情感数据集中的视频分割成相同数量的话语单元,每个话语单元作为一个样本,按照m-fold交叉验证法,将每个话语单元中的每一情感类别的样本随机均分成m组,每次将其中1组的所有情感类别的样本构成测试集,剩下的(m-1)组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组合,重复m次,得到m个不同的{训练集,测试集}组合,其中m为正整数;
S1.2:分别对训练集和测试集样本进行预处理,从样本中生成对应的文本长时序列、表情长时序列、语音长时序列;
S1.3:将每个样本再以单词为粒度进行分割,从单词粒度中生成K个对应的文本短时序列、表情短时序列、语音短时序列,其中,K为正整数。
3.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S2中,构建基于长时特征的情感分类模型,具体步骤如下:
S2.1.4:将提取的第n个话语的文本长时情感特征表情长时情感特征和语音长时情感特征和进行拼接,得到三模态拼接特征zn,再将三模态拼接特征zn输入到一个长短期记忆网络(Long Short-Term Memory networks,LSTM),捕获三模态的互补信息,得到第n个话语的长时情感特征Flong,n,计算的表达式为:
Flong,n=LSTM(zn)
S2.1.5:使用softmax分类器对第n个话语的长时情感特征Flong,n进行情感分类以得到第n个话语的长时情感类别预测概率向量plong,n。
4.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S2中,构建基于短时特征的情感分类模型,具体步骤如下:
S2.2.1:使用Bert模型从文本短时序列中提取第n个话语中的第k个单词粒度的文本短时情感特征向量其中,上标X代表文本模态,k=1,2,…,K,n=1,2,…,N,N为正整数,K指的是每个话语分割成K个单词粒度;
S2.2.4:将第n个话语中的文本短时情感特征向量序列输入到文本的双向门控循环单元(Gated Recurrent Unit,GRU)网络中,得到第n个话语的文本情感特征将第n个话语中的表情短时情感特征向量序列输入到表情的双向GRU网络中,得到第n个话语的表情情感特征将第n个话语中的语音短时情感特征向量序列输入到语音的双向GRU网络中,得到第n个话语的语音情感特征计算的表达式为:
S2.2.5:将第n个话语的文本情感特征表情情感特征和语音情感特征输入到注意力模型,根据注意力机制确定第n个话语中各模态的贡献程度,通过加权融合得到第n个话语的短时情感特征Fshort,n,计算的表达式为:
S2.2.6:使用softmax分类器对第n个话语的短时情感特征Fshort,n进行情感分类以得到第n个话语的短时情感类别预测概率向量pshort,n。
5.根据权利要求1所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S2中,使用预处理后的训练样本对其进行训练,训练好后分别对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
S2.3.1:使用预处理后的训练样本的文本长时序列、表情长时序列、语音长时序列,对基于长时特征的情感分类模型进行训练;训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于长时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于长时特征的情感分类模型训练m次,得到m个训练好的基于长时特征的情感分类模型;
S2.3.2:使用m个训练好的基于长时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,最后对m次分类结果一起进行统计,得到长时情感分类混淆矩阵L,即
其中,L中的元素li,j代表第i类情感类别的样本被基于长时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,…,C,j=1,2,…,C,C为情感类别总数。
6.根据权利要求5所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S2中,使用预处理后的训练样本对基于短时特征的情感分类模型进行训练,训练好后对测试集样本进行情感分类,统计对应的分类混淆矩阵,具体步骤如下:
S2.4.1:使用预处理后的训练样本的文本短时序列、表情短时序列、语音短时序列,对基于短时特征的情感分类模型进行训练;训练时每次使用其中1个{训练集,测试集}组合中的训练样本训练1次,得到1个训练好的基于短时特征的情感分类模型,依次使用m个不同{训练集,测试集}组合中的训练样本对基于短时特征的情感分类模型训练m次,得到m个训练好的基于短时特征的情感分类模型;
S2.4.2:使用m个训练好的基于短时特征的情感分类模型分别对相应{训练集,测试集}组合中的测试集样本进行情感分类,最后对m次分类结果一起进行统计,得到短时情感分类混淆矩阵S,即:
其中,S中的元素si,j代表第i类情感类别的样本被基于短时特征的情感分类模型预测为第j类情感类别的概率,i=1,2,…,C,j=1,2,…,C,C为情感类别总数。
7.根据权利要求6所述的一种基于长短时特征与决策融合的三模态情感分析方法,其特征在于,所述步骤S3中使用训练好的基于长/短时特征的情感分类模型分别对被测视频进行情感分类,并利用对应的分类混淆矩阵对分类结果进行决策融合,得到被测视频的情感类别,具体步骤如下:
S3.1:使用训练好的基于长时特征的情感分类模型对被测视频的N个话语分别进行情感分类,得到N个话语的长时情感类别预测概率向量{plong,1,plong,2,…,plong,N},对上述N个长时情感类别预测概率向量求平均得到被测视频的长时情感类别预测概率向量pL=[pL, 1pL,2…pL,C]T,其中,pL,i表示被测视频的长时情感类别为第i类情感的预测概率,i=1,2,…,C,C为情感类别总数,下标L表示长时情感类别,上标T表示向量的转置;
S3.2:使用训练好的基于短时特征的情感分类模型对被测视频的N个话语分别进行情感分类,得到N个话语的短时情感类别预测概率向量{pshort,1,pshort,2,…,pshort,N},对上述N个短时情感类别预测概率向量求平均得到被测视频的短时情感类别预测概率向量pS=[pS,1pS,2…pS,C]T,其中,pS,i表示被测视频的短时情感类别为第i类情感的预测概率,i=1,2,…,C,C为情感类别总数,下标S表示短时情感类别,上标T表示向量的转置;
S3.5:对被测视频的长时情感类别预测概率向量pL和短时情感类别预测概率向量pS进行加权融合,得到被测视频的情感类别预测概率向量p:
其中,pi为第i类情感类别预测概率;
S3.6:比较向量p中每一维度的数值大小,其中,数值最大的维度所对应的类别就是被测视频的情感类别。
8.一种基于长短时特征与决策融合的三模态情感分析系统,其特征在于,包括:
预处理模块,将多模态情感数据集中的样本分成训练集和测试集,并分别对其进行预处理,生成文本、表情、语音的长时序列和短时序列;
基于长时特征的情感分类模型,用于从文本长时序列、表情长时序列和语音长时序列中分别提取文本长时情感特征、表情长时情感特征和语音长时情感特征,并对所提取的文本、表情和语音长时情感特征进行融合,生成长时情感特征,使用分类器对生成的长时情感特征进行情感分类;
基于短时特征的情感分类模型,用于从文本短时序列、表情短时序列和语音短时序列中分别提取文本短时情感特征、表情短时情感特征和语音短时情感特征,并对所提取的文本、表情和语音短时情感特征进行融合,生成短时情感特征,使用分类器对生成的短时情感特征进行情感分类;
网络模型训练模块,使用预处理后的训练样本分别对构建的基于长时特征的情感分类模型和基于短时特征的情感分类模型进行训练,优化网络模型参数;
分类混淆矩阵获取模块,用于分别利用训练好的基于长时特征的情感分类模型和基于短时特征的情感分类模型对测试集中的样本进行情感分类,并统计分类识别结果,得到长时情感分类混淆矩阵和短时情感分类混淆矩阵;
以及,决策级融合模块,用于利用分类混淆矩阵获取模块得到的长时情感分类混淆矩阵和短时情感分类混淆矩阵的先验知识,将基于长时特征的情感分类模型和基于短时特征的情感分类模型对被测视频进行情感分类得到的两种分类识别结果在决策级进行加权融合,得到被测视频的情感类别。
9.一种基于长短时特征与决策融合的三模态情感分析系统,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于长短时特征与决策融合的三模态情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470232.4A CN115758218A (zh) | 2022-11-22 | 2022-11-22 | 一种基于长短时特征和决策融合的三模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470232.4A CN115758218A (zh) | 2022-11-22 | 2022-11-22 | 一种基于长短时特征和决策融合的三模态情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758218A true CN115758218A (zh) | 2023-03-07 |
Family
ID=85335440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211470232.4A Pending CN115758218A (zh) | 2022-11-22 | 2022-11-22 | 一种基于长短时特征和决策融合的三模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758218A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196449A (zh) * | 2023-11-08 | 2023-12-08 | 讯飞智元信息科技有限公司 | 一种视频识别方法、系统以及相关装置 |
-
2022
- 2022-11-22 CN CN202211470232.4A patent/CN115758218A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196449A (zh) * | 2023-11-08 | 2023-12-08 | 讯飞智元信息科技有限公司 | 一种视频识别方法、系统以及相关装置 |
CN117196449B (zh) * | 2023-11-08 | 2024-04-09 | 讯飞智元信息科技有限公司 | 一种视频识别方法、系统以及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN107609009B (zh) | 文本情感分析方法、装置、存储介质和计算机设备 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110232395B (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113314100B (zh) | 口语测试的评估、结果显示方法、装置、设备及存储介质 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN113326868B (zh) | 一种用于多模态情感分类的决策层融合方法 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN113312907B (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN115758218A (zh) | 一种基于长短时特征和决策融合的三模态情感分析方法 | |
Bielaniewicz et al. | Deep-sheep: Sense of humor extraction from embeddings in the personalized context | |
Liu et al. | Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism | |
CN113268592A (zh) | 基于多层次交互注意力机制的短文本对象情感分类方法 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
Du et al. | Multimodal emotion recognition based on feature fusion and residual connection | |
Ilias et al. | Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech | |
Hung et al. | [Retracted] Application of Adaptive Neural Network Algorithm Model in English Text Analysis | |
Prabhu et al. | A dynamic weight function based BERT auto encoder for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |