CN116778967A - 基于预训练模型的多模态情感识别方法及装置 - Google Patents
基于预训练模型的多模态情感识别方法及装置 Download PDFInfo
- Publication number
- CN116778967A CN116778967A CN202311083710.0A CN202311083710A CN116778967A CN 116778967 A CN116778967 A CN 116778967A CN 202311083710 A CN202311083710 A CN 202311083710A CN 116778967 A CN116778967 A CN 116778967A
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- extraction module
- feature extraction
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 407
- 238000000605 extraction Methods 0.000 claims abstract description 278
- 239000013598 vector Substances 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本公开涉及一种基于预训练模型的多模态情感识别方法及装置,所述方法包括:将待识别音频的语音数据和文本数据分别输入语音编码器和文本编码器,将语音编码器的输出输入语音情感特征提取模块,并将语音情感特征输入语音跨模态情感特征提取模块;将文本编码器的输出输入文本情感特征提取模块,并将文本情感特征输入文本跨模态情感特征提取模块;将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别,编码器和多个模块的联合使用,能够提高情感识别准确率。
Description
技术领域
本公开涉及情感识别技术领域,尤其涉及一种基于预训练模型的多模态情感识别方法及装置。
背景技术
情感在人类交流和行为中起着重要的作用,它对个体的生活满足、健康心理状态以及人际关系等方面都具有重要的影响。情感识别旨在通过分析语音、文本等媒介中的情感信息,来帮助人们更好地理解、表达和管理情感,进而推动人机交互、人际关系和社会发展的进步。然而,情感标注是进行情感识别的关键步骤之一。大规模情感标注数据集的构建和维护成本高昂,导致现有情感语料库的体量有限,并且依赖于人工标注者对文本进行情感标注,但由于情感是主观的、多样化的,并且受到文化背景和个体差异的影响,人工标注过程存在主观性、主观偏差和标注不一致性的问题。
相关技术中,通常是通过对原始数据进行处理和增强,增加数据的多样性和丰富性,将原始数据和增强数据混合输入多模态情感识别模型进行训练,从而提高多模态情感识别系统的鲁棒性和准确性。
在语音数据增强方面,通过向原始语音信号中添加不同类型和强度的噪声,可以模拟真实环境中的噪声情况,使模型对噪声具有更好的适应性;通过对频谱进行变换,可以扩展语音数据在频域上的分布,增加数据的多样性;对原始语音信号进行声学特性的变换,例如语速变化、音高变化等,可以增加数据的变化性,提高情感识别系统对不同语音特征的鲁棒性;通过对原始语音数据进行重采样,改变采样率或帧率,可以产生不同的语音变化;利用文本到语音合成技术,生成不同情感状态下的语音样本。
在文本数据增强方面,将原始文本中的部分词语替换为其同义词或相近词,以增加词语表达的多样性;通过对原始文本中的句子进行重新排序或组合,生成新的句子,以增加句子结构的多样性;利用合成技术生成新的文本样本,包括基于规则的合成和基于语言模型的合成;在原始文本中插入一些额外的词语或删除部分词语,以增加文本的变化性和多样性。
然而,数据增强在实现多模态情感识别的性能提升方面具有一些潜在的缺点。在进行数据增强时,可能会引入一些不真实的数据样本,这些样本可能与真实世界的情感表达不一致。这可能导致模型过度学习不真实的模式,降低模型在真实情感数据上的泛化能力。此外,虽然数据增强可以提高模型对一些特定变化的鲁棒性,但它可能无法涵盖所有的数据变化情况。在面对与训练数据增强方法不同的未知变化时,模型的性能可能下降。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于预训练模型的多模态情感识别方法及装置。
第一方面,本公开的实施例提供了一种基于预训练模型的多模态情感识别方法,所述方法包括:
将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
在一种可能的实施方式中,所述语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,通过以下步骤训练得到:
收集无情感标签音频和有情感标签音频;
利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器;
利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器;
利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
在一种可能的实施方式中,所述利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器,包括:
将无情感标签音频的语音数据输入预设语音编码器,并将语音编码器的输出输入预设语音解码器中,得到语音解码器的输出;
根据无情感标签音频的语音数据与语音解码器的输出,训练预设语音编码器和预设语音解码器,得到训练后语音编码器,作为第一语音编码器。
在一种可能的实施方式中,所述利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器,包括:
将无情感标签音频的文本数据输入预设文本编码器,并将文本编码器的输出输入预设文本解码器中,得到文本解码器的输出;
根据无情感标签音频的文本数据与文本解码器的输出,训练预设文本编码器和预设文本解码器,得到训练后文本编码器,作为第一文本编码器。
在一种可能的实施方式中,所述利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,包括:
将有情感标签音频的语音数据输入第一语音编码器,将第一语音编码器的输出输入初始语音情感特征提取模块;
将有情感标签音频的文本数据输入第一文本编码器,将第一文本编码器的输出输入初始文本情感特征提取模块;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入初始情感分类模块中,得到情感分类模块的输出;
对比情感分类模块的输出与有情感标签音频的标签,根据对比结果训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
在一种可能的实施方式中,所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的语音情感特征为查询向量,对齐后的文本情感特征为键向量和值向量的多头注意力网络提取语音跨模态情感特征,作为语音跨模态情感特征提取模块的输出,
所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的文本情感特征为查询向量,对齐后的语音情感特征为键向量和值向量的多头注意力网络提取文本跨模态情感特征,作为文本跨模态情感特征提取模块的输出。
在一种可能的实施方式中,所述语音情感特征提取模块和文本情感特征提取模块的结构均包括:
两层长短期记忆网络层和标准数据归一化层,其中,每一层长短期记忆网络层均应用Dropout算法。
第二方面,本公开的实施例提供了一种基于预训练模型的多模态情感识别装置,包括:
第一输入模块,用于将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
第二输入模块,用于将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
第三输入模块,用于将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的基于预训练模型的多模态情感识别方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于预训练模型的多模态情感识别方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的基于预训练模型的多模态情感识别方法,将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别,语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的联合使用,能够提高情感识别准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的基于预训练模型的多模态情感识别方法流程示意图;
图2示意性示出了根据本公开实施例的基于预训练模型的多模态情感识别装置的结构框图;
图3示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种基于预训练模型的多模态情感识别方法,所述方法包括:
S1,将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
S2,将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
S3,将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
在本实施例中,所述语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,通过以下步骤训练得到:
收集无情感标签音频和有情感标签音频;
利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器;
利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器;
利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
在本实施例中,所述利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器,包括:
将无情感标签音频的语音数据输入预设语音编码器,并将语音编码器的输出输入预设语音解码器中,得到语音解码器的输出;
根据无情感标签音频的语音数据与语音解码器的输出,训练预设语音编码器和预设语音解码器,得到训练后语音编码器,作为第一语音编码器。
在一些实施例中,预设语音编码器和预设语音解码器可以是WavLM模型,WavLM模型为基于卷积编码器和Transformer编码器的开源预训练模型。
在本实施例中,所述利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器,包括:
将无情感标签音频的文本数据输入预设文本编码器,并将文本编码器的输出输入预设文本解码器中,得到文本解码器的输出;
根据无情感标签音频的文本数据与文本解码器的输出,训练预设文本编码器和预设文本解码器,得到训练后文本编码器,作为第一文本编码器。
在一些实施例中,预设文本编码器和预设文本解码器可以是BERT模型,BERT模型为一个基于Transformer的开源预训练模型。
在本实施例中,在步骤S1中,将待识别音频的语音数据输入预先训练好的语音编码器之前,所述方法还包括:
通过截断或补零的方式,将待识别音频的语音数据转化为固定长度的音频信号,以将固定长度的音频信号输入预先训练好的语音编码器。
在本实施例中,在步骤S2中,在将待识别音频的文本数据输入预先训练好的文本编码器之前,所述方法还包括:
根据BERT模型的词库将待识别音频的文本数据转化为嵌入向量,通过截断或补零的方式将该嵌入向量转化为固定词量的文本嵌入,以将固定词量的文本嵌入输入预先训练好的文本编码器。
在本实施例中,所述利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,包括:
将有情感标签音频的语音数据输入第一语音编码器,将第一语音编码器的输出输入初始语音情感特征提取模块;
将有情感标签音频的文本数据输入第一文本编码器,将第一文本编码器的输出输入初始文本情感特征提取模块;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入初始情感分类模块中,得到情感分类模块的输出;
对比情感分类模块的输出与有情感标签音频的标签,根据对比结果训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
在上述模型训练过程中,采用AdamW优化器和交叉熵损失(Cross-Entropy Loss)函数。相比传统的随机梯度下降法,AdamW具有更好的泛化性能。另外,在训练模型时,重要的网络参数设置如下:长短期记忆网络的计算单元数量为64,Dropout参数设置为0.5,多头注意力网络的头数设置为8,自监督训练学习率为0.01,有监督训练学习率为0.00001。
在本实施例中,所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的语音情感特征为查询向量,对齐后的文本情感特征为键向量和值向量的多头注意力网络提取语音跨模态情感特征,作为语音跨模态情感特征提取模块的输出,
所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的文本情感特征为查询向量,对齐后的语音情感特征为键向量和值向量的多头注意力网络提取文本跨模态情感特征,作为文本跨模态情感特征提取模块的输出。
在本实施例,将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐,包括:
将语音情感特征提取模块输出的语音情感特征,按时序方向展开成一维向量,采用全连接网络对向量进行压缩,再升维为形状为(40,32)的二维语音特征向量;
将文本情感特征提取模块输出的文本情感特征,按时序方向展开成一维向量,采用全连接网络对向量进行压缩,再升维为形状为(40,32)的二维文本特征向量;
将二维语音特征向量与二维文本特征向量对齐。
在本实施例中,所述语音情感特征提取模块和文本情感特征提取模块的结构均包括:
两层长短期记忆网络层和标准数据归一化层,其中,每一层长短期记忆网络层均应用Dropout算法,用于避免网络过拟合和提高模型稳定性。
在本实施例,步骤S3中,将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别,包括:
将语音情感特征提取模块输出的语音情感特征、文本情感特征提取模块输出的文本情感特征、语音跨模态情感特征提取模块输出的语音跨模态情感特征、文本跨模态情感特征提取模块输出的文本跨模态情感特征,按照时序方向进行拼接,得到联合情感特征;
将联合情感特征,输入由全连接层、ReLU激活函数和输出层组成的多层感知机(Multi-Layer Perception),得到情感分类结果。
本公开在大规模无情感标签数据上通过自监督学习预训练WavLM和BERT模型,然后在小规模有情感标签数据上使用预训练模型和其他时序模型提取和融合多模态情感特征用于情感分类,从而提高情感识别准确率。
参见图2,本公开的实施例提供了一种基于预训练模型的多模态情感识别装置,包括:
第一输入模块11,用于将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
第二输入模块12,用于将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
第三输入模块13,用于将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例中,第一输入模块11、第二输入模块12和第三输入模块13中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。第一输入模块11、第二输入模块12和第三输入模块13中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一输入模块11、第二输入模块12和第三输入模块13中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参见图3,本公开的实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示基于预训练模型的多模态情感识别方法:
将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于预训练模型的多模态情感识别方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的基于预训练模型的多模态情感识别方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于预训练模型的多模态情感识别方法,其特征在于,所述方法包括:
将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
2.根据权利要求1所述的方法,其特征在于,所述语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,通过以下步骤训练得到:
收集无情感标签音频和有情感标签音频;
利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器;
利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器;
利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
3.根据权利要求2所述的方法,其特征在于,所述利用无情感标签音频的语音数据训练语音编码器,得到第一语音编码器,包括:
将无情感标签音频的语音数据输入预设语音编码器,并将语音编码器的输出输入预设语音解码器中,得到语音解码器的输出;
根据无情感标签音频的语音数据与语音解码器的输出,训练预设语音编码器和预设语音解码器,得到训练后语音编码器,作为第一语音编码器。
4.根据权利要求2所述的方法,其特征在于,所述利用无情感标签音频的文本数据训练文本编码器,得到第一文本编码器,包括:
将无情感标签音频的文本数据输入预设文本编码器,并将文本编码器的输出输入预设文本解码器中,得到文本解码器的输出;
根据无情感标签音频的文本数据与文本解码器的输出,训练预设文本编码器和预设文本解码器,得到训练后文本编码器,作为第一文本编码器。
5.根据权利要求2所述的方法,其特征在于,所述利用有情感标签音频联合训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,包括:
将有情感标签音频的语音数据输入第一语音编码器,将第一语音编码器的输出输入初始语音情感特征提取模块;
将有情感标签音频的文本数据输入第一文本编码器,将第一文本编码器的输出输入初始文本情感特征提取模块;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出;
将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出;
将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入初始情感分类模块中,得到情感分类模块的输出;
对比情感分类模块的输出与有情感标签音频的标签,根据对比结果训练第一语音编码器、第一文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块,得到训练好的语音编码器、文本编码器、语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块、文本跨模态情感特征提取模块和情感分类模块。
6.根据权利要求5所述的方法,其特征在于,所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始语音跨模态情感特征提取模块,得到语音跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的语音情感特征为查询向量,对齐后的文本情感特征为键向量和值向量的多头注意力网络提取语音跨模态情感特征,作为语音跨模态情感特征提取模块的输出,
所述将语音情感特征提取模块和文本情感特征提取模块的输出输入初始文本跨模态情感特征提取模块,得到文本跨模态情感特征提取模块的输出,包括:
将语音情感特征提取模块输出的语音情感特征和文本情感特征提取模块输出的文本情感特征进行对齐;
以对齐后的文本情感特征为查询向量,对齐后的语音情感特征为键向量和值向量的多头注意力网络提取文本跨模态情感特征,作为文本跨模态情感特征提取模块的输出。
7.根据权利要求2所述的方法,其特征在于,所述语音情感特征提取模块和文本情感特征提取模块的结构均包括:
两层长短期记忆网络层和标准数据归一化层,其中,每一层长短期记忆网络层均应用Dropout算法。
8.一种基于预训练模型的多模态情感识别装置,其特征在于,包括:
第一输入模块,用于将待识别音频的语音数据输入预先训练好的语音编码器,将语音编码器的输出输入预先训练好的语音情感特征提取模块,并将语音情感特征提取模块的输出输入预先训练好的语音跨模态情感特征提取模块;
第二输入模块,用于将待识别音频的文本数据输入预先训练好的文本编码器,将文本编码器的输出输入预先训练好的文本情感特征提取模块,并将文本情感特征提取模块的输出输入预先训练好的文本跨模态情感特征提取模块;
第三输入模块,用于将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一项所述的基于预训练模型的多模态情感识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于预训练模型的多模态情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083710.0A CN116778967B (zh) | 2023-08-28 | 2023-08-28 | 基于预训练模型的多模态情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083710.0A CN116778967B (zh) | 2023-08-28 | 2023-08-28 | 基于预训练模型的多模态情感识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116778967A true CN116778967A (zh) | 2023-09-19 |
CN116778967B CN116778967B (zh) | 2023-11-28 |
Family
ID=87989993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311083710.0A Active CN116778967B (zh) | 2023-08-28 | 2023-08-28 | 基于预训练模型的多模态情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778967B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688344A (zh) * | 2024-02-04 | 2024-03-12 | 北京大学 | 一种基于大模型的多模态细粒度倾向分析方法及系统 |
CN118194238A (zh) * | 2024-05-14 | 2024-06-14 | 广东电网有限责任公司 | 一种多语种多模态情感识别方法、系统及设备 |
CN118245803A (zh) * | 2024-04-12 | 2024-06-25 | 摩尔线程智能科技(北京)有限责任公司 | 情感识别模型的训练方法、情感识别方法、装置、电子设备、存储介质和程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112860901A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 一种融合情感词典的情感分析方法及装置 |
CN114116959A (zh) * | 2021-10-21 | 2022-03-01 | 吉林大学 | 方面级情感分析方法、装置以及终端 |
CN114511906A (zh) * | 2022-01-20 | 2022-05-17 | 重庆邮电大学 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
CN115394321A (zh) * | 2022-08-24 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 音频情感识别方法、装置、设备、存储介质及产品 |
CN115730203A (zh) * | 2022-11-25 | 2023-03-03 | 安徽财经大学 | 一种基于全局感知跨模态特征融合网络的语音情感识别方法 |
CN115762466A (zh) * | 2022-11-21 | 2023-03-07 | 四川启睿克科技有限公司 | 一种合成不同情感音频的方法和装置 |
-
2023
- 2023-08-28 CN CN202311083710.0A patent/CN116778967B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112860901A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 一种融合情感词典的情感分析方法及装置 |
CN114116959A (zh) * | 2021-10-21 | 2022-03-01 | 吉林大学 | 方面级情感分析方法、装置以及终端 |
CN114511906A (zh) * | 2022-01-20 | 2022-05-17 | 重庆邮电大学 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
CN115394321A (zh) * | 2022-08-24 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 音频情感识别方法、装置、设备、存储介质及产品 |
CN115762466A (zh) * | 2022-11-21 | 2023-03-07 | 四川启睿克科技有限公司 | 一种合成不同情感音频的方法和装置 |
CN115730203A (zh) * | 2022-11-25 | 2023-03-03 | 安徽财经大学 | 一种基于全局感知跨模态特征融合网络的语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
LICAI SUN等: "MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION", ICASSP 2021 - 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pages 4275 - 4278 * |
杨轶娇: "基于深度学习的结合语音和文本的多模态情感识别研", 中国优秀硕士学位论文全文数据库, pages 23 - 52 * |
陶建华等: "多模态人机交互综述", 中国图象图形学报, vol. 27, no. 6, pages 1956 - 1976 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688344A (zh) * | 2024-02-04 | 2024-03-12 | 北京大学 | 一种基于大模型的多模态细粒度倾向分析方法及系统 |
CN117688344B (zh) * | 2024-02-04 | 2024-05-07 | 北京大学 | 一种基于大模型的多模态细粒度倾向分析方法及系统 |
CN118245803A (zh) * | 2024-04-12 | 2024-06-25 | 摩尔线程智能科技(北京)有限责任公司 | 情感识别模型的训练方法、情感识别方法、装置、电子设备、存储介质和程序产品 |
CN118194238A (zh) * | 2024-05-14 | 2024-06-14 | 广东电网有限责任公司 | 一种多语种多模态情感识别方法、系统及设备 |
CN118194238B (zh) * | 2024-05-14 | 2024-07-23 | 广东电网有限责任公司 | 一种多语种多模态情感识别方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116778967B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116778967B (zh) | 基于预训练模型的多模态情感识别方法及装置 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN110136689B (zh) | 基于迁移学习的歌声合成方法、装置及存储介质 | |
CN111402862A (zh) | 语音识别方法、装置、存储介质及设备 | |
Sun et al. | Speech emotion recognition based on genetic algorithm–decision tree fusion of deep and acoustic features | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN113837299A (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN114360504A (zh) | 音频处理方法、装置、设备、程序产品及存储介质 | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
Akbal et al. | Development of novel automated language classification model using pyramid pattern technique with speech signals | |
CN117809655A (zh) | 音频处理方法、装置、设备及存储介质 | |
CN113744727A (zh) | 模型训练方法、系统、终端设备及存储介质 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN116645961A (zh) | 语音识别方法、语音识别装置、电子设备及存储介质 | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
CN113869051B (zh) | 一种基于深度学习的命名实体识别方法 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN115641860A (zh) | 模型的训练方法、语音转换方法和装置、设备及存储介质 | |
Domokos et al. | Romanian phonetic transcription dictionary for speeding up language technology development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |