CN116403608A - 基于多标签纠正和时空协同融合的语音情感识别方法 - Google Patents

基于多标签纠正和时空协同融合的语音情感识别方法 Download PDF

Info

Publication number
CN116403608A
CN116403608A CN202211628733.0A CN202211628733A CN116403608A CN 116403608 A CN116403608 A CN 116403608A CN 202211628733 A CN202211628733 A CN 202211628733A CN 116403608 A CN116403608 A CN 116403608A
Authority
CN
China
Prior art keywords
emotion
space
voice
network
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211628733.0A
Other languages
English (en)
Inventor
甘臣权
王可欣
祝清意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211628733.0A priority Critical patent/CN116403608A/zh
Publication of CN116403608A publication Critical patent/CN116403608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能领域,特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法,构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络,采用单标签语音对该网络进行预训练优化,利用预训练的时空协同融合网络修改歧义语音的情感标签,再混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络,完成优化的时空协同融合网络对语音进行情感识别;本发明聚焦于如何成功利用标签具有歧义的语音样本,实现了网络从歧义语音中获得情感信息,在训练样本数量紧缺的情况下,可提升现有样本的利用率。

Description

基于多标签纠正和时空协同融合的语音情感识别方法
技术领域
本发明属于人工智能领域,特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法。
背景技术
语音是人类自然交流的主要媒介之一,不仅传达了说话人的目的信息,还表现了说话人的情感状态。利用计算机从语音中识别说话人情感状态的过程被称为语音情感识别。它是人机交互中的一项重要任务,可以帮助智能语音交互系统理解用户的潜在意图,为产品带来更好的用户体验。比如呼叫中心的语音接听助手,智慧家居的语音服务,智能驾驶的情感检测系统、医疗保健的情感辅助治疗等。随着这些应用需求的高涨,语音情感识别引起了越来越多研究者的关注。
常见的语音情感识别是基于单标签训练的,即一条语音对应一个固定的真实标签,代表该语音只包含了一种情感。然而,现实生活中大多数语音情感是模糊的,往往掺杂了多种情感,比如情感为伤心的语音表达中会夹杂着愤怒和失望的情感表现。此外,情感专家们可能会根据自身文化和个性的不同,而对模糊的情感呈现出不同的看法,即对情感感知具有主观性。结合上述,以单标签表示语音的真实情感,不仅缺乏情感的混合表达能力,还忽略了情感专家们对情感感知的主观性。
注意到这些问题,基于多标签的方法被提出,从标签定义上表示出情感的模糊性和情感感知的主观性。多标签包含两种类型,一种是计算情感专家对各类情感的投票比例来描述情感的模糊性,但这种固定的情感比例并不代表大多数人所认可的真正比例;另一种则不受比例限制,仅仅根据情感专家是否对此类情感投票来估计情感存在或缺失,但仍依赖于部分情感专家所赋予的情感认知,且不具有明确的情感偏向。
于是,一些更有效的模糊处理训练方式继而被开发,比如联合学习、元学习、情感轮廓提炼、多分类器交互等,旨在结合模型本身知识,以避免单标签和多标签方法依赖情感专家所赋予标签的问题。然而,这些方法均只考虑了只具有单标签的语音样本,即可以得到大多数情感专家共识的样本,没有利用数据集中无标签的语音样本。然而,语音情感的模糊性主要体现于这些无标签样本中。因为无标签样本是由于情感专家对该语音的情感判断无法达成共识造成的,这表明该样本的情感模糊,导致人类难以辨认。并且,在实际环境中的语音并不是每一句都具有大多数认同的情感。因而,这些没有利用无标签语音样本的方法,并没有完全考虑到真正具有情感模糊性的语音样本。
发明内容
有鉴于此,本发明提出一种基于多标签纠正和时空协同融合的语音情感识别方法,构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络,采用单标签语音对该网络进行预训练优化,利用预训练的时空协同融合网络修改歧义语音的情感标签,再混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络,完成优化的时空协同融合网络对语音进行情感识别,过程具体包括以下步骤:
S1、根据语音频谱的空间特性和语音波形的时序特性,利用卷积神经网络和Wav2vec模型分别从语音的空间域和时间域提取情感特征,并采用协同融合方法实现时空特征交互,构成时空协同融合网络;
S2、初始化时空协同融合网络,将具有单个情感标签的语音作为第一训练集,用于预训练时空协同融合网络,将此得到的预训练网络称为Mp
S3、将歧义语音输入完成预训练的时空协同融合网络Mp,预测得到输入样本的生成情感标签;
S4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错,得到具有纠正标签的歧义语音样本;
S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集,重新训练优化时空协同融合网络,并将该网络称为Mf
其中,歧义语音是指具有多个情感标签的语音样本。
进一步的,时空协同融合网络包括:
101、在时域模块,利用Wav2vec模型从语音信息的原始波形中获取时间域情感特征;
102、在空域模块,利用卷积神经网络对语音消息的频域进行处理,得到语音消息的空间域情感特征;
103、在协同融合模块利用一个全连接层,将空间域情感特征转换为空间情感权重,将空间情感权重与时间域情感特征相乘进行融合,得到附有空间情感信息的时间情感特征;
104、将附有空间情感信息的时间情感特征输入分类模块,得到情感分类结果。
进一步的,将具有单个情感标签的样本作为第一训练集,输入时空协同融合网络进行预训练的损失函数表示为:
Figure SMS_1
其中,N表示情感数据集的样本总数量,
Figure SMS_2
表示为语音的单个情感标签,
Figure SMS_3
表示预训练时空协同融合网络Mp的预测输出,xi表示输入网络的第i个样本。
进一步的,语音的单个情感标签
Figure SMS_4
表示为:
Figure SMS_5
其中,
Figure SMS_6
表示情感数据集中第i个样本是否存在第j个情感类别,N表示情感数据集的样本总数量,K表示分类的情感类别数。
进一步的,将具有单个情感标签的样本和具有纠正标签的歧义样本作为第二训练集对时空协同融合网络进行训练时采用的损失函数表示为:
Figure SMS_7
其中,N表示情感数据集的样本总数量,
Figure SMS_8
表示纠正标签,
Figure SMS_9
表示网络Mf的预测输出,xi表示输入网络的第i个样本。
进一步的,得到纠正标签的过程包括:
Figure SMS_10
其中,
Figure SMS_11
表示歧义样本进行纠错后得到的标签,xi表示输入网络的第i个样本,Mp表示预训练的时空协同融合网络;/>
Figure SMS_12
为歧义样本的原始标签;
Figure SMS_13
为预训练时空协同融合网络Mp的生成标签,λ∈[0,1]表示平衡因子。
进一步的,歧义样本的原始标签
Figure SMS_14
为多个独热向量相加所得的多标签形式,表示为:
Figure SMS_15
其中,
Figure SMS_16
表示表示情感数据集中第i个样本是否存在第j种情感类别,N表示情感数据集的样本总数量,K表示情感的类别数量。
进一步的,生成标签
Figure SMS_17
可分为多标签和单标签这两种形式,多标签形式的生成标签/>
Figure SMS_18
为网络Mp对输入样本xi的预测输出,表示为:
Figure SMS_19
单标签形式的生成标签
Figure SMS_20
需进一步从网络Mp输出的概率分布向量中选取概率最大的类别,以独热向量的形式表示为:
Figure SMS_21
Figure SMS_22
其中,
Figure SMS_23
表示预训练时空协同融合网络Mp的预测输出的概率分布向量,xi表示输入网络的第i个样本;j,k∈[1,K]为整数,/>
Figure SMS_24
表示/>
Figure SMS_25
的第k个情感类别的值,/>
Figure SMS_26
为/>
Figure SMS_27
的第j个情感类别的值。
本发明的有益效果在于:
1)构建了一种时空协同融合网络,以语音频谱所得的空间域情感信息协同融合于语音波形进行的时间域情感分类,提高了语音情感识别性能。
2)提供了一种探索和处理语音情感模型性的参考方法,用于标签具有歧义的语音样本,并表明存在情感注释者歧义的样本仍有助于网络建立情感认知。
3)提出了一种有效的标签纠正策略,通过预训练时空协同融合网络的生成标签修改无情感偏向的多标签,使模型训练不完全依赖于少数情感专家的情感认知,并通过平衡因子使修正的标签具有明确情感偏向。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
图1为本发明基于多标签纠正和时空协同融合的语音情感识别方法的过程;
图2为本发明时空协同融合网络的系统模型图;
图3为本发明标签纠正策略的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于多标签纠正和时空协同融合的语音情感识别方法,本发明提出一种基于多标签纠正和时空协同融合的语音情感识别方法,构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络,采用单标签语音对该网络进行预训练优化,利用预训练的时空协同融合网络修改歧义语音的情感标签,再混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络,完成优化的时空协同融合网络对语音进行情感识别,过程具体包括以下步骤:
S1、根据语音频谱的空间特性和语音波形的时序特性,利用卷积神经网络和Wav2vec模型分别从语音的空间域和时间域提取情感特征,并采用协同融合方法实现时空特征交互,构成时空协同融合网络;
S2、初始化时空协同融合网络,将具有单个情感标签的语音作为第一训练集,用于预训练时空协同融合网络,将此得到的预训练网络称为Mp
S3、将歧义语音输入完成预训练的时空协同融合网络Mp,预测得到输入样本的生成情感标签;
S4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错,得到具有纠正标签的歧义语音样本;
S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集,重新训练优化时空协同融合网络,并将该网络称为Mf
本实施例在实施本发明的过程中,如图1,主要包括以下步骤:
步骤一:构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络;
步骤二:采用具有单个情感标签的语音对时空协同融合网络进行预训练优化;
步骤三:利用预训练的时空协同融合网络修改歧义语音的情感标签;
步骤四:混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络;
步骤五:完成优化的时空协同融合网络对语音进行情感识别。
本发明时空协调融合网络包括时域模块、空域模块、协同融合模块以及分类模块,图2为本发明的时空协同融合网络系统模型图,下面结合图2对各个模块进行说明:
1)时域模块。
语音是一种具有时序特征的不定长连续信号,它的情感表达可随着时间动态变化。受益于语音识别领域研究的进展,采用大量无标签数据预训练的Wav2vec模型能够为我们构建具有上下文关系的的语音特征表示。因为,Wav2vec基于Transformer的思想实现,它通过学习当前输入的上下文信息来预测未来的某些采样点。所以,预训练的Wav2vec模型可从语音的原始波形中获得具有上下文关系的潜在情感表示fw
Figure SMS_28
其中
Figure SMS_29
表示输入网络的第i个语音波形,θw为Wav2vec模型的一系列可训练参数,
Figure SMS_30
表示所获取具有上下文特征的潜在情感表示,Tt表示时间维度且大小取决于输入语音长度,dt表示特征维度。
其次,由于输入语音波形的长度具有可变性,经过Wav2vec模型处理的潜在情感表示在时间维度上仍然具有长度可变性,这不利于后续的特征融合和分类。于是,引入了时间金字塔池化(Temporal pyramid pooling,TPP)来处理这种可变性。该池化方式被广泛应用于音视频的处理,可从时间维度提取多层次信息,将不固定的时间维度输出为固定维度大小。其输出固定维度大小依赖于金字塔级别(Pyramid levels,PL)的设置。比如,PL={1,2,3},那么要在特征的时间轴上执行3次区域划分,进行6次池化运算,所得时间维度大小为6。这里,假设进行了n次池化运算,即固定时间维度为n:
ft=TPP(fw)
其中
Figure SMS_31
表示由时间金字塔池化输出的固定大小的时间情感特征。
2)空域模块。
语音频谱的空间域不仅具有时间维度和频率维度,还包含了频率随时间的变化关系。为了描述出语音频谱空间域的各维度特征,在空域模块的第一层采用三个并行的CNN层进行处理,其中,卷积核时间维度更长的CNN层用于提取频谱的时间信息,卷积核频率维度更长的CNN层用于提取频谱的频率信息,卷积核时间维度与频率维度一致的CNN层用于提取频率的时间与频率变化关系,CNN层为CNN、批归一化、ReLU激活函数和平均池化的复合。经过上述处理后,将三条支路的结果拼接为新的特征图fa
Figure SMS_32
其中
Figure SMS_33
为输入网络的第i个语音频谱,conv1a(·)、conv1b(·)和conv1c(·)分别为捕捉频谱时间、频率以及时间与频率变化关系的卷积,θ1a1b1c为CNN层的可训练参数,Concat(·)表示连接操作。
其次,采用五层CNN叠加,从特征图fa中学习细粒度更强的空间情感特征。另外,前三层CNN在特征提取之后均添加了平均池化,对特征进行降维,目的是使模型关注特定的情感触发区域,防止参数过多而引发过拟合。经过上述处理后,特征图fa处理为特征图fc
fc=conv5c,fa)
其中conv5(·)表示五层CNN的特征提取过程,θc为一组可训练参数。
最后,采用时间金字塔池化方法固定特征图时间维度的大小。但是,由于经过多层CNN和平均池化降维后的特征维度已经凝练,采用多层次的信息提取反而会引入冗余的零填充信息,故设置PL={1}即可。此时,等同于采用全局平均池化(Global averagepooling,GAP)在时间轴上自动求均,过程表示为:
fs=GAP(fc)
其中
Figure SMS_34
ds表示空间特征的维度。
3)协同融合模块。
由于时域模块缺少语音频率特性的提取,空域模块又缺乏语音的上下文的长依赖关系。因而,如何将时域与空域的优势结合是一个值得探讨的问题。启发于协同注意力的思想,在时间情感特征上融入空间域的情感特征,实现空间域特征辅助时间域的情感分类。首先,通过一个全连接层将空间域情感特征fs转换为空间情感权重fs′:
fs′=δ(fsWs+Bs)
其中
Figure SMS_35
n为时间情感特征的时间维度大小,δ(·)表示ReLU激活函数,
Figure SMS_36
和/>
Figure SMS_37
为全连接层的可训练参数。
其次,将上述所得的空间情感权重应用在时间情感特征上,获得附有空间情感信息的时间情感特征ft′:
ft′=fs′·ft
其中
Figure SMS_38
dt表示附有空间情感信息的时间情感特征的维度。
4)分类模块。
为了使模型更细致地学习分布式特征表示,采用多层全连接将上述情感特征映射为分类输出,该过程表示如下:
Figure SMS_39
Figure SMS_40
其中
Figure SMS_41
均为全连接的可训练参数,K为分类任务的类别数,δ(·)表示ReLU激活函数,*代指某个模型,即本发明不限定使用的分类模型,本领域技术人员可以根据情况择优选择。
图3为标签纠正策略的流程图,下面结合附图进行说明,包括以下四个步骤:
步骤一:预训练
利用单标签样本预训练生成具有情感认知的时空协同融合网络Mp。首先,准备时空协同融合网络进行初始化。其次,数据集中情感专家对每个样本赋予了多个情感标签,单标签是服从大多数原则选取票数最多的情感类别作为标签,这不能表达出情感的可变性和情感认知的主观性等特点;多标签则保留每个情感专家的注释信息,表达出多种情感的混合。根据样本标签是否存在多种情感注释,可将所有样本归纳为三种类型:只有单标签的样本SA、有歧义但有单标签的样本SB、只有歧义的样本SC,即在人工分类的过程中,按照多数投票的原则确定样本的标签,比如三个人进行投票:对于一个样本,三个人均将标签投给标签A,则这个样本就是只有单标签的样本;对于一个样本,三个人一人投给A标签,其他人投给B标签,则B标签作为该样本的单标签,A标签和B标签作为该样本的多标签,即多数类作为单标签,多数类和少数累共同构成多标签,这样的样本即为有歧义但有单标签的样本;对于一个样本,三个人均投票不一样,则这个样本只有多标签,属于只有歧义的样本。具体地,当多个情感专家对该样本均产生一致的情感标签时,此类样本确定为SA;当大多数情感专家产生一致的情感标签但有少量不一致情感标签出现时,此类样本属于SB;当大多数情感专家不能达到一致的情感标签时,则将此类样本归于SC。最后,利用具有单标签的样本,即SA和SB,对已初始化的时空协同融合网络进行预训练,让网络建立情感认知。在一个有监督的K类语音情感分类研究中,单标签是情感数据集中真实标签的一种常用表达形式,它以独热向量的形式表达,即获得标注者多数投票的类别作为主导且其余类别为0,其定义如下:
Figure SMS_42
其中,
Figure SMS_43
表示情感数据集中第i个样本是否存在第j个情感类别,N表示情感数据集的样本总数量,K表示分类的情感类别数。
然后,通过传统的多分类交叉熵来训练生成具有情感认知的预训练时空协同融合网络Mp,其定义如下:
Figure SMS_44
其中,
Figure SMS_45
表示预训练时空协同融合网络Mp的预测输出,xi表示输入网络的第i个样本。
步骤二:标签生成
利用具有情感认知的时空协同融合网络对标签具有歧义的样本输出生成标签。由于预训练所采用的样本都具有单标签,是情感相对清晰的样本,因而所训练的时空协同融合网络Mp可以学习到精确的情感知识。使用该网络为具有歧义的样本生成标签,实现从网络的情感角度为样本标注标签,而不仅仅依赖于少部分情感专家的情感认知。根据时空协同融合网络Mp输出的生成标签可分为多标签和单标签两种类型。具体地,直接使用网络输出的概率分布向量
Figure SMS_46
作为生成标签,称为多标签类型的生成标签,定义如下:
Figure SMS_47
另外,单标签类型的生成标签需进一步从模型输出的概率分布向量中选取概率最大的类别,以独热向量的形式作为生成标签,更明确地表示出网络的情感选择,定义如下:
Figure SMS_48
Figure SMS_49
其中j,k∈[1,K]为整数,
Figure SMS_50
表示/>
Figure SMS_51
的第k个情感类别的值,
Figure SMS_52
为/>
Figure SMS_53
的第j个情感类别的值。
步骤三:标签纠正
利用标签纠正策略将歧义样本的原始标签与网络的生成标签结合。数据集中所提供的原始标签为多个独热向量相加所得的多标签形式,其定义如下:
Figure SMS_54
其中
Figure SMS_55
同样表示情感数据集中第i个样本是否存在第j种情感类别,不限制于某一个类别。可见,多标签/>
Figure SMS_56
可以表示出样本中存在的多种情感,符合实际中的情感混合现象。然而,这种多标签仍不能代表大多数人的情感认知,因为它的建立仍然完全依赖于少量情感专家的注释,并且多标签只代表了语音中存在某些情感,并不能表示出语音中的主导情感偏向。
于是,让具有情感认知的网络修改歧义样本的标签,以达到纠正多标签和不完全依赖标注者的情感认知,使网络训练过程中能够明确样本的情感偏向。由于样本模糊程度的差异,总体上不确定是网络的生成标签更优还是数据集提供的多标签更优,因而引入平衡因子λ表示生成标签与原始无情感偏向的多标签相对重要程度。通过标签纠正策略获得纠正标签的过程描述如下:
Figure SMS_57
其中
Figure SMS_58
表示纠正标签,/>
Figure SMS_59
为原始多标签,/>
Figure SMS_60
为网络的生成标签,λ∈[0,1]表示平衡因子,用于平衡原始多标签与模型生成标签的相对重要程度。
步骤四:重新训练
利用单标签样本与具有纠正标签的歧义样本混合训练时空协同融合网络Mf。首先,重新初始化时空协同融合网络。其次,由于样本SB与SC均存在情感歧义,故将其标签纠正,而样本SA的情感标签只有一种,不存在情感歧义,故保留其原始标签。最后,采用上述三种类型的数据混合训练重新构建的时空协同融合网络Mf,使网络具有歧义样本中的情感信息,从而提升网络对语音情感的识别能力。该训练过程仍采用交叉熵损失函数作为目标函数,其定义如下:
Figure SMS_61
其中
Figure SMS_62
为输入为xi时网络Mf的预测输出向量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络,采用单标签语音对该网络进行预训练优化,利用预训练的时空协同融合网络修改歧义语音的情感标签,再混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络,完成优化的时空协同融合网络对语音进行情感识别,过程具体包括以下步骤:
S1、根据语音频谱的空间特性和语音波形的时序特性,利用卷积神经网络和Wav2vec模型分别从语音的空间域和时间域提取情感特征,并采用协同融合方法实现时空特征交互,构成时空协同融合网络;
S2、初始化时空协同融合网络,将具有单个情感标签的语音作为第一训练集,用于预训练时空协同融合网络,将此得到的预训练网络称为Mp
S3、将歧义语音输入完成预训练的时空协同融合网络Mp,预测得到输入样本的生成情感标签;
S4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错,得到具有纠正标签的歧义语音样本;
S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集,重新训练优化时空协同融合网络,并将该网络称为Mf
其中,歧义语音是指具有多个情感标签的语音样本。
2.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,时空协同融合网络包括:
101、在时域模块,利用Wav2vec模型从语音信息的原始波形中获取时间域情感特征;
102、在空域模块,利用卷积神经网络对语音消息的频域进行处理,得到语音消息的空间域情感特征;
103、在协同融合模块利用一个全连接层,将空间域情感特征转换为空间情感权重,将空间情感权重与时间域情感特征相乘进行融合,得到附有空间情感信息的时间情感特征;
104、将附有空间情感信息的时间情感特征输入分类模块,得到情感分类结果。
3.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,将具有单个情感标签的样本作为第一训练集,输入时空协同融合网络进行预训练的损失函数表示为:
Figure QLYQS_1
其中,N表示情感数据集的样本总数量,
Figure QLYQS_2
为语音的单个情感标签,/>
Figure QLYQS_3
表示预训练时空协同融合网络Mp的预测输出,xi表示输入网络的第i个样本。
4.根据权利要求3所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,语音的单个情感标签
Figure QLYQS_4
表示为:
Figure QLYQS_5
其中,
Figure QLYQS_6
表示情感数据集中第i个样本是否存在第j个情感类别,N表示情感数据集的样本总数量,K表示分类的情感类别数。
5.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,将具有单个情感标签的样本和具有纠正标签的歧义样本作为第二训练集对时空协同融合网络进行训练时采用的损失函数表示为:
Figure QLYQS_7
其中,N表示情感数据集的样本总数量,
Figure QLYQS_8
表示纠正标签,
Figure QLYQS_9
表示网络Mf的预测输出,xi表示输入网络的第i个样本。
6.根据权利要求5所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,得到纠正标签的过程包括:
Figure QLYQS_10
其中,
Figure QLYQS_11
表示歧义样本进行纠错后得到的标签,xi表示输入网络的第i个样本,Mp表示预训练的时空协同融合网络;/>
Figure QLYQS_12
为歧义样本的原始标签;
Figure QLYQS_13
为预训练时空协同融合网络Mp的生成标签,λ∈[0,1]表示平衡因子。
7.根据权利要求6所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,歧义样本的原始标签
Figure QLYQS_14
为多个独热向量相加所得的多标签形式,表示为:
Figure QLYQS_15
其中,
Figure QLYQS_16
表示表示情感数据集中第i个样本是否存在第j种情感类别,N表示情感数据集的样本总数量,K表示情感的类别数量。
8.根据权利要求6所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,生成标签
Figure QLYQS_17
可分为多标签和单标签这两种形式,多标签形式的生成标签/>
Figure QLYQS_18
为网络Mp对输入样本xi的预测输出,表示为:
Figure QLYQS_19
单标签形式的生成标签
Figure QLYQS_20
需进一步从网络Mp输出的概率分布向量中选取概率最大的类别,以独热向量的形式表示为:
Figure QLYQS_21
Figure QLYQS_22
其中,
Figure QLYQS_23
表示预训练时空协同融合网络Mp的预测输出的概率分布向量,xi表示输入网络的第i个样本;j,k∈[1,K]为整数,/>
Figure QLYQS_24
表示/>
Figure QLYQS_25
的第k个情感类别的值,/>
Figure QLYQS_26
为/>
Figure QLYQS_27
的第j个情感类别的值。
CN202211628733.0A 2022-12-18 2022-12-18 基于多标签纠正和时空协同融合的语音情感识别方法 Pending CN116403608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211628733.0A CN116403608A (zh) 2022-12-18 2022-12-18 基于多标签纠正和时空协同融合的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211628733.0A CN116403608A (zh) 2022-12-18 2022-12-18 基于多标签纠正和时空协同融合的语音情感识别方法

Publications (1)

Publication Number Publication Date
CN116403608A true CN116403608A (zh) 2023-07-07

Family

ID=87011125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211628733.0A Pending CN116403608A (zh) 2022-12-18 2022-12-18 基于多标签纠正和时空协同融合的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN116403608A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150320A (zh) * 2023-10-31 2023-12-01 中国传媒大学 对话数字人情感风格相似度评价方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150320A (zh) * 2023-10-31 2023-12-01 中国传媒大学 对话数字人情感风格相似度评价方法及系统
CN117150320B (zh) * 2023-10-31 2024-03-08 中国传媒大学 对话数字人情感风格相似度评价方法及系统

Similar Documents

Publication Publication Date Title
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN111581395B (zh) 一种基于深度学习的模型融合三元组表示学习系统及方法
Zhang et al. More is better: Precise and detailed image captioning using online positive recall and missing concepts mining
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
WO2020177282A1 (zh) 一种机器对话方法、装置、计算机设备及存储介质
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN112015868A (zh) 基于知识图谱补全的问答方法
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN111400461B (zh) 智能客服问题匹配方法及装置
CN115034224A (zh) 一种融合多种文本语义结构图表示的新闻事件检测方法和系统
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其系统
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN110245228A (zh) 确定文本类别的方法和装置
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113823272A (zh) 语音处理方法、装置、电子设备以及存储介质
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination