CN116403608A

CN116403608A - 基于多标签纠正和时空协同融合的语音情感识别方法

Info

Publication number: CN116403608A
Application number: CN202211628733.0A
Authority: CN
Inventors: 甘臣权; 王可欣; 祝清意
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-18
Filing date: 2022-12-18
Publication date: 2023-07-07

Abstract

本发明属于人工智能领域，特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法，构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络，采用单标签语音对该网络进行预训练优化，利用预训练的时空协同融合网络修改歧义语音的情感标签，再混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络，完成优化的时空协同融合网络对语音进行情感识别；本发明聚焦于如何成功利用标签具有歧义的语音样本，实现了网络从歧义语音中获得情感信息，在训练样本数量紧缺的情况下，可提升现有样本的利用率。

Description

基于多标签纠正和时空协同融合的语音情感识别方法

技术领域

本发明属于人工智能领域，特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法。

背景技术

语音是人类自然交流的主要媒介之一，不仅传达了说话人的目的信息，还表现了说话人的情感状态。利用计算机从语音中识别说话人情感状态的过程被称为语音情感识别。它是人机交互中的一项重要任务，可以帮助智能语音交互系统理解用户的潜在意图，为产品带来更好的用户体验。比如呼叫中心的语音接听助手，智慧家居的语音服务，智能驾驶的情感检测系统、医疗保健的情感辅助治疗等。随着这些应用需求的高涨，语音情感识别引起了越来越多研究者的关注。

常见的语音情感识别是基于单标签训练的，即一条语音对应一个固定的真实标签，代表该语音只包含了一种情感。然而，现实生活中大多数语音情感是模糊的，往往掺杂了多种情感，比如情感为伤心的语音表达中会夹杂着愤怒和失望的情感表现。此外，情感专家们可能会根据自身文化和个性的不同，而对模糊的情感呈现出不同的看法，即对情感感知具有主观性。结合上述，以单标签表示语音的真实情感，不仅缺乏情感的混合表达能力，还忽略了情感专家们对情感感知的主观性。

注意到这些问题，基于多标签的方法被提出，从标签定义上表示出情感的模糊性和情感感知的主观性。多标签包含两种类型，一种是计算情感专家对各类情感的投票比例来描述情感的模糊性，但这种固定的情感比例并不代表大多数人所认可的真正比例；另一种则不受比例限制，仅仅根据情感专家是否对此类情感投票来估计情感存在或缺失，但仍依赖于部分情感专家所赋予的情感认知，且不具有明确的情感偏向。

于是，一些更有效的模糊处理训练方式继而被开发，比如联合学习、元学习、情感轮廓提炼、多分类器交互等，旨在结合模型本身知识，以避免单标签和多标签方法依赖情感专家所赋予标签的问题。然而，这些方法均只考虑了只具有单标签的语音样本，即可以得到大多数情感专家共识的样本，没有利用数据集中无标签的语音样本。然而，语音情感的模糊性主要体现于这些无标签样本中。因为无标签样本是由于情感专家对该语音的情感判断无法达成共识造成的，这表明该样本的情感模糊，导致人类难以辨认。并且，在实际环境中的语音并不是每一句都具有大多数认同的情感。因而，这些没有利用无标签语音样本的方法，并没有完全考虑到真正具有情感模糊性的语音样本。

发明内容

有鉴于此，本发明提出一种基于多标签纠正和时空协同融合的语音情感识别方法，构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络，采用单标签语音对该网络进行预训练优化，利用预训练的时空协同融合网络修改歧义语音的情感标签，再混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络，完成优化的时空协同融合网络对语音进行情感识别，过程具体包括以下步骤：

S1、根据语音频谱的空间特性和语音波形的时序特性，利用卷积神经网络和Wav2vec模型分别从语音的空间域和时间域提取情感特征，并采用协同融合方法实现时空特征交互，构成时空协同融合网络；

S2、初始化时空协同融合网络，将具有单个情感标签的语音作为第一训练集，用于预训练时空协同融合网络，将此得到的预训练网络称为M_p；

S3、将歧义语音输入完成预训练的时空协同融合网络M_p，预测得到输入样本的生成情感标签；

S4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错，得到具有纠正标签的歧义语音样本；

S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集，重新训练优化时空协同融合网络，并将该网络称为M_f；

其中，歧义语音是指具有多个情感标签的语音样本。

进一步的，时空协同融合网络包括：

101、在时域模块，利用Wav2vec模型从语音信息的原始波形中获取时间域情感特征；

102、在空域模块，利用卷积神经网络对语音消息的频域进行处理，得到语音消息的空间域情感特征；

103、在协同融合模块利用一个全连接层，将空间域情感特征转换为空间情感权重，将空间情感权重与时间域情感特征相乘进行融合，得到附有空间情感信息的时间情感特征；

104、将附有空间情感信息的时间情感特征输入分类模块，得到情感分类结果。

进一步的，将具有单个情感标签的样本作为第一训练集，输入时空协同融合网络进行预训练的损失函数表示为：

其中，N表示情感数据集的样本总数量，

表示为语音的单个情感标签，

表示预训练时空协同融合网络M_p的预测输出，xⁱ表示输入网络的第i个样本。

进一步的，语音的单个情感标签

表示为：

其中，

表示情感数据集中第i个样本是否存在第j个情感类别，N表示情感数据集的样本总数量，K表示分类的情感类别数。

进一步的，将具有单个情感标签的样本和具有纠正标签的歧义样本作为第二训练集对时空协同融合网络进行训练时采用的损失函数表示为：

其中，N表示情感数据集的样本总数量，

表示纠正标签，

表示网络M_f的预测输出，xⁱ表示输入网络的第i个样本。

进一步的，得到纠正标签的过程包括：

其中，

表示歧义样本进行纠错后得到的标签，xⁱ表示输入网络的第i个样本，M_p表示预训练的时空协同融合网络；/>

为歧义样本的原始标签；

为预训练时空协同融合网络M_p的生成标签，λ∈[0,1]表示平衡因子。

进一步的，歧义样本的原始标签

为多个独热向量相加所得的多标签形式，表示为：

其中，

表示表示情感数据集中第i个样本是否存在第j种情感类别，N表示情感数据集的样本总数量，K表示情感的类别数量。

进一步的，生成标签

可分为多标签和单标签这两种形式，多标签形式的生成标签/>

为网络M_p对输入样本xⁱ的预测输出，表示为：

单标签形式的生成标签

需进一步从网络M_p输出的概率分布向量中选取概率最大的类别，以独热向量的形式表示为：

其中，

表示预训练时空协同融合网络M_p的预测输出的概率分布向量，xⁱ表示输入网络的第i个样本；j,k∈[1,K]为整数，/>

表示/>

的第k个情感类别的值，/>

为/>

的第j个情感类别的值。

本发明的有益效果在于：

1)构建了一种时空协同融合网络，以语音频谱所得的空间域情感信息协同融合于语音波形进行的时间域情感分类，提高了语音情感识别性能。

2)提供了一种探索和处理语音情感模型性的参考方法，用于标签具有歧义的语音样本，并表明存在情感注释者歧义的样本仍有助于网络建立情感认知。

3)提出了一种有效的标签纠正策略，通过预训练时空协同融合网络的生成标签修改无情感偏向的多标签，使模型训练不完全依赖于少数情感专家的情感认知，并通过平衡因子使修正的标签具有明确情感偏向。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

图1为本发明基于多标签纠正和时空协同融合的语音情感识别方法的过程；

图2为本发明时空协同融合网络的系统模型图；

图3为本发明标签纠正策略的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于多标签纠正和时空协同融合的语音情感识别方法，本发明提出一种基于多标签纠正和时空协同融合的语音情感识别方法，构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络，采用单标签语音对该网络进行预训练优化，利用预训练的时空协同融合网络修改歧义语音的情感标签，再混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络，完成优化的时空协同融合网络对语音进行情感识别，过程具体包括以下步骤：

S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集，重新训练优化时空协同融合网络，并将该网络称为M_f。

本实施例在实施本发明的过程中，如图1，主要包括以下步骤：

步骤一：构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络；

步骤二：采用具有单个情感标签的语音对时空协同融合网络进行预训练优化；

步骤三：利用预训练的时空协同融合网络修改歧义语音的情感标签；

步骤四：混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络；

步骤五：完成优化的时空协同融合网络对语音进行情感识别。

本发明时空协调融合网络包括时域模块、空域模块、协同融合模块以及分类模块，图2为本发明的时空协同融合网络系统模型图，下面结合图2对各个模块进行说明：

1)时域模块。

语音是一种具有时序特征的不定长连续信号，它的情感表达可随着时间动态变化。受益于语音识别领域研究的进展，采用大量无标签数据预训练的Wav2vec模型能够为我们构建具有上下文关系的的语音特征表示。因为，Wav2vec基于Transformer的思想实现，它通过学习当前输入的上下文信息来预测未来的某些采样点。所以，预训练的Wav2vec模型可从语音的原始波形中获得具有上下文关系的潜在情感表示f_w：

其中

表示输入网络的第i个语音波形，θ_w为Wav2vec模型的一系列可训练参数，

表示所获取具有上下文特征的潜在情感表示，T_t表示时间维度且大小取决于输入语音长度，d_t表示特征维度。

其次，由于输入语音波形的长度具有可变性，经过Wav2vec模型处理的潜在情感表示在时间维度上仍然具有长度可变性，这不利于后续的特征融合和分类。于是，引入了时间金字塔池化(Temporal pyramid pooling,TPP)来处理这种可变性。该池化方式被广泛应用于音视频的处理，可从时间维度提取多层次信息，将不固定的时间维度输出为固定维度大小。其输出固定维度大小依赖于金字塔级别(Pyramid levels,PL)的设置。比如，PL＝{1,2,3}，那么要在特征的时间轴上执行3次区域划分，进行6次池化运算，所得时间维度大小为6。这里，假设进行了n次池化运算，即固定时间维度为n：

f_t＝TPP(f_w)

其中

表示由时间金字塔池化输出的固定大小的时间情感特征。

2)空域模块。

语音频谱的空间域不仅具有时间维度和频率维度，还包含了频率随时间的变化关系。为了描述出语音频谱空间域的各维度特征，在空域模块的第一层采用三个并行的CNN层进行处理，其中，卷积核时间维度更长的CNN层用于提取频谱的时间信息，卷积核频率维度更长的CNN层用于提取频谱的频率信息，卷积核时间维度与频率维度一致的CNN层用于提取频率的时间与频率变化关系，CNN层为CNN、批归一化、ReLU激活函数和平均池化的复合。经过上述处理后，将三条支路的结果拼接为新的特征图f_a：

其中

为输入网络的第i个语音频谱，conv^1a(·)、conv^1b(·)和conv^1c(·)分别为捕捉频谱时间、频率以及时间与频率变化关系的卷积，θ_1a,θ_1b,θ_1c为CNN层的可训练参数，Concat(·)表示连接操作。

其次，采用五层CNN叠加，从特征图f_a中学习细粒度更强的空间情感特征。另外，前三层CNN在特征提取之后均添加了平均池化，对特征进行降维，目的是使模型关注特定的情感触发区域，防止参数过多而引发过拟合。经过上述处理后，特征图f_a处理为特征图f_c：

f_c＝conv⁵(θ_c,f_a)

其中conv⁵(·)表示五层CNN的特征提取过程，θ_c为一组可训练参数。

最后，采用时间金字塔池化方法固定特征图时间维度的大小。但是，由于经过多层CNN和平均池化降维后的特征维度已经凝练，采用多层次的信息提取反而会引入冗余的零填充信息，故设置PL＝{1}即可。此时，等同于采用全局平均池化(Global averagepooling,GAP)在时间轴上自动求均，过程表示为：

f_s＝GAP(f_c)

其中

d_s表示空间特征的维度。

3)协同融合模块。

由于时域模块缺少语音频率特性的提取，空域模块又缺乏语音的上下文的长依赖关系。因而，如何将时域与空域的优势结合是一个值得探讨的问题。启发于协同注意力的思想，在时间情感特征上融入空间域的情感特征，实现空间域特征辅助时间域的情感分类。首先，通过一个全连接层将空间域情感特征f_s转换为空间情感权重f_s′：

f_s′＝δ(f_sW_s+B_s)

其中

n为时间情感特征的时间维度大小，δ(·)表示ReLU激活函数，

和/>

为全连接层的可训练参数。

其次，将上述所得的空间情感权重应用在时间情感特征上，获得附有空间情感信息的时间情感特征f_t′：

f_t′＝f_s′·f_t

其中

d_t表示附有空间情感信息的时间情感特征的维度。

4)分类模块。

为了使模型更细致地学习分布式特征表示，采用多层全连接将上述情感特征映射为分类输出，该过程表示如下：

其中

均为全连接的可训练参数，K为分类任务的类别数，δ(·)表示ReLU激活函数，*代指某个模型，即本发明不限定使用的分类模型，本领域技术人员可以根据情况择优选择。

图3为标签纠正策略的流程图，下面结合附图进行说明，包括以下四个步骤：

步骤一：预训练

利用单标签样本预训练生成具有情感认知的时空协同融合网络M_p。首先，准备时空协同融合网络进行初始化。其次，数据集中情感专家对每个样本赋予了多个情感标签，单标签是服从大多数原则选取票数最多的情感类别作为标签，这不能表达出情感的可变性和情感认知的主观性等特点；多标签则保留每个情感专家的注释信息，表达出多种情感的混合。根据样本标签是否存在多种情感注释，可将所有样本归纳为三种类型：只有单标签的样本S_A、有歧义但有单标签的样本S_B、只有歧义的样本S_C，即在人工分类的过程中，按照多数投票的原则确定样本的标签，比如三个人进行投票：对于一个样本，三个人均将标签投给标签A，则这个样本就是只有单标签的样本；对于一个样本，三个人一人投给A标签，其他人投给B标签，则B标签作为该样本的单标签，A标签和B标签作为该样本的多标签，即多数类作为单标签，多数类和少数累共同构成多标签，这样的样本即为有歧义但有单标签的样本；对于一个样本，三个人均投票不一样，则这个样本只有多标签，属于只有歧义的样本。具体地，当多个情感专家对该样本均产生一致的情感标签时，此类样本确定为S_A；当大多数情感专家产生一致的情感标签但有少量不一致情感标签出现时，此类样本属于S_B；当大多数情感专家不能达到一致的情感标签时，则将此类样本归于S_C。最后，利用具有单标签的样本，即S_A和S_B，对已初始化的时空协同融合网络进行预训练，让网络建立情感认知。在一个有监督的K类语音情感分类研究中，单标签是情感数据集中真实标签的一种常用表达形式，它以独热向量的形式表达，即获得标注者多数投票的类别作为主导且其余类别为0，其定义如下：

其中，

然后，通过传统的多分类交叉熵来训练生成具有情感认知的预训练时空协同融合网络M_p，其定义如下：

其中，

步骤二：标签生成

利用具有情感认知的时空协同融合网络对标签具有歧义的样本输出生成标签。由于预训练所采用的样本都具有单标签，是情感相对清晰的样本，因而所训练的时空协同融合网络M_p可以学习到精确的情感知识。使用该网络为具有歧义的样本生成标签，实现从网络的情感角度为样本标注标签，而不仅仅依赖于少部分情感专家的情感认知。根据时空协同融合网络M_p输出的生成标签可分为多标签和单标签两种类型。具体地，直接使用网络输出的概率分布向量

作为生成标签，称为多标签类型的生成标签，定义如下：

另外，单标签类型的生成标签需进一步从模型输出的概率分布向量中选取概率最大的类别，以独热向量的形式作为生成标签，更明确地表示出网络的情感选择，定义如下：

其中j,k∈[1,K]为整数，

表示/>

的第k个情感类别的值，

为/>

的第j个情感类别的值。

步骤三：标签纠正

利用标签纠正策略将歧义样本的原始标签与网络的生成标签结合。数据集中所提供的原始标签为多个独热向量相加所得的多标签形式，其定义如下：

其中

同样表示情感数据集中第i个样本是否存在第j种情感类别，不限制于某一个类别。可见，多标签/>

可以表示出样本中存在的多种情感，符合实际中的情感混合现象。然而，这种多标签仍不能代表大多数人的情感认知，因为它的建立仍然完全依赖于少量情感专家的注释，并且多标签只代表了语音中存在某些情感，并不能表示出语音中的主导情感偏向。

于是，让具有情感认知的网络修改歧义样本的标签，以达到纠正多标签和不完全依赖标注者的情感认知，使网络训练过程中能够明确样本的情感偏向。由于样本模糊程度的差异，总体上不确定是网络的生成标签更优还是数据集提供的多标签更优，因而引入平衡因子λ表示生成标签与原始无情感偏向的多标签相对重要程度。通过标签纠正策略获得纠正标签的过程描述如下：

其中

表示纠正标签，/>

为原始多标签，/>

为网络的生成标签，λ∈[0,1]表示平衡因子，用于平衡原始多标签与模型生成标签的相对重要程度。

步骤四：重新训练

利用单标签样本与具有纠正标签的歧义样本混合训练时空协同融合网络M_f。首先，重新初始化时空协同融合网络。其次，由于样本S_B与S_C均存在情感歧义，故将其标签纠正，而样本S_A的情感标签只有一种，不存在情感歧义，故保留其原始标签。最后，采用上述三种类型的数据混合训练重新构建的时空协同融合网络M_f，使网络具有歧义样本中的情感信息，从而提升网络对语音情感的识别能力。该训练过程仍采用交叉熵损失函数作为目标函数，其定义如下：

其中

为输入为xⁱ时网络M_f的预测输出向量。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于多标签纠正和时空协同融合的语音情感识别方法，其特征在于，构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络，采用单标签语音对该网络进行预训练优化，利用预训练的时空协同融合网络修改歧义语音的情感标签，再混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络，完成优化的时空协同融合网络对语音进行情感识别，过程具体包括以下步骤：

其中，歧义语音是指具有多个情感标签的语音样本。

2.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法，其特征在于，时空协同融合网络包括：

3.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法，其特征在于，将具有单个情感标签的样本作为第一训练集，输入时空协同融合网络进行预训练的损失函数表示为：