CN112863549A

CN112863549A - 一种基于元-多任务学习的语音情感识别方法及装置

Info

Publication number: CN112863549A
Application number: CN202110077573.4A
Authority: CN
Inventors: 蔡瑞初; 郭锴槟; 许柏炎
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-28

Abstract

本发明涉及一种基于元‑多任务学习的语音情感识别方法及装置。该方法包括：通过将元学习和多任务学习结合起来，学习辅助任务之间的相关性，以及学习辅助任务到主任务的知识迁移能力，其优势主要体现在：对于语音情感识别，考虑情感在连续空间和离散空间的相关性，在支持集上，元学习能够像多任务学习一样学习辅助任务的相关性，同时多任务学习也能够像元学习一样共享学习器。而在查询集上，通过引入知识迁移机制，使得模型能够对主任务和辅助任务间的相关性进行建模。该装置包括：获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元以及元预测识别单元。本发明显著提高了语音情感识别的准确度。

Description

一种基于元-多任务学习的语音情感识别方法及装置

技术领域

本发明涉及计算机语音领域，更具体地，涉及一种基于元-多任务学习的语音情感识别方法及装置。

背景技术

科技的发展日益改变着人类的生活方式，新时代的计算机日渐朝着能够像人类一样进行交流、思考和决策的方向发展。其中人机交互技术促使人类与计算机更加自然，更加智能的交互。语音情感识别是人机交互和人工智能领域的一个重要内容，在电子远程教学、疾病治疗、谎言检测、客服呼叫中心系统等实际应用发挥着重要作用。深度学习在语音情感识别的研究发挥着重要作用，如卷积神经网络，循环神经网络，深度神经网络等。研究人员通过这些神经网络提取时域以及频域上与情感相关信息。这类方法大多是基于单任务学习的。然而人的情感特征是复杂，与人表达情感的方式有关。因此，仅仅通过单任务学习的方式，是无法进行语音情感识别的。

进一步，科研人员通过数据分析发现，语音情感在离散空间和维度情感空间两个空间的分布存在相关性。因此，可以利用维度情感空间的信息辅助离散情感空间标签的预测。多任务学习是结合多个任务一起学习的方式，通常主任务和辅助任务同时训练，并且只共享特征提取器，而分类器不共享。虽然也有不少多任务学习在语音情感识别的研究，但是多任务学习没有对主任务和辅助任务的知识迁移方式进行显式建模，具体而言，就是知道了辅助任务的信息，如何根据辅助任务引导模型在主任务上的训练和预测。为了更好地提高语音情感识别的精度，需要对多任务学习进行适当地改进。

发明内容

本发明为克服上述现有技术所述的语音情感识别准确度不够高的缺陷，提供一种基于元-多任务学习的语音情感识别方法及装置。

所述方法包括以下步骤：

S1：从情感维度空间和离散维度空间收集描述情感的语音情感数据集；

其中，语音情感数据集包括多个人的数据集。

S2：根据说话人的个数，将语音情感数据集划分成对应多个子数据，每个数据集对应于元学习的任务集合中的一个任务，并且选择其中一个说话人的数据作为测试集，其余说话人的数据集作为训练集；

S3：对于每个说话人，将其对应的数据集划分成支持集和查询集，查询集为主任务，而支持集为与主任务相关的辅助任务；

S4：元训练的辅助任务关系建模：在训练集上的每个说话人的支持集上，训练元学习器，并临时更新元学习器参数，得到基于该说话人的临时元学习器；

S5：元训练的知识迁移训练：在训练集上，对于每个说话人的查询集上，基于自身的临时元学习器，训练并更新迁移学习器参数，以对辅助任务到主任务的知识迁移能力进行建模；

S6：在训练集上的每个说话人的查询集上，基于更新过的元学习器参数和迁移学习器参数，重新计算损失。

S7：对S6所得的损失求和取平均，作为总损失，采用梯度下降，更新元学习器和迁移学习器的初始参数；

S8，在训练集上重复S5-S7，迭代至模型收敛后，放到测试集；在测试集的支持集上，对元学习器参数进行微调；

S9，基于微调后的元学习器和元训练阶段得到的迁移学习器，预测测试集的查询集的标签，从而实现语音情感识别。其中，测试集的查询集的标签就是语音情感识别的标签。

优选地，S4中元学习器更新方式为：

其中，θ′_s,j为第j个任务学习器更新后的参数，θ_s为第j个任务学习器的参数，α为学习器的学习率，

为第i个支持集上的损失，k为任务的个数。

优选地，迁移学习器的更新方式为：

θ′_t,j为第j个任务迁移学习器更新后的参数，θ_t为迁移学习器的参数，β为迁移学习器的学习参数，

为第j个任务迁移学习器的参数。

优选地，S7中总损失为：

其中，

为总损失，

是关于θ′_s,j和θ′_t,j的函数，即

元学习器和迁移学习器的初始参数更新公式分别为：

其中，γ为微调的学习率。

本发明还提供一种基于元-多任务学习的语音情感识别装置，所述装置包括：获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元、元测识别单元；

所述获取单元用于获取语音数据集以及对应的情感标签；

所述数据处理单元用于对语音数据集进行特征提取，同时将声学特征和对应的情感标签组成数据对，将数据按照预设的数据划分规则，归到训练集或测试集；

所述元数据生成单元用于将训练集和测试集上的数据按照说话人进行再次划分，使得训练集/测试集变成由不同说话人的数据组成的集合，接着再对每个说话人的数据做划分，划分成支持集和查询集；

所述初始化单元用于将元学习器和迁移学习器具体化为神经网络，同时对元学习器和元学习器的参数，以及学习率的超参做初始化。

所述元训练单元用于在训练集上，反复迭代，训练元学习器和迁移学习器。

所述元预测微调单元用于在测试集的支持集上，微调元学习器；

所述元测识别单元用于在测试集上，利用在训练集上训练的迁移学习器和经过微调的元学习器，预测查询集的标签。

优选地，获取单元还具体用来对获取的语音数据集，选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据，除了离散情感空间标签，每段语音还标有维度情感空间的标签。

优选地，数据处理单元具体用于：预先将语音数据做切片处理，使得每个语音分片长度相等，且不超过3秒，然后利用声学处理方法，从语音数据提取声谱图，并将每个音频对应的声谱图和情感标签组成数据对；接着按照说话人进行数据集的初次划分，选择某一个说话人的数据划分到测试集，而其他归入训练集。

优选地，数据生成单元具体用于：

将训练集和测试集上的数据按照说话人再次进行划分，使得训练集/测试集变成由不同说话人的数据组成的集合，对应于元学习的任务集；接着将每个说话人的数据划分成支持集和查询集，支持集用于识别语音在维度情感空间上的标签，而查询集用于识别语音在离散情感空间的标签。

优选地，元训练单元具体用于：

对于训练集上的每一次迭代，在各个任务上，先利用支持集上的任务，先训练元学习器，对元学习器做临时更新；

接着，利用临时更新的元学习器，在查询集，先对知识迁移器做临时更新，以学习如何将辅助任务的信息迁移到主任务上；然后基于临时更新的元学习器和迁移学习器，计算各个任务在查询集的损失，求和取平均作为本次迭代的总损失；

最后，用总损失分别对元学习器和迁移学习器的初始参数做求导，并利用梯度下降更新元学习器和迁移学习器的参数；循环进行上述参数更新过程，当迭代到一定步骤后，进入元预测单元。

优选地，元测试识别单元具体用于：

在测试集的查询集上，利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器，预测一段语音在离散情感空间的标签；对于经过切片过的语音，预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后，最大值所对应的标签；最后计算测试集上的加权准确度和未加权准确度，以和其他算法作对比。

与现有技术相比，本发明技术方案的有益效果是：

本发明将元学习算法和多任务学习算法集合在一起，将已学习的知识迁移到新的知识。可有效提高语音情感识别的准确度。

附图说明

图1为实施例1所述基于元-多任务学习的语音情感识别方法的图示；

图2为实施例1所述基于元-多任务学习的语音情感识别方法的流程图；

图3为实施例2所述基于元-多任务学习的语音情感识别装置的示意图；

图4为可选元学习器结构。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于元-多任务学习的语音情感识别方法。如图1所示，基于元-多任务学习的语音情感识别方法主要包括以下两个关键阶段：

1)通过将元学习和多任务学习结合起来，学习辅助任务之间的相关性，对应于Multi-trainStage。

2)学习辅助任务到主任务的知识迁移能力，对应于KnowledgeTransferStage。

如图2所示，基于元-多任务学习的语音情感识别方法具体包括以下步骤：

1)数据集采集：可以选择从情感维度空间和离散维度空间描述情感的数据集IEMOCAP。一般来讲，语音情感可以用连续情感空间表示，如Valence-Arousal空间等，或者用离散情感空间表示，如开心，悲伤等。

2)数据集划分：将IEMOCAP按照说话人划分成几个数据集合，对应于元学习的任务集

并选择其中一个说话人的数据作为测试集。

3)元数据划分：对于每个说话人，将数据划分成支持集和查询集。但与普通的元学习不一样，在支持集的数据为多任务形式，而不再是单任务形式。而查询集的任务和支持集的任务不再是一样的，可以是不同但相关的。并且支持集和查询集共享相同的特征集。假设说话人的编号为j，对应的任务编号为

X为声学特征，

为在支持集第i个任务上对应的标签集，而

为在查询集上对应的标签集。则从数学上，可以按照下面的方式定义支持集的数据

和查询集的数据

4)元训练的辅助任务关系建模：在训练集上，对于每个任务

(也就是第j个说话人)的支持集，训练元学习器以对辅助任务之间的相关性进行建模。这里，假设元学习器的参数为θ_s。在特征X通过元学习器后，算法分别在支持集的各个辅助任务上计算相应的梯度，再将所有梯度加和后取平均作为这个阶段的总梯度。假设在第i个支持集上的损失为

学习率为α，则在这个阶段，对于任务

元学习器的参数更新方式为：

5)元训练的知识迁移训练：在训练集，对于每个任务

的查询集，对支持集的任务到查询集的任务的知识迁移能力进行建模。不同于元学习的训练方式，本实施例引入了知识迁移阶段。具体来讲，即在元学习器后添加一个用于学习知识迁移的网络层，称为迁移学习器。在这个阶段，声学特征会依次通过元学习器和知识迁移器。但是在这只训练迁移学习器，以使得迁移学习器能够尽快学习知识迁移。假设迁移学习器的参数为θ_t，学习率为β，任务

在这个阶段的损失为

则迁移学习器的参数更新方式为

6)元训练的知识迁移微调：在训练集，对于每个任务

的查询集，基于步骤4和5训练得到的元学习器和迁移学习器，重新计算查询集的损失

但是这个阶段，

是关于θ′_s,j和θ′_t,j的函数，即

以对θ′_s,j和θ′_t,j进行微调，使得模型能够朝着优化主任务预测的方向发展。

7)总损失计算：累加步骤6所得的损失再取平均，将结果作为总损失

并且基于梯度下降，更新元学习器和迁移学习器的初始参数。假设微调的学习率为γ，则上述过程可以公式化：

8)元测试阶段的预训练：重复步骤5)-7)，迭代到一定步骤后，利用测试集的支持集，将声学特征输入到元学习器中，并计算在支持集上的损失，按照梯度下降对元学习器的参数进行微调，而整个过程迁移学习器不参与训练，对应参数也不更新。

9)元测试阶段的测试：基于步骤8微调的元学习器以及预训练好的迁移学习器，直接预测测试集查询集的标签。

实施例2：

本实施例提供一种基于元-多任务学习的语音情感识别装置，所述装置可实现实施例1所述方法，如图3所示，所述装置包括：

1)获取单元，具体配置成：

对获取的语音数据集，选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据，除了离散情感空间标签，每段语音还标有维度情感空间的标签，本实施例的维度情感空间，选择Valence-Activation-Dominance空间。

2)数据处理单元，具体配置成：

预先将语音数据做切片处理，使得每个语音分片长度近似相等，且不超过3秒，然后利用傅里叶变换，滤波器等声学处理方法，从语音数据提取声谱图，并将每个音频对应的声谱图和情感标签组成数据对。接着按照说话人进行数据集的初次划分，选择某一个说话人的数据划分到测试集，而其他归入训练集。

3)元数据生成单元，具体配置成：

将训练集和测试集上的数据按照说话人再次进行划分，使得训练集/测试集变成由不同说话人的数据组成的集合，对应于元学习的任务集。接着将每个说话人的数据划分成支持集和查询集，支持集主要用于识别语音在维度情感空间上的标签，而查询集主要用于识别语音在离散情感空间的标签。

4)初始化单元，具体配置成：

选择语音情感识别经典模型CNN-LSTM作为元学习器，如附图4所示。而选择全连接层作为知识迁移器。而在选择优化器选择上，元训练和元预测统一选择Adam优化器。

5)元训练单元，具体配置成：

对于训练集上的每一次迭代，在各个任务上，先利用支持集上的任务，先训练元学习器，对元学习器做临时更新，这个阶段负责对辅助任务间的相关性建模。接着，利用临时更新的元学习器，在查询集，先对知识迁移器做临时更新，以学习如何将辅助任务的信息迁移到主任务上。然后，基于临时更新的元学习器和迁移学习器，计算各个任务在查询集的损失，求和取平均作为本次迭代的总损失。最后，用总损失分别对元学习器和迁移学习器的初始参数做求导，并利用梯度下降更新元学习器和迁移学习器的参数。循环进行上述参数更新过程，当迭代到一定步骤后，进入元预测单元。

6)测试微调单元，具体配置成：

在测试集的支持集上，利用元训练单元提供的元学习器，对元学习器做参数微调，当微调到一定步骤时，转入元预测识别单元。

7)测试识别单元，具体配置成：

在测试集的查询集上，利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器，预测一段语音在离散情感空间的标签。对于经过切片过的语音，预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后，最大值所对应的标签。最后计算测试集上的加权准确度和未加权准确度，以和其他算法作对比。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于元-多任务学习的语音情感识别方法，其特征在于，所述方法包括以下步骤：

S2：根据说话人的个数，将语音情感数据集划分成对应若干个子数据，每个数据集对应于元学习的任务集合中的一个任务，并且选择其中一个说话人的数据作为测试集，其余说话人的数据集作为训练集；

S9，基于微调后的元学习器和元训练阶段得到的迁移学习器，预测测试集的查询集的标签，从而实现语音情感识别。

2.根据权利要求1所述的基于元-多任务学习的语音情感识别方法，其特征在于，S4中元学习器更新方式为：

为第i个支持集上的损失，k为任务的个数。

3.根据权利要求2所述的基于元-多任务学习的语音情感识别方法，其特征在于，迁移学习器的更新方式为：

为第j个任务迁移学习器的参数。

4.根据权利要求3所述的基于元-多任务学习的语音情感识别方法，其特征在于，S7中总损失为：

其中，

为总损失，

是关于θ′_s,j和θ′_t,j的函数，即

元学习器和迁移学习器的初始参数更新公式分别为：

其中，γ为微调的学习率。

5.一种基于元-多任务学习的语音情感识别装置，其特征在于，所述装置包括：获取单元、数据处理单元、元数据生成单元、初始化单元、元训练单元、元预测微调单元、元测识别单元；

所述获取单元用于获取语音数据集以及对应的情感标签；

6.根据权利要求5所述的基于元-多任务学习的语音情感识别装置，其特征在于，获取单元还具体用来对获取的语音数据集，选择离散空间情感标签为高兴、生气、悲伤和中立对应的数据，除了离散情感空间标签，每段语音还标有维度情感空间的标签。

7.根据权利要求5或6所述的基于元-多任务学习的语音情感识别装置，其特征在于，数据处理单元具体用于：预先将语音数据做切片处理，使得每个语音分片长度相等，且不超过3秒，然后利用声学处理方法，从语音数据提取声谱图，并将每个音频对应的声谱图和情感标签组成数据对；接着按照说话人进行数据集的初次划分，选择某一个说话人的数据划分到测试集，而其他归入训练集。

8.根据权利要求7所述的基于元-多任务学习的语音情感识别装置，其特征在于，数据生成单元具体用于：

9.根据权利要求8所述的基于元-多任务学习的语音情感识别装置，其特征在于，元训练单元具体用于：

接着，利用临时更新的元学习器，在查询集，先对知识迁移器做临时更新，以学习如何将辅助任务的信息迁移到主任务上；然后基于临时更新的元学习器和迁移学习器，计算各个任务在查询集的损失，然后求和取平均作为总损失；

最后，用总损失分别对元学习器和迁移学习器的初始参数做求导，并利用梯度下降更新元学习器和迁移学习器的参数；循环进行参数更新，当模型迭代至收敛后，进入元预测单元。

10.根据权利要求9所述的基于元-多任务学习的语音情感识别装置，其特征在于，元测试识别单元具体用于：

在测试集的查询集上，利用元预测微调单元提供的元学习器和元训练单元提供的迁移学习器，预测一段语音在离散情感空间的标签；对于经过切片过的语音，预测的标签为各个语音片段经过元学习器和迁移学习器所得的输出概率加和后，最大值所对应的标签；最后计算测试集上的加权准确度和未加权准确度。