CN112837701B

CN112837701B - 基于多分类器交互学习的语音情感识别方法

Info

Publication number: CN112837701B
Application number: CN202011623065.3A
Authority: CN
Inventors: 谷裕; 梁雪峰; 周颖; 尹义飞; 韩迎萍; 姚龙山
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-12-27
Anticipated expiration: 2040-12-31
Also published as: CN112837701A

Abstract

本发明提出一种针对语音中的较为模糊情感的识别方法，主要解决现有技术中大多数语音数据为模糊数据，情感识别准确率低及人工注释标签成本较高的问题。其实现方案是：1)通过少量具有精确标签的数据对五个分类器进行初次训练得到五个模型，并用这五个模型为模糊数据构造一个模糊标签；2)用具有模糊标签的数据二次训练五个模型，得到的训练好的五个情感分类模型；3)将少量无标签数据放入训练好的五个模型进行语音情感识别，得到对愤怒、高兴、平静、恐慌和悲伤这五种情感分类判别的准确率；4)选择准确率最高的结果作为数据标签为情感分类结果。本发明提高了模糊数据处理能力，识别准确率高，成本低，可用于健康检索、信息安全及机器人。

Description

基于多分类器交互学习的语音情感识别方法

技术领域

本发明属于人工智能技术领域，具体是涉及一种语音情感识别方法，可用于健康检索、信息安全及机器人。

背景技术

情感识别ER是指计算机对从传感器采集来的信号进行分析和处理，从而得到人的情感状态。情感识别具有非常广阔的应用前景，随着情感识别的引入各行各业的服务质量都将有很大的提升。目前情感识别技术已被逐步应用于视频剧情广告推荐、视频自动编辑等，并且带来了巨大的经济价值。而语音情感识别SER是指从语音中信号中寻找情感内容。从生理心理学角度，相比面部表情和身体姿态等人类行为，语音更能表达人类内心潜在的情感，可以表达面部表情和身体姿态无法表达的潜在情感状态。

关于语音情感识别方面的研究，主要包括语音接口、语言处理、语音分析，其在健康、检索、机器人、安全以及其他相关领域有很大的应用。人类和机器之间的最有效的互动方式是语音，但目前最大的障碍是机器无法足够的获取和识别人类的语音信息。而语言情感识别是人类交流必不可少的一部分，因此语音情感识别SER目前也被看做能够丰富下一代人工智能“情商”的重要研究领域。

由于通过语音情感识别的重要性，以及语音情感识别方式可以更好的预测出人内心的潜在情感，因此语音情感识别长期以来受到了大量的关注。但是正是因为语音情感数据的模糊，因此识别的任务具有挑战性，语音情感识别和合成方面进展很慢。因而如何以更有效的方式利用语音数据进行情感识别，如何提高情感识别的准确率和一致性，仍然是当前情感识别中的难点问题。

近年来，通过深度学习技术从语谱图中提取特征已经成为语音情感识别相关任务的一个新趋势，在性能上表现出了很强的竞争力。自从第一次发表了成功地使用卷积神经网络CNN从语音信号中学习特征表征，一些研究人员就跟随这一趋势，使用深度神经网络自动学习特征表征。例如，2016年，Trigeorgis有学者使用端到端的学习算法，结合了CNN和循环神经网络RNN，并且融入了长短期记忆网络LSTM，实现了较高的识别效果。2019年，Dai等人提出了一种新的方法来解决模糊情绪分类问题，它结合了交叉熵损失和中心损失，并增强了辨别能力。2017年，Cumins等人提出了一种基于CNN的方法，它使用预训练的AlexNet提取深度谱特征，并使用线性支持向量机来解决分类任务。这些方法都是将语谱图直接反馈到神经网络中完成与语音情感识别的相关任务，这些方法的不足之处是他们都需要语音数据有精确标签，然而实际情况下大多数语音数据是没有精确标签的，这些方法就不能取得很好的效果。

标签分布学习ldl是近年来提出的一种机器学习方法，已在多个领域得到应用，它用标签分布代替数据的精确标签。例如，为了处理年龄相近时脸部表情的相似性，2013年，Geng等人最初提出了一种用年龄的标签分布来处理脸部年龄估计问题的低密度脂蛋白算法。2018年，Gao等人提出了一个端到端的学习结构，可以获得特征学习阶段和分类器阶段的年龄标签分布。标签分布学习的使用不仅限于年龄估计，而且在其他方面也得到了很好的应用。2015年，Zhang等人利用标签分布学习设计了一种用于群体计数的公共视频监控算法。2019年，刘等人提出了一种标签分布学习算法，将照片分为广角类型和窄角类型。这些方法虽说达到了最先进的性能。但是它们的不足之处是不能给出数据合理的模糊标签，因为它们的数据标签要么是手动注释的，要么是基于强大的假设。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于多分类器交互学习的语音情感识

别方法，以在语音数据没有精确标签的情况下，有效提高模糊数据处理准确率，同时避免标签分布学习的手动注释，提高语音模糊情感识别的准确率。

为实现上述目的，本发明的技术方案如下：

一种多分类器交互学习的语音情感识别方法，其特征在于，包括如下：

(1)从数据集MAS中按照模糊程度，划分为三个数据集D1，D2，D3，其中D1表示包含具有精确标签样本的数据集，共计6000个语音数据；D2表示包含具有大量无标签样本的数据集，共计13400个语音数据；D3表示包含具有模糊样本的数据集，共计1000个语音数据，用于评估交互学习的表现；

(2)使用精确标签的数据集D1分别对DenseNet、ResNet、VGG、AlexNet和SuqeezeNet这五个分类器进行初次训练，得到对应的五个模型：DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型；

(3)使用(2)中得到的五个模型分别对无标签样本数据集D2进行分类，并将分类结果以五个模型投票的方式进行统计；

(4)将(3)中五个模型的投票结果归一化为分布形式，得到模糊标签，作为无标签样本数据集D2的标签，将这些标签作为交互信息，得到具有交互信息的数据集D4；

(5)用(4)得到的具有交互信息的数据集D4对(2)得到五个模型进行二次训练，即用有交互信息的数据集D4与初次训练好的五个模型进行交互学习，得到二次训练后的DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型，并保存；

(6)进行语音情感识别：

(6a)将模糊样本数据集D3中的语音数据放入到二次训练后的五个模型中，每个模型作为一个分类器，都对数据从愤怒，高兴，平静，恐慌和悲伤这五个情感进行分类判别，并给出每个分类判别结果的准确率；

(6b)从(6a)得到分类判别结果及其准确率中，挑选五个模型中判别准确率最高的一个模型的结果，作为数据的标签，该标签就是数据对应的情感类别。

本发明与现有技术相比，具有如下优点：

第一，本发明提出的多分类器交互学习方法，通过少量精确数据样本初次训练得到多个模型，对大量无标签数据样本进行分类，用投票的方式统计分类结果，将投票结果归一化处理得到他们的模糊标签，避免了需要人工专家对分类结果进行投票，减少人工成本。

第二，本发明使用有交互信息的数据集与初次训练好的多个模型进行交互学习，提高了模型对模糊数据的处理能力和计算速度。

第三，本发明通过语音情感识别，证明了本发明提出的基于多分类器交互学习的语音情感识别的准确率高于其它先进方法。

附图说明

图1为本发明的实现总流程图。

图2为本发明中对无标签数据集构建模糊标签子流程图。

图3为本发明中进行交互学习的子流程图。

图4为本发明中语音情感识别的子流程图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步的描述。

参照图1，本发明的实现步骤如下：

步骤1，构建需求的数据集。

将现有已知MAS数据集，共计20400个语音数据，按照模糊程度，划分为三个数据集D1，D2，D3。其中D1表示包含具有精确标签的样本，共计6000个语音数据，其被用来训练5个分类器的精确标签学习阶段；D2包含大量的无标签样本，共计13400个语音数据其被用来构造模糊标签得到具有交互信息的数据集D4和交互学习的第二次训练模型；D3包含模糊样本，共计1000个语音数据其被用来评估交互学习中二次训练好的模型的表现。

步骤2，利用具有精确标签样本的数据集D1分别对DenseNet、ResNet、VGG、AlexNet和SuqeezeNet这五个分类器进行初次训练。

所述DenseNet分类器，含有120层卷积层及1层全连接层，训练时冻结前60层卷积层参数；

所述ResNet分类器，含有17层卷积层及1层全连接层，训练时冻结前4层参数；

所述VGG分类器，含有8层卷积层及3层全连接层，训练时冻结前1层参数；

所述AlexNet分类器，含有5层卷积层及3层全连接层；

所述SqueezeNet分类器，含有2层卷积层以及8个fire模块。

本步骤使用所述数据集D1在ImageNet上预训练的五个分类器在D1上进行初始训练的实现步骤如下：

2.1)分别初始化五个分类器参数，设置分类器参数：初始迭代次数K＝50，学习率L＝0.001，dropout＝0.5；

2.2)使用交叉熵损失函数loss最优化多个分类器的识别结果，交叉熵损失函数loss如下所示：

其中，y_ji是第j个数据的第i个数据标签，

是模型输出的第j个数据的第i个标签，j从1到m，i是从1到n，m是样本数据总数，n是类别数；

2.3)计算数据集D1中每个数据在每个分类器中的损失函数loss，计算次数为初始迭代次数，判断损失函数在经过初始迭代的50次中是否一直减小：

若减小，则将迭代次数K加1，并返回2.2)；

若损失函数loss不再减小，则停止训练，得到初次训练好的五个模型；

保存初次训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。

步骤3，建立模糊标签分布。

将训练好的五个模型对无标签数据D2进行投票打标签，然后，用五个模型对同一样本的分类结果进行加和，并进行归一化处理构造模糊标签分布。

参照图2，本步骤的具体实现如下：

3.1)将所述数据集D2中的数据放入初次训练好的五个模型进行分类，此时模型代替人工专家进行情感分类投票，将分类结果用投票的方式进行统计，得到每种情感的投票结果

其中a表示愤怒，h表示开心，n表示平静，p表示恐慌，s表示悲伤；

3.2)将投票结果进行归一化处理，得到每个样本x被分为各类情感的概率：

其中

N为模型数目；

3.3)用3.2)得到的各类情感概率联合表示为数据的模糊标签Y_x：

由于分类结果来源于不同的模型，因此需要将各个分类结果的概率进行联合表示；

3.4)将模糊标签Y_x视为这些网络交流的结果，作为交互信息，得到具有交互信息的数据集D4。

步骤4，用步骤3得到的具有交互信息的数据集D4，对五个模型分别进行二次训练，即交互学习，得到最终的五个训练好的模型。

参照图3，本步骤的具体实现如下：

4.1)设置网络参数：迭代次数为K＝50，学习率为L＝0.001；

4.2)其中，选择用相对熵KL散度作为初次训练好的五个模型的损失函数D_KL，用来估计第j个模糊标签

与第j个模型输出

之间的距离D_KL：

其中，N表示样本数量，j是从1到N；

4.3)将具有交互信息的数据集D4的数据分别放入初次训练好的五个模型中，计算数据在每个模型中的损失函数

计算次数为迭代次数50次，判断损失函数是否在迭代过程中一直减小：

若是，则迭代次数K加1，并返回4.2)；

若损失函数不再减小，则停止训练，得到二次训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。

步骤5，语音情感识别。

参照图4，本步骤具体实现如下：

5.1)将模糊样本数据集D3放入到二次训练好的五个模型中，进行愤怒、开心、平静、恐慌和悲伤这五种语音情感的识别；

5.2)训练好的五个模型分别给出数据集D4中的数据的情感分类判别结果及其准确率，输出为一个联合表示的标签分布；

5.3)选择五个模型中情感分类准确率最高的输出作为得到的数据标签，该标签就是数据对应的情感分类，完成语音情感识别。

下面结合仿真对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明仿真实验中硬件平台：CPU型号为Intel(R)i9-7960X；GPU型号为GeForceRTX2080Ti*4，显存11G；内存16G*8。

本发明仿真实验中软件平台：ubuntu 18.0LTS系统，Python 3.6，pytorch1.2.0。

本发明仿真实验所使用的数据集来自著名的数据集MAS

2.仿真内容及其结果分析：

用本发明和现有精确标签识别方法Baseline使用上述数据集MAS，进行语音情感识别仿真，结果如下表1：

表1本发明与现有精确标签识别方法结果对比

从表1可以看出，本发明的方法结合了五种不同模型的知识，对愤怒，高兴，平静、恐慌和悲伤这五种情感单独分类判别结果准确率都高于现有精确标签方法Baseline的分类判别结果，且整体分析分类判别结果准确率也高于现有精确标签方法Baseline分类判别结果准确率，表明本发明对于模糊数据的处理效果更好，对模糊情感分类判别的准确率更高。