CN113257280A

CN113257280A - 基于wav2vec的语音情感识别方法

Info

Publication number: CN113257280A
Application number: CN202110628589.XA
Authority: CN
Inventors: 李寿山; 李林钦; 王中卿; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-13

Abstract

本申请涉及一种基于wav2vec的语音情感识别方法，属于语音信号智能处理领域，该方法包括：获取样本语音信号并对样本语音信号进行预处理，获得处理后的样本语音信号；构建预设分类模型，所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成；将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练，得到语音情感分类模型，所述语音情感分类模型用于对输入的待分类语音信号进行分类。本申请可以解决人工识别语音情感的效率问题，并解决了现有语音分类模型不适用于语音情感识别场景的问题，可以提高语音情感识别的精度。

Description

基于wav2vec的语音情感识别方法

技术领域

本申请涉及语音信号智能处理技术，更具体地说，本申请涉及一种基于wav2vec的语音情感识别方法。

背景技术

随着人工智能和计算机技术的发展，人工智能已经渗入到我们生活的方方面面，越来越多的行业已经开始用人工智能来完成一些重复繁琐的工作。例如许多服务窗口变成了自助服务机，服务业的客服由人工客服向智能客服转变。但是目前的人工智能更像是一个冰冷的机器，执行着固定的程序，用户体验并不好。阻碍其发展的一个重要原因是它不能读懂人类的情感，因为情感是一种抽象的概念，很难用文字或符号进行表示。但是在很多场合，情感分析是一个关键能力。想要让人工智能更好的服务大众，让用户有更好的体验，必须让机器理解人类情感。

虽然目前已经出现利用人工智能对人的情感进行分析，但现有的技术对于语音情感识别比较广泛采用的都是通过语谱图和深度学习的卷积神经网络或循环神经网络来实现，首先将语音信号处理成语谱图，再将语谱图通过卷积神经网络、循环神经网络或者两者的结合来抽取语音的特征信息进行情感识别。而这种现有的技术使用的输入是语谱图，这是人工设计的语音特征，可能会造成部分有价值的信息缺失；此外，目前往往采用的都是监督学习方式，这需要大量有标签数据才能使模型有较好的性能，而目前有标签的语音情感数据较少，且有很多无标签数据没有利用起来。这些缺陷使得语音情感识别领域应用传统的神经网络会造成识别率的低下的问题，例如对高兴和生气的语音情感分析，它们都在高频部分有着较强能量，使用人工提取的语谱图特征很难识别出两者的差别，需要更强的泛化的特征。

因此，人们期望获得一种技术方案，能够利用人工智能语音情感识别技术对海量的语音情感进行识别，让神经网络提取更好的语音特征，避免信息缺失来提高准确率，并且可以利用大量的无标签数据，缓解有标签数据稀缺导致的准确率低下的问题。

发明内容

本申请的目的是解决上述技术问题。本申请提供了一种基于wav2vec的语音情感识别方法，将语音信号进行预处理后，使用wav2vec网络模型和预测网络进行训练，之后用训练后的模型进行语音情感识别，实现语音情感的自动识别，且针对语音情感具有良好的识别精准度。本申请提供如下技术方案：

提供一种基于wav2vec的语音情感识别方法，其包括：

获取样本语音信号并对样本语音信号进行预处理，获得处理后的样本语音信号；

构建预设分类模型，所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成；

将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练，得到语音情感分类模型，所述语音情感分类模型用于对输入的待分类语音信号进行分类；

其中，所述特征抽取网络为wav2vec网络，所述wav2vec网络由特征编码器和与特征编码器相连的多层Transformer构成，所述特征编码器由多个卷积模块组成，所述卷积模块包含时序卷积网络和归一标准化层，所述特征抽取网络用来抽取样本语音信号的情感特征。

可选地，其中所述预处理包括：裁剪、填充处理、去均值处理、归一化处理之一或其任意组合。

可选地，其中所述预测网络包括多层卷积模块，每个卷模积块包括用于获取特征的卷积层和与卷积层相连的归一标准化层，所述预测网络解码语音信号的情感特征，输出样本语音信号的情感类别。

可选地，其中所述Transformer包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分，前馈传播部分位于多头注意力部分之后，在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。

可选地，其中所述损失函数为：

其中，N为样本数量，M为情感类别的数量，

为类别c指示变量（0或1），如果该情感类别和样本i的情感类别相同就是1，否则是0，

是对于样本i属于类别c的预测概率。

可选地，其中所述方法还包括：

使用测试集对训练后的模型进行测试，以确定训练后模型的精度。

本申请的有益效果至少包括：提供了一种新颖的语音情感识别的神经网络框架。构建适用于语音情感识别的特征提取网络，利用wav2vec模型直接抽取语音特征，而不是使用人工设计的语谱图特征，构建适用于语音情感识别的预测网络。并且由于采用了wav2vec模型，可以在大量无标签数据上预训练，学到了语音信号的通用表示，解决了有标签语音情感数据不足的问题。通过训练后的模型对语音情感识别具有较高的精度水平。

本申请的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述，可以更好地理解本申请，在附图中：

图1是本申请一个实施例提供的基于wav2vec的语音情感识别方法的流程图。

图2是本申请一个实施例提供的Transformer结构示意图。

图3是本申请一个实施例提供的wav2vec结构示意图。

图4是本申请一个实施例提供的特征抽取网络抽取语音信号特征的示意图。

图5是本申请一个实施例提供的预测网络解码语音特征的示意图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述，以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请的内容不充分。

Transformer是近几年在深度学习领域提出的新型神经网络模型，目前主要被应用于自然语言处理领域中的机器翻译。Transformer模型中抛弃了传统的神经网络模型结构，只使用了注意力机制来实现，因此Transformer是一个完全基于注意力机制的编码解码模型。并且在Transformer模型中引入了自注意力这一概念，Transformer的整个架构就是叠层的自注意层和全连接层。Transformer模型的优势在于能够捕捉长距离特征，使得全局信息可以很容易地通过Transformer模型得到。另外，与循环神经网络的隐藏状态必须依次计算相比，Transformer的自注意层和全连接层的输出可以并行计算，容易加速，因此效率更高。

在语音情感识别领域应用传统的卷积神经网络时存在的信息缺失，全连接模式过于冗余而低效等问题，Transformer在理论上恰恰能够很好的解决。此外Transformer的设计十分符合语音特性，是一种系列化的数据输入，因而十分契合语音情感识别任务。本发明用到的wav2vec模型的主要部分就是Transformer，它能够很好的捕捉语音中的长距离特征。本发明通过对语音信号进行预处理，将预训练模型wav2vec成功应用在语音情感识别领域，构建适用于语音情感识别的特征提取网络和预测网络。通过训练后的模型对语音情感识别具有良好的精度水平。

图3中wav2vec网络结构是本方法所用的特征抽取模块，它由堆叠的卷积层和图2中的Transformer网络结构构成，Transformer层通过堆叠的方式来抽取语音信息的特征。如图2所示，每层Transformer至少包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分，前馈传播部分位于多头注意力部分之后，在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。

图1是本申请一个实施例提供的基于wav2vec的语音情感识别方法的流程图。该方法至少包括以下几个步骤：

步骤S101，获取样本语音信号并对样本语音信号进行预处理，获得处理后的样本语音信号。

预处理包括：填充、裁剪处理、去均值处理、归一化处理之一或其任意组合。填充或裁剪处理用于将输入语音处理成固定的尺寸。去均值处理是指在语音数据上减去数据对应维度的统计平均值，以消除公共的部分、凸显个体之间的特征和差异。归一化处理是指将模型输入的数值限制在[0，1]之间，以加快模型收敛速度。

步骤S102，构建预设分类模型，所述预设分类模型由特征抽取网络和与特征抽取网络相连的预测网络构成。

对语音信号预处理后，使用特征抽取网络抽取语音特征。其中，特征抽取网络wav2vec由堆叠的卷积模块和堆叠的Transformer网络结构组成。由于使用的是预训练模型，堆叠的层数、每层卷积层的超参数和Transformer层的超参数设置需遵循预训练模型的超参数设置。本实施例不对堆叠的层数作限制。

示意性地，卷积部分可由7个卷积模块堆叠而成，而Transformer模块可有标准模型和大模型两种设置方式，标准模型可由12个Transformer堆叠而成，而大模型则可由24个Transformer块堆叠而成。

示意性地：参考图4，经过预处理后的语音信号维度为48000，将语音通过一个由7个卷积模块堆叠而成的卷积网络和一个由12层Transformer堆叠而成的Transformer模块进行特征抽取，得到149个特征向量，每个向量维度为768。

获得语音信号特征后，由预测网络对特征作进一步处理，将语音特征转为语音情感类别。预测网络进行多分类，共输出C个预测值。C为语音情感类别的数目，是正整数。本实施例不对预测值的具体个数作限定。

其中，预测网络由多个卷积模块堆叠而成，每个卷积模块由一个卷积层和归一化层构成，本实施例不对卷积模块堆叠的层数取值作限定。示意性地：参考图5，149个特征向量由预测网络进行处理，预测网络由4层卷积模块构成，在经过处理之后，最终获得了当前语音信号的情感类别。

步骤S103，将所述处理后的样本语音信号输入所述预设分类模型并利用预设的损失函数进行训练，得到语音情感分类模型，所述语音情感分类模型用于对输入的待分类语音信号进行分类。

在模型训练过程中使用的损失函数通过下述公式表示：

其中，N为样本数量，M为情感类别的数量，

是对于样本i属于类别c的预测概率。

模型训练过程包括：将样本语音信号预处理后利用特征提取网络提取语音情感特征，接着利用预测网络处理语音情感特征，得到语音情感的预测信息，按照公式构建损失函数，进行模型训练。

可选地，在训练过程中，设置批大小为32，特征抽取网络利用预训练模型初始化，其初始学习率为0.00001，预测网络的初始学习率为0.001，在其它实施方式中，模型训练时对应的超参数也可以不同，批大小和初始学习率也可以为其它值，本实施例不对训练过程中的各个参数取值作限定。

在训练之后，模型具有良好的识别精度，能够给出高质量的预测信息，可以实现语音信息的情感分类。

可选地，可以使用测试数据对模型进行测试，包括：使用预测结果计算MAP指标，MAP为平均精度均值（Mean Average Precision），用于评估模型的识别精度。

参考下表一所示的训练后的模型和普通卷积网络语音情感识别算法在精度方面的对比结果。根据表1可以看出，经过训练后的模型较卷积神经网络算法高出约百分之7的识别精确度。可见，本发明具有较高的识别精度。

表1：

	卷积神经网络	训练后本方法模型
			MAP	0.6219	0.6938

其中，卷积神经网络与本发明所用的预测网络一致，不同之处在于前者输入的是语音情感识别常用的log梅尔滤波器组特征，本实验输入的是原始语音，并利用wav2vec进行特征抽取，然后输入预测网络。

综上所述，本实施例提供的基于wav2vec的语音情感识别方法，通过将语音预训练模型wav2vec成功应用在语音情感识别领域，构建适用于语音情感识别的特征提取网络和预测网络，脱离了语音信号处理时对传统的人工设计特征的依赖性。并且由于采用了wav2vec预训练模型，解决了现有语音情感识别模型不适用于有标签数据稀缺的问题。通过训练后的模型对语音情感识别具有较高的精度水平。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本申请的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此，本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本申请，并且存储有这样的程序产品的存储介质也构成本申请。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本申请的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于wav2vec的语音情感识别方法，其包括：

2.根据权利要求1所述的方法，其中所述预处理包括：裁剪、填充处理、去均值处理、归一化处理之一或其任意组合。

3.根据权利要求1所述的方法，其中所述预测网络包括多层卷积模块，每个卷模积块包括用于获取特征的卷积层和与卷积层相连的归一标准化层，所述预测网络解码语音信号的情感特征，输出样本语音信号的情感类别。

4.根据权利要求1所述的方法，其中所述Transformer包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分，前馈传播部分位于多头注意力部分之后，在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。

5.根据权利要求1所述的方法，其中所述损失函数为：

其中，N为样本数量，M为情感类别的数量，

是对于样本i属于类别c的预测概率。

6.根据权利要求1所述的方法，其中所述方法还包括：