CN116543797A

CN116543797A - 基于语音的情感识别方法和装置、电子设备及存储介质

Info

Publication number: CN116543797A
Application number: CN202310594451.1A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁; 赵嘉豪
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-04

Abstract

本申请实施例提供了一种基于语音的情感识别方法和装置、电子设备及存储介质，属于人工智能和金融科技技术领域。该方法包括：获取原始音频数据，对所述原始音频数据进行频谱提取得到梅尔频谱数据，对所述梅尔频谱数据进行音素划分得到音素序列，对所述梅尔频谱数据进行音高提取得到音高曲线，将所述音素序列和所述音高曲线进行拼接得到音素音高联合序列，根据所述音素音高联合序列进行特征提取得到目标情感特征，根据所述目标情感特征进行情感识别，得到目标情感类别。本申请实施例能够提高情感识别的准确率。

Description

基于语音的情感识别方法和装置、电子设备及存储介质

技术领域

本申请涉及人工智能和金融科技技术领域，尤其涉及一种基于语音的情感识别方法和装置、电子设备及存储介质。

背景技术

语音情感识别(SER)可以用于根据语音片段识别出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统等。传统的语音情感识别方法主要基于人工定义的中层特征，如梅尔频率倒谱系数(MFCC)、音高、过零率或者频谱质心等，基于人工定义的中层特征进行情感识别具有泛化性较好、所需计算资源较少的优点，但是存在识别精确度低、在一些场景下表现较差的缺陷。例如，以通过梅尔频率方式为例，通常的方法是：首先提取短时傅里叶变换(STFT)频谱或梅尔频谱，再使用深度学习模型(例如使用卷积神经网络，CNN)提取该频谱特征，以基于频谱特征进行情感识别；然，当前深度学习方法的主要问题是受限于模型的感受野和拟合能力，其难以学习到长语音信号中的前后依赖关系，对语音情感的判断更多依靠语音频谱中的基本信号特征，如能量分布，音色等，从而导致了面对较为复杂的输入时，情感识别的准确率低；并且，现存深度学习方法需要高标注质量的训练数据集，经济成本较高。

发明内容

本申请实施例的主要目的在于提出一种基于语音的情感识别方法和装置、电子设备及存储介质，旨在提高情感识别的准确率。

为实现上述目的，本申请实施例的第一方面提出了一种基于语音的情感识别方法，所述方法包括：

获取原始音频数据；

对所述原始音频数据进行频谱提取，得到梅尔频谱数据；

对所述梅尔频谱数据进行音素划分，得到音素序列；

对所述梅尔频谱数据进行音高提取，得到音高曲线；

将所述音素序列和所述音高曲线进行拼接，得到音素音高联合序列；

根据所述音素音高联合序列进行特征提取，得到目标情感特征；

根据所述目标情感特征进行情感识别，得到目标情感类别。

在一些实施例，所述根据所述音素音高联合序列进行特征提取，得到目标情感特征，包括：

对所述音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量；

通过预设的Transformer编码器对所述音素音高联合嵌入向量进行情感特征提取，得到所述目标情感特征。

在一些实施例，所述音素音高联合序列为二维序列，所述对所述音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量，包括:

对所述音素音高联合序列进行位置提取，得到位置向量；

将所述音素音高联合序列进行一维展平处理，得到音素音高联合展平向量；

将所述音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量；

将所述位置向量和所述音素音高联合等长向量进行合并，得到所述音素音高联合嵌入向量。

在一些实施例，所述将所述音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量，包括:

根据所述音素序列，得到标准音素长度；

获取所述音素音高联合展平向量的向量长度，得到初步向量长度；其中，所述初步向量长度包括当前音素长度；

计算所述标准音素长度和所述当前音素长度之间的差值，得到长度差；

若所述长度差不等于零，则根据所述长度差对所述音素音高联合展平向量进行向量填补处理，得到所述音素音高联合等长向量。

在一些实施例，所述对所述梅尔频谱数据进行音素划分，得到音素序列，包括：

获取所述梅尔频谱数据的时间数据，得到音素划分时段；

根据所述音素划分时段对梅尔频谱数据进行音素划分，得到所述音素序列；所述音素序列包括至少两个原始音素，每一所述原始音素的音频时段作为所述音素划分时段。

在一些实施例，所述对所述梅尔频谱数据进行音高提取，得到音高曲线，包括：

将所述梅尔频谱数据输入至预设的音高提取模型；

通过所述音高提取模型提取所述梅尔频谱数据的时间数据，得到音高划分时段；

将所述音高划分时段与所述音素划分时段进行对齐，并根据所述音高划分时段对所述梅尔频谱数据进行音高提取，得到所述音高曲线；其中，每一所述原始音素的音频时段作为所述音高划分时段。

在一些实施例，所述根据所述目标情感特征进行情感识别，得到目标情感类别，包括：

将所述目标情感特征输入至预设的全连接分类器；

通过所述全连接分类器对所述目标情感特征进行情感分类，得到至少两个初步情感类别；

从至少两个所述初步情感类别中筛选出一个初步情感类别作为单标签的所述目标情感类别；或者，将至少两个所述初步情感类别作为多标签的所述目标情感类别。

为实现上述目的，本申请实施例的第二方面提出了一种基于语音的情感识别装置，所述装置包括：

原始音频数据获取模块，用于获取原始音频数据；

频谱提取模块，用于对所述原始音频数据进行频谱提取，得到梅尔频谱数据；

音素划分模块，用于对所述梅尔频谱数据进行音素划分，得到音素序列；

音高提取模块，用于对所述梅尔频谱数据进行音高提取，得到音高曲线；

音素音高拼接模块，用于将所述音素序列和所述音高曲线进行拼接，得到音素音高联合序列；

情感特征提取模块，用于根据所述音素音高联合序列进行特征提取，得到目标情感特征；

情感识别模块，用于根据所述目标情感特征进行情感识别，得到目标情感类别。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请实施例提出的基于语音的情感识别方法和装置、电子设备及存储介质,可以应用于金融科技领域，其通过获取原始音频数据，对所述原始音频数据进行频谱提取以得到梅尔频谱数据，对所述梅尔频谱数据进行音素划分以得到音素序列，对所述梅尔频谱数据进行音高提取以得到音高曲线，并将所述音素序列和所述音高曲线进行拼接以得到音素音高联合序列，从而根据所述音素音高联合序列进行特征提取以得到目标情感特征，进而根据所述目标情感特征进行情感识别以得到目标情感类别，本申请实施例结合音素和音高，可以提高情感识别的准确率。

附图说明

图1是本申请实施例提供的基于语音的情感识别方法的流程图；

图2是图1中的步骤103的流程图；

图3是图1中的步骤104的流程图；

图4是图1中的步骤106的流程图；

图5是图4中的步骤401的流程图；

图6是图5中的步骤503的流程图；

图7是本申请实施例提供的基于语音的情感识别方法的另一流程图；

图8是本申请实施例提供的基于语音的情感识别装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients，MFCC)：梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数，梅尔频率倒谱系数可以用于分析语音的频谱。

短时傅里叶变换(STFT)：短时傅里叶变换可以用于分析分段平稳信号或者近似平稳信号；对于非平稳信号，当信号变化剧烈时，需选择具有较高时间分辨率的函数，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。短时傅里叶变换的一般原理为：选择一个时频局部化的窗函数，该时频局部化的窗函数一旦确定了以后，其形状就不再发生改变，短时傅里叶变换的分辨率也就确定了，如果要改变分辨率，则需要重新选择窗函数；选择好窗函数后，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。

语音情感识别(SER)可以用于根据语音片段识别出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统等；准确的情感识别有助于实现更加智能化人性化的交互系统。传统的语音情感识别方法主要基于人工定义的中层特征，如梅尔频率倒谱系数(MFCC)、音高、过零率或者频谱质心等，基于人工定义的中层特征进行情感识别具有泛化性较好、所需计算资源较少的优点，但是存在识别精确度低、在一些场景下表现较差的缺陷。例如，以通过梅尔频率方式为例，通常的方法是：首先提取短时傅里叶变换(STFT)频谱或梅尔频谱，再使用深度学习模型(例如使用卷积神经网络，CNN)提取该频谱特征，以基于频谱特征进行情感识别；然，现存深度学习方法的主要问题是受限于模型的感受野和拟合能力，其难以学习到长语音信号中的前后依赖关系，对语音情感的判断更多依靠语音频谱中的基本信号特征，如能量分布，音色等，从而导致了面对较为复杂的输入时，情感识别的准确率低；并且，现存深度学习方法需要高标注质量的训练数据集，经济成本较高。

基于此，本申请实施例提供了一种基于语音的情感识别方法和装置、电子设备及存储介质，旨在提高情感识别的准确率。

本申请实施例提供的基于语音的情感识别方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的基于语音的情感识别方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的基于语音的情感识别方法，涉及人工智能技术领域。本申请实施例提供的基于语音的情感识别方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于语音的情感识别方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据、用户音频数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的基于语音的情感识别方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤101至步骤107：

步骤101，获取原始音频数据；

步骤102，对原始音频数据进行频谱提取，得到梅尔频谱数据；

步骤103，对梅尔频谱数据进行音素划分，得到音素序列；

步骤104，对梅尔频谱数据进行音高提取，得到音高曲线；

步骤105，将音素序列和音高曲线进行拼接，得到音素音高联合序列；

步骤106，根据音素音高联合序列进行特征提取，得到目标情感特征；

步骤107，根据目标情感特征进行情感识别，得到目标情感类别。

本申请实施例所示意的步骤101至步骤107，通过获取原始音频数据，对原始音频数据进行频谱提取以得到梅尔频谱数据，对梅尔频谱数据进行音素划分以得到音素序列，对梅尔频谱数据进行音高提取以得到音高曲线，并将音素序列和音高曲线进行拼接以得到音素音高联合序列，从而根据音素音高联合序列进行特征提取以得到目标情感特征，进而可以根据目标情感特征进行情感识别，得到目标情感类别，通过结合音高和音素，可以提高情感识别的准确性。

在一些实施例的步骤101中，原始音频数据可以是wav格式的音频文件，在其他的实施例，原始音频数据也可以是其他格式的音频文件，本申请实施例不做限定。原始音频数据可以由语音采集设备在说话对象进行说话时进行录制得到，原始音频数据包括若干音频信号；例如，在金融科技场景中，原始音频数据可以是用户向保险公司咨询投保业务时说话产生的音频信号，或者向理财公司咨询理财业务时说话产生的音频信号；原始音频数据还可以是用户向银行申请开卡时说话产生的音频信号，或者向银行申请贷款时说话产生的音频信号。

在一些实施例，根据步骤102得到的梅尔频谱数据是一种贴近人耳感知规律的信号表示形式，步骤102中对原始音频数据进行频谱提取的原理为：根据步骤得到的音频信号，应用梅尔滤波器组进行短时傅里叶变换频谱。在一应用场景，可以将原始音频数据的音频信号输入至python中开源的librosa库的melspectrogram()函数中，通过该melspectrogram()函数进行计算即可得到对应的梅尔频谱数据。该梅尔频谱数据是短时傅里叶变换频谱(STFT)数据，是一种音频的时频表示，在频谱图上可以表示为：X轴(横轴)为时间，Y轴(纵轴)为频率。

在一些实施例的步骤103中，可以使用音素划分工具对梅尔频谱数据进行音素划分，从而得到音素序列。在一应用场景，音素划分工具可以是开源的sphinx3工具。音素是根据语音的自然属性划分出来的最小语音单位；从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素，例如如拼音[ma]包含[m]和[a]两个发音动作，是两个音素；又如“普通话”这三个字的语音“putonghua”可以划分为：p,u,t,o,ng,h,u,a，是八个音素组成的音素序列。

具体地，请参阅图2，在一些实施例中，步骤103可以包括但不限于包括步骤201至步骤202：

步骤201，获取梅尔频谱数据的时间数据，得到音素划分时段；

步骤202，根据音素划分时段对梅尔频谱数据进行音素划分，得到音素序列；音素序列包括至少两个原始音素，每一原始音素的音频时段作为音素划分时段。

具体地，在一应用场景中，进行音素划分时段的原理为：若其中一个原始音素的音频时段是从第0.35秒-0.55秒，则将该第0.35秒-0.55秒作为音素划分时段，对梅尔频谱数据进行划分，例如，上述示例中“普通话”这三个字的语音“putonghua”可以划分为：p,u,t,o,ng,h,u,a，是八个音素，其中，第0.35秒-0.55秒为第七个音素u的音频时段，也是第七个音素u的音素划分时段。根据步骤201至步骤202，可以在梅尔频谱上按照时间轴坐标将每一音素划分时段对应的频谱图(梅尔频谱数据)切分出来，从而可以得到的音素序列是每一原始音素和梅尔频谱对应的序列。

通常，声音具有三大属性：音量、音高、音色，其中，音高是由声音的基频(fundamental frequency)所决定。一般来说，有规律的振动发出的声音，都会有基频，这样的声音包括语音中的元音与浊辅音，以及能演奏旋律的乐器发出的声音。也有的声音没有基频，听起来像是噪声，这样的声音包括语音中的清辅音，以及打击乐器发出的声音。语音的基频一般在100Hz-400Hz之间，女声比男声的基频高，童声更高。歌声以及乐器发出的声音则会有更广的基频范围，低可以低到50Hz甚至更低，高可以超过1000Hz。人对于基频的感知遵循对数律，也就是说，人们会感觉100Hz-200Hz的差距，与200Hz-400Hz的差距相同。因此，音高常常用基频的对数来表示。在音乐上，把相差一倍的两个基频的差距称为一个八度(octave)；把一个八度12等分，每一份称为一个半音(semitone)；把一个半音再100等分，每一份称为一个音分(cent)。音乐中常常用midi number来表示音高，midi从该式子可知，国际标准音440Hz的midi number定为69，每升高(或降低)一个八度，midi number增(或减)12，midi number的单位为半音。

基频提取(pitch estimation,pitch tracking)在声音处理中有广泛应用，最直接的应用是用来识别音乐的旋律；基频提取也可以用于语音处理，例如辅助带声调语言(如汉语)的语音识别，以及在语音中进行情感识别。

由于声音的基频往往随时间而变化，所以基频提取通常会先把信号分帧(帧长通常为几十毫秒)，再逐帧提取基频。提取一帧声音基频的方法，大致可以分为时域法和频域法；其中，时域法以声音的波形为输入，其基本原理是寻找波形的最小正周期；当然，实际信号的周期性只能是近似的；而，频域法则会先对信号做傅里叶变换，得到频谱(仅取幅度谱，舍弃相位谱)；频谱上在基频的整数倍处会有尖峰，频域法的基本原理就是要求出这些尖峰频率的最大公约数。

请参阅图3，在一些实施例中，步骤104可以包括但不限于包括步骤301至步骤303：

步骤301，将梅尔频谱数据输入至预设的音高提取模型；

步骤302，通过音高提取模型提取梅尔频谱数据的时间数据，得到音高划分时段；

步骤303，将音高划分时段与音素划分时段进行对齐，并根据音高划分时段对梅尔频谱数据进行音高提取，得到音高曲线；其中，每一原始音素的音频时段作为音高划分时段。

在一些实施例，预设的音高提取模型可以是基于convolutional representationfor pitch estimation，CREPE)算法的模型，CREPE是一种基于采用时域法的有监督机器学习算法。在一应用场景，采用一维的全卷积网络作为该预设的音高提取模型。

在一些实施例，音高提取的原理类似于上述的因素划分原理，基于原始音素的音频时段，需将音高划分时段与音素划分时段进行对齐，即每一原始音素的音频时段作为音高划分时段，从而实现音高划分时段与音素划分时段的对齐。

具体地，在一应用场景中，进行音高划分时段的原理为：若其中一个原始音素的音频时段是从第0.35秒-0.55秒，则将该第0.35秒-0.55秒作为音高划分时段，对梅尔频谱数据进行音高提取，从而可以在梅尔频谱上按照时间轴坐标将每一音素划分时段对应的频谱图(梅尔频谱数据)切分出来，从而可以得到的音高曲线是每一原始音素和梅尔频谱对应的音高曲线分布图，该音高曲线的X轴为时间，Y轴为频率。

在一些实施例的步骤105，将音高划分时段与音素划分时段进行对齐，根据对齐的音高划分时段与音素划分时段，将音素序列和音高曲线进行拼接，得到的音素音高联合序列是基于每一原始音素的音频时段对应的原始音素和对应的音高曲线的拼接。

请参阅图4，在一些实施例中，步骤106可以包括但不限于包括步骤401至步骤402：

步骤401，对音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量；

步骤402，通过预设的Transformer编码器对音素音高联合嵌入向量进行情感特征提取，得到目标情感特征。

在一些实施例的步骤401，对音素音高联合序列进行嵌入表示，得到的音素音高联合嵌入向量是一种嵌入(embedding)向量。

具体地，请参阅图5，在一些实施例，步骤401可以包括但不限包括步骤501至步骤504:

步骤501，对音素音高联合序列进行位置提取，得到位置向量；

步骤502，将音素音高联合序列进行一维展平处理，得到音素音高联合展平向量；

步骤503，将音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量；

步骤504，将位置向量和音素音高联合等长向量进行合并，得到音素音高联合嵌入向量。

在一些实施例的步骤501，提取音素音高联合序列中的每一个位置，得到位置向量，该位置向量包括音素序列的位置和音高曲线的位置。

在一些实施例的步骤502，音素音高联合序列是二维序列，需将二维的音素音高联合序列进行一维展平处理，得到的音素音高联合展平向量是一维向量。

请参阅图6，在一些实施例的步骤503，可以包括但不限包括步骤601至步骤604:

步骤601,根据音素序列，得到标准音素长度；

步骤602,获取音素音高联合展平向量的向量长度，得到初步向量长度；其中，初步向量长度包括当前音素长度；

步骤603,计算标准音素长度和当前音素长度之间的差值，得到长度差；

步骤604,若长度差不等于零，则根据长度差对音素音高联合展平向量进行向量填补处理，得到音素音高联合等长向量。

在一些实施例的步骤601，由于音素序列中的每一原始音素的长度并非都相等，为了使最终得到的音素音高联合等长向量是等长向量，本申请实施例中，以音素序列中的原始音素的最大长度作为标准音素长度，例如，设置一个长于任意一个原始音素的向量长度作为标准输入长度，例如将对应一秒的梅尔频谱长度作为标准音素长度，若某一个原始音素对应的一维向量长度低于该标准音素长度(例如一秒的梅尔频谱长度)，则根据步骤604在其后面进行补0操作。

在一些实施例的步骤602，获取音素音高联合展平向量的向量长度，得到的初步向量长度是包含了音素序列的向量长度和音高曲线的向量长度之和，其中音素序列的向量长度为当前音素长度。

在一些实施例的步骤603，对标准音素长度和当前音素长度之间进行长度求差，得到标准音素长度和当前音素长度之间的差值，标准音素长度和当前音素长度之间的差值即为长度差，具体为，用标准音素长度减去当前音素长度得到的差值。

在一些实施例的步骤604，若长度差不等于零，则说明当前音素长度小于标准音素长度，则需根据长度差对音素音高联合展平向量进行向量填补处理，在一应用场景，可以进行补0操作，举例来说，若长度差为3，则对音素音高联合展平向量补三个0。

根据步骤504得到的音素音高联合嵌入向量可以看作是一个语义序列，从而可以根据步骤402，以通过Transformer编码器对音素音高联合嵌入向量进行特征提取。

在一些实施例的步骤402中，采用多层的Transformer编码器对音素音高联合嵌入向量进行情感特征提取；具体地，可以采用六层的Transformer Encoder结构对音素音高联合嵌入向量进行情感特征提取。在另一些实施例，Transformer编码器也可以采用四层或者五层的Transformer Encoder结构，本申请实施例不做限定。在步骤402使用Transformer编码器之前，需预先对Transformer编码器进行训练，本申请对Transformer编码器进行训练的方法不限定。

请参阅图7，在一些实施例的步骤107可以包括但不限于包括步骤701至步骤703：

步骤701，将目标情感特征输入至预设的全连接分类器；

步骤702，通过全连接分类器对目标情感特征进行情感分类，得到至少两个初步情感类别；

步骤703，从至少两个初步情感类别中筛选出一个初步情感类别作为单标签的目标情感类别；或者，将至少两个初步情感类别作为多标签的目标情感类别。

本申请实施例，通过全连接分类器实现情感分类。具体地，先将目标情感特征输入至全连接分类器中，该全连接分类器可以根据输入的目标情感特征进行情感分类，得到至少两个初步情感类别，每一初步情感类别以概率值进行表示，在一应用场景，原始音频数据是一段长为15秒的语音，经过步骤102至步骤106之后得到目标情感特征，全连接分类器对目标情感特征进行情感分类，输出初步情感类别为开心的概率为68％、初步情感类别为悲伤的概率为2％。对于步骤702得到的初步情感类别，步骤703进行进一步地处理，例如可以直接将步骤702得到的多个初步情感类别进行联合表示得到目标情感类别，也可以从步骤702得到的多个初步情感类别中选择概率值最大的初步情感类别作为最终的目标情感类别，具体地，若经过步骤702得到的初步情感类别为开心的概率为68％、为悲伤的概率为2％，则目标情感类别可以表示为开心(选择概率最大值68％对应的开心作为目标情感类别)，即为单标签开心；或者目标情感类别可以表示为68％的开心+2％的悲伤，即为多标签：开心+悲伤。

传统的语音情感识别方法主要采用深度学习方法、并基于人工定义的中层特征，例如如梅尔频率倒谱系数(MFCC)、音高、过零率或者频谱质心等，虽然基于人工定义的中层特征进行情感识别具有泛化性较好、所需计算资源较少的优点，但是存在识别精确度低、在一些场景下表现较差的缺陷；并且，现存深度学习方法的主要问题是受限于模型的感受野和拟合能力，其难以学习到长语音信号中的前后依赖关系，对语音情感的判断更多依靠语音频谱中的基本信号特征，如能量分布，音色等，从而导致了面对较为复杂的输入时，情感识别的准确率低，且现存深度学习方法需要高标注质量的训练数据集，经济成本较高。相比于传统的语音情感识别方法，本申请提出了一种新的基于语音的情感识别方法，结合音素和音高进行识别，具体地，将原始音频数据的音频信号看作是一个个音素组成的序列(即音素序列)，将音高曲线与音素序列在时间上进行对齐(即将音高划分时段与音素划分时段进行对齐)，从而使得音素和音高曲线的对应关系能够完整地反映音频中的语气、语调、抑扬顿挫等信息，从而在面对表现力较丰富的音频信号时有更好的性能，以提高情感识别的准确性。另外，可以使用序列到序列的预测模型进行学习，得到的预测模型的预测能力更加精准，可以更好地捕捉到音频信号中的语调和语气等信息，并且可以捕捉到各个时间的语音信号之间的关联和频谱上的长距离依赖。

此外，本申请实施例中对于原始音频数据的音频信号，使用librosa库中的melspectrogram()函数提取输入音频的梅尔频谱，更贴近人耳的感知规律。

本本申请实施例可以捕捉到音频信号之间的长距离依赖，从而在面对持续时间较长或较为复杂的音频信号时有更好的性能。

本本申请实施例使用的Transformer编码器可以在无标注的数据集上进行预训练，或使用已在其他语音任务上预训练好的模型，因此仅需要少量标注质量较高的数据进行微调即可使用，减少模型训练的时间，并减少标注数据的经济成本。

请参阅图8，本申请实施例还提供一种基于语音的情感识别装置，可以实现上述基于语音的情感识别方法，该装置包括：

原始音频数据获取模块，用于获取原始音频数据；

频谱提取模块，用于对原始音频数据进行频谱提取，得到梅尔频谱数据；

音素划分模块，用于对梅尔频谱数据进行音素划分，得到音素序列；

音高提取模块，用于对梅尔频谱数据进行音高提取，得到音高曲线；

音素音高拼接模块，用于将音素序列和音高曲线进行拼接，得到音素音高联合序列；

情感特征提取模块，用于根据音素音高联合序列进行特征提取，得到目标情感特征；

情感识别模块，用于根据目标情感特征进行情感识别，得到目标情感类别。

在一些实施例中，音素划分模块具体可以用于实现：

获取梅尔频谱数据的时间数据，得到音素划分时段；

根据音素划分时段对梅尔频谱数据进行音素划分，得到音素序列；音素序列包括至少两个原始音素，每一原始音素的音频时段作为音素划分时段。

具体地，音素划分模块可以用于实现上述步骤201至步骤202，在此不再赘述。

在一些实施例中，音高提取模块具体可以用于实现：

将梅尔频谱数据输入至预设的音高提取模型；

通过音高提取模型提取梅尔频谱数据的时间数据，得到音高划分时段；

将音高划分时段与音素划分时段进行对齐，并根据音高划分时段对梅尔频谱数据进行音高提取，得到音高曲线；其中，每一原始音素的音频时段作为音高划分时段。

具体地，音高提取模块可以用于实现上述步骤301至步骤303，在此不再赘述。

在一些实施例中，情感特征提取模块具体可以用于实现：

对音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量；

通过预设的Transformer编码器对音素音高联合嵌入向量进行情感特征提取，得到目标情感特征。

具体地，情感特征提取模块可以用于实现上述步骤401至步骤402，在此不再赘述。

具体地，情感特征提取模块用于实现对音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量的具体原理为:

对音素音高联合序列进行位置提取，得到位置向量；

将音素音高联合序列进行一维展平处理，得到音素音高联合展平向量；

将音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量；

将位置向量和音素音高联合等长向量进行合并，得到音素音高联合嵌入向量。

具体地，情感特征提取模块用于实现对音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量的具体原理可以参上述步骤501至步骤504，在此不再赘述。

更进一步地，情感特征提取模块用于实现将音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量的具体原理为：

根据音素序列，得到标准音素长度；

获取音素音高联合展平向量的向量长度，得到初步向量长度；其中，初步向量长度包括当前音素长度；

计算标准音素长度和当前音素长度之间的差值，得到长度差；

若长度差不等于零，则根据长度差对音素音高联合展平向量进行向量填补处理，得到音素音高联合等长向量。

更进一步地，情感特征提取模块用于实现将音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量的具体原理可以参上述步骤601至步骤604，在此不再赘述。

在一些实施例中，情感识别模块具体可以用于实现：

将目标情感特征输入至预设的全连接分类器；

通过全连接分类器对目标情感特征进行情感分类，得到至少两个初步情感类别；

从至少两个初步情感类别中筛选出一个初步情感类别作为单标签的目标情感类别；或者，将至少两个初步情感类别作为多标签的目标情感类别。

具体地，情感识别模块可以用于实现上述步骤701至步骤703，在此不再赘述。

该基于语音的情感识别装置的具体实施方式与上述基于语音的情感识别方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述基于语音的情感识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器802，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本申请实施例的基于语音的情感识别方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述基于语音的情感识别方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的基于语音的情感识别方法和装置、电子设备及存储介质，其通过获取原始音频数据，对原始音频数据进行频谱提取以得到梅尔频谱数据，对梅尔频谱数据进行音素划分以得到音素序列，对梅尔频谱数据进行音高提取以得到音高曲线，并将音素序列和音高曲线进行拼接以得到音素音高联合序列，从而根据音素音高联合序列进行特征提取以得到目标情感特征，进而可以根据目标情感特征进行情感识别，得到目标情感类别，通过结合音高和音素，可以提高情感识别的准确性。

相比于传统的语音情感识别方法，本申请提出了一种新的基于语音的情感识别方法，将原始音频数据的音频信号看作是一个个音素组成的序列(即音素序列)，将音高曲线与音素序列在时间上进行对齐(即将音高划分时段与音素划分时段进行对齐)，以结合音素和音高得到情感特征，从而使得音素和音高曲线的对应关系能够完整地反映音频中的语气、语调、抑扬顿挫等信息，从而在面对表现力较丰富的音频信号时有更好的性能，以提高情感识别的准确性。

此外，本申请实施例中对于原始音频数据的音频信号，使用librosa库中的melspectrogram()函数提取输入音频的梅尔频谱，更贴近人耳的感知规律。并且，本本申请实施例可以捕捉到音频信号之间的长距离依赖，从而在面对持续时间较长或较为复杂的音频信号时有更好的性能。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-On ly Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种基于语音的情感识别方法，其特征在于，所述方法包括：

获取原始音频数据；

对所述原始音频数据进行频谱提取，得到梅尔频谱数据；

对所述梅尔频谱数据进行音素划分，得到音素序列；

对所述梅尔频谱数据进行音高提取，得到音高曲线；

根据所述目标情感特征进行情感识别，得到目标情感类别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音素音高联合序列进行特征提取，得到目标情感特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述音素音高联合序列为二维序列，所述对所述音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量，包括:

对所述音素音高联合序列进行位置提取，得到位置向量；

4.根据权利要求3所述的方法，其特征在于，所述将所述音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量，包括:

根据所述音素序列，得到标准音素长度；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述梅尔频谱数据进行音素划分，得到音素序列，包括：

获取所述梅尔频谱数据的时间数据，得到音素划分时段；

6.根据权利要求5所述的方法，其特征在于，所述对所述梅尔频谱数据进行音高提取，得到音高曲线，包括：

将所述梅尔频谱数据输入至预设的音高提取模型；

7.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述目标情感特征进行情感识别，得到目标情感类别，包括：

将所述目标情感特征输入至预设的全连接分类器；

8.一种基于语音的情感识别装置，其特征在于，所述装置包括：

原始音频数据获取模块，用于获取原始音频数据；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。