CN114999531A

CN114999531A - 一种基于频谱分割与深度学习的语音情感识别方法

Info

Publication number: CN114999531A
Application number: CN202210365274.5A
Authority: CN
Inventors: 唐继勇; 郭奕; 熊雪军; 蒋鑫; 田涵冰
Original assignee: Chengdu Weishi Technology Co ltd
Current assignee: Chengdu Weishi Technology Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-09-02

Abstract

本发明提出了一种基于频谱分割与深度学习的语音情感识别方法，涉及语音识别技术领域，包括：S1、获取ESD情感的数据集，并读取数据集以得到音频数据；S2、对音频数据进行数据预处理以得到灰度语谱图；S3、根据灰度语谱图的不同频段对灰度语谱图进行频谱分割以得到分割结果；S4、基于分割结果选取不同网络进行情感分类以得到分类结果；S5、输出分类结果以得到情感识别数据；本发明有效的提高了特征的利用率，从而利用语音数据对说话人的情感进行预测与分类，降低了网络的复杂度,提高了语音情感识别的准确率，极大地提高了信息处理的效率与准确性。

Description

一种基于频谱分割与深度学习的语音情感识别方法

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种基于频谱分割与深度学习的语音情感识别方法。

背景技术

随着人机交互技术的快速发展，情感识别也成为近年来AI领域热门的研究方向之一。其研究主要针对语境里人机交互中的情感、情绪识别与理解，来帮助机器人实现对话意图与深层语义的更好理解，从而提升多媒体通信的服务质量，提高用户体验。在人机交互领域的语音情感识别方向上，研究者们经常将频谱图作为声学特征，经过卷积神经网络对语音情感进行识别。频谱图是语音信号在时域和频域的综合表现，具有丰富的信息。然而在卷积神经网络中对频谱图的处理具有局部性，不能充分利用频谱图信息，导致模型识别精度低。

传统的语音情感识别算法由特征提取和分类器组成，其特征包括谱相关特征、超音质特征和语音质量特征，使用传统的机器学习方法对语音情感进行分类，由于语音本身复杂的内在因素，手工制作的特征目前难以描述更精细的特征表示，同时该方法提取到的特征并未考虑到语音信号在时域上的关系，因此准确率较低。

基于此，提出一种基于频谱分割与深度学习的语音情感识别方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于频谱分割与深度学习的语音情感识别方法，其能够提高语音情感识别的识别精度，即提高了语音识别的准确率。

本发明的技术方案为：

第一方面，本申请提供一种基于频谱分割与深度学习的语音情感识别方法，其包括以下步骤：

S1、获取ESD情感的数据集，并读取数据集以得到音频数据；

S2、对音频数据进行数据预处理以得到灰度语谱图；

S3、根据灰度语谱图的不同频段对灰度语谱图进行频谱分割以得到分割结果；

S4、基于分割结果选取不同网络进行情感分类以得到分类结果；

S5、输出分类结果以得到情感识别数据。

进一步地，上述步骤S2包括：

S21、读取音频数据，并将音频数据转换成一维数据；

S22、对一维数据进行分帧、加窗处理以转变为二维数据；

S23、对二维数据做快速傅里叶变换以得到短时傅里叶谱；

S24、将短时傅里叶谱做自乘运算以得到短时功率谱；

S25、将短时功率谱的值转化为灰度级所构成的二维图像以得到灰度语谱图。

进一步地，上述步骤S3包括：

S31、将灰度语谱图进行二值化以得到二值化的灰度语谱图；

S32、根据二值化的灰度语谱图计算以得到灰度语谱图的平均能量；

S33、基于灰度语谱图的平均能量进行绘图以得到平均能量的包络线；

S34、对包络线进行差分以得到差分曲线；

S35、根据差分曲线获取得到一阶差分包络线零点；

S36、选取一阶差分包络线零点作为分界点对包络线进行频谱分割以得到分割结果。

进一步地，上述步骤S31包括：

S311、读取灰度语谱图以获得灰度语谱图的矩阵数据；

S312、设置划分阈值，基于矩阵数据和像素级对灰度语谱图进行二值化以得到二值化的灰度语谱图。

进一步地，上述步骤S32中上述根据二值化的灰度语谱图计算以得到灰度语谱图的平均能量的计算过程包括：

将二值化的灰度语谱图转化成矩阵形式，并按行求取每个小频段的能量值，同时按低频率到高频率依次保存，重复上述操作，直到处理完数据集中的数据，然后将得到的所有二值化的灰度语谱图的能量值进行求和并计算其平均数以得到灰度语谱图的平均能量。

进一步地，上述步骤S33中上述基于灰度语谱图的平均能量进行绘图以得到平均能量的包络线的过程包括：

S331、基于灰度语谱图的平均能量进行绘图以得到平均能量曲线；

S332、获取平均能量曲线的极大值点和极小值点，以得到平均能量曲线的极大值点和极小值点对应的横纵坐标；

S333、根据平均能量曲线的极大值点和极小值点对应的横纵坐标进行绘图，以得到平均能量的包络曲线。

进一步地，上述步骤S4包括：

S41、将分割结果分别送入不同网络以得到不同网络的输出结果；

S42、将不同网络的输出结果进行聚合以得到聚合结果；

S43、将聚合结果进行情感分类以得到最终的分类结果。

进一步地，上述步骤S41中采用的网络为ResNet34网络，上述ResNet34网络中加入有轻量级注意力机制CBAM。

第二方面，本申请提供一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当上述一个或多个程序被上述处理器执行时，实现如上述第一方面中任一项的一种基于频谱分割与深度学习的语音情感识别方法。

第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的一种基于频谱分割与深度学习的语音情感识别方法。

相对于现有技术，本发明的至少具有如下优点或有益效果：

(1)本发明提供的一种基于频谱分割与深度学习的语音情感识别方法，通过绘制语音信号频率与能量的包络线，发现其能量主要集中在三个共振峰附近，其体现的是不同的特征，由此分割频谱图，能最终有效的提高特征的利用率，从而利用语音数据对说话人的情感进行预测与分类；

(2)本发明通过对音频进行分帧、加窗转换为语谱图，再按照不同频段对其进行频谱分割，同时为防止边缘特征丢失，语谱图相互重叠一部分，再分别送入三个网络，三个网络分别提取不同频段的特征，从而降低了网络的复杂度,提高了语音情感识别的准确率；

(3)本发明通过在网络中加入了轻量级注意力机制CBAM，提升了关键点特征的表现力，同时抑制了不重要的特征(环境音频、噪声)，用有限的注意力资源从大量信息中快速筛选出高价值信息，能够极大地提高信息处理的效率与准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例1的一种基于频谱分割与深度学习的语音情感识别方法的流程图；

图2为本发明实施例2的一种电子设备的示意性结构框图。

图标：101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1所示为本申请实施例1提供的一种基于频谱分割与深度学习的语音情感识别方法的流程图。

S1、获取ESD情感的数据集，并读取数据集以得到音频数据；

S2、对音频数据进行数据预处理以得到灰度语谱图；

S5、输出分类结果以得到情感识别数据。

本发明公开的一种基于频谱图分割的语音情感分类方法，主要通过获取ESD情感数据集，对语音信号进行分帧、加窗、快速傅里叶变换等预处理后，将其转换为灰度语谱图，再通过提取语谱图的能量包络线，将语谱图划分为三个频段，再将三部分语谱图输入到三个不同的ResNet网络提取特征，最后得到最终的识别结果，从而有效的提高特征的利用率，利用语音数据对说话人的情感进行预测与分类。

作为一种优选的实施方式，步骤S2包括：

S21、读取音频数据，并将音频数据转换成一维数据；

S22、对一维数据进行分帧、加窗处理以转变为二维数据；

S23、对二维数据做快速傅里叶变换以得到短时傅里叶谱；

S24、将短时傅里叶谱做自乘运算以得到短时功率谱；

作为一种优选的实施方式，步骤S3包括：

S31、将灰度语谱图进行二值化以得到二值化的灰度语谱图；

S34、对包络线进行差分以得到差分曲线；

S35、根据差分曲线获取得到一阶差分包络线零点；

其中，为防止边缘特征的丢失，每部分频谱的上界值和下界值，相互重叠一部分。

作为一种优选的实施方式，步骤S31包括：

S311、读取灰度语谱图以获得灰度语谱图的矩阵数据；

作为一种优选的实施方式，步骤S32中根据二值化的灰度语谱图计算以得到灰度语谱图的平均能量的计算过程包括：

将二值化的灰度语谱图转化成矩阵形式，并按行求取每个小频段的能量值，同时按低频率到高频率依次保存，重复操作，直到处理完数据集中的数据，然后将得到的所有二值化的灰度语谱图的能量值进行求和并计算其平均数以得到灰度语谱图的平均能量。

需要说明的是，灰度语谱图的平均能量即当前情感的能量数据，根据当前情感的能量数据进行绘图可得到频率-平均能量曲线，通过重复以上步骤，即可得到所有情感的能量数据和所有情感的频率-平均能量曲线。

作为一种优选的实施方式，步骤S33中基于灰度语谱图的平均能量进行绘图以得到平均能量的包络线的过程包括：

作为一种优选的实施方式，步骤S4包括：

S42、将不同网络的输出结果进行聚合以得到聚合结果；

S43、将聚合结果进行情感分类以得到最终的分类结果。

需要说明的是，在本实施例中，通过对音频进行分帧、加窗转换为语谱图，再按照不同频段对其进行频谱分割，再分别送入三个网络，三个网络分别提取不同频段的特征，从而降低了网络的复杂度,提高了语音情感识别的准确率。

作为一种优选的实施方式，步骤S41中采用的网络为ResNet34网络，ResNet34网络中加入有轻量级注意力机制CBAM。

由此，通过在网络中加入了轻量级注意力机制CBAM，提升了关键点特征的表现力，同时抑制了不重要的特征(环境音频、噪声)，用有限的注意力资源从大量信息中快速筛选出高价值信息，能够极大地提高信息处理的效率与准确性。

实施例2

请参阅图2，图2所示为本申请实施例2提供的一种电子设备的示意性结构框图。

一种电子设备，包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图中所示的结构仅为示意，一种基于频谱分割与深度学习的语音情感识别方法，还可包括比图中所示更多或者更少的组件，或者具有与图中所示不同的配置。图中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的系统或方法，也可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于频谱分割与深度学习的语音情感识别方法，通过绘制语音信号频率与能量的包络线，从而分割频谱图，有效的提高了特征的利用率，从而利用语音数据对说话人的情感进行预测与分类；通过对音频进行分帧、加窗转换为语谱图，再按照不同频段对其进行频谱分割，同时为防止边缘特征丢失，语谱图相互重叠一部分，再分别送入三个网络，三个网络分别提取不同频段的特征，从而降低了网络的复杂度,提高了语音情感识别的准确率；通过在网络中加入了轻量级注意力机制CBAM，提升了关键点特征的表现力，同时抑制了不重要的特征(环境音频、噪声)，用有限的注意力资源从大量信息中快速筛选出高价值信息，能够极大地提高信息处理的效率与准确性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，包括以下步骤：

S1、获取ESD情感的数据集，并读取数据集以得到音频数据；

S2、对音频数据进行数据预处理以得到灰度语谱图；

S5、输出分类结果以得到情感识别数据。

2.如权利要求1所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，所述步骤S2包括：

S21、读取音频数据，并将音频数据转换成一维数据；

S22、对一维数据进行分帧、加窗处理以转变为二维数据；

S23、对二维数据做快速傅里叶变换以得到短时傅里叶谱；

S24、将短时傅里叶谱做自乘运算以得到短时功率谱；

3.如权利要求1所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，所述步骤S3包括：

S31、将灰度语谱图进行二值化以得到二值化的灰度语谱图；

S34、对包络线进行差分以得到差分曲线；

S35、根据差分曲线获取得到一阶差分包络线零点；

4.如权利要求3所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，所述步骤S31包括：

S311、读取灰度语谱图以获得灰度语谱图的矩阵数据；

5.如权利要求3所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，步骤S32中所述根据二值化的灰度语谱图计算以得到灰度语谱图的平均能量的计算过程包括：

6.如权利要求3所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，步骤S33中所述基于灰度语谱图的平均能量进行绘图以得到平均能量的包络线的过程包括：

7.如权利要求6所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，所述步骤S4包括：

S42、将不同网络的输出结果进行聚合以得到聚合结果；

S43、将聚合结果进行情感分类以得到最终的分类结果。

8.如权利要求7所述的一种基于频谱分割与深度学习的语音情感识别方法，其特征在于，所述步骤S41中采用的网络为ResNet34网络，所述ResNet34网络中加入有轻量级注意力机制CBAM。

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-8中任一项所述的一种基于频谱分割与深度学习的语音情感识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的一种基于频谱分割与深度学习的语音情感识别方法。