CN112037822B

CN112037822B - 基于ICNN与Bi-LSTM的语音情感识别方法

Info

Publication number: CN112037822B
Application number: CN202010751797.4A
Authority: CN
Inventors: 唐小煜; 程慧慧; 彭汪月; 刘思睿
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-09-27
Anticipated expiration: 2040-07-30
Also published as: CN112037822A

Abstract

本发明涉及一种基于ICNN与Bi‑LSTM的语音情感识别方法，通过利用预设的参数对所述特征图进行分割并进行卷积，得到高频特征图和低频特征图；利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积，并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合，得到高频输出和低频输出，实现高低频特征图之间的信息交互；利用第二卷积层将所述高频输出和所述低频输出进行卷积，并恢复成与输入特征图大小一致的第一语音特征，通过融合第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入，以获取准确率高的语音识别结果。

Description

基于ICNN与Bi-LSTM的语音情感识别方法

技术领域

本发明涉及基于语音情感识别技术领域，尤其是涉及一种基于ICNN与Bi-LSTM的语音情感识别方法。

背景技术

语音是人们日常生活中最重要、最自然也最直接的交流方式，包含着人们丰富的情感表达。随着人机交互技术的不断发展，基于语音的智能交互场景逐渐成为新一代人机交互的重点研究对象。语音情感识别技术的算法也从传统的机器学习对离散情感的分类发展到利用深度学习建模实现情感的识别分类。

然而，由于语音情感特征的复杂性和多样性，语音情感识别的准确率较低。

发明内容

本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法，可以提高语音情感识别的效率和准确性。所述技术方案如下：

第一方面，本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法，包括以下步骤：

获取语音信号的对数梅尔谱图；

获取所述对数梅尔谱图的特征图；

将所述特征图输入交互卷积神经网络模型中进行特征提取，得到第一语音特征；

利用双向长短时记忆模型对所述对数梅尔谱图进行学习，获取第二语音特征；

将所述第一语音特征和所述第二语音特征输入全连接层进行融合，得到融合特征；

将所述融合特征输入情感分类器中，获取语音识别结果；

其中，所述交互卷积神经网络模型包括：

第一卷积层，用于利用预设的参数对所述特征图进行分割并进行卷积，得到高频特征图和低频特征图；

交互卷积层，用于对所述高频特征图和所述低频特征图进行交互卷积，获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图；

激活层，用于对所述第一高频特征图和所述第二高频特征图进行融合，获得高频输出；对所述第一低频特征图和所述第二低频特征图进行融合，获得低频输出；

第二卷积层，用于将所述高频输出和所述低频输出合并，并输出与输入特征图大小一致的第一语音特征。

可选的，所述获取语音信号的对数梅尔谱图，包括：

获取语音信号；

将所述语音信号进行分帧、加窗并进行傅里叶变换，获取若干帧信号；

将所述若干帧信号进行堆叠，获取声谱图；

将所述声谱图输入梅尔尺度滤波器组，得到梅尔谱图；

对所述梅尔谱图取对数，得到语音信号的对数梅尔谱图。

可选的，所述第一高频特征图为高频特征映射到高频的高频输出，所述第二高频特征图为低频特征映射到高频的高频输出，所述第一低频特征图为高频特征映射到低频的低频输出，所述第二低频特征图为低频特征映射到低频的低频输出；

对所述高频特征图和所述低频特征图进行交互卷积的步骤包括：

对所述高频特征图进行卷积输出通道数的设置，卷积后得到高频特征映射到高频的高频输出和高频特征映射到低频的低频输出；

对所述低频特征图进行卷积输出通道数的设置，卷积后得到低频特征映射到低频的低频输出和低频特征映射到高频的高频输出。

可选的，在对所述高频特征图进行高频映射到低频的卷积操作之前，还包括：

按照预设的空间分辨率，利用平均池化法对高频特征图中进行降采样；

在对所述低频特征图进行低频映射到高频的卷积操作之前，还包括：

按照预设的空间分辨率，对所述低频特征图进行上采样。

可选的，所述交互卷积层和所述第二卷积层之间还包括池化层，所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。

可选的，将所述第一语音特征输入全连接层进行融合之前，还包括：

将所述第一语音特征再次输入所述交互卷积神经网络模型中进行特征提取。

可选的，获取所述对数梅尔谱图的特征图，包括：

对所述对数梅尔谱图进行1*1的卷积。

第二方面，本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别装置，包括：

对数梅尔谱图获取模块，用于获取语音信号的对数梅尔谱图；

特征图获取模块，用于获取所述对数梅尔谱图的特征图；

第一语音特征获取模块，用于将所述特征图输入交互卷积神经网络模型中进行特征提取，得到第一语音特征；

第二语音特征获取模块，用于利用双向长短时记忆模型对所述对数梅尔谱图进行学习，获取第二语音特征；

特征融合模块，用于将所述第一语音特征和所述第二语音特征输入全连接层进行融合，得到融合特征；

语音识别模块，用于将所述融合特征输入情感分类器中，获取语音识别结果；

其中，所述交互卷积神经网络模型包括：

第三方面，本申请实施例提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。

在本申请实施例中，通过利用预设的参数对所述特征图进行分割并进行卷积，得到高频特征图和低频特征图；利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积，并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合，得到高频输出和低频输出，实现高低频特征图之间的信息交互；利用第二卷积层将所述高频输出和所述低频输出进行卷积，并恢复成与输入特征图大小一致的第一语音特征，通过融合所述第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入，以获取准确率高的语音识别结果，提高基于ICNN与Bi-LSTM的语音情感识别的精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明一个示例性的实施例中一种基于ICNN与Bi-LSTM的语音情感识别方法的流程图；

图2为本发明一个示例性的实施例中一致基于ICNN与Bi-LSTM的语音情感识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它例子，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，本申请实施例中提供了一种基于ICNN与Bi-LSTM的语音情感识别方法，包括以下步骤：

步骤S1：获取语音信号的对数梅尔谱图。

梅尔谱图为将语音信号的声谱图输入梅尔尺度滤波器组(Mel-scale filterbanks)得到的谱图，梅尔谱图将声音频率映射成梅尔频率，提高人耳对频率的感知度。

所述对数梅尔谱图可以通过对梅尔谱图取对数得到。

步骤S2：获取所述对数梅尔谱图的特征图。

所述对数梅尔谱图的特征图为对数梅尔谱图进行卷积得到的输出矩阵。

具体地，获取所述对数梅尔谱图的特征图，包括：

对所述对数梅尔谱图进行1*1的卷积。

优选地，该1*1的卷积层采用非线性激活函数，以提高网络结构线性表达能力。

通过对对数梅尔谱图进行1*1的卷积，提高对数梅尔谱图的表征能力。

步骤S3：将所述特征图输入交互卷积神经网络模型中进行特征提取，得到第一语音特征。

其中，所述交互卷积神经网络模型包括：

所述预设的参数可以是所述特征图的分割比例α，所述预设的参数可以是0-1之间的任意值。

在一个例子中，所述低频特征图可以是利用分割比例α对特征图进行分割并卷积得到；所述高频特征图利用1-α对特征图进行分割并卷积得到。

所述交互卷积层用于实现高频特征图和低频特征图之间的信息交互。

所述第一高频特征图为高频特征映射到高频的高频输出，所述第二高频特征图为低频特征映射到高频的高频输出，所述第一低频特征图为高频特征映射到低频的低频输出，所述第二低频特征图为低频特征映射到低频的低频输出。

在一个例子中，对所述高频特征图和所述低频特征图进行交互卷积的步骤包括：

所述高频输出包括高频特征映射到高频的高频输出和低频特征映射到高频的高频输出。所述低频输出包括高频特征映射到低频的低频输出和低频特征映射到低频的低频输出。

步骤S4：利用双向长短时记忆模型对所述对数梅尔谱图进行学习，获取第二语音特征。

双向长短时记忆模型通过遗忘门、输入门和输出门实现细胞状态中的信息的控制，所述遗忘门用于决定细胞状态丢弃的信息，所述输入门用于决定细胞状态保留和更新的信息，所述输出门用于决定细胞状态的输出内容。

利用双向长短时记忆模型获取对数梅尔谱图的相关性。

步骤S5：将所述第一语音特征和所述第二语音特征输入全连接层进行融合，得到融合特征。

全连接层可用于对第一语音特征和第二语音特征进行特征降维和特征融合，其中，特征降维的目标维度可根据实际需求进行设定。

优选地，为避免过拟合问题，本申请实施例还在所述全连接层之后，设置一Droupout层用于减少特征的数量。

在一个例子中，所述全连接层包括512个神经元。

步骤S6：将所述融合特征输入情感分类器中，获取语音识别结果。

所述情感分类器为根据设定的情感便签，预训练的用于识别语音特征情感标签的模型，所述情感标签可根据用户实际需求进行设定。

在一个例子中，将所述融合特征输入SoftMax分类器中，获取该语音信号为某个情感标签的概率，得到语音识别结果。

在一个示例性的实施例中，所述获取语音信号的对数梅尔谱图，包括：

获取语音信号；

将所述若干帧信号进行堆叠，获取声谱图；

将所述声谱图输入梅尔尺度滤波器组，得到梅尔谱图。

梅尔尺度滤波器组(Mel-scale filter banks)用于将声谱图中的声音频率映射成梅尔频率，以提高人耳对频率的感知度。

对所述梅尔谱图取对数，得到语音信号的对数梅尔谱图。

现有的语音情感识别方法在提取特征参数的过程中往往需要较长的时间。在卷积神经网络的特征提取过程中存在对冗余信息的卷积运算，造成多余开销和空间浪费。针对上述问题，本申请实施例所述基于ICNN与Bi-LSTM的语音情感识别方法，在对所述高频特征图进行高频映射到低频的卷积操作之前，还包括：

按照预设的空间分辨率，利用平均池化法对高频特征图中进行降采样。

降采样后的高频特征图的图片尺寸变小，在后续卷积过程中感受野对高频特征图的感受范围增大，卷积效率提高。

按照预设的空间分辨率，对所述低频特征图进行上采样，使所述第二高频特征图与所述第一高频特征图的空间分辨率相同，便于进行交互卷积。

本申请实施例所述基于ICNN与Bi-LSTM的语音情感识别方法在参数数量不变的情况下，大大减少了运算时间，减少了计算机开销。

在一个示例性的实施例中，所述交互卷积层和所述第二卷积层之间还包括池化层，所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。

具体地，所述池化层采用最大池化法保留各池化窗口内的最大特征并去除该池化窗口的其它特征。

在一个示例性的实施例中，为提高第一语音特征的精度，将所述第一语音特征输入全连接层进行融合之前，还包括：

请参阅图2，本申请实施例还提供了一种基于ICNN与Bi-LSTM的语音情感识别装置，包括：

对数梅尔谱图获取模块1，用于获取语音信号的对数梅尔谱图；

特征图获取模块2，用于获取所述对数梅尔谱图的特征图；

第一语音特征获取模块3，用于将所述特征图输入交互卷积神经网络模型中进行特征提取，得到第一语音特征；

第二语音特征获取模块4，用于利用双向长短时记忆模型对所述对数梅尔谱图进行学习，获取第二语音特征；

特征融合模块5，用于将所述第一语音特征和所述第二语音特征输入全连接层进行融合，得到融合特征；

语音识别模块6，用于将所述融合特征输入情感分类器中，获取语音识别结果；

其中，所述交互卷积神经网络模型包括：

需要说明的是，上述实施例提供的基于ICNN与Bi-LSTM的语音情感识别装置在执行基于ICNN与Bi-LSTM的语音情感识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于ICNN与Bi-LSTM的语音情感识别装置与基于ICNN与Bi-LSTM的语音情感识别方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，其特征在于：该计算机程序被处理器执行时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。

相比较现有的语音情感识别方法，本发明降低了特征提取过程的计算量，提高了语音特征提取的效率和准确率。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，包括以下步骤：

获取语音信号的对数梅尔谱图；

获取所述对数梅尔谱图的特征图；

将所述融合特征输入情感分类器中，获取语音识别结果；

其中，所述交互卷积神经网络模型包括：

第二卷积层，用于将所述高频输出和所述低频输出进行卷积，并恢复成与输入特征图大小一致的第一语音特征。

2.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，所述获取语音信号的对数梅尔谱图，包括：

获取语音信号；

将所述若干帧信号进行堆叠，获取声谱图；

将所述声谱图输入梅尔尺度滤波器组，得到梅尔谱图；

对所述梅尔谱图取对数，得到语音信号的对数梅尔谱图。

3.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，所述第一高频特征图为高频特征映射到高频的高频输出，所述第二高频特征图为低频特征映射到高频的高频输出，所述第一低频特征图为高频特征映射到低频的低频输出，所述第二低频特征图为低频特征映射到低频的低频输出；

4.根据权利要求3所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，

在对所述高频特征图进行高频映射到低频的卷积操作之前，还包括：

按照预设的空间分辨率，对所述低频特征图进行上采样。

5.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，所述交互卷积层和所述第二卷积层之间还包括池化层，所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。

6.根据权利要求5所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，将所述第一语音特征输入全连接层进行融合之前，还包括：

7.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法，其特征在于，获取所述对数梅尔谱图的特征图，包括：

对所述对数梅尔谱图进行1*1的卷积。

8.一种基于ICNN与Bi-LSTM的语音情感识别装置，其特征在于，包括：

特征图获取模块，用于获取所述对数梅尔谱图的特征图；

其中，所述交互卷积神经网络模型包括：

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-7任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。

10.一种计算机设备，其特征在于：包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。