CN107705806A

CN107705806A - 一种使用谱图和深卷积神经网络进行语音情感识别的方法

Info

Publication number: CN107705806A
Application number: CN201710724721.0A
Authority: CN
Inventors: 袁家政; 刘宏哲; 龚灵杰
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2018-02-16

Abstract

本发明提供一种使用谱图和深卷积神经网络进行语音情感识别的方法，包括以下步骤：根据语音信号生成频谱图；构建深卷积神经网络模型；用大量的频谱图作为输入，训练并优化所述深卷积神经网络模型；对训练好的所述深卷积神经网络模型进行测试并优化。本发明使用一种新的语音情感识别方法，将语音信号处理转化成图像处理，结合CNN能够有效的提高识别能力。

Description

一种使用谱图和深卷积神经网络进行语音情感识别的方法

技术领域

本发明涉及语音信号处理和模式识别的技术领域，特别是一种使用谱图和深卷积神经网络进行语音情感识别的方法。

背景技术

随着信息技术的不断发展，社会发展对情感计算提出了更高的要求。例如在人机交互方面，一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并能有效减轻人们使用电脑的挫败感，甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等，并做出相应反应。此外，情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况，情感计算的应用可以有效地帮助人们避免不良情绪，保持乐观健康的心理。现有技术分类不够准确。直接对声音进行提取特征会受声音中的噪音影响较大。

公开号为CN106782602A的专利文件公开了一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法，该方法构建基于LSTM和CNN的语音情感识别系统，将语音序列作为系统的输入，采用反向传播算法对LSTM和CNN进行训练，优化网络的参数，得到优化后的网络模型；利用已经训练好的网络模型对新输入的语音序列进行情感分类，分为悲伤、高兴、延误、恐惧、惊吓、中性六种情感。该方法将语音序列作为系统输入。而语音序列是1维的。CNN在自动提取特征的过程中并不能很好的发挥作用。也就是说，此方法提取的特征并不太准确。

公开号为CN106847309A的专利文件公开了一种语音情感识别方法，包括步骤：1)将语音信号转换成语谱图作为原始输入；2)训练深度卷积神经网络来提取情感特征；3)针对每一类情感训练一个栈式自编码器自动构造出情感模糊集的隶属函数；4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化；5)使用softmax分类器进行情感分类识别。该方法是两个卷积层和一个softmax全连接层。图像特征提取相对于3个卷积层来说不够细。全连接层能够保留特征间的内在联系，但是也不能过多，容易导致过拟合。本申请最大限度的保证了特征提取的准确性和有效性

发明内容

为了解决上述的技术问题，本发明提出了一种使用谱图和深卷积神经网络进行语音情感识别的方法，将语音信号转化为频谱图，输入到深卷积神经网络模型中，经过对深卷积神经网络模型进行训练和测试，能够有效的提高识别能力。

本发明提供一种使用谱图和深卷积神经网络进行语音情感识别的方法，包括以下步骤：

步骤1：根据语音信号生成频谱图；

步骤2：构建深卷积神经网络模型；

步骤3：用大量的频谱图作为输入，训练并优化所述深卷积神经网络模型；

步骤4：对训练好的所述深卷积神经网络模型进行测试并优化。

在上述任一方案中优选的是，所述频谱图是语音信号的特定波形的频率随时间变化的视觉表现。

在上述任一方案中优选的是，所述频谱图是一个二位图形，横坐标表示时间，纵坐标表示频率。

在上述任一方案中优选的是，所述频谱图是指对所述语音信号加入FFT转换计算得到时间和频率的关系。

在上述任一方案中优选的是，为了观察所述语音信号某一时刻的频率，将所述语音信号分成多个块，每一块都进行FFT转换。

在上述任一方案中优选的是，非周期性连续时间信号X(t)的傅里叶变化定义为：计算出来的是信号X(t)的连续频谱，在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。

在上述任一方案中优选的是，利用离散信号X(nT)来计算信号X(t)的频谱，有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义k＝0，1，...，N-1，其中，N为采样点个数，j表负数的虚部。

在上述任一方案中优选的是，所述深卷积神经网络模型由三个卷积层，三个全连接层和一个softamx层组成。

在上述任一方案中优选的是，所述步骤1还包括把得到的N*N像素的所述频谱图作为卷积神经网络的输入。

在上述任一方案中优选的是，初始的所述卷积层中用卷积函数从频谱图中提取特征。

在上述任一方案中优选的是，三个所述卷积层分别命名为C1层、C2层和C3层。

在上述任一方案中优选的是，所述C1层有A1(A1+1)个核，步长为B1。

在上述任一方案中优选的是，在所述C1层之后是ReLU激活函数和一个D1*D1大小、步长为B2的池化层。

在上述任一方案中优选的是，所述C2层有A2个核，大小为D2*D2，步长为B3。

在上述任一方案中优选的是，所述C3层有A3个核，大小为D3*D3。

在上述任一方案中优选的是，每一个所述卷积层后面连接着ReLU单元。

在上述任一方案中优选的是，在所述C3层后面连接着3个FC层，每一层分别有E1，E2和E3个神经元。

在上述任一方案中优选的是，前两个所述FC层后面接着dropout层。

在上述任一方案中优选的是，所述深卷积神经网络模型的训练方法包括如下步骤：

步骤01：从柏林语音情感数据集中生成F张频谱图，用于训练所述深卷积神经网络模型；

步骤02：采用Caffe卷积神经网络框架，设定初始学习率为G，每训练十次学习率降低H％，使算法快速收敛。

在上述任一方案中优选的是，所述深卷积神经网络模型的测试方法包括从柏林语音情感数据集中生成M张频谱图，用于测试模型。

本发明提出的方法能够有效的提高语音识别能力，利用CNN来处理语音数据。将语音数据转换成三位图像，是一个很好的创新，设定的CNN网络构架适合大数据时代，因为具有处理大量语音的能力，从而又能更好的学习到好的模型

附图说明

图1为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的流程图。

图2为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的系统构架图。

图3为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的实施流程图。

图4为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的模型训练方法的一实施例的流程图。

图5为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的深卷积神经网络模型图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，生成频谱图，根据语音信号生成频谱图，作为深卷积神经网络模型的输入数据。频谱图的生成具体包括：频谱图是语音信号的特定波形的频率随时间变化的视觉表现。频谱图是一个二位图形，横坐标表示时间，纵坐标表示频率。图形中，某一时间和频率部分的语音信号幅值由那个点的密度和颜色来表示。深蓝色表示低幅值，亮红色表示高幅值。对语音信号加入FFT转换计算得到时间和频率的关系，即频谱图。为了观察语音信号某一时刻的频率，将信号分成多个块，每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为：式中计算出来的是信号X(t)的连续频谱，这是一个求积分公式，对t求积分，得出关于w的函数，j表示复数的虚部。。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义k＝0，1，...，N-1，这是一个求和公式，N为采样点个数，j表负数的虚部，X(n)是关于n的函数，经过求和后是关于k的函数。执行步骤110，构建深卷积神经网络模型，构建分类器模型。深卷积神经网络模型由三个卷积层，三个全连接层和一个softamx层组成。网络的输入是张N*N像素的频谱图(在本实施例中N＝256)。初始的卷积层中用卷积函数从频谱图中提取特征。C1层有A1(A1+1)个核(在本实施例中A1＝120)，步长为B1(在本实施例中B1＝4)。C1层之后是ReLU激活函数和一个D1*D1大小(在实施例中D1＝3)，步长为B2的池化层(在本实施例中B2＝2)。C2层有A2个核(在本实施例中A2＝256)，大小为D2*D2(在本实施例中D2＝5)，步长为B3(在本实施例中B3＝1)。C3层有A3个核(在本实施例中A3＝384)，大小为D3*D3(在本实施例中D3＝3)。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个FC层，每一层分别有E1，E2和E3个神经元在本实施例中E1＝2048，E2＝2048，E3＝7，)。为了避免过拟合，前两个FC层后面接着dropout层。执行步骤120，判断生成的频谱图数量是否达到5000张。如果频谱图的数量不足5000张，则执行步骤100，继续生成频谱图。如果频谱图的数量达到5000张，则执行步骤130，对深卷积神经网络模型进行训练，用得到的5000张频谱图作为输入，训练并优化模型。深卷积神经网络模型的训练具体包括：从柏林语音情感数据集中生成F张频谱图(在本实施例中F＝5000)，用于训练模型。采用Caffe卷积神经网络框架，设定初始学习率为G(在本实施例中G＝0.01)，每训练十次学习率降低H％(在本实施例中H＝0.1)，从而使算法更快的收敛。执行步骤140，利用和步骤100相同的方法，生成频谱图。执行步骤150，判断生成的频谱图数量是否达到1000张。如果频谱图的数量不足1000张，则执行步骤140，继续生成频谱图。如果频谱图的数量达到1000张，则执行步骤160，对深卷积神经网络模型进行测试，深卷积神经网络模型模型的测试具体包括：对从步骤130中得到的训练好的模型进行测试，测试并优化模型。从柏林语音情感数据集中生成M张频谱图(在本实施例中M＝1000)，用于测试模型。

实施例二

如图2所示，本发明的整体系统构架包括五个部分：语音输入模块200、频谱图生成模块210、数据预处理模块220、分类器模块230和输出模块240。

语音输入模块200用于接收输入的语音数据。

频谱图生成模块210用于将输入的语音数据进行分割，生成频谱图。其工作的步骤如下：将信号分成多个块，每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为：式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义k＝0，1，...，N-1，其中，N为采样点个数，j表负数的虚部。

数据预处理模块220用于得到符合cnn模型的频谱图。

分类器模块230用于生成深卷积神经网络模型和分类器模型。

输出模块240用于输出语音情感识别结果。

实施例三

如图3所示，对系统从训练和测试两部分做进一步说明。把语音信号300，分割成频谱图310，分割方法如下：将信号分成多个块，每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为：式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义k＝0，1，...，N-1，其中，N为采样点个数，j表负数的虚部。采用上述方法生成5000张频谱图，导入到深卷积神经网络的分类器302中，对深卷积神经网络模型进行训练，得到优化的深卷积神经网络模型320。

把另一部分语音信号310分割成频谱图311，分割方法和上面的方法相同，生成1000张频谱图。把1000张频谱图导入到优化的深卷积神经网络模型320中，对优化的深卷积神经网络模型320进行测试，得到最终的分类结果330。

实施例四

如图4所示，对于一个语音数据，其处理流程如下：执行步骤400，对输入的语音信号进行切割，分成8等份。执行步骤410，对每一个语音信号进行FFT变化，生成频谱图。频谱图的生成方法为：将信号分成多个块，每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为：式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义 k＝0，1，...，N-1，其中，N为采样点个数，j表负数的虚部。执行步骤420，对频谱图进行预处理，大小设为256X256像素。执行步骤430，构建卷积神经网络，深卷积神经网络模型的构建具体包括：深卷积神经网络模型由三个卷积层，三个全连接层和一个softamx层组成。网络的输入是张256x256像素的频谱图。初始的卷积层中用卷积函数从频谱图中提取特征。C1层有120(121)个核，步长为4。C1层之后是ReLU激活函数和一个3x3大小，步长为2的池化层。C2层有256个核，大小为5x5，步长为1。C3层有384个核，大小为3x3。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个FC层，每一层分别有2048，2048和7个神经元。为了避免过拟合，前两个FC层后面接着dropout层。执行步骤440，选择随机梯度下降法作为其收敛方法。执行步骤450，为防止过拟合，将权重衰减设为0.1％，使用概率为0.75的随机失活函数。执行步骤460，判断频谱图的数量是否达到5000张。如果频谱图的数量没有达到5000张，则重新执行步骤400到步骤450，获取更多的频谱图。如果频谱图的数量达到5000张，则执行步骤470，将符合要求的频谱图输入到CNN网络(卷积神经网络)中。执行步骤480，经过训练，得到理想的CNN网络。

实施例五

如图5所示，深卷积神经网络模型包括标号为500的卷积层C1、标号为510的卷积层C2、标号为520的卷积层C3、标号为530的全连接层FC1、标号为540的全连接层FC2和标号为550的全连接层FC3。。网络的输入是一张256x256像素的频谱图。初始的卷积层中用卷积函数从频谱图中提取特征。号为500的卷积层C1层有120(121)个核，步长为4。C1层之后是ReLU激活函数和一个3x3大小，步长为2的池化层。标号为510的卷积层C2层有256个核，大小为5x5，步长为1。标号为520的卷积层C3层有384个核，大小为3x3。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个全连接层，标号为530的全连接层FC1有2048个神经元，标号为540的全连接层FC2有2048个神经元，标号为550的全连接层FC3有7个神经元。为了避免过拟合，标号为530的全连接层FC1和标号为540的全连接层FC2的后面接着dropout层。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种使用谱图和深卷积神经网络进行语音情感识别的方法，包括以下步骤：

步骤1：根据语音信号生成频谱图；

步骤2：构建深卷积神经网络模型；

2.如权利要求1所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：所述频谱图是语音信号的特定波形的频率随时间变化的视觉表现。

3.如权利要求2所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：所述频谱图是一个二位图形，横坐标表示时间，纵坐标表示频率。

4.如权利要求3所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：所述频谱图是指对所述语音信号加入FFT转换计算得到时间和频率的关系。

5.如权利要求4所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：为了观察所述语音信号某一时刻的频率，将所述语音信号分成多个块，每一块都进行FFT转换。

6.如权利要求5所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于非周期性连续时间信号X(t)的傅里叶变化定义为：计算出来的是信号X(t)的连续频谱，在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。

7.如权利要求6所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：利用离散信号X(nT)来计算信号X(t)的频谱，有限长离散信号X(n)，n＝0，1，...，N-1的DFT定义其中，N为采样点个数，j表负数的虚部。

8.如权利要求7所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：所述深卷积神经网络模型由三个卷积层，三个全连接层和一个softamx层组成。

9.如权利要求8所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：所述步骤1还包括把得到的N*N像素的所述频谱图作为卷积神经网络的输入。

10.如权利要求9所述的使用谱图和深卷积神经网络进行语音情感识别的方法，其特征在于：初始的所述卷积层中用卷积函数从频谱图中提取特征。