CN112151071A

CN112151071A - 一种基于混合小波包特征深度学习的语音情感识别方法

Info

Publication number: CN112151071A
Application number: CN202011006934.8A
Authority: CN
Inventors: 孟浩; 闫天昊; 袁菲; 乔海岩; 邓艳琴; 杨笑天; 陈连钰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29
Anticipated expiration: 2040-09-23
Also published as: CN112151071B

Abstract

本发明提供基于混合小波包特征深度学习的语音情感识别方法，S1:通过自相关函数算法对语音数据进行端点检测；S2:将语音序列数据截取成相同长度，将语音序列采样统一为1024，针对该序列用3层小波包重构算法生成新的8个重构信号，组成特征集1；S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值，组成特征集2；S4:将特征集2用DNN的深度学习结构进行进一步提取特征，将特征集1进行进一步提取特征；S5:将两种利用不同结构所提取到的特征集融合在一起，利用Softmax损失函数进行最终分类。本发明能够混有噪声的情况下，能够充分提取语音信号的时域信息和频域信息特征，进而利用深度学习算法实现。

Description

一种基于混合小波包特征深度学习的语音情感识别方法

技术领域

本发明涉及一种基于深度学习的语音情感识别技术，特别涉及一种基于混合小波包特征的深度学习方法，该方法属于深度学习与语音情感识别领域的方法。

背景技术

情感是人类区别于机器的独特特征之一，对人类来说，彼此之间的包含情感的沟通显得尤为重要，近些年来，情感内容分析逐渐成为一个活跃的研究领域，在人机交互中的关注度愈来愈大，人类可以通过表情，语音，手势等来判断人的情感，但是语音是人类最直接有效的沟通桥梁，并且语音信号在人机交互中成为最快捷高效的媒介。在人机交互方面，语音情感识别是一种复杂的且具有挑战的人工智能研究领域，被广泛应用于教育、医疗等领域中。其研究中的特征提取在领域中扮演了一个十分重要的角色，因为很难在这个过程中找到最佳特征集来区分情感状态，我们之前总是用快速傅里叶变换(FFT)去提取语音信号的频域特征，其中包含短时能量，基频特征，谱特征，MFCC等，接着将这些预处理好的特征输入到深度学习网络中再进行特征提取，进而实现情感分类。然而在提取信号的频域特征的同时，往往忽略了语音信号的时域特征。Panagiotis等人使用卷积神经网络CNN搭配2层的长短时记忆网络(LSTM)用于处理语谱图特征，特征缺少时域性且模型较为简单；刘佳沐等人提取的一个新颖的池化算法用于细化CNN提取后的特征，在静态帧方面表现尚可，但在特征提取中原始特征主要利用的还是频域特征，导致分类结果欠佳。Jaebok等人使用CNN搭配极限学习机(ELM)从预处理后的频域特征中进一步提取特征，在模型结构方面由于缺少注意力机制而导致在提取过程中忽略一些带有情感信息的特征，并且预处理的特征缺乏时域性信息，分类结果有待改进。

发明内容

本发明的目的在于克服现有算法的缺点与不足，提出一种基于混合小波包特征的深度学习方法，应用在语音情感识别中。

本发明的目的是这样实现的：

一种基于混合小波包特征深度学习的语音情感识别方法，包括以下步骤：

S1:通过自相关函数算法对语音数据进行端点检测，消除语音首尾两端以及语音序列中静态帧的部分；

S2:将语音序列数据截取成相同长度，利用快速傅里叶变换(FFT)将语音序列采样统一为1024，针对该序列用3层小波包重构算法生成新的8个重构信号，每个信号提取36个Low-Level Descriptions(LLDs)特征，组成特征集1；

S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值，组成特征集2；

S4:将特征集2用DNN的深度学习结构进行进一步提取特征，将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征；

S5:将两种利用不同结构所提取到的特征集融合在一起，利用Softmax损失函数进行最终分类。

本发明还包括这样一些特征：

所述S1包括如下子步骤：

S11:利用自相关函数法对语音数据进行端点检测，消除语音前后两端及其语音中间部分的静态帧部分，在此过程中，设置25ms汉明窗以及10ms的帧移，并对自相关函数R_n(k)进行归一化，公式如下，其中，x_n(m)表示原始语音信号，N和k分别代表帧数和延迟值；

S12:下一步，在端点检测的过程中设置门限阈值为1.1的T₁和值为1.3的T₂，当波形数值的最大值高于阈值T₂为语音帧部分，再从波形数值是否高于或者低于T₁来判断起止点，从而达到去除静态帧的目的。

所述S2包括如下子步骤：

S21:在利用完语音端点检测来消除语音序列中的静态帧之后，用小波包分解算法得到小波包语音序列来重构新的语音信号，来作为深度学习网络模型的输入；

S22:对于语音信号来说，在预处理过程中，快速傅里叶变换用来处理语音序列，目的是后续提取语音信号的频域特征，但是往往忽略了语音信号的时域特征，小波包重构信号在一定程度上补充了时域特征，小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分，然后将得到的高低频部分各自在分解，以此类推；Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点，首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中，将Φ(t)当作为

将Ψ(t)当作为

其中上标为小波包分解层数，下标为小波包在该层的位置，计算小波包函数基的值如下式：

S23：进一步得出如下公式，其中h_k表示低通半带滤波器，g_k表示高通半带滤波器，采用二进小波小波变换，即对尺度按幂级数作离散化，同时对平移保持连续变化，其中尺度参数为2ⁱ，d和k分别表示小波包系数和平移变量；

S24:接着通过计算原始信号与各小波函数基的内积得到小波变换值，其意义为原始信号在各个小波函数基上的投影值，投影值越大，说明对应的小波信号所携带的原始信号的特征信息的比例越大，公式如下:

其中f(t)表示原始信号；

S25:最后，利用如下公式通过小波包变化值之后得到8个重构语音信号；公式如下：

因此，f_new被用做新的语音信号来进一步提取特征；利用3层小波包分解去重构8个新的语音信号序列，原因在于若是小于2层，则语音信号的时域信息提取的不够充足，若是大于2层，则提取到的时域信息过于冗余，不利于后续网络模型的训练，徒增训练时间，与识别结果不成正比，综上，利用3层小波包分解重构最为合适；

S26:在得到8个新重构的语音信号之后，再对每个信号进行预处理以及特征提取，首先设置基本参数，采用汉明窗，窗口长度25ms，帧移10ms,采样频率为16kHz；

S27：在采样过后，为了使数据可以输入到网络模型中，必须使数据结构整齐划一，在这过程中，规定语音序列长度固定为1024，超过1024部分的截取，未超过的用0来补充；

S28：接着，对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征，其中包括能量特征，谱特征，0-12^th MFCC特征，色度特征等，由于在上述过程中每个语音数据重构了8个新的小波语音序列数据，每个序列再提取36个LLDs特征，共288个特征，所以最终输入进网络模型的数据结构为[batch_size,1024,288]，来构成的特征集1，其中batch_size表示数据批量。

所述S3包括如下子步骤：

S31：在另一方面，为了补充语音信号的时域特征，再提取一个新的特征集当作跳层结构(Skip-Connection Structure)，最大化利用所提出的网络模型结构；

S32：利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-LevelStatistical Functions(HSFs)组成了新的特征集2。

S33:最后得到了另一组特征集，其数据结构为[batch_size,140]的一维张量；

所述S4包括如下子步骤：

S41：在将特征集2作为跳层链接作为网络模型输入之后，针对该输入设计了2层全连接神经网络结构，其中的神经元个数分别为128和64，在第一128个神经元的隐藏层之后，加入Batch Normalization(BN)层来衔接第2个隐藏层，BN层的目的是加速训练过程以及提升模型的泛化性，在特征提取之后得到[Batch_size,64]的特征集；

S42：在将特征集1做为网络模型输入之后，先链接一个256个神经元的隐藏层，再链接一个双向长短时记忆网络(BiLSTM)，接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集；

S43：之后为了加强网络对特征信息的敏感度，设计了一个升采样层结构,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层，然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值，相当于一个权值，然后将该值与S42步骤所提取的特征集做点乘，生成加强过后特征集，其语音中包含重要的情感信息会因为权值的点乘更加显著，非重要的语音情感信息也会因为上述生成的权值更加被忽略，起到加强注意力机制网络结构的作用；最后得到[Batch_size,64]的特征集。

所述S5包括如下子步骤：

S51：利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起，共同组成形如[batch_size,128]的特征集；

S52：利用上述步骤产生的最终的特征集进行分类，损失函数选择Softmax函数，所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证；

S53：在IEMOCAP语料库的实验中，采用了4分类实验，利用到的语音情感分别为生气，悲伤，高兴以及中性；该库中的语音数据分为自发性语音数据和模拟性语音数据，语音数据据采用自发性语音数据，实用性较为可靠，此外，采用说话人独立(Speaker-independent Experiment)的语音情感实验更具有代表性，生成的混淆矩阵；

S54：在EMODB语料库的实验中，采用7分类实验，由于该语料库容量较小，所以采用该库所有的语音数据，情感类别上分为生气，无聊，厌恶，害怕，高性，悲伤以及中性，同时采用说话人独立性实验并生成混淆矩阵。

与现有技术相比，本发明的有益效果是：

1.利用自相关函数进行端点检测，消除了非包含语音情感信息部分对识别结果的影响；

2.利用小波包重构新的信号提取语音情感特征，该特征包含更多的时域信息与频域信息，有助于最终的情感分类；

3.使用本发明新颖的深度学习网络模型结构，使预处理后的语音序列可以更好的被其模型提取特征，进而实现最终分类；

4.本发明提供的基于混合小波包特征的深度学习方法在语音情感识别上的算法，能够混有噪声的情况下，能够充分提取语音信号的时域信息和频域信息特征，进而利用深度学习算法实现诸如生气，悲伤，高兴，中性等语音情感分类，在教育与医疗等领域有较好的使用前景。

附图说明

图1为本发明的基于混合小波包特征在语音情感识别应用上的整体模型架构；

图2为二进制小波包分解结构图；

图3为本发明的基于注意力机制的上采样层(UpSampling)的整体结构图；

图4为基于独立说话人实验(Speaker-independent)在IEMOCAP语料库上的混淆矩阵；

图5为基于独立说话人实验(Speaker-independent)在EMODB语料库上的混淆矩阵。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明的目的通过以下技术方案来实现：一种基于混合小波包特征de深度学习方法在语音情感识别上的应用，包括以下步骤：

所述的步骤S1包括以下子步骤：

S11:利用自相关函数法对语音数据进行端点检测，消除语音前后两端及其语音中间部分的静态帧部分，在此过程中，我们设置25ms汉明窗以及10ms的帧移，并对自相关函数R_n(k)进行归一化，公式如下，其中，x_n(m)表示原始语音信号，N和k分别代表帧数和延迟值。

S12:下一步，我们在端点检测的过程中设置门限阈值为1.1的T₁和值为1.3的T₂，当波形数值的最大值高于阈值T₂为语音帧部分，再从波形数值是否高于或者低于T₁来判断起止点，从而达到去除静态帧的目的。

所述的步骤S2包括以下子步骤：

S21:在利用完语音端点检测来消除语音序列中的静态帧之后，我们用小波包分解算法得到小波包语音序列来重构新的语音信号，来作为深度学习网络模型的输入。

S22:对于语音信号来说，在预处理过程中，快速傅里叶变换用来处理语音序列，目的是后续提取语音信号的频域特征，但是往往忽略了语音信号的时域特征，小波包重构信号在一定程度上补充了时域特征，小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分，然后将得到的高低频部分各自在分解，以此类推。Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点，首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中，将Φ(t)当作为

将Ψ(t)当作为

其中上标为小波包分解层数，下标为小波包在该层的位置，我们计算小波包函数基的值如下式：

S23：进一步得出如下公式，其中h_k表示低通半带滤波器，g_k表示高通半带滤波器，我们采用二进小波小波变换，即对尺度按幂级数作离散化，同时对平移保持连续变化，其中尺度参数为2ⁱ，d和k分别表示小波包系数和平移变量。

S24:接着我们通过计算原始信号与各小波函数基的内积得到小波变换值，其意义为原始信号在各个小波函数基上的投影值，投影值越大，说明对应的小波信号所携带的原始信号的特征信息的比例越大，公式如下:

其中f(t)表示原始信号。

S25:最后，我们利用如下公式通过小波包变化值之后得到8个重构语音信号。公式如下：

因此，f_new被用做新的语音信号来进一步提取特征。在本实验中，我们利用3层小波包分解去重构8个新的语音信号序列，原因在于若是小于2层，则语音信号的时域信息提取的不够充足，若是大于2层，则提取到的时域信息过于冗余，不利于后续网络模型的训练，徒增训练时间，与识别结果不成正比，综上，利用3层小波包分解重构最为合适。

S26:在得到8个新重构的语音信号之后，我们再对每个信号进行预处理以及特征提取，首先设置基本参数，采用汉明窗，窗口长度25ms，帧移10ms,采样频率为16kHz。

S27：在采样过后，为了使数据可以输入到网络模型中，我们必须使数据结构整齐划一，在这过程中，我们规定语音序列长度固定为1024，超过1024部分的截取，未超过的用0来补充。

S28：接着，我们对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征，其中包括能量特征，谱特征，0-12th MFCC特征，色度特征等，由于在上述过程中每个语音数据重构了8个新的小波语音序列数据，每个序列再提取36个LLDs特征，共288个特征，所以最终输入进网络模型的数据结构为[batch_size,1024,288]，来构成我们的特征集1，其中batch_size表示数据批量。

所述的步骤S3包括以下子步骤：

S31：在另一方面，为了补充语音信号的时域特征，我们再提取一个新的特征集当作跳层结构(Skip-Connection Structure)，最大化利用所提出的网络模型结构。

S32：我们利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-Level Statistical Functions(HSFs)组成了新的特征集2，该特征集2如下表格所示：

S33:最后我们得到了另一组特征集，其数据结构为[batch_size,140]的一维张量。

所述的步骤S4包括以下子步骤：

S41：在将特征集2作为跳层链接作为网络模型输入之后，我们针对该输入设计了2层全连接神经网络结构，其中的神经元个数分别为128和64，在第一128个神经元的隐藏层之后，我们加入Batch Normalization(BN)层来衔接第2个隐藏层，BN层的目的是加速训练过程以及提升模型的泛化性，在特征提取之后得到[Batch_size,64]的特征集。

S42：在将特征集1做为网络模型输入之后，我们先链接一个256个神经元的隐藏层，再链接一个双向长短时记忆网络(BiLSTM)，接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集。

S43：我们设计了一个升采样层结构,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层，然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值，最后我们得到[Batch_size,64]的特征集。

所述的步骤S5包括以下子步骤：

S51：利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起，共同组成形如[batch_size,128]的特征集。

S52：利用上述步骤产生的最终的特征集进行分类，损失函数选择Softmax函数，我们所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证。

S53：在IEMOCAP语料库的实验中，我们采用了4分类实验，利用到的语音情感分别为生气，悲伤，高兴以及中性，并生成的混淆矩阵。

S54：在EMODB语料库的实验中，我们采用7分类实验，由于该语料库容量较小，所以采用该库所有的语音数据，情感类别上分为生气，无聊，厌恶，害怕，高性，悲伤以及中性，并生成混淆矩阵。

本发明可应用在以下领域：

1.语音情感识别；

2.医疗上用于监控抑郁症患者的情绪等；

3.教育上用于监测学生的学习状态以及健康状态；

如图1所示，为本发明的网络结构图。首先语音数据信号通过自相关函数算法进行端点检测，消除语音内的静态帧部分，然后将语音序列数据截取长度，针对每个语音序列用3层小波包重构算法生成新的8个重构信号，并对每个信号提取36个Low-LevelDescriptions(LLDs)特征，组成特征集1，其次将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值，组成特征集2，接着利用所设计的网络模型进一步tiqu特征，其中特征集2用DNN的深度学习结构进行进一步提取特征，特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征；最后将两种利用不同结构所提取到的特征集融合在一起，利用Softmax损失函数进行最终分类，从而实现语音情感识别。

基于混合小波包特征深度学习方法在语音情感识别上的应用，它包括以下步骤：

所述的步骤S1包括以下子步骤:

所述的步骤S2包括以下子步骤:

S22:对于语音信号来说，在预处理过程中，快速傅里叶变换用来处理语音序列，目的是后续提取语音信号的频域特征，但是往往忽略了语音信号的时域特征，小波包重构信号在一定程度上补充了时域特征，小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分，然后将得到的高低频部分各自在分解，以此类推，如图2所示。Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点，首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中，将Φ(t)当作为

将Ψ(t)当作为

其中f(t)表示原始信号。

所述的步骤S3包括以下子步骤:

所述的步骤S4包括以下子步骤:

S43：之后为了加强网络对特征信息的敏感度，我们设计了一个升采样层结构,如图3所示，其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层，然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值，相当于一个权值，然后将该值与S42步骤所提取的特征集做点乘，生成加强过后特征集，其语音中包含重要的情感信息会因为权值的点乘更加显著，非重要的语音情感信息也会因为上述生成的权值更加被忽略，起到加强注意力机制网络结构的作用。最后我们得到[Batch_size,64]的特征集。

所述的步骤S5包括以下子步骤:

S53：在IEMOCAP语料库的实验中，我们采用了4分类实验，利用到的语音情感分别为生气，悲伤，高兴以及中性。该库中的语音数据分为自发性语音数据和模拟性语音数据，本专利中的语音数据据采用自发性语音数据，实用性较为可靠，此外，采用说话人独立(Speaker-independent Experiment)的语音情感实验更具有代表性，生成的混淆矩阵，如图4所示。

S54：在EMODB语料库的实验中，我们采用7分类实验，由于该语料库容量较小，所以采用该库所有的语音数据，情感类别上分为生气，无聊，厌恶，害怕，高性，悲伤以及中性，同时采用说话人独立性实验并生成混淆矩阵，如图5所示。

综上所述：本发明公开了一种基于混合小波包特征深度学习方法在语音情感识别上算法，包括以下步骤：S1：通过自相关函数算法对语音数据进行端点检测，消除语音首尾两端以及语音序列中静态帧的部分；S2：将语音序列数据截取成相同长度，利用快速傅里叶变换(FFT)将语音序列采样统一为1024，针对该序列用3层小波包重构算法生成新的8个重构信号，每个信号提取36个Low-Level Descriptions(LLDs)特征，组成特征集1；S3：将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值，组成特征集2；S4：将特征集2用DNN的深度学习结构进行进一步提取特征，将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征；S5：将两种利用不同结构所提取到的特征集融合在一起，利用Softmax损失函数进行最终分类。本发明提供的基于混合小波包特征的深度学习方法在语音情感识别上的算法，能够混有噪声的情况下，能够充分提取语音信号的时域信息和频域信息特征，进而利用深度学习算法实现诸如生气，悲伤，高兴，中性等语音情感分类，在教育与医疗等领域有较好的使用前景。

Claims

1.一种基于混合小波包特征深度学习的语音情感识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法，其特征是，所述S1包括如下子步骤：

3.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法，其特征是，所述S2包括如下子步骤：

将Ψ(t)当作为

其中f(t)表示原始信号；

4.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法，其特征是，所述S3包括如下子步骤：

S33:最后得到了另一组特征集，其数据结构为[batch_size,140]的一维张量。

5.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法，其特征是，所述S4包括如下子步骤：

6.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法，其特征是，所述S5包括如下子步骤：

S53：在IEMOCAP语料库的实验中，采用了4分类实验，利用到的语音情感分别为生气，悲伤，高兴以及中性；该库中的语音数据分为自发性语音数据和模拟性语音数据，语音数据据采用自发性语音数据，实用性较为可靠，此外，采用说话人独立(Speaker-independentExperiment)的语音情感实验更具有代表性，生成的混淆矩阵；