CN112151071A - 一种基于混合小波包特征深度学习的语音情感识别方法 - Google Patents

一种基于混合小波包特征深度学习的语音情感识别方法 Download PDF

Info

Publication number
CN112151071A
CN112151071A CN202011006934.8A CN202011006934A CN112151071A CN 112151071 A CN112151071 A CN 112151071A CN 202011006934 A CN202011006934 A CN 202011006934A CN 112151071 A CN112151071 A CN 112151071A
Authority
CN
China
Prior art keywords
voice
wavelet
feature
feature set
wavelet packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011006934.8A
Other languages
English (en)
Other versions
CN112151071B (zh
Inventor
孟浩
闫天昊
袁菲
乔海岩
邓艳琴
杨笑天
陈连钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011006934.8A priority Critical patent/CN112151071B/zh
Publication of CN112151071A publication Critical patent/CN112151071A/zh
Application granted granted Critical
Publication of CN112151071B publication Critical patent/CN112151071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明提供基于混合小波包特征深度学习的语音情感识别方法,S1:通过自相关函数算法对语音数据进行端点检测;S2:将语音序列数据截取成相同长度,将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,组成特征集1;S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1进行进一步提取特征;S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。本发明能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现。

Description

一种基于混合小波包特征深度学习的语音情感识别方法
技术领域
本发明涉及一种基于深度学习的语音情感识别技术,特别涉及一种基于混合小波包特征的深度学习方法,该方法属于深度学习与语音情感识别领域的方法。
背景技术
情感是人类区别于机器的独特特征之一,对人类来说,彼此之间的包含情感的沟通显得尤为重要,近些年来,情感内容分析逐渐成为一个活跃的研究领域,在人机交互中的关注度愈来愈大,人类可以通过表情,语音,手势等来判断人的情感,但是语音是人类最直接有效的沟通桥梁,并且语音信号在人机交互中成为最快捷高效的媒介。在人机交互方面,语音情感识别是一种复杂的且具有挑战的人工智能研究领域,被广泛应用于教育、医疗等领域中。其研究中的特征提取在领域中扮演了一个十分重要的角色,因为很难在这个过程中找到最佳特征集来区分情感状态,我们之前总是用快速傅里叶变换(FFT)去提取语音信号的频域特征,其中包含短时能量,基频特征,谱特征,MFCC等,接着将这些预处理好的特征输入到深度学习网络中再进行特征提取,进而实现情感分类。然而在提取信号的频域特征的同时,往往忽略了语音信号的时域特征。Panagiotis等人使用卷积神经网络CNN搭配2层的长短时记忆网络(LSTM)用于处理语谱图特征,特征缺少时域性且模型较为简单;刘佳沐等人提取的一个新颖的池化算法用于细化CNN提取后的特征,在静态帧方面表现尚可,但在特征提取中原始特征主要利用的还是频域特征,导致分类结果欠佳。Jaebok等人使用CNN搭配极限学习机(ELM)从预处理后的频域特征中进一步提取特征,在模型结构方面由于缺少注意力机制而导致在提取过程中忽略一些带有情感信息的特征,并且预处理的特征缺乏时域性信息,分类结果有待改进。
发明内容
本发明的目的在于克服现有算法的缺点与不足,提出一种基于混合小波包特征的深度学习方法,应用在语音情感识别中。
本发明的目的是这样实现的:
一种基于混合小波包特征深度学习的语音情感识别方法,包括以下步骤:
S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;
S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;
S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;
S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;
S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
本发明还包括这样一些特征:
所述S1包括如下子步骤:
S11:利用自相关函数法对语音数据进行端点检测,消除语音前后两端及其语音中间部分的静态帧部分,在此过程中,设置25ms汉明窗以及10ms的帧移,并对自相关函数Rn(k)进行归一化,公式如下,其中,xn(m)表示原始语音信号,N和k分别代表帧数和延迟值;
Figure BDA0002696266050000021
S12:下一步,在端点检测的过程中设置门限阈值为1.1的T1和值为1.3的T2,当波形数值的最大值高于阈值T2为语音帧部分,再从波形数值是否高于或者低于T1来判断起止点,从而达到去除静态帧的目的。
所述S2包括如下子步骤:
S21:在利用完语音端点检测来消除语音序列中的静态帧之后,用小波包分解算法得到小波包语音序列来重构新的语音信号,来作为深度学习网络模型的输入;
S22:对于语音信号来说,在预处理过程中,快速傅里叶变换用来处理语音序列,目的是后续提取语音信号的频域特征,但是往往忽略了语音信号的时域特征,小波包重构信号在一定程度上补充了时域特征,小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分,然后将得到的高低频部分各自在分解,以此类推;Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点,首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中,将Φ(t)当作为
Figure BDA0002696266050000022
将Ψ(t)当作为
Figure BDA0002696266050000023
其中上标为小波包分解层数,下标为小波包在该层的位置,计算小波包函数基的值如下式:
Figure BDA0002696266050000031
S23:进一步得出如下公式,其中hk表示低通半带滤波器,gk表示高通半带滤波器,采用二进小波小波变换,即对尺度按幂级数作离散化,同时对平移保持连续变化,其中尺度参数为2i,d和k分别表示小波包系数和平移变量;
Figure BDA0002696266050000032
S24:接着通过计算原始信号与各小波函数基的内积得到小波变换值,其意义为原始信号在各个小波函数基上的投影值,投影值越大,说明对应的小波信号所携带的原始信号的特征信息的比例越大,公式如下:
Figure BDA0002696266050000033
其中f(t)表示原始信号;
S25:最后,利用如下公式通过小波包变化值之后得到8个重构语音信号;公式如下:
Figure BDA0002696266050000034
因此,fnew被用做新的语音信号来进一步提取特征;利用3层小波包分解去重构8个新的语音信号序列,原因在于若是小于2层,则语音信号的时域信息提取的不够充足,若是大于2层,则提取到的时域信息过于冗余,不利于后续网络模型的训练,徒增训练时间,与识别结果不成正比,综上,利用3层小波包分解重构最为合适;
S26:在得到8个新重构的语音信号之后,再对每个信号进行预处理以及特征提取,首先设置基本参数,采用汉明窗,窗口长度25ms,帧移10ms,采样频率为16kHz;
S27:在采样过后,为了使数据可以输入到网络模型中,必须使数据结构整齐划一,在这过程中,规定语音序列长度固定为1024,超过1024部分的截取,未超过的用0来补充;
S28:接着,对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征,其中包括能量特征,谱特征,0-12th MFCC特征,色度特征等,由于在上述过程中每个语音数据重构了8个新的小波语音序列数据,每个序列再提取36个LLDs特征,共288个特征,所以最终输入进网络模型的数据结构为[batch_size,1024,288],来构成的特征集1,其中batch_size表示数据批量。
所述S3包括如下子步骤:
S31:在另一方面,为了补充语音信号的时域特征,再提取一个新的特征集当作跳层结构(Skip-Connection Structure),最大化利用所提出的网络模型结构;
S32:利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-LevelStatistical Functions(HSFs)组成了新的特征集2。
S33:最后得到了另一组特征集,其数据结构为[batch_size,140]的一维张量;
所述S4包括如下子步骤:
S41:在将特征集2作为跳层链接作为网络模型输入之后,针对该输入设计了2层全连接神经网络结构,其中的神经元个数分别为128和64,在第一128个神经元的隐藏层之后,加入Batch Normalization(BN)层来衔接第2个隐藏层,BN层的目的是加速训练过程以及提升模型的泛化性,在特征提取之后得到[Batch_size,64]的特征集;
S42:在将特征集1做为网络模型输入之后,先链接一个256个神经元的隐藏层,再链接一个双向长短时记忆网络(BiLSTM),接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集;
S43:之后为了加强网络对特征信息的敏感度,设计了一个升采样层结构,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层,然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值,相当于一个权值,然后将该值与S42步骤所提取的特征集做点乘,生成加强过后特征集,其语音中包含重要的情感信息会因为权值的点乘更加显著,非重要的语音情感信息也会因为上述生成的权值更加被忽略,起到加强注意力机制网络结构的作用;最后得到[Batch_size,64]的特征集。
所述S5包括如下子步骤:
S51:利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起,共同组成形如[batch_size,128]的特征集;
S52:利用上述步骤产生的最终的特征集进行分类,损失函数选择Softmax函数,所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证;
S53:在IEMOCAP语料库的实验中,采用了4分类实验,利用到的语音情感分别为生气,悲伤,高兴以及中性;该库中的语音数据分为自发性语音数据和模拟性语音数据,语音数据据采用自发性语音数据,实用性较为可靠,此外,采用说话人独立(Speaker-independent Experiment)的语音情感实验更具有代表性,生成的混淆矩阵;
S54:在EMODB语料库的实验中,采用7分类实验,由于该语料库容量较小,所以采用该库所有的语音数据,情感类别上分为生气,无聊,厌恶,害怕,高性,悲伤以及中性,同时采用说话人独立性实验并生成混淆矩阵。
与现有技术相比,本发明的有益效果是:
1.利用自相关函数进行端点检测,消除了非包含语音情感信息部分对识别结果的影响;
2.利用小波包重构新的信号提取语音情感特征,该特征包含更多的时域信息与频域信息,有助于最终的情感分类;
3.使用本发明新颖的深度学习网络模型结构,使预处理后的语音序列可以更好的被其模型提取特征,进而实现最终分类;
4.本发明提供的基于混合小波包特征的深度学习方法在语音情感识别上的算法,能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现诸如生气,悲伤,高兴,中性等语音情感分类,在教育与医疗等领域有较好的使用前景。
附图说明
图1为本发明的基于混合小波包特征在语音情感识别应用上的整体模型架构;
图2为二进制小波包分解结构图;
图3为本发明的基于注意力机制的上采样层(UpSampling)的整体结构图;
图4为基于独立说话人实验(Speaker-independent)在IEMOCAP语料库上的混淆矩阵;
图5为基于独立说话人实验(Speaker-independent)在EMODB语料库上的混淆矩阵。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明的目的通过以下技术方案来实现:一种基于混合小波包特征de深度学习方法在语音情感识别上的应用,包括以下步骤:
S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;
S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;
S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;
S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;
S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
所述的步骤S1包括以下子步骤:
S11:利用自相关函数法对语音数据进行端点检测,消除语音前后两端及其语音中间部分的静态帧部分,在此过程中,我们设置25ms汉明窗以及10ms的帧移,并对自相关函数Rn(k)进行归一化,公式如下,其中,xn(m)表示原始语音信号,N和k分别代表帧数和延迟值。
Figure BDA0002696266050000061
S12:下一步,我们在端点检测的过程中设置门限阈值为1.1的T1和值为1.3的T2,当波形数值的最大值高于阈值T2为语音帧部分,再从波形数值是否高于或者低于T1来判断起止点,从而达到去除静态帧的目的。
所述的步骤S2包括以下子步骤:
S21:在利用完语音端点检测来消除语音序列中的静态帧之后,我们用小波包分解算法得到小波包语音序列来重构新的语音信号,来作为深度学习网络模型的输入。
S22:对于语音信号来说,在预处理过程中,快速傅里叶变换用来处理语音序列,目的是后续提取语音信号的频域特征,但是往往忽略了语音信号的时域特征,小波包重构信号在一定程度上补充了时域特征,小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分,然后将得到的高低频部分各自在分解,以此类推。Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点,首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中,将Φ(t)当作为
Figure BDA0002696266050000062
将Ψ(t)当作为
Figure BDA0002696266050000063
其中上标为小波包分解层数,下标为小波包在该层的位置,我们计算小波包函数基的值如下式:
Figure BDA0002696266050000071
S23:进一步得出如下公式,其中hk表示低通半带滤波器,gk表示高通半带滤波器,我们采用二进小波小波变换,即对尺度按幂级数作离散化,同时对平移保持连续变化,其中尺度参数为2i,d和k分别表示小波包系数和平移变量。
Figure BDA0002696266050000072
S24:接着我们通过计算原始信号与各小波函数基的内积得到小波变换值,其意义为原始信号在各个小波函数基上的投影值,投影值越大,说明对应的小波信号所携带的原始信号的特征信息的比例越大,公式如下:
Figure BDA0002696266050000073
其中f(t)表示原始信号。
S25:最后,我们利用如下公式通过小波包变化值之后得到8个重构语音信号。公式如下:
Figure BDA0002696266050000074
因此,fnew被用做新的语音信号来进一步提取特征。在本实验中,我们利用3层小波包分解去重构8个新的语音信号序列,原因在于若是小于2层,则语音信号的时域信息提取的不够充足,若是大于2层,则提取到的时域信息过于冗余,不利于后续网络模型的训练,徒增训练时间,与识别结果不成正比,综上,利用3层小波包分解重构最为合适。
S26:在得到8个新重构的语音信号之后,我们再对每个信号进行预处理以及特征提取,首先设置基本参数,采用汉明窗,窗口长度25ms,帧移10ms,采样频率为16kHz。
S27:在采样过后,为了使数据可以输入到网络模型中,我们必须使数据结构整齐划一,在这过程中,我们规定语音序列长度固定为1024,超过1024部分的截取,未超过的用0来补充。
S28:接着,我们对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征,其中包括能量特征,谱特征,0-12th MFCC特征,色度特征等,由于在上述过程中每个语音数据重构了8个新的小波语音序列数据,每个序列再提取36个LLDs特征,共288个特征,所以最终输入进网络模型的数据结构为[batch_size,1024,288],来构成我们的特征集1,其中batch_size表示数据批量。
所述的步骤S3包括以下子步骤:
S31:在另一方面,为了补充语音信号的时域特征,我们再提取一个新的特征集当作跳层结构(Skip-Connection Structure),最大化利用所提出的网络模型结构。
S32:我们利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-Level Statistical Functions(HSFs)组成了新的特征集2,该特征集2如下表格所示:
S33:最后我们得到了另一组特征集,其数据结构为[batch_size,140]的一维张量。
所述的步骤S4包括以下子步骤:
S41:在将特征集2作为跳层链接作为网络模型输入之后,我们针对该输入设计了2层全连接神经网络结构,其中的神经元个数分别为128和64,在第一128个神经元的隐藏层之后,我们加入Batch Normalization(BN)层来衔接第2个隐藏层,BN层的目的是加速训练过程以及提升模型的泛化性,在特征提取之后得到[Batch_size,64]的特征集。
S42:在将特征集1做为网络模型输入之后,我们先链接一个256个神经元的隐藏层,再链接一个双向长短时记忆网络(BiLSTM),接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集。
S43:我们设计了一个升采样层结构,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层,然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值,最后我们得到[Batch_size,64]的特征集。
所述的步骤S5包括以下子步骤:
S51:利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起,共同组成形如[batch_size,128]的特征集。
S52:利用上述步骤产生的最终的特征集进行分类,损失函数选择Softmax函数,我们所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证。
S53:在IEMOCAP语料库的实验中,我们采用了4分类实验,利用到的语音情感分别为生气,悲伤,高兴以及中性,并生成的混淆矩阵。
S54:在EMODB语料库的实验中,我们采用7分类实验,由于该语料库容量较小,所以采用该库所有的语音数据,情感类别上分为生气,无聊,厌恶,害怕,高性,悲伤以及中性,并生成混淆矩阵。
本发明可应用在以下领域:
1.语音情感识别;
2.医疗上用于监控抑郁症患者的情绪等;
3.教育上用于监测学生的学习状态以及健康状态;
如图1所示,为本发明的网络结构图。首先语音数据信号通过自相关函数算法进行端点检测,消除语音内的静态帧部分,然后将语音序列数据截取长度,针对每个语音序列用3层小波包重构算法生成新的8个重构信号,并对每个信号提取36个Low-LevelDescriptions(LLDs)特征,组成特征集1,其次将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2,接着利用所设计的网络模型进一步tiqu特征,其中特征集2用DNN的深度学习结构进行进一步提取特征,特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;最后将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类,从而实现语音情感识别。
基于混合小波包特征深度学习方法在语音情感识别上的应用,它包括以下步骤:
S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;
所述的步骤S1包括以下子步骤:
S11:利用自相关函数法对语音数据进行端点检测,消除语音前后两端及其语音中间部分的静态帧部分,在此过程中,我们设置25ms汉明窗以及10ms的帧移,并对自相关函数Rn(k)进行归一化,公式如下,其中,xn(m)表示原始语音信号,N和k分别代表帧数和延迟值。
Figure BDA0002696266050000091
S12:下一步,我们在端点检测的过程中设置门限阈值为1.1的T1和值为1.3的T2,当波形数值的最大值高于阈值T2为语音帧部分,再从波形数值是否高于或者低于T1来判断起止点,从而达到去除静态帧的目的。
S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;
所述的步骤S2包括以下子步骤:
S21:在利用完语音端点检测来消除语音序列中的静态帧之后,我们用小波包分解算法得到小波包语音序列来重构新的语音信号,来作为深度学习网络模型的输入。
S22:对于语音信号来说,在预处理过程中,快速傅里叶变换用来处理语音序列,目的是后续提取语音信号的频域特征,但是往往忽略了语音信号的时域特征,小波包重构信号在一定程度上补充了时域特征,小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分,然后将得到的高低频部分各自在分解,以此类推,如图2所示。Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点,首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中,将Φ(t)当作为
Figure BDA0002696266050000101
将Ψ(t)当作为
Figure BDA0002696266050000102
其中上标为小波包分解层数,下标为小波包在该层的位置,我们计算小波包函数基的值如下式:
Figure BDA0002696266050000103
S23:进一步得出如下公式,其中hk表示低通半带滤波器,gk表示高通半带滤波器,我们采用二进小波小波变换,即对尺度按幂级数作离散化,同时对平移保持连续变化,其中尺度参数为2i,d和k分别表示小波包系数和平移变量。
Figure BDA0002696266050000104
S24:接着我们通过计算原始信号与各小波函数基的内积得到小波变换值,其意义为原始信号在各个小波函数基上的投影值,投影值越大,说明对应的小波信号所携带的原始信号的特征信息的比例越大,公式如下:
Figure BDA0002696266050000111
其中f(t)表示原始信号。
S25:最后,我们利用如下公式通过小波包变化值之后得到8个重构语音信号。公式如下:
Figure BDA0002696266050000112
因此,fnew被用做新的语音信号来进一步提取特征。在本实验中,我们利用3层小波包分解去重构8个新的语音信号序列,原因在于若是小于2层,则语音信号的时域信息提取的不够充足,若是大于2层,则提取到的时域信息过于冗余,不利于后续网络模型的训练,徒增训练时间,与识别结果不成正比,综上,利用3层小波包分解重构最为合适。
S26:在得到8个新重构的语音信号之后,我们再对每个信号进行预处理以及特征提取,首先设置基本参数,采用汉明窗,窗口长度25ms,帧移10ms,采样频率为16kHz。
S27:在采样过后,为了使数据可以输入到网络模型中,我们必须使数据结构整齐划一,在这过程中,我们规定语音序列长度固定为1024,超过1024部分的截取,未超过的用0来补充。
S28:接着,我们对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征,其中包括能量特征,谱特征,0-12th MFCC特征,色度特征等,由于在上述过程中每个语音数据重构了8个新的小波语音序列数据,每个序列再提取36个LLDs特征,共288个特征,所以最终输入进网络模型的数据结构为[batch_size,1024,288],来构成我们的特征集1,其中batch_size表示数据批量。
S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;
所述的步骤S3包括以下子步骤:
S31:在另一方面,为了补充语音信号的时域特征,我们再提取一个新的特征集当作跳层结构(Skip-Connection Structure),最大化利用所提出的网络模型结构。
S32:我们利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-Level Statistical Functions(HSFs)组成了新的特征集2,该特征集2如下表格所示:
Figure BDA0002696266050000121
S33:最后我们得到了另一组特征集,其数据结构为[batch_size,140]的一维张量。
S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;
所述的步骤S4包括以下子步骤:
S41:在将特征集2作为跳层链接作为网络模型输入之后,我们针对该输入设计了2层全连接神经网络结构,其中的神经元个数分别为128和64,在第一128个神经元的隐藏层之后,我们加入Batch Normalization(BN)层来衔接第2个隐藏层,BN层的目的是加速训练过程以及提升模型的泛化性,在特征提取之后得到[Batch_size,64]的特征集。
S42:在将特征集1做为网络模型输入之后,我们先链接一个256个神经元的隐藏层,再链接一个双向长短时记忆网络(BiLSTM),接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集。
S43:之后为了加强网络对特征信息的敏感度,我们设计了一个升采样层结构,如图3所示,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层,然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值,相当于一个权值,然后将该值与S42步骤所提取的特征集做点乘,生成加强过后特征集,其语音中包含重要的情感信息会因为权值的点乘更加显著,非重要的语音情感信息也会因为上述生成的权值更加被忽略,起到加强注意力机制网络结构的作用。最后我们得到[Batch_size,64]的特征集。
S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
所述的步骤S5包括以下子步骤:
S51:利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起,共同组成形如[batch_size,128]的特征集。
S52:利用上述步骤产生的最终的特征集进行分类,损失函数选择Softmax函数,我们所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证。
S53:在IEMOCAP语料库的实验中,我们采用了4分类实验,利用到的语音情感分别为生气,悲伤,高兴以及中性。该库中的语音数据分为自发性语音数据和模拟性语音数据,本专利中的语音数据据采用自发性语音数据,实用性较为可靠,此外,采用说话人独立(Speaker-independent Experiment)的语音情感实验更具有代表性,生成的混淆矩阵,如图4所示。
S54:在EMODB语料库的实验中,我们采用7分类实验,由于该语料库容量较小,所以采用该库所有的语音数据,情感类别上分为生气,无聊,厌恶,害怕,高性,悲伤以及中性,同时采用说话人独立性实验并生成混淆矩阵,如图5所示。
综上所述:本发明公开了一种基于混合小波包特征深度学习方法在语音情感识别上算法,包括以下步骤:S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。本发明提供的基于混合小波包特征的深度学习方法在语音情感识别上的算法,能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现诸如生气,悲伤,高兴,中性等语音情感分类,在教育与医疗等领域有较好的使用前景。

Claims (6)

1.一种基于混合小波包特征深度学习的语音情感识别方法,其特征是,包括以下步骤:
S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;
S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;
S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;
S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+Attention Mechanism+UpSampling1D的深度学习结构进行进一步提取特征;
S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
2.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S1包括如下子步骤:
S11:利用自相关函数法对语音数据进行端点检测,消除语音前后两端及其语音中间部分的静态帧部分,在此过程中,设置25ms汉明窗以及10ms的帧移,并对自相关函数Rn(k)进行归一化,公式如下,其中,xn(m)表示原始语音信号,N和k分别代表帧数和延迟值;
Figure FDA0002696266040000011
S12:下一步,在端点检测的过程中设置门限阈值为1.1的T1和值为1.3的T2,当波形数值的最大值高于阈值T2为语音帧部分,再从波形数值是否高于或者低于T1来判断起止点,从而达到去除静态帧的目的。
3.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S2包括如下子步骤:
S21:在利用完语音端点检测来消除语音序列中的静态帧之后,用小波包分解算法得到小波包语音序列来重构新的语音信号,来作为深度学习网络模型的输入;
S22:对于语音信号来说,在预处理过程中,快速傅里叶变换用来处理语音序列,目的是后续提取语音信号的频域特征,但是往往忽略了语音信号的时域特征,小波包重构信号在一定程度上补充了时域特征,小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分,然后将得到的高低频部分各自在分解,以此类推;Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点,首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中,将Φ(t)当作为
Figure FDA0002696266040000021
将Ψ(t)当作为
Figure FDA0002696266040000022
其中上标为小波包分解层数,下标为小波包在该层的位置,计算小波包函数基的值如下式:
Figure FDA0002696266040000023
S23:进一步得出如下公式,其中hk表示低通半带滤波器,gk表示高通半带滤波器,采用二进小波小波变换,即对尺度按幂级数作离散化,同时对平移保持连续变化,其中尺度参数为2i,d和k分别表示小波包系数和平移变量;
Figure FDA0002696266040000024
S24:接着通过计算原始信号与各小波函数基的内积得到小波变换值,其意义为原始信号在各个小波函数基上的投影值,投影值越大,说明对应的小波信号所携带的原始信号的特征信息的比例越大,公式如下:
Figure FDA0002696266040000025
其中f(t)表示原始信号;
S25:最后,利用如下公式通过小波包变化值之后得到8个重构语音信号;公式如下:
Figure FDA0002696266040000026
因此,fnew被用做新的语音信号来进一步提取特征;利用3层小波包分解去重构8个新的语音信号序列,原因在于若是小于2层,则语音信号的时域信息提取的不够充足,若是大于2层,则提取到的时域信息过于冗余,不利于后续网络模型的训练,徒增训练时间,与识别结果不成正比,综上,利用3层小波包分解重构最为合适;
S26:在得到8个新重构的语音信号之后,再对每个信号进行预处理以及特征提取,首先设置基本参数,采用汉明窗,窗口长度25ms,帧移10ms,采样频率为16kHz;
S27:在采样过后,为了使数据可以输入到网络模型中,必须使数据结构整齐划一,在这过程中,规定语音序列长度固定为1024,超过1024部分的截取,未超过的用0来补充;
S28:接着,对每个语音信号序列提取36个LLDs(Low-Level Descriptions)特征,其中包括能量特征,谱特征,0-12th MFCC特征,色度特征等,由于在上述过程中每个语音数据重构了8个新的小波语音序列数据,每个序列再提取36个LLDs特征,共288个特征,所以最终输入进网络模型的数据结构为[batch_size,1024,288],来构成的特征集1,其中batch_size表示数据批量。
4.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S3包括如下子步骤:
S31:在另一方面,为了补充语音信号的时域特征,再提取一个新的特征集当作跳层结构(Skip-Connection Structure),最大化利用所提出的网络模型结构;
S32:利用Matlab2014b软件对每个语音数据提取140个融合了LLDs和High-LevelStatistical Functions(HSFs)组成了新的特征集2。
S33:最后得到了另一组特征集,其数据结构为[batch_size,140]的一维张量。
5.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S4包括如下子步骤:
S41:在将特征集2作为跳层链接作为网络模型输入之后,针对该输入设计了2层全连接神经网络结构,其中的神经元个数分别为128和64,在第一128个神经元的隐藏层之后,加入Batch Normalization(BN)层来衔接第2个隐藏层,BN层的目的是加速训练过程以及提升模型的泛化性,在特征提取之后得到[Batch_size,64]的特征集;
S42:在将特征集1做为网络模型输入之后,先链接一个256个神经元的隐藏层,再链接一个双向长短时记忆网络(BiLSTM),接着连接一个注意力机制网络(AttentionMechanism),此时在经历如上特征提取后得到[Batch_size,64]的特征集;
S43:之后为了加强网络对特征信息的敏感度,设计了一个升采样层结构,其具体结构为先连接一个以Sigmoid为激活函数的神经元为1个隐层,然后利用UpSampling1D层(Keras架构)将得到的这个值进行扩展成64个同样的值,相当于一个权值,然后将该值与S42步骤所提取的特征集做点乘,生成加强过后特征集,其语音中包含重要的情感信息会因为权值的点乘更加显著,非重要的语音情感信息也会因为上述生成的权值更加被忽略,起到加强注意力机制网络结构的作用;最后得到[Batch_size,64]的特征集。
6.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S5包括如下子步骤:
S51:利用Concatenate层(Keras框架)对S41步骤的特征集2所提取的特征和S43步骤所提取得特征按行融合在一起,共同组成形如[batch_size,128]的特征集;
S52:利用上述步骤产生的最终的特征集进行分类,损失函数选择Softmax函数,所提出的特征提取算法以及优化的网络模型结构均在语音情感识别预料库IEMOCAP库(英语)和EMODB库(德语)得到了有效验证;
S53:在IEMOCAP语料库的实验中,采用了4分类实验,利用到的语音情感分别为生气,悲伤,高兴以及中性;该库中的语音数据分为自发性语音数据和模拟性语音数据,语音数据据采用自发性语音数据,实用性较为可靠,此外,采用说话人独立(Speaker-independentExperiment)的语音情感实验更具有代表性,生成的混淆矩阵;
S54:在EMODB语料库的实验中,采用7分类实验,由于该语料库容量较小,所以采用该库所有的语音数据,情感类别上分为生气,无聊,厌恶,害怕,高性,悲伤以及中性,同时采用说话人独立性实验并生成混淆矩阵。
CN202011006934.8A 2020-09-23 2020-09-23 一种基于混合小波包特征深度学习的语音情感识别方法 Active CN112151071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006934.8A CN112151071B (zh) 2020-09-23 2020-09-23 一种基于混合小波包特征深度学习的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006934.8A CN112151071B (zh) 2020-09-23 2020-09-23 一种基于混合小波包特征深度学习的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN112151071A true CN112151071A (zh) 2020-12-29
CN112151071B CN112151071B (zh) 2022-10-28

Family

ID=73897834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006934.8A Active CN112151071B (zh) 2020-09-23 2020-09-23 一种基于混合小波包特征深度学习的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN112151071B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343802A (zh) * 2021-05-26 2021-09-03 电子科技大学 一种基于多小波的射频指纹图域识别方法
CN114184962A (zh) * 2021-10-19 2022-03-15 北京理工大学 一种多算法融合的锂离子电池soc和soh联合估算方法
CN114613391A (zh) * 2022-02-18 2022-06-10 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
WO2024011818A1 (zh) * 2022-07-15 2024-01-18 山东海量信息技术研究院 一种数据的情感识别方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316793A1 (en) * 2007-12-13 2012-12-13 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for indicating behavior in a population cohort
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107845390A (zh) * 2017-09-21 2018-03-27 太原理工大学 一种基于pcnn语谱图特征融合的情感语音识别系统
US20180204427A1 (en) * 2013-09-06 2018-07-19 Immersion Corporation Systems and Methods for Generating Haptic Effects Associated With Audio Signals
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN109492529A (zh) * 2018-10-08 2019-03-19 中国矿业大学 一种多尺度特征提取及全局特征融合的人脸表情识别方法
CN109767788A (zh) * 2019-02-25 2019-05-17 南京信息工程大学 一种基于lld和dss融合特征的语音情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316793A1 (en) * 2007-12-13 2012-12-13 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for indicating behavior in a population cohort
US20180204427A1 (en) * 2013-09-06 2018-07-19 Immersion Corporation Systems and Methods for Generating Haptic Effects Associated With Audio Signals
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107845390A (zh) * 2017-09-21 2018-03-27 太原理工大学 一种基于pcnn语谱图特征融合的情感语音识别系统
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN109492529A (zh) * 2018-10-08 2019-03-19 中国矿业大学 一种多尺度特征提取及全局特征融合的人脸表情识别方法
CN109767788A (zh) * 2019-02-25 2019-05-17 南京信息工程大学 一种基于lld和dss融合特征的语音情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO-CHUN YANG: "An Attribute-invariant Variational Learning for Emotion Recognition Using Physiology", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
SEYEDMAHDAD MIRSAMADI: "Automatic speech emotion recognition using recurrent neural networks with local attention", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
仝来源: "基于EEG信号的情绪识别研究", 《中国优秀硕士学位论文全文数据库》 *
孙海冰: "基于生理信号的情感识别的研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343802A (zh) * 2021-05-26 2021-09-03 电子科技大学 一种基于多小波的射频指纹图域识别方法
CN113343802B (zh) * 2021-05-26 2022-05-03 电子科技大学 一种基于多小波的射频指纹图域识别方法
CN114184962A (zh) * 2021-10-19 2022-03-15 北京理工大学 一种多算法融合的锂离子电池soc和soh联合估算方法
CN114613391A (zh) * 2022-02-18 2022-06-10 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
CN114613391B (zh) * 2022-02-18 2022-11-25 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
WO2024011818A1 (zh) * 2022-07-15 2024-01-18 山东海量信息技术研究院 一种数据的情感识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112151071B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN112151071B (zh) 一种基于混合小波包特征深度学习的语音情感识别方法
Ren et al. Deep scalogram representations for acoustic scene classification
Wang et al. Wavelet packet analysis for speaker-independent emotion recognition
Atila et al. Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition
CN106782602B (zh) 基于深度神经网络的语音情感识别方法
Avci et al. Speech recognition using a wavelet packet adaptive network based fuzzy inference system
Yogesh et al. Hybrid BBO_PSO and higher order spectral features for emotion and stress recognition from natural speech
Zhang et al. Autoencoder with emotion embedding for speech emotion recognition
Pandey et al. Attention gated tensor neural network architectures for speech emotion recognition
Avci An expert system for speaker identification using adaptive wavelet sure entropy
CN108320735A (zh) 一种多数据融合的情感识别方法及系统
Chorowski et al. On using backpropagation for speech texture generation and voice conversion
Wang et al. A path signature approach for speech emotion recognition
Zhang et al. Learning audio sequence representations for acoustic event classification
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Ribeiro et al. Binary neural networks for classification of voice commands from throat microphone
Ayadi et al. A combined CNN-LSTM network for audio emotion recognition using speech and song attributs
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
Subbarao et al. Emotion recognition using BiLSTM classifier
Wani et al. Stride based convolutional neural network for speech emotion recognition
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
Zhang et al. Learning audio sequence representations for acoustic event classification
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
CN112069897B (zh) 基于知识图谱的语音和微表情识别自杀情绪感知方法
Li et al. MPAF-CNN: Multiperspective aware and fine-grained fusion strategy for speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant