CN112562725A - 基于语谱图和胶囊网络的混合语音情感分类方法 - Google Patents

基于语谱图和胶囊网络的混合语音情感分类方法 Download PDF

Info

Publication number
CN112562725A
CN112562725A CN202011451537.1A CN202011451537A CN112562725A CN 112562725 A CN112562725 A CN 112562725A CN 202011451537 A CN202011451537 A CN 202011451537A CN 112562725 A CN112562725 A CN 112562725A
Authority
CN
China
Prior art keywords
spectrogram
capsule
vector
length
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011451537.1A
Other languages
English (en)
Inventor
张卫
贾宇
罗翠线
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University of Finance and Economics
Original Assignee
Shanxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University of Finance and Economics filed Critical Shanxi University of Finance and Economics
Priority to CN202011451537.1A priority Critical patent/CN112562725A/zh
Publication of CN112562725A publication Critical patent/CN112562725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音信号处理领域,具体涉及基于语谱图和胶囊网络的混合语音情感分类方法。为解决不同语种差异性大,传统识别方法寻找特征共性差的问题,本发明主要是将原始的语音数据通过预处理,转化为语谱图,再使用卷积神经网络和胶囊神经网络进行更深层次的特征提取。最终达到获得不同语种之间的共性特征,有效提高混合语音库的情感分类识别准确率的目的。

Description

基于语谱图和胶囊网络的混合语音情感分类方法
技术领域
本发明涉及语音信号处理领域,具体涉及基于语谱图和胶囊网络的混合语音情感分类方法。
背景技术
语音是人与人交流的重要途径,也是传递信息的重要媒介。通过机器分辨语音情感可以大大提升效率,节约人力成本,因此成为人工智能研究方向的一个重要分支。语音情感分类主要分为语音预处理、特征提取以及识别模型的构建三部分。由于近些年设备的更新和深度学习技术的加强,对于语音的情感识别准确率有了进一步的提升。卷积神经网络模型已经广泛应用于图像识别的问题当中,也有很多语音情感的分类问题使用该方法,因为卷积神经网络可以通过卷积层提取更深度和抽象的语音情感特征,便于机器进行分类。但是语音数据不同于图像数据,直接使用卷积神经网络会有无法充分利用语音处理时序信息、分类效果差、过拟合等技术问题。当语种上升到两种或更多的时候,由于不同语言之间具有较大的差异性。卷积神经网络更是无法寻求不同语种之间的共性,分类效果很不理想。
已经有人提出了一种基于胶囊网络的多任务语音分类方法,这种方法主要目的是寻求任务之间的相关性。但不同的语音特征对于不同的语音任务会有不同的分类效果,目前来讲mfcc在各分类任务上都有较好的分类效果,如果想要继续全面提升多任务分类效果,必须融合更多的特征。而本发明针对的主要问题是混合语种的情感单分类问题,将语音信号转化为语谱图。不同于普通的手工特征,语谱图反映了语音频谱随时间变换的二维图像。使用卷积网络可以提取出包含时序信息、更完整的的有效特征。因此进一步提高了情感分类的效果。
发明内容
为解决不同语种差异性大,传统识别方法寻找特征共性差的问题,本发明通过将不同语种的语音转化为语谱图,使用胶囊网络进行语音情感的分类。从语谱图中提取深度的抽象特征,寻求不同语种之间的特征共性,提高混合语音库情感分类的准确率。
为了达到上述目的,本发明采用了下列技术方案:
基于语谱图和胶囊网络的混合语音情感分类方法,将语音数据先转化为语谱图,并使用卷积网络层和胶囊网络层提取深度特征进行情感分类,具体步骤如下:
步骤1,使用librosa包提取语音数据,并对语音数据进行长度归一化,最后转化为语谱图;
步骤2,使用三层卷积神经网络提取语谱图中的深层抽象特征;
步骤3,使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达;
步骤4,胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别。
进一步,所述步骤1使用librosa包提取语音数据,并对语音数据进行长度归一化,最后转化为语谱图,具体步骤为:
步骤1.1,使用librosa包提取语音数据的音频信号值;
步骤1.2,提取t秒的数据,将长度小于t的音频信号值进行补0处理,长度大于等于t的则取[0,t]之间的数据;
步骤1.3,使用librosa包计算梅尔频谱,同时将获得的梅尔频谱值转化为功率谱,再将功率谱进行0~1归一化并重新变形为二维数组,得到语音数据的语谱图。
语谱图中包含了大量有用信息,如语音基频、清音、爆破音等。因此,相比于只有时域信息的过零率、幅值等和只有频域特性的线性预测倒谱系数和梅尔频率系数等特征,语谱图能够更好地用于语音情感分类。同时,将语音信号转化为图像,可以更好地发挥胶囊网络的作用,从而提高识别率。
进一步,所述步骤2使用三层卷积神经网络提取语谱图中的深层抽象特征,具体步骤为:
步骤2.1,构建卷积网络层使用卷积操作来识别语谱图并提取深层抽象特征,其公式表示为:
Figure BDA0002827172680000031
式(1)中,X是输入的数据,
Figure BDA0002827172680000032
为卷积操作,W是相应卷积核的权重向量,b为偏移量,f(·)表示卷积核的激活函数,所述激活函数使用leakyRelu作为激活函数;
步骤2.2,构建卷积网络层使用池化层来降低参数量减少计算复杂度,其公式表示为:
Y=P(C) (2)
式(2)中,C是卷积操作后的输出,即池化操作的输入,所述池化操作选用平均池化操作,可以更好地保留上一层的特征。
池化操作是为了将原有庞大的特征数量在保持基本特征样貌的情况下进行压缩,常见的操作就是最大池化和平均值化。最大池化能减小卷积层参数误差造成估计均值的偏移,更多的保留纹理信息。但语谱图识别不是严格意义上的实物分类,因此使用最大池化操作效果一般。平均池化能减小邻域大小受限造成的估计值方差增大,更多的保留图像的背景信息,平均池化更强调对整体特征进行一层下采样,在减少参数量的贡献上更大,更多体现在信息的完整传递这个维度上,更有利信息传递到下一个模块进行特征提取。
进一步,所述步骤3使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达,具体步骤为:
步骤3.1,胶囊层首先对于输入的多个不同的向量v1和v2到vi通过分别乘以权值W1和W2到Wi仿射变换得到u1、u2到ui,公式如下:
ui=Wivi (3)
式(3)中,vi为卷积层训练出的特征向量,Wi为投影到胶囊网络的过渡权重,即一个矩阵。
步骤3.2,计算得到的ui进行权重加和获得s,计算公式如下:
Figure BDA0002827172680000041
式(4)中,ci为向量ui的权值,ci的数值由胶囊网络的动态路由算法获得,s为不同向量按照权值求和后的新向量,进一步进行预测使用;
步骤3.3,最后将获得的s使用挤压方式,将其长度压缩到0~1之间,该方式并不会改变其向量方向,计算公式如下:
Figure BDA0002827172680000042
式(5)中,s先除以它的长度,让它变成是一个长度为1的向量,前面再乘上一个值,如果s的长度非常长,这个值会趋近于1,向量v的长度就趋近于1。如果s非常短,前面这个值就会很小,向量v的长度就会趋近于0。获得v的长度代表其存在的概率大小,向量v中的某一个值则代表某种特征属性,计算得到的v进一步由动态路由算法进行判别。
胶囊模型分类实质是靠概率判断,如果将向量s直接多次通过动态路由算法进行迭代计算,则会造成最终向量长度无法以一个统一标准进行衡量。因此为了标准化概率判断,将最小概率长度设置为0,最大概率长度设置为1。挤压函数则可以有效的将向量s在不改变方向的情况下,将长度压缩映射到我们的规定的概率区间范围。
进一步,所述步骤4胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别,具体步骤为:
最后得到的向量输出v通过构建一个边缘损失函数进行分类判别,具体计算公式如下:
Lk=Tk max(0,m+-||v||)2+λ(1-Tk)max(0,||v||-m-)2 (6)
式(6)中,当前数据为第k类时Tk=1,否则为0;m+和m-用于限制向量v的长度,λ为超参数,通常选择0.5来保证数值稳定性。如果第k类真实存在而预测结果不存在,那么Tk=1,||v||更小,L会更大,反之亦然。这样,在第k个类别的胶囊输出长度越大越好,而其他的向量输出被压小,从而判别属于哪个类别。
该损失函数类似于支持向量机(SVM)中最大化正负样本到超平面的距离。λ是为了减小图像中没有出现过的情感类别的损失,防止一开始损失过大,导致全部的输出值都在收缩。通常该损失函数给定了2个锚点m+=0.9和m-=0.1,损失最终希望正例样本预测在0.9,超过0.9之后就没必要继续提高了向量的长度;负例在0.1,低于0.1就没必要继续降低向量的长度。这样设定通过不断缩小损失函数,使长度更长的向量被正确分类,从而有效提高分类准确率。
对于混合语音库的情感分类问题,基本都还是使用传统的机器学习和深度学习算法为主。为了针对不同语种间缺乏共性的问题,提出了语谱图+胶囊网络模型。相比传统方法有以下两个优点:
1.语谱图可以提取更全面的特征,比手工特征更适合用于语音情感分类。
2.不同的语种之间特征差异性较大,传统的卷积神经网络只能识别定向固定的标量,不能识别图像中位置、状态、大小发生改变的特征。而胶囊网络是对向量进行识别,对于图像中不同位置、状态、大小的特征有更好的识别效果。这样对于同种情感特征,却由于说话人的不同、句子的不同等造成的差异,通过胶囊网络可以很好地识别判断,从而大幅度提高混合语音识别的准确性。
附图说明
图1为本发明中基于语谱图和胶囊网络的混合语音情感分类方法的模型图;
图2为基于语谱图和胶囊网络的混合语音情感分类方法的流程图;
图3为本发明中胶囊网络中的动态路由算法模型图。
具体实施方式
下面根据附图及实施例对本发明做进一步阐述。
图1是混合语音转换语谱图通过胶囊网络进行情感分类方法的模型图。该模型将不同语种的原始语音信号分别进行提取,通过librosa包转换为语谱图作为输入,之后使用三层的卷积网络层对输入的语谱图进行深度特征的提取。最终通过主胶囊层对深度特征使用动态路由算法多次判别,提取更深层次的特征向量传入判别胶囊层,获得概率最大的分类。
图2是混合语音转换语谱图通过胶囊网络进行情感分类方法的模型图,将语音数据先转化为语谱图,并使用卷积网络层和胶囊网络层提取深度特征进行情感分类,具体步骤如下:
步骤1,使用librosa包提取语音数据,并对语音数据进行长度归一化,最后转化为语谱图,具体为:
步骤1.1,使用librosa包提取语音数据的音频信号值;
步骤1.2,提取t秒的数据,将长度小于t的音频信号值进行补0处理,长度大于等于t的则取[0,t]之间的数据;
步骤1.3,使用librosa包计算梅尔频谱,同时将获得的梅尔频谱值转化为功率谱,再将功率谱进行0~1归一化并重新变形为二维数组,得到语音数据的语谱图。
使用librosa包计算梅尔频谱具体为:音频信号预处理:对原始音频信号进行分帧加窗后,得到很多帧以及每帧的样本点个数,并将每一帧信号样本点长度不足的进行补零,对每一帧做快速傅里叶变换(FFT);
使用梅尔滤波器对语音特征中低频部分进行处理,得到梅尔频谱;
由于人耳听到的声音高低与频率(Hz)并不呈线性关系,使用Mel频率更符合听觉特性,梅尔频率表示音调与频率之间的关系,关系表达式为:
Figure BDA0002827172680000071
式(10)中,f代表实际的语音频率,人耳的听觉与转换后的梅尔频率呈一致关系;
计算梅尔滤波器的梅尔频率分布,将梅尔频率转换为实际频率,表达式为:
Figure BDA0002827172680000072
计算梅尔频率分辨率,表达式为:
Figure BDA0002827172680000081
式(12)中,N为FFT的长度,Fs为采样率;
定义多个滤波器Hm(k),滤波器的输出的计算公式如下所示:
Figure BDA0002827172680000082
式(13)中,m代表第m个滤波器,f(m)代表滤波器的中心频率,f(m-1)代表滤波器的上限频率,f(m+1)代表其下限频率,k代表点的编号;
将滤波器输出乘上FFT计算出来的能量谱得到的梅尔频谱,其计算公式如下:
Figure BDA0002827172680000083
式(14)中,|X(k)|2表示能量谱中第k个点的能量,以每个滤波器的频率范围内的输出作为权重,乘以能量谱中对应频率的对应能量,然后把这个滤波器范围内的能量加起来,即梅尔频谱。
步骤2,使用三层卷积神经网络提取语谱图中的深层抽象特征,具体步骤为:
步骤2.1,构建卷积网络层使用卷积操作来识别语谱图并提取深层抽象特征,其公式表示为:
Figure BDA0002827172680000084
式(1)中,X是输入的数据,
Figure BDA0002827172680000085
为卷积操作,W是相应卷积核的权重向量,b为偏移量,f(·)表示卷积核的激活函数,所述激活函数使用leakyRelu作为激活函数;
步骤2.2,构建卷积网络层使用池化层来降低参数量减少计算复杂度,其公式表示为:
Y=P(C) (2)
式(2)中,C是卷积操作后的输出,即池化操作的输入,所述池化操作选用平均池化操作。
步骤3,使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达,具体步骤为:
步骤3.1,主胶囊层首先对于输入的多个不同的向量v1和v2到vi通过分别乘以权值W1和W2到Wi仿射变换得到u1、u2到ui(主胶囊层首先对卷积层提取出的深度特征向量仿射变换成能输入到胶囊层的向量),公式如下:
ui=Wivi (3)
式(3)中,vi就是卷积层训练出的特征向量,Wi为投影到胶囊网络的过渡权重,即一个矩阵。多个向量v1到vi通过分别乘以权值W1到Wi仿射变换得到u1、到ui
步骤3.2,动态路由算法及分类判别:映射变换得到的ui进行权重加和获得s,计算公式如下:
Figure BDA0002827172680000091
式(4)中,ci为向量ui的权值,ci的数值由胶囊网络的动态路由算法获得,s为不同向量按照权值求和后的新向量,进一步进行预测使用;
步骤3.3,最后将获得的s使用挤压方式,将其长度压缩到0~1之间,该方式并不会改变其向量方向,计算公式如下:
Figure BDA0002827172680000092
式(5)中,s先除以它的长度,让它变成是一个长度为1的向量,前面再乘上一个值,如果s的长度非常长,这个值会趋近于1,向量v的长度就趋近于1。如果s非常短,前面这个值就会很小,向量v的长度就会趋近于0。获得的v的长度代表其存在的概率大小,向量v中的某一个值则代表某种特征属性,计算得到的v进一步由动态路由算法进行判别。
步骤4,胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别,具体步骤为:
最后得到的向量输出v通过构建一个边缘损失函数进行分类判别,具体计算公式如下:
Lk=Tk max(0,m+-||v||)2+λ(1-Tk)max(0,||v||-m-)2 (6)
式(6)中,当前数据为第k类时Tk=1,否则为0;m+和m-用于限制向量v的长度,λ为超参数,通常选择0.5来保证数值稳定性。如果第k类真实存在而预测结果不存在,那么Tk=1,||v||更小,L会更大,反之亦然。这样,在第k个类别的胶囊输出长度越大越好,而其他的向量输出被压小,从而判别属于哪个类别。
图3为胶囊网络动态路由算法的流程图,假设该算法只循环两轮,如果循环更多轮则按照该步骤往复,具体步骤如下:
1.设置一个变量b11、b21的初始值设置为0。
向量u1、u2的在第一轮权值为c11、c21,计算公式为
c11,c12=soft max(c11,c12) (7)
2.使用挤压方法加权求和获得s1,计算公式如下:
s1=squashing(c11u1+c21u2) (8)
3.计算获得新的b12、b22,计算公式如下:
b12=b11+s1u1
b22=b21+s1u2 (9)
第二轮的计算根据新的b12b22按照步骤1-3更新即可;
每次循环向量u1、u2通过与动态路由算法得到的s比较,与s更接近的向量将会通过增加变量b的方式来增大变量c,以此来增大相似度更高的向量被正确匹配的概率。
实施例2
为了验证本发明的有效性,将通过实验对比混合库的情感识别效果。本实施例使用EMO-DB柏林语音库和中文CASIA数据库的语音数据进行情感分类,EMO-DB由10名人员录制了愤怒、高兴、害怕、伤心、无聊、厌恶、中兴七种情感的德语语料库。CASIA由2名男性和2名女性每人对愤怒、高兴、害怕、中兴、伤心、惊讶六种感情进行录制。为了进行混合语音探究,本实施例先分别使用SVM、CNN、LSTM、语谱图+胶囊网络对两个语音库单独进行识别,获取不同模型对单语音库的识别率。其中前三个模型使用MFCC,MEL SpectrogramFrequency,Chroma的180维混合特征进行分类,胶囊网络则使用语谱图作为分类特征。再使用两个库共同拥有的愤怒、高兴、害怕、伤心、中兴五种感情进行分类测试。其中德语有408条数据,中文有1000条数据。我们按照9:1的比例划分训练集和测试集,训练集共1267条,测试集共149条,最终按照十折交叉验证完成实验,实验环境使用深度学习框架Keras,识别结果见表1:
表1 识别结果
Figure BDA0002827172680000111
Figure BDA0002827172680000121
如表1所示,德语的情感识别率整体高于中文的情感识别率,且使用传统方法进行情感识别,混合语音识别率整体低于单语言的识别。使用语谱图+胶囊网络的分类模型,无论是单语言还是混合语言,都可以使识别率提升很多,混合语音分类的准确率最高可以到达90.4%,因此可以看出本发明对于混合语音库识别的有效性。

Claims (5)

1.基于语谱图和胶囊网络的混合语音情感分类方法,其特征在于,将语音数据先转化为语谱图,并使用卷积网络层和胶囊网络层提取深度特征进行情感分类,具体步骤如下:
步骤1,使用librosa包提取语音数据,并对语音数据进行长度归一化,最后转化为语谱图;
步骤2,使用三层卷积神经网络提取语谱图中的深层抽象特征;
步骤3,使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达;
步骤4,胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别。
2.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法,其特征在于,所述步骤1使用librosa包提取语音数据,并对语音数据进行长度归一化,最后转化为语谱图,具体步骤为:
步骤1.1,使用librosa包提取语音数据的音频信号值;
步骤1.2,提取t秒的数据,将长度小于t的音频信号值进行补0处理,长度大于等于t的则取[0,t]之间的数据;
步骤1.3,使用librosa包计算梅尔频谱,同时将获得的梅尔频谱值转化为功率谱,再将功率谱进行0~1归一化并重新变形为二维数组,得到语音数据的语谱图。
3.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法,其特征在于,所述步骤2使用三层卷积神经网络提取语谱图中的深层抽象特征,具体步骤为:
步骤2.1,构建卷积网络层使用卷积操作来识别语谱图并提取深层抽象特征,其公式表示为:
Figure FDA0002827172670000021
式(1)中,X是输入的数据,
Figure FDA0002827172670000022
为卷积操作,W是相应卷积核的权重向量,b为偏移量,f(·)表示卷积核的激活函数,所述激活函数使用leakyRelu作为激活函数;
步骤2.2,构建卷积网络层使用池化层来降低参数量减少计算复杂度,其公式表示为:
Y=P(C) (2)
式(2)中,C是卷积操作后的输出,即池化操作的输入,所述池化操作选用平均池化操作。
4.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法,其特征在于,所述步骤3使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达,具体步骤为:
步骤3.1,主胶囊层首先对于输入的多个不同的向量v1和v2到vi通过分别乘以权值W1和W2到Wi仿射变换得到u1、u2到ui,公式如下:
ui=Wivi (3)
式(3)中,vi为卷积层训练出的特征向量,Wi为投影到胶囊网络的过渡权重,即一个矩阵。
步骤3.2,映射变换得到的ui进行权重加和获得s,计算公式如下:
Figure FDA0002827172670000023
式(4)中,ci为向量ui的权值,ci的数值由胶囊网络的动态路由算法获得,s为不同向量按照权值求和后的新向量,进一步进行预测使用;
步骤3.3,最后将获得的s使用挤压方式,将其长度压缩到0~1之间,该方式并不会改变其向量方向,计算公式如下:
Figure FDA0002827172670000031
式(5)中,v的长度代表其存在的概率大小,向量v中的某一个值则代表某种特征属性,计算得到的v进一步由动态路由算法进行判别。
5.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法,其特征在于,所述步骤4胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别,具体步骤为:
最后得到的向量输出v通过构建一个边缘损失函数进行分类判别,具体计算公式如下:
Figure FDA0002827172670000032
式(6)中,当前数据为第k类时Tk=1,否则为0;m+和m-用于限制向量v的长度,λ为超参数,通常选择0.5来保证数值稳定性。
CN202011451537.1A 2020-12-09 2020-12-09 基于语谱图和胶囊网络的混合语音情感分类方法 Pending CN112562725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011451537.1A CN112562725A (zh) 2020-12-09 2020-12-09 基于语谱图和胶囊网络的混合语音情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451537.1A CN112562725A (zh) 2020-12-09 2020-12-09 基于语谱图和胶囊网络的混合语音情感分类方法

Publications (1)

Publication Number Publication Date
CN112562725A true CN112562725A (zh) 2021-03-26

Family

ID=75061684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451537.1A Pending CN112562725A (zh) 2020-12-09 2020-12-09 基于语谱图和胶囊网络的混合语音情感分类方法

Country Status (1)

Country Link
CN (1) CN112562725A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257281A (zh) * 2021-07-02 2021-08-13 四川省人工智能研究院(宜宾) 一种对多模态情绪识别进行层次不确定性量化估计的方法
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置
CN113808620A (zh) * 2021-08-27 2021-12-17 西藏大学 一种基于cnn和lstm的藏语语音情感识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN110718234A (zh) * 2019-09-02 2020-01-21 江苏师范大学 基于语义分割编解码网络的声学场景分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN110718234A (zh) * 2019-09-02 2020-01-21 江苏师范大学 基于语义分割编解码网络的声学场景分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIXIN WU: "SPEECH EMOTION RECOGNITION USING CAPSULE NETWORKS", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置
CN113257281A (zh) * 2021-07-02 2021-08-13 四川省人工智能研究院(宜宾) 一种对多模态情绪识别进行层次不确定性量化估计的方法
CN113257281B (zh) * 2021-07-02 2021-09-21 四川省人工智能研究院(宜宾) 一种对多模态情绪识别进行层次不确定性量化估计的方法
CN113808620A (zh) * 2021-08-27 2021-12-17 西藏大学 一种基于cnn和lstm的藏语语音情感识别方法
CN113808620B (zh) * 2021-08-27 2023-03-21 西藏大学 一种基于cnn和lstm的藏语语音情感识别方法

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
CN110164452A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN110675859B (zh) 结合语音与文本的多情感识别方法、系统、介质及设备
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Wang et al. Recognizing human emotion from audiovisual information
CN102800316A (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN111243602A (zh) 基于性别、国籍和情感信息的声纹识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN103531198A (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
CN113053410B (zh) 声音识别方法、装置、计算机设备和存储介质
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN111048097A (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
WO2023279691A1 (zh) 语音分类方法、模型训练方法及装置、设备、介质和程序
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
Sen et al. A convolutional neural network based approach to recognize bangla spoken digits from speech signal
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN115101076A (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210326