CN114420151B - 基于并联张量分解卷积神经网络的语音情感识别方法 - Google Patents
基于并联张量分解卷积神经网络的语音情感识别方法 Download PDFInfo
- Publication number
- CN114420151B CN114420151B CN202210069622.4A CN202210069622A CN114420151B CN 114420151 B CN114420151 B CN 114420151B CN 202210069622 A CN202210069622 A CN 202210069622A CN 114420151 B CN114420151 B CN 114420151B
- Authority
- CN
- China
- Prior art keywords
- tensor
- convolutional neural
- neural network
- tensor decomposition
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 210
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000008451 emotion Effects 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 73
- 206010063659 Aversion Diseases 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 206010048909 Boredom Diseases 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 5
- 241000540325 Prays epsilon Species 0.000 description 3
- 241001334134 Rugopharynx epsilon Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Child & Adolescent Psychology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Hospice & Palliative Care (AREA)
- Image Analysis (AREA)
Abstract
一种基于并联张量分解卷积神经网络的语音情感识别方法,由数据集预处理、提取特征、构建并联张量分解卷积神经网络、训练并联张量分解卷积神经网络、测试并联张量分解卷积神经网络、识别和分类语音情感步骤组成。本发明采用了并联张量分解卷积神经网络,解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征信息的技术问题;提升了语音情感识别的准确率和学习语音的多尺度特征,减小参数大小,缩短了网络训练时间。本发明具有识别准确率高、网络稳定、提取信息完整、模型训练时间短等优点,可用于识别与分类语音情感。
Description
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对语音情感进行识别。
背景技术
语音中包含许多能反映情感特征的参数,所以它可以有效地表达情感。传统的语音情感识别方法是从语音情感中提取浅层特征,但浅层特征的提取和识别往往需要人工统计,需要很强的专业知识,还消耗大量的体力劳动,通常忽略高级特征的提取。随着深度学习的广泛使用,特征提取的手段从手工制作的传统特征转移到利用深度神经网络来自动提取深度特征。在语音情感识别中,利用卷积神经网络从频谱图中提取特征并将其分类为不同的情感标签。
在语音信号处理及人工智能技术领域,当前需迫切解决的一个技术问题是提供一种语音情感识别准确、识别率高、网络稳定性高的语音情感识别方法。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性高的基于并联张量分解卷积神经网络的语音情感识别方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。
1)将柏林语音数据集按照4:1的比例分成训练集、测试集。
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1]。
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征。
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试。
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd。
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
在本发明的(3)构建并联张量分解卷积神经网络的步骤中,所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
在本发明的(3)构建并联张量分解卷积神经网络的步骤中,所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成;所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。
本发明的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1;所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
在本发明的(4)训练并联张量分解卷积神经网络中,所述的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
所述的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1(αNU(1))×2(αN-1U(2))×3…×N(α1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1)。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Di(χatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
由于本发明采用了Mel频谱图和调制谱图在语音中表示互补信息,采用了并联张量分解卷积神经网络,用Mel频谱图提取局部特征、调制谱图提取上下文特征,解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征的技术问题。采用第一张量残差注意力网络、第一二维张量分解卷积神经网络、第二张量残差注意力网络、第二二维张量分解卷积神经网络、三维张量分解卷积神经网络,构建并联张量分解卷积神经网络,对语音情感进行识别和分类。训练并联张量分解卷积神经网络时,采用张量残差注意力网络提取语音中的有效信息,提升语音情感识别的准确率,采用张量分解卷积神经网络动态缩放策略在网络开始和结束前增加上采样和下采样,学习语音的多尺度特征,减小参数大小,节省模型训练时间。采用本发明与现有的语音情感识别方法进行了对比实验,对比实验结果表明,本发明方法具有语音情感识别准确率高、网络稳定性强、提取信息完整等优点,可用于语音情感识别与分类。
附图说明
图1是本发明实施例1的流程图。
图2是并联张量分解卷积神经网络的结构示意图。
图3是图2中第一张量残差注意力网络的结构示意图。
图4是图2中第一二维张量分解卷积神经网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,但本发明不限于下述的实施方式。
实施例1
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成(参见图1):
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。
1)将柏林语音数据集按照4:1的比例分成训练集、测试集。
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1]。
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提梅尔频谱图特征和调制谱图特征,时频转换的方法已在《基于深度学习的语音情感识别研究,汪炳元硕士学位论文(哈尔滨工业大学)》、《基于深度神经网络的病理噪音分类研究,谢思敏硕士学位论文(武汉理工大学)》公开。
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。
如图2所示,本实施例的第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
如图3所示,本实施例的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。
本实施例的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
如图4所示,本实施例的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成。本实施例的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1。第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
本实施例的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络的结构与第一二维张量分解卷积神经网络的结构相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数,m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-4,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-4,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1(αNU(1))×2(αN-1U(2))×3…×N(α1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N},对二阶张量分解,n取1,2,三阶张量分解,n取1,2,3。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.5。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Di(χatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试。
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd。
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
实施例2
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成:
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建并联张量分解卷积神经网络
该步骤与实施例1相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数,m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-5,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-5,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.01。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Di(χatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
其它步骤与实施例1相同。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
实施例3
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成:
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建并联张量分解卷积神经网络
该步骤与实施例1相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-3,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-3,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,βn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.95。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上下采样函数的输入,σ是非线性激活函数,Di(χatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
其它步骤与实施例1相同。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
为了验证本发明的有益效果,发明人采用本发明实施例1的并联张量分解卷积神经网络的语音情感识别方法与卷积神经网络和长短时记忆网络(以下简称CNN+LSTM)、张量分解卷积神经网络(以下简称TFNN)、注意力机制的张量分解卷积神经网络(以下简称TFNN+Att)进行了对比实验,计算准确率、召回率,实验结果见表1。
表1本发明与3种方法的对比实验结果表
实验方法 | 准确率P(%) | 召回率R(%) |
CNN+LSTM | 60.8 | 60.9 |
TFNN | 61.5 | 58.8 |
TFNN+Att | 63.3 | 62.6 |
本发明方法 | 64.7 | 66.3 |
由表1可见,本发明方法比CNN+LSTM的准确率提高3.9%、召回率提高5.4%,比TFNN方法的准确率提高3.2%、、召回率提高7.5%,比TFNN+Att方法准确率提高1.4%、召回率提高3.7%。
Claims (7)
1.一种基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于它是由下述步骤组成:
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中;
1)将柏林语音数据集按照4:1的比例分成训练集、测试集;
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1];
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征;
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成;
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535};
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0;
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛;
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试;
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd;
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
2.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(3)构建并联张量分解卷积神经网络的步骤中,所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
3.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成;
所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1;
所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1;
所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
4.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(3)构建并联张量分解卷积神经网络的步骤中,所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成;所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。
5.根据权利要求4所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1;所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
6.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(4)训练并联张量分解卷积神经网络中,所述的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
7.根据权利要求6述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1(αNU(1))×2(αN-1U(2))×3…×N(α1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N};
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1);
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Di(χatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069622.4A CN114420151B (zh) | 2022-01-21 | 2022-01-21 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069622.4A CN114420151B (zh) | 2022-01-21 | 2022-01-21 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114420151A CN114420151A (zh) | 2022-04-29 |
CN114420151B true CN114420151B (zh) | 2024-05-31 |
Family
ID=81274421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210069622.4A Active CN114420151B (zh) | 2022-01-21 | 2022-01-21 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420151B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI801316B (zh) * | 2022-07-07 | 2023-05-01 | 財團法人工業技術研究院 | 加速典範多元分解的電子裝置和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN110718234A (zh) * | 2019-09-02 | 2020-01-21 | 江苏师范大学 | 基于语义分割编解码网络的声学场景分类方法 |
CN111009259A (zh) * | 2018-10-08 | 2020-04-14 | 杭州海康慧影科技有限公司 | 一种音频处理方法和装置 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
WO2020156028A1 (zh) * | 2019-01-28 | 2020-08-06 | 南京航空航天大学 | 一种基于深度学习的室外非固定场景天气识别方法 |
-
2022
- 2022-01-21 CN CN202210069622.4A patent/CN114420151B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009259A (zh) * | 2018-10-08 | 2020-04-14 | 杭州海康慧影科技有限公司 | 一种音频处理方法和装置 |
WO2020156028A1 (zh) * | 2019-01-28 | 2020-08-06 | 南京航空航天大学 | 一种基于深度学习的室外非固定场景天气识别方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN110718234A (zh) * | 2019-09-02 | 2020-01-21 | 江苏师范大学 | 基于语义分割编解码网络的声学场景分类方法 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积网络和谱图的语音情感识别;张家铭;王晓曼;景文博;;长春理工大学学报(自然科学版);20200215(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114420151A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106895975B (zh) | 基于Stacked SAE深度神经网络的轴承故障诊断方法 | |
AU2020104006A4 (en) | Radar target recognition method based on feature pyramid lightweight convolutional neural network | |
CN109410917B (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN110751044B (zh) | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 | |
CN111429947B (zh) | 一种基于多级残差卷积神经网络的语音情感识别方法 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN114863938B (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN115290326A (zh) | 一种滚动轴承故障智能诊断方法 | |
CN112307760A (zh) | 基于深度学习的财务报告情感分析方法、装置及终端 | |
CN114420151B (zh) | 基于并联张量分解卷积神经网络的语音情感识别方法 | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN113283519A (zh) | 一种基于离散系数的深度神经网络近似模型分析方法 | |
CN108898157B (zh) | 基于卷积神经网络的数值型数据的雷达图表示的分类方法 | |
CN116593980B (zh) | 雷达目标识别模型训练方法、雷达目标识别方法及装置 | |
CN112541082A (zh) | 一种文本情感分类方法及系统 | |
CN115979643A (zh) | 一种滚动轴承故障诊断方法及系统 | |
CN113468874B (zh) | 一种基于图卷积自编码的生物医学关系抽取方法 | |
CN114969511A (zh) | 基于分片的内容推荐方法、设备及介质 | |
CN115293248A (zh) | 基于DenseNet神经网络的智能工业机械故障诊断方法及装置 | |
CN115034314A (zh) | 一种系统故障检测方法、装置、移动终端及存储介质 | |
CN113823292A (zh) | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 | |
CN112465054A (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN112000800A (zh) | 基于汉字构词法的中文舆情监测方法 | |
CN114861728B (zh) | 一种基于融合-收缩堆栈降噪自编器特征的故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |