CN114420151B - 基于并联张量分解卷积神经网络的语音情感识别方法 - Google Patents

基于并联张量分解卷积神经网络的语音情感识别方法 Download PDF

Info

Publication number
CN114420151B
CN114420151B CN202210069622.4A CN202210069622A CN114420151B CN 114420151 B CN114420151 B CN 114420151B CN 202210069622 A CN202210069622 A CN 202210069622A CN 114420151 B CN114420151 B CN 114420151B
Authority
CN
China
Prior art keywords
tensor
convolutional neural
neural network
tensor decomposition
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210069622.4A
Other languages
English (en)
Other versions
CN114420151A (zh
Inventor
郭敏
林雪
马苗
李志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202210069622.4A priority Critical patent/CN114420151B/zh
Publication of CN114420151A publication Critical patent/CN114420151A/zh
Application granted granted Critical
Publication of CN114420151B publication Critical patent/CN114420151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Image Analysis (AREA)

Abstract

一种基于并联张量分解卷积神经网络的语音情感识别方法,由数据集预处理、提取特征、构建并联张量分解卷积神经网络、训练并联张量分解卷积神经网络、测试并联张量分解卷积神经网络、识别和分类语音情感步骤组成。本发明采用了并联张量分解卷积神经网络,解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征信息的技术问题;提升了语音情感识别的准确率和学习语音的多尺度特征,减小参数大小,缩短了网络训练时间。本发明具有识别准确率高、网络稳定、提取信息完整、模型训练时间短等优点,可用于识别与分类语音情感。

Description

基于并联张量分解卷积神经网络的语音情感识别方法
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对语音情感进行识别。
背景技术
语音中包含许多能反映情感特征的参数,所以它可以有效地表达情感。传统的语音情感识别方法是从语音情感中提取浅层特征,但浅层特征的提取和识别往往需要人工统计,需要很强的专业知识,还消耗大量的体力劳动,通常忽略高级特征的提取。随着深度学习的广泛使用,特征提取的手段从手工制作的传统特征转移到利用深度神经网络来自动提取深度特征。在语音情感识别中,利用卷积神经网络从频谱图中提取特征并将其分类为不同的情感标签。
在语音信号处理及人工智能技术领域,当前需迫切解决的一个技术问题是提供一种语音情感识别准确、识别率高、网络稳定性高的语音情感识别方法。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性高的基于并联张量分解卷积神经网络的语音情感识别方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。
1)将柏林语音数据集按照4:1的比例分成训练集、测试集。
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1]。
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征。
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试。
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
在本发明的(3)构建并联张量分解卷积神经网络的步骤中,所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
在本发明的(3)构建并联张量分解卷积神经网络的步骤中,所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成;所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。
本发明的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1;所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
在本发明的(4)训练并联张量分解卷积神经网络中,所述的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
所述的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1NU(1)2N-1U(2)3…×N1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1)。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Diatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
由于本发明采用了Mel频谱图和调制谱图在语音中表示互补信息,采用了并联张量分解卷积神经网络,用Mel频谱图提取局部特征、调制谱图提取上下文特征,解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征的技术问题。采用第一张量残差注意力网络、第一二维张量分解卷积神经网络、第二张量残差注意力网络、第二二维张量分解卷积神经网络、三维张量分解卷积神经网络,构建并联张量分解卷积神经网络,对语音情感进行识别和分类。训练并联张量分解卷积神经网络时,采用张量残差注意力网络提取语音中的有效信息,提升语音情感识别的准确率,采用张量分解卷积神经网络动态缩放策略在网络开始和结束前增加上采样和下采样,学习语音的多尺度特征,减小参数大小,节省模型训练时间。采用本发明与现有的语音情感识别方法进行了对比实验,对比实验结果表明,本发明方法具有语音情感识别准确率高、网络稳定性强、提取信息完整等优点,可用于语音情感识别与分类。
附图说明
图1是本发明实施例1的流程图。
图2是并联张量分解卷积神经网络的结构示意图。
图3是图2中第一张量残差注意力网络的结构示意图。
图4是图2中第一二维张量分解卷积神经网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,但本发明不限于下述的实施方式。
实施例1
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成(参见图1):
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。
1)将柏林语音数据集按照4:1的比例分成训练集、测试集。
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1]。
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提梅尔频谱图特征和调制谱图特征,时频转换的方法已在《基于深度学习的语音情感识别研究,汪炳元硕士学位论文(哈尔滨工业大学)》、《基于深度神经网络的病理噪音分类研究,谢思敏硕士学位论文(武汉理工大学)》公开。
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。
如图2所示,本实施例的第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
如图3所示,本实施例的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。
本实施例的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
如图4所示,本实施例的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成。本实施例的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1。第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
本实施例的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络的结构与第一二维张量分解卷积神经网络的结构相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数,m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-4,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-4,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1NU(1)2N-1U(2)3…×N1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N},对二阶张量分解,n取1,2,三阶张量分解,n取1,2,3。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.5。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Diatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试。
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
实施例2
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成:
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建并联张量分解卷积神经网络
该步骤与实施例1相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数,m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-5,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-5,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.01。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Diatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
其它步骤与实施例1相同。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
实施例3
本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成:
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建并联张量分解卷积神经网络
该步骤与实施例1相同。
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535}。
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0,本实施例的P、R、T、F、Q是在运算中得到的参数。。
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-3,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],本实施例并联张量分解卷积神经网络学习率r为10-3,优化器采用Adam优化器,迭代至损失函数L收敛。
本实施例的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,βn是非线性权重,n∈{1,2,...,N}。
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中,y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1),本实施例的β取值为0.95。
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上下采样函数的输入,σ是非线性激活函数,Diatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
其它步骤与实施例1相同。
完成基于并联张量分解卷积神经网络的语音情感识别方法。
为了验证本发明的有益效果,发明人采用本发明实施例1的并联张量分解卷积神经网络的语音情感识别方法与卷积神经网络和长短时记忆网络(以下简称CNN+LSTM)、张量分解卷积神经网络(以下简称TFNN)、注意力机制的张量分解卷积神经网络(以下简称TFNN+Att)进行了对比实验,计算准确率、召回率,实验结果见表1。
表1本发明与3种方法的对比实验结果表
实验方法 准确率P(%) 召回率R(%)
CNN+LSTM 60.8 60.9
TFNN 61.5 58.8
TFNN+Att 63.3 62.6
本发明方法 64.7 66.3
由表1可见,本发明方法比CNN+LSTM的准确率提高3.9%、召回率提高5.4%,比TFNN方法的准确率提高3.2%、、召回率提高7.5%,比TFNN+Att方法准确率提高1.4%、召回率提高3.7%。

Claims (7)

1.一种基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于它是由下述步骤组成:
(1)数据集预处理
取柏林语音数据集语音535个,共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中;
1)将柏林语音数据集按照4:1的比例分成训练集、测试集;
2)将训练集切成大小为50000个样本,每个样本为3.12秒的等尺寸语音片段,并将等尺寸语音片段归一化到[0,1];
(2)提取特征
采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征;
(3)构建并联张量分解卷积神经网络
并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成;
(4)训练并联张量分解卷积神经网络
1)确定目标函数
目标函数包括损失函数L和评价函数F1,按下式确定损失函数L:
其中,X表示真实值,X∈{x1,x2,...xm},Y表示预测值,Y∈{y1,y2,...ym},m是元素的个数、m∈{1,2,...,535};
按下式确定的评价函数F1:
其中,P是准确率,P∈[0,1],R是召回率,R∈[0,1],T是真阳性,T∈[0,1],F是假阳性,F∈[0,1],Q是假阴性,Q∈[0,1],且P、R、T、F、Q不同时为0;
2)训练并联张量分解卷积神经网络
将训练集送入到并联张量分解卷积神经网络中进行训练,在训练的过程中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛;
(5)测试并联张量分解卷积神经网络
将测试集输入到并联张量分解卷积神经网络中进行测试;
(6)识别和分类语音情感
将提取到的语音特征输入并联张量分解卷积神经网络中,使用常规softmax激活函数进行回归得到不同情感的概率值如下:
高兴概率wh、生气概率wa、悲伤概率wsa、害怕概率wf、中性概率wn、无聊概率wsu、厌恶概率wd
设置不同的情感权值:高兴权值ph、生气权值pa、悲伤权值psa、害怕权值pf、中性权值pn、无聊权值psu、厌恶权值pd,按下式对语音进行情感识别分类,得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感:
E=Max(wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd)
其中Max()表示取最大值,wh×ph,wa×pa,wsa×psa,wf×pf,wn×pn,wsu×psu,wd×pd分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。
2.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(3)构建并联张量分解卷积神经网络的步骤中,所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成;第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。
3.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成;
所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成,第一残差卷积层的卷积核大小为1×1步长为1,第二残差卷积层的卷积核大小为3×3步长为1,第三残差卷积层的卷积核大小为1×1步长为1;
所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成,第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1;
所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。
4.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(3)构建并联张量分解卷积神经网络的步骤中,所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成;所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。
5.根据权利要求4所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的第一张量分解卷积层1由2个卷积层构成,一个卷积层的卷积核大小为1×3步长为1,另一个卷积核的大小为3×1步长为1;所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。
6.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:在(4)训练并联张量分解卷积神经网络中,所述的训练并联张量分解卷积神经网络的具体方法如下:
将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解,送入第一张量残差注意力网络、第二张量残差注意力网络,学习注意力权重情感特征,将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征,输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征,将两个分支的高级特征拼接形成三维张量,送入三维张量分解卷积神经网络,提取语音情感特征,在训练步骤中,并联张量分解卷积神经网络学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L收敛。
7.根据权利要求6述的基于并联张量分解卷积神经网络的语音情感识别方法,其特征在于:所述的张量分解为非线性权重张量分解,将一个N阶张量χ分解为n个因子矩阵和1个核张量,N阶张量χ按下式确定:
χ=δ×1NU(1)2N-1U(2)3…×N1U(N))
其中,表示核张量,Jn≤In,/>表示模式-1至模式-n的因子矩阵,αn是非线性权重,n∈{1,2,...,N};
提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后,将因子矩阵投影得到特征张量δ1,通过第一残差网络、第二残差网络得到输出,按式(1)确定张量注意力特征张量δimp,按式(2)确定残差注意力张量δatt,按式(3)确定张量残差注意力网络的输出:
δimp=func(y) (1)
δatt=y⊙δimp (2)
χatt=δ1×β+δatt (3)
其中y为残差网络的输出,func()为卷积层和ReLU激活函数组成的非线性映射函数,⊙表示两个大小相等的矩阵的元素相乘,β为残差缩放因子,β∈(0,1);
将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层,进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2,对2个第一张量分解卷积层的卷积核进行张量分解,得到低秩子张量,用低秩子张量替换卷积神经网络中的卷积核,进入第一上采样层,按式(4)输出F(χatt),经三维张量分解卷积神经网络到全连接层,全连接层进行识别和分类,分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别:
其中q是要合并的分支数、q取值为2,Ti()是第一上采样函数的输入,σ是非线性激活函数,Diatt)表示含有χatt的第一下采样函数,Ui()是第一上采样函数。
CN202210069622.4A 2022-01-21 2022-01-21 基于并联张量分解卷积神经网络的语音情感识别方法 Active CN114420151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210069622.4A CN114420151B (zh) 2022-01-21 2022-01-21 基于并联张量分解卷积神经网络的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210069622.4A CN114420151B (zh) 2022-01-21 2022-01-21 基于并联张量分解卷积神经网络的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN114420151A CN114420151A (zh) 2022-04-29
CN114420151B true CN114420151B (zh) 2024-05-31

Family

ID=81274421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210069622.4A Active CN114420151B (zh) 2022-01-21 2022-01-21 基于并联张量分解卷积神经网络的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN114420151B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI801316B (zh) * 2022-07-07 2023-05-01 財團法人工業技術研究院 加速典範多元分解的電子裝置和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110718234A (zh) * 2019-09-02 2020-01-21 江苏师范大学 基于语义分割编解码网络的声学场景分类方法
CN111009259A (zh) * 2018-10-08 2020-04-14 杭州海康慧影科技有限公司 一种音频处理方法和装置
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
WO2020156028A1 (zh) * 2019-01-28 2020-08-06 南京航空航天大学 一种基于深度学习的室外非固定场景天气识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009259A (zh) * 2018-10-08 2020-04-14 杭州海康慧影科技有限公司 一种音频处理方法和装置
WO2020156028A1 (zh) * 2019-01-28 2020-08-06 南京航空航天大学 一种基于深度学习的室外非固定场景天气识别方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110718234A (zh) * 2019-09-02 2020-01-21 江苏师范大学 基于语义分割编解码网络的声学场景分类方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度卷积网络和谱图的语音情感识别;张家铭;王晓曼;景文博;;长春理工大学学报(自然科学版);20200215(01);全文 *

Also Published As

Publication number Publication date
CN114420151A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN106895975B (zh) 基于Stacked SAE深度神经网络的轴承故障诊断方法
AU2020104006A4 (en) Radar target recognition method based on feature pyramid lightweight convolutional neural network
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN110751044B (zh) 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN111429947B (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN114863938B (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN115290326A (zh) 一种滚动轴承故障智能诊断方法
CN112307760A (zh) 基于深度学习的财务报告情感分析方法、装置及终端
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN113283519A (zh) 一种基于离散系数的深度神经网络近似模型分析方法
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法
CN116593980B (zh) 雷达目标识别模型训练方法、雷达目标识别方法及装置
CN112541082A (zh) 一种文本情感分类方法及系统
CN115979643A (zh) 一种滚动轴承故障诊断方法及系统
CN113468874B (zh) 一种基于图卷积自编码的生物医学关系抽取方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN115293248A (zh) 基于DenseNet神经网络的智能工业机械故障诊断方法及装置
CN115034314A (zh) 一种系统故障检测方法、装置、移动终端及存储介质
CN113823292A (zh) 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
CN112000800A (zh) 基于汉字构词法的中文舆情监测方法
CN114861728B (zh) 一种基于融合-收缩堆栈降噪自编器特征的故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant