CN114420151B

CN114420151B - 基于并联张量分解卷积神经网络的语音情感识别方法

Info

Publication number: CN114420151B
Application number: CN202210069622.4A
Authority: CN
Inventors: 郭敏; 林雪; 马苗; 李志强
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2024-05-31
Anticipated expiration: 2042-01-21
Also published as: CN114420151A

Abstract

一种基于并联张量分解卷积神经网络的语音情感识别方法，由数据集预处理、提取特征、构建并联张量分解卷积神经网络、训练并联张量分解卷积神经网络、测试并联张量分解卷积神经网络、识别和分类语音情感步骤组成。本发明采用了并联张量分解卷积神经网络，解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征信息的技术问题；提升了语音情感识别的准确率和学习语音的多尺度特征，减小参数大小，缩短了网络训练时间。本发明具有识别准确率高、网络稳定、提取信息完整、模型训练时间短等优点，可用于识别与分类语音情感。

Description

基于并联张量分解卷积神经网络的语音情感识别方法

技术领域

本发明属于语音信号处理及人工智能技术领域，具体地涉及到对语音情感进行识别。

背景技术

语音中包含许多能反映情感特征的参数，所以它可以有效地表达情感。传统的语音情感识别方法是从语音情感中提取浅层特征，但浅层特征的提取和识别往往需要人工统计，需要很强的专业知识，还消耗大量的体力劳动，通常忽略高级特征的提取。随着深度学习的广泛使用，特征提取的手段从手工制作的传统特征转移到利用深度神经网络来自动提取深度特征。在语音情感识别中，利用卷积神经网络从频谱图中提取特征并将其分类为不同的情感标签。

在语音信号处理及人工智能技术领域，当前需迫切解决的一个技术问题是提供一种语音情感识别准确、识别率高、网络稳定性高的语音情感识别方法。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种语音情感识别准确、识别率高、网络稳定性高的基于并联张量分解卷积神经网络的语音情感识别方法。

解决上述技术问题所采用的技术方案步骤如下：

(1)数据集预处理

取柏林语音数据集语音535个，共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中。

1)将柏林语音数据集按照4：1的比例分成训练集、测试集。

2)将训练集切成大小为50000个样本，每个样本为3.12秒的等尺寸语音片段，并将等尺寸语音片段归一化到[0,1]。

(2)提取特征

采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征。

(3)构建并联张量分解卷积神经网络

并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成。

(4)训练并联张量分解卷积神经网络

1)确定目标函数

目标函数包括损失函数L和评价函数F1，按下式确定损失函数L：

其中，X表示真实值，X∈{x₁,x₂,...x_m}，Y表示预测值，Y∈{y₁,y₂,...y_m}，m是元素的个数、m∈{1,2,...,535}。

按下式确定的评价函数F1：

其中，P是准确率，P∈[0,1],R是召回率，R∈[0,1]，T是真阳性，T∈[0,1]，F是假阳性，F∈[0,1],Q是假阴性，Q∈[0,1]，且P、R、T、F、Q不同时为0。

2)训练并联张量分解卷积神经网络

将训练集送入到并联张量分解卷积神经网络中进行训练，在训练的过程中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，优化器采用Adam优化器，迭代至损失函数L收敛。

(5)测试并联张量分解卷积神经网络

将测试集输入到并联张量分解卷积神经网络中进行测试。

(6)识别和分类语音情感

将提取到的语音特征输入并联张量分解卷积神经网络中，使用常规softmax激活函数进行回归得到不同情感的概率值如下：

高兴概率w_h、生气概率w_a、悲伤概率w_sa、害怕概率w_f、中性概率w_n、无聊概率w_su、厌恶概率w_d。

设置不同的情感权值：高兴权值p_h、生气权值p_a、悲伤权值p_sa、害怕权值p_f、中性权值p_n、无聊权值p_su、厌恶权值p_d，按下式对语音进行情感识别分类，得到高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同的语音情感：

E＝Max(w_h×p_h,w_a×p_a,w_sa×p_sa,w_f×p_f,w_n×p_n,w_su×p_su,w_d×p_d)

其中Max()表示取最大值，w_h×p_h,w_a×p_a,w_sa×p_sa,w_f×p_f,w_n×p_n,w_su×p_su,w_d×p_d分别表示加权后的高兴概率、生气概率、悲伤概率、害怕概率、中性概率、无聊概率、厌恶概率。

在本发明的(3)构建并联张量分解卷积神经网络的步骤中，所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成；第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。

所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成，第一残差卷积层的卷积核大小为1×1步长为1，第二残差卷积层的卷积核大小为3×3步长为1，第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成，第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。

在本发明的(3)构建并联张量分解卷积神经网络的步骤中，所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成；所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。

本发明的第一张量分解卷积层1由2个卷积层构成，一个卷积层的卷积核大小为1×3步长为1，另一个卷积核的大小为3×1步长为1；所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。

在本发明的(4)训练并联张量分解卷积神经网络中，所述的训练并联张量分解卷积神经网络的具体方法如下：

将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解，送入第一张量残差注意力网络、第二张量残差注意力网络，学习注意力权重情感特征，将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征，输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征，将两个分支的高级特征拼接形成三维张量，送入三维张量分解卷积神经网络，提取语音情感特征，在训练步骤中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，优化器采用Adam优化器，迭代至损失函数L收敛。

所述的张量分解为非线性权重张量分解，将一个N阶张量χ分解为n个因子矩阵和1个核张量，N阶张量χ按下式确定：

χ＝δ×₁(α_NU⁽¹⁾)×₂(α_N-1U⁽²⁾)×₃…×_N(α₁U^(N))

其中，表示核张量，J_n≤I_n，/>表示模式-1至模式-n的因子矩阵，α_n是非线性权重，n∈{1,2,...,N}。

提取的梅尔频谱图特征和调制谱图特征分别进行二维张量分解后，将因子矩阵投影得到特征张量δ₁，通过第一残差网络、第二残差网络得到输出，按式(1)确定张量注意力特征张量δ_imp，按式(2)确定残差注意力张量δ_att，按式(3)确定张量残差注意力网络的输出：

δ_imp＝func(y) (1)

δ_att＝y⊙δ_imp (2)

χ_att＝δ₁×β+δ_att (3)

其中，y为残差网络的输出，func()为卷积层和ReLU激活函数组成的非线性映射函数，⊙表示两个大小相等的矩阵的元素相乘，β为残差缩放因子，β∈(0,1)。

将第一张量残差注意力网络输出的特征信号送入第一二维张量分解卷积神经网络的第一下采样层，进入第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2，对2个第一张量分解卷积层的卷积核进行张量分解，得到低秩子张量，用低秩子张量替换卷积神经网络中的卷积核，进入第一上采样层，按式(4)输出F(χ_att)，经三维张量分解卷积神经网络到全连接层，全连接层进行识别和分类，分成高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别：

其中q是要合并的分支数、q取值为2，T_i()是第一上采样函数的输入，σ是非线性激活函数，D_i(χ_att)表示含有χ_att的第一下采样函数，U_i()是第一上采样函数。

由于本发明采用了Mel频谱图和调制谱图在语音中表示互补信息，采用了并联张量分解卷积神经网络，用Mel频谱图提取局部特征、调制谱图提取上下文特征，解决了卷积神经网络在提取特征时只能捕获局部特征而无法捕获上下文特征的技术问题。采用第一张量残差注意力网络、第一二维张量分解卷积神经网络、第二张量残差注意力网络、第二二维张量分解卷积神经网络、三维张量分解卷积神经网络，构建并联张量分解卷积神经网络，对语音情感进行识别和分类。训练并联张量分解卷积神经网络时，采用张量残差注意力网络提取语音中的有效信息，提升语音情感识别的准确率，采用张量分解卷积神经网络动态缩放策略在网络开始和结束前增加上采样和下采样，学习语音的多尺度特征，减小参数大小，节省模型训练时间。采用本发明与现有的语音情感识别方法进行了对比实验，对比实验结果表明，本发明方法具有语音情感识别准确率高、网络稳定性强、提取信息完整等优点，可用于语音情感识别与分类。

附图说明

图1是本发明实施例1的流程图。

图2是并联张量分解卷积神经网络的结构示意图。

图3是图2中第一张量残差注意力网络的结构示意图。

图4是图2中第一二维张量分解卷积神经网络的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，但本发明不限于下述的实施方式。

实施例1

本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成(参见图1)：

(1)数据集预处理

1)将柏林语音数据集按照4：1的比例分成训练集、测试集。

(2)提取特征

采用时频转换的方法从等尺寸语音片段中提梅尔频谱图特征和调制谱图特征，时频转换的方法已在《基于深度学习的语音情感识别研究，汪炳元硕士学位论文(哈尔滨工业大学)》、《基于深度神经网络的病理噪音分类研究，谢思敏硕士学位论文(武汉理工大学)》公开。

(3)构建并联张量分解卷积神经网络

如图2所示，本实施例的第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成；第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。

如图3所示，本实施例的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成。所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成，第一残差卷积层的卷积核大小为1×1步长为1，第二残差卷积层的卷积核大小为3×3步长为1，第三残差卷积层的卷积核大小为1×1步长为1。所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成，第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1。

本实施例的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。

如图4所示，本实施例的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成。本实施例的第一张量分解卷积层1由2个卷积层构成，一个卷积层的卷积核大小为1×3步长为1，另一个卷积核的大小为3×1步长为1。第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。

本实施例的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络的结构与第一二维张量分解卷积神经网络的结构相同。

(4)训练并联张量分解卷积神经网络

1)确定目标函数

其中，X表示真实值，X∈{x₁,x₂,...x_m}，Y表示预测值，Y∈{y₁,y₂,...y_m}，m是元素的个数，m∈{1,2,...,535}。

按下式确定的评价函数F1：

其中，P是准确率，P∈[0,1],R是召回率，R∈[0,1]，T是真阳性，T∈[0,1]，F是假阳性，F∈[0,1],Q是假阴性，Q∈[0,1]，且P、R、T、F、Q不同时为0，本实施例的P、R、T、F、Q是在运算中得到的参数。

2)训练并联张量分解卷积神经网络

将训练集送入到并联张量分解卷积神经网络中进行训练，在训练的过程中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-4，优化器采用Adam优化器，迭代至损失函数L收敛。

本实施例的训练并联张量分解卷积神经网络的具体方法如下：

将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解，送入第一张量残差注意力网络、第二张量残差注意力网络，学习注意力权重情感特征，将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征，输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征，将两个分支的高级特征拼接形成三维张量，送入三维张量分解卷积神经网络，提取语音情感特征，在训练步骤中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-4，优化器采用Adam优化器，迭代至损失函数L收敛。

本实施例的张量分解为非线性权重张量分解，将一个N阶张量χ分解为n个因子矩阵和1个核张量，N阶张量χ按下式确定：

χ＝δ×₁(α_NU⁽¹⁾)×₂(α_N-1U⁽²⁾)×₃…×_N(α₁U^(N))

其中，表示核张量，J_n≤I_n，/>表示模式-1至模式-n的因子矩阵，α_n是非线性权重，n∈{1,2,...,N}，对二阶张量分解，n取1,2，三阶张量分解，n取1,2,3。

δ_imp＝func(y) (1)

δ_att＝y⊙δ_imp (2)

χ_att＝δ₁×β+δ_att (3)

y为残差网络的输出，func()为卷积层和ReLU激活函数组成的非线性映射函数，⊙表示两个大小相等的矩阵的元素相乘，β为残差缩放因子，β∈(0,1)，本实施例的β取值为0.5。

(5)测试并联张量分解卷积神经网络

将测试集输入到并联张量分解卷积神经网络中进行测试。

(6)识别和分类语音情感

E＝Max(w_h×p_h,w_a×p_a,w_sa×p_sa,w_f×p_f,w_n×p_n,w_su×p_su,w_d×p_d)

完成基于并联张量分解卷积神经网络的语音情感识别方法。

实施例2

本实施例的基于并联张量分解卷积神经网络的语音情感识别方法由下述步骤组成：

(1)数据集预处理

该步骤与实施例1相同。

(2)提取特征

该步骤与实施例1相同。

(3)构建并联张量分解卷积神经网络

该步骤与实施例1相同。

(4)训练并联张量分解卷积神经网络

1)确定目标函数

按下式确定的评价函数F1：

2)训练并联张量分解卷积神经网络

将训练集送入到并联张量分解卷积神经网络中进行训练，在训练的过程中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-5，优化器采用Adam优化器，迭代至损失函数L收敛。

将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解，送入第一张量残差注意力网络、第二张量残差注意力网络，学习注意力权重情感特征，将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征，输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征，将两个分支的高级特征拼接形成三维张量，送入三维张量分解卷积神经网络，提取语音情感特征，在训练步骤中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-5，优化器采用Adam优化器，迭代至损失函数L收敛。

δ_imp＝func(y) (1)

δ_att＝y⊙δ_imp (2)

χ_att＝δ₁×β+δ_att (3)

其中，y为残差网络的输出，func()为卷积层和ReLU激活函数组成的非线性映射函数，⊙表示两个大小相等的矩阵的元素相乘，β为残差缩放因子，β∈(0,1)，本实施例的β取值为0.01。

其它步骤与实施例1相同。

完成基于并联张量分解卷积神经网络的语音情感识别方法。

实施例3

(1)数据集预处理

该步骤与实施例1相同。

(2)提取特征

该步骤与实施例1相同。

(3)构建并联张量分解卷积神经网络

该步骤与实施例1相同。

(4)训练并联张量分解卷积神经网络

1)确定目标函数

按下式确定的评价函数F1：

其中，P是准确率，P∈[0,1],R是召回率，R∈[0,1]，T是真阳性，T∈[0,1]，F是假阳性，F∈[0,1],Q是假阴性，Q∈[0,1]，且P、R、T、F、Q不同时为0，本实施例的P、R、T、F、Q是在运算中得到的参数。。

2)训练并联张量分解卷积神经网络

将训练集送入到并联张量分解卷积神经网络中进行训练，在训练的过程中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-3，优化器采用Adam优化器，迭代至损失函数L收敛。

将提取的梅尔频谱图特征和调制谱图特征分别进行张量分解，送入第一张量残差注意力网络、第二张量残差注意力网络，学习注意力权重情感特征，将第一张量残差注意力网络、第二张量残差注意力网络输出的语音特征，输入第一二维张量分解卷积神经网络、第二二维张量分解卷积神经网络中提取高级特征，将两个分支的高级特征拼接形成三维张量，送入三维张量分解卷积神经网络，提取语音情感特征，在训练步骤中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，本实施例并联张量分解卷积神经网络学习率r为10^-3，优化器采用Adam优化器，迭代至损失函数L收敛。

其中，表示核张量，J_n≤I_n，/>表示模式-1至模式-n的因子矩阵，β_n是非线性权重，n∈{1,2,...,N}。

δ_imp＝func(y) (1)

δ_att＝y⊙δ_imp (2)

χ_att＝δ₁×β+δ_att (3)

其中，y为残差网络的输出，func()为卷积层和ReLU激活函数组成的非线性映射函数，⊙表示两个大小相等的矩阵的元素相乘，β为残差缩放因子，β∈(0,1)，本实施例的β取值为0.95。

其中q是要合并的分支数、q取值为2，T_i()是第一上下采样函数的输入，σ是非线性激活函数，D_i(χ_att)表示含有χ_att的第一下采样函数，U_i()是第一上采样函数。

其它步骤与实施例1相同。

完成基于并联张量分解卷积神经网络的语音情感识别方法。

为了验证本发明的有益效果，发明人采用本发明实施例1的并联张量分解卷积神经网络的语音情感识别方法与卷积神经网络和长短时记忆网络(以下简称CNN+LSTM)、张量分解卷积神经网络(以下简称TFNN)、注意力机制的张量分解卷积神经网络(以下简称TFNN+Att)进行了对比实验，计算准确率、召回率，实验结果见表1。

表1本发明与3种方法的对比实验结果表

实验方法	准确率P(％)	召回率R(％)
			CNN+LSTM	60.8	60.9
TFNN	61.5	58.8
			TFNN+Att	63.3	62.6
本发明方法	64.7	66.3

由表1可见，本发明方法比CNN+LSTM的准确率提高3.9％、召回率提高5.4％，比TFNN方法的准确率提高3.2％、、召回率提高7.5％，比TFNN+Att方法准确率提高1.4％、召回率提高3.7％。

Claims

1.一种基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于它是由下述步骤组成：

(1)数据集预处理

取柏林语音数据集语音535个，共分布在高兴、生气、悲伤、害怕、中性、无聊、厌恶七种不同情感类别中；

1)将柏林语音数据集按照4：1的比例分成训练集、测试集；

2)将训练集切成大小为50000个样本，每个样本为3.12秒的等尺寸语音片段，并将等尺寸语音片段归一化到[0,1]；

(2)提取特征

采用时频转换的方法从等尺寸语音片段中提取梅尔频谱图特征和调制谱图特征；

(3)构建并联张量分解卷积神经网络

并联张量分解卷积神经网络由第一张量分解卷积神经网络、第二张量分解卷积神经网络并联经三维张量分解卷积神经网络与全连接层相连构成；

(4)训练并联张量分解卷积神经网络

1)确定目标函数

其中，X表示真实值，X∈{x₁,x₂,...x_m}，Y表示预测值，Y∈{y₁,y₂,...y_m}，m是元素的个数、m∈{1,2,...,535}；

按下式确定的评价函数F1：

其中，P是准确率，P∈[0,1],R是召回率，R∈[0,1]，T是真阳性，T∈[0,1]，F是假阳性，F∈[0,1],Q是假阴性，Q∈[0,1]，且P、R、T、F、Q不同时为0；

2)训练并联张量分解卷积神经网络

将训练集送入到并联张量分解卷积神经网络中进行训练，在训练的过程中，并联张量分解卷积神经网络学习率r∈[10^-5,10^-3]，优化器采用Adam优化器，迭代至损失函数L收敛；

(5)测试并联张量分解卷积神经网络

将测试集输入到并联张量分解卷积神经网络中进行测试；

(6)识别和分类语音情感

高兴概率w_h、生气概率w_a、悲伤概率w_sa、害怕概率w_f、中性概率w_n、无聊概率w_su、厌恶概率w_d；

E＝Max(w_h×p_h,w_a×p_a,w_sa×p_sa,w_f×p_f,w_n×p_n,w_su×p_su,w_d×p_d)

2.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：在(3)构建并联张量分解卷积神经网络的步骤中，所述第一张量分解卷积神经网络由第一张量残差注意力网络与第一二维张量分解卷积神经网络串联构成；第二张量分解卷积神经网络由第二张量残差注意力网络与第二二维张量分解卷积神经网络串联构成。

3.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：所述的第一张量残差注意力网络由第一残差网络与第一张量注意力网络串联构成；

所述的第一残差网络由第一残差卷积层与第二残差卷积层、第三残差卷积层依次串联构成，第一残差卷积层的卷积核大小为1×1步长为1，第二残差卷积层的卷积核大小为3×3步长为1，第三残差卷积层的卷积核大小为1×1步长为1；

所述的第一张量注意力网络由全局平均池化层与第一注意力卷积层、第二注意力卷积层依次串联构成，第一注意力卷积层的卷积核大小为1×1步长为1、第二注意力卷积层的卷积核大小为1×1步长为1；

所述的第二张量残差注意力网络的结构与第一张量残差注意力网络的结构相同。

4.根据权利要求2所述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：在(3)构建并联张量分解卷积神经网络的步骤中，所述的第一二维张量分解卷积神经网络由第一下采样层、第一张量分解卷积层1、第一池化层1、第一张量分解卷积层2、第一池化层2、第一上采样层依次串联构成；所述的第二二维张量分解卷积神经网络、三维张量分解卷积神经网络与第一二维张量分解卷积神经网络的结构相同。

5.根据权利要求4所述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：所述的第一张量分解卷积层1由2个卷积层构成，一个卷积层的卷积核大小为1×3步长为1，另一个卷积核的大小为3×1步长为1；所述的第一张量分解卷积层2的结构与第一张量分解卷积层1的结构相同。

6.根据权利要求1所述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：在(4)训练并联张量分解卷积神经网络中，所述的训练并联张量分解卷积神经网络的具体方法如下：

7.根据权利要求6述的基于并联张量分解卷积神经网络的语音情感识别方法，其特征在于：所述的张量分解为非线性权重张量分解，将一个N阶张量χ分解为n个因子矩阵和1个核张量，N阶张量χ按下式确定：

χ＝δ×₁(α_NU⁽¹⁾)×₂(α_N-1U⁽²⁾)×₃…×_N(α₁U^(N))

其中，表示核张量，J_n≤I_n，/>表示模式-1至模式-n的因子矩阵，α_n是非线性权重，n∈{1,2,...,N}；

δ_imp＝func(y) (1)

δ_att＝y⊙δ_imp (2)

χ_att＝δ₁×β+δ_att (3)

其中y为残差网络的输出，func()为卷积层和ReLU激活函数组成的非线性映射函数，⊙表示两个大小相等的矩阵的元素相乘，β为残差缩放因子，β∈(0,1)；