CN114898775B - 一种基于跨层交叉融合的语音情绪识别方法及系统 - Google Patents
一种基于跨层交叉融合的语音情绪识别方法及系统 Download PDFInfo
- Publication number
- CN114898775B CN114898775B CN202210451212.6A CN202210451212A CN114898775B CN 114898775 B CN114898775 B CN 114898775B CN 202210451212 A CN202210451212 A CN 202210451212A CN 114898775 B CN114898775 B CN 114898775B
- Authority
- CN
- China
- Prior art keywords
- voice
- layer
- emotion
- fusion
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 73
- 230000004927 fusion Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008451 emotion Effects 0.000 claims abstract description 59
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000002452 interceptive effect Effects 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 32
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 26
- 239000012634 fragment Substances 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨层交互融合的语音情绪识别方法及系统,所述方法包括:将待识别的语音切割分段后经特征提取得到原始声学特征;将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,所述多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;所述跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;所述情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别。本发明通过采用上述技术方案,可以有效提升语音情绪识别模型的识别精度。
Description
技术领域
本发明涉及语音信号处理及深度学习技术领域,特别涉及一种基于跨层交互融合的语音情绪识别方法及系统。
背景技术
语音情绪识别是指从语音信号中识别说话人的主要情绪状态。它是人机交互的重要组成部分,在医疗、教育、安全和国防等领域发挥着重要作用。深度学习加速了从言语中识别人类情绪的进程。许多基于卷积神经网络(CNN)和递归神经网络(RNN)的模型已经被探索。现有的基于神经网络的研究通常将声学特征作为深层神经网络的输入,提取高层特征以提高语音情绪识别的性能。与传统算法相比,它们在自动特征发现和识别精度方面有了显著的改进。此外注意力机制的应用使得语音情绪识别准确率有了显著的提升。
尽管现有的基于注意的方法已经取得了相对较好的性能,但自动语音情绪识别系统仍有改进的余地。一方面,深层神经网络中的不同层可以用来提取不同尺度的特征表示,这些不同尺度的特征对于语音情绪识别任务至关重要。然而,以往的语音情绪识别研究很少关注多尺度特征提取,而是侧重于神经网络的深层特征。另一方面,多尺度特征的有效融合具有重要意义。与传统的静态融合相比,交互式融合允许模型独立地学习潜在的关系。因此,为了获得足够的模型性能,感知多尺度特征并设计交互式融合机制是一个改进语音情绪识别准确率可行的研究思路。
一些在丰富数据及上训练好的开放获取深度神经网络具有非常强的特征学习能力,采用这样的预训练神经网络可以帮助模型学习到包含声学特征局部依赖性的多尺度中间特征。此外,对于深度卷积网络,浅层的感受野相对较小,因此保留了原始声学特征的更多细节,并且特征表示的分辨率较高。然而,浅层的整体情绪表征能力较弱。深层的感受野相对较大,因此细节特征被过滤掉,特征映射的分辨率较低。然而,整体情绪表征能力很强。因此,如果能有效融合浅层特征和深层特征,就能同时捕捉声学特征的细节和整体情绪特征。
发明内容
本发明的目的在于克服现有语音情绪识别方法存在的技术缺陷,提出了一种基于跨层交互融合的语音情绪识别方法及系统,该方法能够进行语音情绪识别,且提升了识别精度。
为了实现上述目的,本发明提出了一种基于跨层交互融合的语音情绪识别方法,所述方法包括:
将待识别的语音切割分段后经特征提取得到原始声学特征;
将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述情绪类别包括兴奋、悲伤、生气和中立;
所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,
所述多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;
所述跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;
所述情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别。
作为上述方法的一种改进,所述多尺度特征提取模块包括依次连接的卷积块、第一残差块、第二残差块、第三残差块和第四残差块;其中,
所述卷积块,用于提取原始声学特征的特征图;包括一个卷积核为(1,1),通道数为3的一维卷积层,一个卷积核为(7,7),通道数为64的二维卷积层以及一个采样核为(3,3)的最大池化层;
所述第一残差块的输入为特征图,输出为第一特征f0,所述第一残差块包括三个相同的第一模块,每个第一模块均包括一个卷积核为(1,1)、通道数为64的一维卷积层,一个卷积核为(3,3),通道数为64的二维卷积层,以及一个卷积核为(1,1),通道数为256的一维卷积层;
所述第二残差块的输入为第一特征f0,输出为第二特征f1,所述第二残差块包括四个相同的第二模块,每个第二模块均包括一个卷积核为(1,1),通道数为128的一维卷积层,一个卷积核为(3,3),通道数为128的二维卷积层,以及一个卷积核为(1,1),通道数为512的一维卷积层;
所述第三残差块的输入为第二特征f1,输出为第三特征f2,所述第三残差块包括六个相同的第三模块,每个第三模块均包括一个卷积核为(1,1),通道数为256的一维卷积层,一个卷积核为(3,3),通道数为256的二维卷积层,以及一个卷积核为(1,1),通道数为1024的一维卷积层;
所述第四残差块的输入为第三特征f2,输出为第四特征f3,所述第四残差块包括三个相同的第四模块,每个第四模块均包括一个卷积核为(1,1),通道数为512的一维卷积层,一个卷积核为(3,3),通道数为512的二维卷积层,以及一个卷积核为(1,1),通道数为2048的一维卷积层。
作为上述方法的一种改进,所述跨层交互融合模块的处理过程包括:
步骤3-1)采用转置卷积将第二特征f1,第三特征f2和第四特征f3,转换成与第一特征f0相同维度的第t特征对应的特征图ht,t∈[1,2,3];
步骤3-2)并对转换后的第二特征f1,第三特征f2和第四特征f3分别采用双视角注意力机制进行处理得到对应的双视角注意力计算;
步骤3-3)将步骤3-2)的三个双视角注意力计算结果经线性融合得到融合结果l。
作为上述方法的一种改进,所述步骤3-2)包括:
对特征图ht分为两路,一路经平均池化和线性处理得到归一化前的第一注意力分数v1t,另一路经最大池化和线性处理得到归一化前的第二注意力分数v2t;
根据下式得到通道注意力输出ut:
ut=σ(v1t+v2t)·ht
其中,σ是Sigmoid激活函数;
对通道注意力输出ut依次经平均池化操作和非线性激活函数处理得到区域注意力zt:
zt=σ(Conv1(Avg_Pooling(ut)))·ut
其中,Avg_Pooling表示平均池化操作,Conv1表示一维卷积操作。
作为上述方法的一种改进,所述归一化前的第一注意力分数v1t和归一化前的第二注意力分数v2t分别满足下式:
v1t=Wg(Relu(Ws(Avg_Pooling(ht))+bs))+bg
v2t=Wc(Relu(Wz(Max_Pooling(ht))+bz))+bc
其中,Max_Pooling表示最大池化操作,Relu表示激活函数,Ws和Wz分别是第一路和第二路的参数矩阵,bg和bs是第一路的两个偏置项,bc和bz是第二路的两个偏置项;
作为上述方法的一种改进,所述步骤3-3)处理过程包括:将双视角注意力计算的结果zt分别与第一特征f0相乘,并将乘积结果进行拼接,再进行2个二维卷积和2个Relu激活函数计算,根据下式得到融合结果l:
l=Relu(Conv3(Relu(Conv2([f0*z1,f0*z2,f0*z3]))))。
作为上述方法的一种改进,所述情绪识别模块包括全连接层,用于将融合结果l进行全连接操作得到一维向量y,根据表征对应不同情绪类别的置信度确定情绪类别。
作为上述方法的一种改进,所述方法还包括语音情绪识别模型的训练步骤;包括:
对语音训练集中的原始语音信号以设定的重叠率进行切割,得到设定时长的片段;
随机读取一组含n条设定时长的片段的语音信号,并提取每条语音的梅尔倒谱系数特征,得到n×26×63的原始声学特征;
将原始声学特征输入语音情绪识别模型,获取融合特征的分类编码输出,得到输入语音对应的预测情绪类别;根据预测情绪类别与真实的情绪类别进行损失计算,并采用梯度下降法对语音情绪识别模型中的参数进行更新,反复迭代,直至训练出最优参数组合,得到训练好的语音情绪识别模型。
作为上述方法的一种改进,所述根据预测情绪类别与真实的情绪类别进行损失计算;包括:
根据下式采用交叉熵求取真实标签与预测结果y之间的误差:
其中,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,Σ表示求和,n表示样本数量,i表示样本序号。
一种基于跨层交互融合的语音情绪识别系统,所述系统包括:语音情绪识别模型、数据预处理模块和情绪类别输出模块;其中,
所述数据预处理模块,用于将待识别的语音切割分段后经特征提取得到原始声学特征;
所述情绪类别输出模块,用于将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述情绪类别包括兴奋、悲伤、生气和中立;
所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,
所述多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;
所述跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;
所述情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别。
与现有方法相比,本发明的技术优势在于:
本发明提供的语音情绪识别技术方案,将原始语音切割成具有一定重叠率的语音片段,使得模型能去挖掘每个语音小片段中情绪信息,通过求所有小片段的平均分数的方式来求整条语音片段的预测值,采用预训练成熟的深度卷积神经网络来从原始声学特征中提取多尺度特征,这些特征既能包含声学特征中的细节情绪特征又能包含整体情绪特征;在此基础上,计算多尺度特征的双通道注意力,使得这些特征能具有更强的表征能力,最后通过线性融合的方式来将多尺度特征进行融合,这种线性融合的方式可以允许自动地模型去学习这些特征的潜在关系,最后由全连接层做出语音片段中属于的情绪类别的推理决策;在测试基准数据集时,本发明取得了超过现有方法的性能。
附图说明
图1为本发明提供的基于跨层交互融合的语音情绪识别方法整体流程示意图;
图2为语音情绪识别模型结构示意图;
图3为本发明提供的卷积块和四个残差块结构示意图。
具体实施方式
本发明公开了一种基于多尺度特征跨层交互融合的高精度语音情绪识别方法及系统。该方法包括:将原始语音切割成具有一定重叠率的语音片段,使得模型能去挖掘每个语音小片段中情绪信息,通过求所有小片段的平均分数的方式来求整条语音片段的预测值。采用预训练成熟的深度卷积神经网络来从原始声学特征中提取多尺度特征,这些特征既能包含声学特征中的细节情绪特征又能包含整体情绪特征。在此基础上,计算多尺度特征的双通道注意力,使得这些特征能具有更强的表征能力,最后通过线性融合的方式来将多尺度特征进行融合,这种线性融合的方式可以允许自动地模型去学习这些特征的潜在关系,最后由全连接层做出语音片段中属于的情绪类别的推理决策。
下面结合附图和具体实施来对本发明作进一步描述。
实施例1
如图1所示,本发明的实施例1提出了一种基于跨层交互融合的语音情绪识别方法。
被识别语音片段输入到模型中通过数据预处理模块、多尺度特征提取模块、跨层交互融合模块、情绪识别模块的计算,可以得到该语音片段的推理情绪类别。图2为本发明提供的一种基于跨层交互融合的语音情绪识别方法结构示意图,如图所示,本发明提出的语音情绪识别方法由四个模块构成。该模型的数据处理过程具体包括:
步骤1)数据预处理,通过数据预处理模块将语音训练集中的原始语音信号以50%的重叠率切割成2秒的片段,分割后的语音片段标签为该语音片段分割前的标签,分割过程中不足2秒的片段将会被丢弃,由此构建了一个每条语音均为2秒的新语音训练集;
步骤2)随机读取一组含n条2秒片段的语音信号,并提取每条语音的梅尔倒谱系数特征,得到n×26×63的原始声学特征,在具体实施过程中n为32,在后续训练过程中一组语音信号是梯度反向传播算法的一个参数更新单位;
步骤3)通过多尺度特征提取模块采用一个包含不同卷积核大小的深度卷积网络来提取输入特征的多尺度特征图,由此得到可以表征语音细节和整体情绪信息的四个具有不同尺度的特征f0,f1,f2,f3;
步骤4)通过跨层交互融合模块进行跨层交互融合的计算,将上述提到的特征进行特征转置,计算其双视角注意力,将得到的特征图进行线性融合拼接并计算其二维卷积;
步骤5)最后通过情绪识别模块将得到的高维特征通过全连接层,获取融合特征的分类编码输出,得到输入语音对应的预测情绪类别;情绪类别包括兴奋、悲伤、生气和中立;
步骤6)根据预测情绪类别与真实的情绪类别进行损失计算,并采用梯度下降法对模型中的参数进行更新,反复迭代,直至训练出最优参数组合;
步骤7)基于最优参数模型,对待被测试的语音进行情绪识别,其中,所述待被测试的语音不属于训练集所包含的语音。
如图2所示,本发明提出的跨层交互融合语音情绪识别模型由数据预处理模块、多尺度特征提取模块、跨层交互融合模块以及情绪识别模块构成。图中,“⊙”表示矩阵逐点相乘,表示矩阵相乘,/>表示矩阵逐点相加,“σ”表示Sigmoid激活函数。
所述的包含不同卷积核大小的深度卷积网络由一个卷积块和四个残差块来组成,所述步骤3)具体包括:
步骤3-1)所述卷积块包含了一个一维卷积层、一个二维卷积层、和一个最大池化层,如图3所示;其中,所述一维卷积层是一个卷积核为(1,1)、通道数为3的卷积层,二维卷积层是一个卷积核为(7,7)、通道数为64的卷积层;最大池化层是一个采样核为(3,3)的池化层;由此可以得到原始声学特征的特征图;
步骤3-2)将上述得到的特征图输入到残差块1,得到f0,残差块1由3个一样的模块组成,每个模块是三层卷积计算,如图3所示,其中,第一层是一个卷积核为(1,1)、通道数为64的一维卷积层,第二层是一个卷积核为(3,3)、通道数为64的二维卷积层,第三层是一个卷积核为(1,1)、通道数为256的一维卷积层;
步骤3-3)将上述得到的f0输入到残差块2,得到f1,卷积块2由4个一样的模块组成,每个模块是三层卷积计算,如图3所示,其中,第一层是一个卷积核为(1,1)、通道数为128的一维卷积层,第二层是一个卷积核为(3,3)、通道数为128的二维卷积层,第三层是一个卷积核为(1,1)、通道数为512的一维卷积层;
步骤3-4)将上述得到的f1输入到残差块3,得到f2,卷积块3由6个一样的模块组成,每个模块是三层卷积计算,如图3所示,其中,第一层是一个卷积核为(1,1)、通道数为256的一维卷积层,第二层是一个卷积核为(3,3)、通道数为256的二维卷积层,第三层是一个卷积核为(1,1)、通道数为1024的一维卷积层;
步骤3-5)将上述得到的f2输入到残差块4,得到f3,卷积块4由3个一样的模块组成,每个模块是三层卷积计算,其中,第一层是一个卷积核为(1,1)、通道数为512的一维卷积层,第二层是一个卷积核为(3,3)、通道数为512的二维卷积层,第三层是一个卷积核为(1,1)、通道数为2048的一维卷积层。
所述步骤4)具体包括:
步骤4-1)采用转置卷积将上述得到的f1、f2和f3转换成与f0一样的维度,计算公式如下:
o=(i-1)s-2p+k+u
这里,i和o代表输入和输出的尺度大小,s、p、k、u分别表示步长、填充、卷积核和输出填充,在具体实施过程中,在图2中的转置卷积1的s、p、k、u设置分别是(2,2)、(1、1)、(3,3)、(0,1),转置卷积2的s、p、k、u设置分别是(4,4)、(1、1)、(5,5)、(0,1),转置卷积3的s、p、k、u设置分别是(8,8)、(1、1)、(7,7)、(2,3),由此便可以得到三个具有与f0相同维度的特征图h1、h2、h3;
步骤4-2)所述的双视角注意力包括了通道注意力和区域注意力,其计算公式如下所示:
ut=σ(v1t+v2t)·ht
这里,ht是计算得到的特征图,t∈[1,2,3],ut是通道注意力的输出,σ是Sigmoid激活函数,v1t和v2t,是计算得到归一化前的通道注意力分数,其可以通过以下公式计算
v1t=Wg(Relu(Ws(Avg_Pooling(ht))+bs))+bg
v2t=Wc(Relu(Wz(Max_Pooling(ht))+bz))+bc
其中Avg_Pooling、Max_Pooling、Relu分别是平均池化操作、最大池化操作、非线性激活函数,W.是可学习的参数矩阵,b.是偏置项。接着对ut计算区域注意力:
zt=σ(Conv1(Avg_Pooling(ut)))·ut
其中,Conv1是一维卷积操作,其卷积核为(1,1),通道数为3,zt是经过双视角注意力计算的最终结果
步骤4-3)所述的线性融合,是将双视角注意力计算的结果zt分别于f0相乘,并将乘积结果进行拼接,再进行2个二维卷积、2个Relu激活函数计算,2个维卷积的卷积核分别为(3,3)、(3,3),通道数分别为128,16,其计算公式如下:
l=Relu(Conv3(Relu(Conv2([f0*z1,f0*z2,f0*z3]))))
所述步骤5)具体为分类结果y将通过对上述l进行全连接操作得出,y是一个一维向量,其中每个数值是该值索引对应的情绪类别的概率值:
y=Fc(l)
所述步骤6)具体包括:
步骤6-1)将模型输出的结果与真实标签进行误差求取;所述误差求取采用交叉熵,其可以表示为:
其中,表示真实标签/>与预测结果y之间的误差,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,Σ表示求和;
步骤6-2)采用步骤6-1)得到的参数作为本次迭代的权重值;从剩余的语音中随机选取一组语音,经步骤2)、步骤3)、步骤4)、步骤5)和步骤6-1),得到新的参数组合;反复迭代,每次迭代的学习率为1e-3,优化器为Adam,直至完成一个迭代周期;
步骤6-3)对训练语音进行重新洗牌,转至步骤2);反复执行,直至训练出最优参数组合。
所述步骤7)具体包括:
步骤7-1)对于待检测语音,以80%的重叠率切割成2秒的片段;
步骤7-2)采用与步骤2)一样的方法,将每个片段编译成26×63的声学特征;
步骤7-3)将规整后的声学特征输入至最优参数模型,经模型前向传输得到单个语音片段预测结果;
步骤7-4)求一条语音信号的若干片段的预测结果平均值,该平均值就是该条语音信号的最终预测结果
步骤7-5)将每一条语音信号的预测结果最大概率值所对应的类别与真实标签进行比较,若一致,则预测正确,反之,则预测错误;
步骤7-6)执行步骤7-1)、步骤7-2)、步骤7-3)、步骤7-4)和步骤7-5),直到全部待测语音检测完毕。
实施例2
本发明还提供了一种基于跨层交互融合的高精度语音情绪识别系统,根据实施例1方法构建的语音情绪识别网络模型实现,所述系统包括:
数据预处理模块,用于对输入语音进行切割和特征提取,得到原始声学特征;
情绪类别输出模块,用于将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述情绪类别包括兴奋、悲伤、生气和中立;
语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,
多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;
跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;
情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于跨层交叉融合的语音情绪识别方法,所述方法包括:
将待识别的语音切割分段后经特征提取得到原始声学特征;
将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述情绪类别包括兴奋、悲伤、生气和中立;
所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,
所述多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;
所述跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;
所述情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别;
所述多尺度特征提取模块包括依次连接的卷积块、第一残差块、第二残差块、第三残差块和第四残差块;其中,
所述卷积块,用于提取原始声学特征的特征图;包括一个卷积核为(1,1),通道数为3的一维卷积层,一个卷积核为(7,7),通道数为64的二维卷积层以及一个采样核为(3,3)的最大池化层;
所述第一残差块的输入为特征图,输出为第一特征f0,所述第一残差块包括三个相同的第一模块,每个第一模块均包括一个卷积核为(1,1)、通道数为64的一维卷积层,一个卷积核为(3,3),通道数为64的二维卷积层,以及一个卷积核为(1,1),通道数为256的一维卷积层;
所述第二残差块的输入为第一特征f0,输出为第二特征f1,所述第二残差块包括四个相同的第二模块,每个第二模块均包括一个卷积核为(1,1),通道数为128的一维卷积层,一个卷积核为(3,3),通道数为128的二维卷积层,以及一个卷积核为(1,1),通道数为512的一维卷积层;
所述第三残差块的输入为第二特征f1,输出为第三特征f2,所述第三残差块包括六个相同的第三模块,每个第三模块均包括一个卷积核为(1,1),通道数为256的一维卷积层,一个卷积核为(3,3),通道数为256的二维卷积层,以及一个卷积核为(1,1),通道数为1024的一维卷积层;
所述第四残差块的输入为第三特征f2,输出为第四特征f3,所述第四残差块包括三个相同的第四模块,每个第四模块均包括一个卷积核为(1,1),通道数为512的一维卷积层,一个卷积核为(3,3),通道数为512的二维卷积层,以及一个卷积核为(1,1),通道数为2048的一维卷积层;
所述跨层交互融合模块的处理过程包括:
步骤3-1)采用转置卷积将第二特征f1,第三特征f2和第四特征f3,转换成与第一特征f0相同维度的第t特征对应的特征图ht,t∈[1,2,3];
步骤3-2)并对转换后的第二特征f1,第三特征f2和第四特征f3分别采用双视角注意力机制进行处理得到对应的双视角注意力计算;
步骤3-3)将步骤3-2)的三个双视角注意力计算结果经线性融合得到融合结果l。
2.根据权利要求1所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述步骤3-2)包括:
对特征图ht分为两路,一路经平均池化和线性处理得到归一化前的第一注意力分数v1t,另一路经最大池化和线性处理得到归一化前的第二注意力分数v2t;
根据下式得到通道注意力输出ut:
ut=σ(v1t+v2t)·ht
其中,σ是Sigmoid激活函数;
对通道注意力输出ut依次经平均池化操作和非线性激活函数处理得到区域注意力zt:
zt=σ(Conv1(Avg_Pooling(ut)))·ut
其中,Avg_Pooling表示平均池化操作,Conv1表示一维卷积操作。
3.根据权利要求2所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述归一化前的第一注意力分数v1t和归一化前的第二注意力分数v2t分别满足下式:
v1t=Wg(Relu(Ws(Avg_Pooling(ht))+bs))+bg
v2t=Wc(Relu(Wz(Max_Pooling(ht))+bz))+bc
其中,Max_Pooling表示最大池化操作,Relu表示激活函数,Ws和Wz分别是第一路和第二路的参数矩阵,bg和bs是第一路的两个偏置项,bc和bz是第二路的两个偏置项。
4.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述步骤3-3)包括:
将双视角注意力计算的结果zt分别与第一特征f0相乘,并将乘积结果进行拼接,再进行2个二维卷积和2个Relu激活函数计算,根据下式得到融合结果l:
l=Relu(Conv3(Relu(Conv2([f0*z1,f0*z2,f0*z3]))))。
5.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述情绪识别模块包括全连接层,用于将融合结果l进行全连接操作得到一维向量y,根据表征对应不同情绪类别的置信度确定情绪类别。
6.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述方法还包括语音情绪识别模型的训练步骤;包括:
对语音训练集中的原始语音信号以设定的重叠率进行切割,得到设定时长的片段;
随机读取一组含n条设定时长的片段的语音信号,并提取每条语音的梅尔倒谱系数特征,得到n×26×63的原始声学特征;
将原始声学特征输入语音情绪识别模型,获取融合特征的分类编码输出,得到输入语音对应的预测情绪类别;根据预测情绪类别与真实的情绪类别进行损失计算,并采用梯度下降法对语音情绪识别模型中的参数进行更新,反复迭代,直至训练出最优参数组合,得到训练好的语音情绪识别模型。
7.根据权利要求6所述的基于跨层交叉融合的语音情绪识别方法,其特征在于,所述根据预测情绪类别与真实的情绪类别进行损失计算;包括:
根据下式采用交叉熵求取真实标签与预测结果y之间的误差:
其中,p(xi)表示模型的前向输出结果,q(xi)表示真实标签,Σ表示求和,n表示样本数量,i表示样本序号。
8.一种基于权利要求1的基于跨层交叉融合的语音情绪识别方法的系统,其特征在于,所述系统包括:语音情绪识别模型、数据预处理模块和情绪类别输出模块;其中,
所述数据预处理模块,用于将待识别的语音切割分段后经特征提取得到原始声学特征;
所述情绪类别输出模块,用于将原始声学特征输入预先建立和训练好的语音情绪识别模型,输出语音情绪类别;所述情绪类别包括兴奋、悲伤、生气和中立;
所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块;其中,
所述多尺度特征提取模块,用于提取表征语音细节和整体情绪信息的多尺度特征;
所述跨层交互融合模块,用于获取更显著的特征表示,并对多尺度特征进行线性融合;
所述情绪识别模块,用于计算出融合特征的分类编码输出,得到待识别语音对应的情绪类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451212.6A CN114898775B (zh) | 2022-04-24 | 2022-04-24 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451212.6A CN114898775B (zh) | 2022-04-24 | 2022-04-24 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898775A CN114898775A (zh) | 2022-08-12 |
CN114898775B true CN114898775B (zh) | 2024-05-28 |
Family
ID=82719654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210451212.6A Active CN114898775B (zh) | 2022-04-24 | 2022-04-24 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898775B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153197B (zh) * | 2023-10-27 | 2024-01-02 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538043A (zh) * | 2015-01-16 | 2015-04-22 | 北京邮电大学 | 一种通话中实时情感提示装置 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN111652236A (zh) * | 2020-04-21 | 2020-09-11 | 东南大学 | 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 |
CN111681681A (zh) * | 2020-05-22 | 2020-09-18 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112466336A (zh) * | 2020-11-19 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
CN112581979A (zh) * | 2020-12-10 | 2021-03-30 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN113643724A (zh) * | 2021-07-06 | 2021-11-12 | 中国科学院声学研究所南海研究站 | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 |
CN113837072A (zh) * | 2021-09-24 | 2021-12-24 | 厦门大学 | 一种融合多维信息的说话人情绪感知方法 |
CN113989893A (zh) * | 2021-11-02 | 2022-01-28 | 安徽兰臣信息科技有限公司 | 一种基于表情和语音双模态的儿童情感识别算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11545173B2 (en) * | 2018-08-31 | 2023-01-03 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
-
2022
- 2022-04-24 CN CN202210451212.6A patent/CN114898775B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538043A (zh) * | 2015-01-16 | 2015-04-22 | 北京邮电大学 | 一种通话中实时情感提示装置 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN111652236A (zh) * | 2020-04-21 | 2020-09-11 | 东南大学 | 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 |
CN111681681A (zh) * | 2020-05-22 | 2020-09-18 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
CN112466336A (zh) * | 2020-11-19 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112581979A (zh) * | 2020-12-10 | 2021-03-30 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN113643724A (zh) * | 2021-07-06 | 2021-11-12 | 中国科学院声学研究所南海研究站 | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 |
CN113837072A (zh) * | 2021-09-24 | 2021-12-24 | 厦门大学 | 一种融合多维信息的说话人情绪感知方法 |
CN113989893A (zh) * | 2021-11-02 | 2022-01-28 | 安徽兰臣信息科技有限公司 | 一种基于表情和语音双模态的儿童情感识别算法 |
Also Published As
Publication number | Publication date |
---|---|
CN114898775A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN111680706B (zh) | 一种基于编码和解码结构的双通道输出轮廓检测方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN111427995B (zh) | 基于内部对抗机制的语义匹配方法、装置及存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN114743020B (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN110009025A (zh) | 一种用于语音测谎的半监督加性噪声自编码器 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN115909455A (zh) | 多尺度特征提取与注意力机制融合的表情识别方法 | |
CN114898775B (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
CN115878832A (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN116110405A (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN117746078B (zh) | 一种基于用户自定义类别的物体检测方法及系统 | |
CN113420117B (zh) | 一种基于多元特征融合的突发事件分类方法 | |
CN106503066A (zh) | 基于人工智能的处理搜索结果方法和装置 | |
CN117831572A (zh) | 一种基于轻量化多尺度卷积注意力神经网络的水下目标声音自动分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |