CN113643723B - 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 - Google Patents
一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 Download PDFInfo
- Publication number
- CN113643723B CN113643723B CN202110726187.3A CN202110726187A CN113643723B CN 113643723 B CN113643723 B CN 113643723B CN 202110726187 A CN202110726187 A CN 202110726187A CN 113643723 B CN113643723 B CN 113643723B
- Authority
- CN
- China
- Prior art keywords
- attention
- features
- convolution
- voice
- gru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,包括步骤:S1,将语音信号经过预处理得到三维对数梅尔谱图;S2,利用三维对数梅尔谱图预训练3DRACNN语音网络提高泛化能力;S3,通过CNN和AGRUs分别提取面部静态外观特征和几何特征;S4,为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征,并由KLDA过滤无关特征;S5,在模型训练的过程中通过更新参数最小化损失,同时通过算法进行优化,最后由softmax层进行情感分类。本发明能够有效解决情感识别模型识别率低以及泛化能力弱的问题,提高识别准确率和鲁棒性。
Description
技术领域
本发明属于语音信号处理与模式识别领域,特别是一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法。
背景技术
情感识别属于计算科学、心理科学和认知科学等专业的交叉领域,其通过研究人与人交流过程中的情感表达特点,设计出具有相关反馈的人机交互环境,使计算机具备识别并理解人类情感信息的能力,是人机交互领域的一项重要研究课题。
在人际交往过程中,声音和面部表情是最自然而又直接的情感表达方式。在基于语音的情感识别领域,3DCNN、K-means聚类、深步卷积神经网络(DSCNN)和特征融合算法被广泛应用于特征提取和学习,使相关研究工作取得了一定的研究成果,但仍存在说话环境嘈杂和情感无关因素较多导致情感识别准确率低等问题。在基于面部表情的情感识别领域,通常使用空间注意力CNN(SACNN)、基于注意力的长短时记忆网络(ALSTMs)、VGG-19等进行面部情感识别,但光照变化和面部遮挡等干扰因素容易造成人脸检测的失败,进而影响面部表情的判别。
随着情感识别相关技术的不断成熟,人们对情感识别准确率等系统性能的要求越来越高,而单模态情感识别具有一定的局限性。运用多模态融合的方法能够弥补单个模态的缺点从而更有效地识别说话人的情感状态,因此多模态融合的识别方法目前逐渐成为了研究热点,其中大量研究工作普遍涉及语音和视觉信息。Subhasmita等使用隐马尔可夫模型和支持向量机分别对语音和图像进行分类,通过决策层融合后用于情感识别。Xu等采用OpenSMILE工具包提取语音特征,同时采集面部图像的几何特征和梯度方向直方图(HOG)特征。Cornejo等设计了一种混合CNN,从视频中提取音频和面部特征进行并联,经特征选择技术筛选后进行情感识别。Pei等描述了一种模型级融合方法,使用自适应权重网络将辅助信息加入到多模态情感识别模型中。Adiga等根据人脸和语音不同模态特征进行对比实验来获得识别率更高的结果。
本发明针对情感识别模型泛化能力差和语音特征识别率低的问题进行了改进。首先,通过预训练RACNN语音网络,减小过拟合发生的可能,提高模型泛化能力;然后,通过融合丰富的面部特征来改善语音特征识别率低的情况;最后,由KLDA进行特征选择过滤无关特征后进行情感识别,降低情感无关因素的影响,提高情感识别准确率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高情感识别模型泛化能力且可获得较高识别率的基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法。
为了实现上述目的,本发明采用的技术方案如下:
一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于,包以下步骤:
S1、对原始语音信号进行预处理得到三维对数梅尔谱图;包括预加重、分帧、加窗等预处理。
S2、将步骤S1预处理得到的三维对数梅尔谱图用于预训练基于残差网络的三维注意力卷积神经网络(3DRACNN),基于残差网络的三维注意力卷积神经网络从三维对数梅尔谱图中提取深层特征,以提高模型泛化能力。
S3、通过卷积神经网络(CNN)和具有注意力机制的门控循环单元(AGRUs)分别从裁剪的视频图像中提取面部静态外观特征和几何特征。
S4、为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征。并由核线性判别分析(KLDA)过滤无关特征,降低情感无关因素的影响,提高情感识别准确率。
S5、在模型训练的过程中,以交叉熵误差函数作为训练目标函数,通过更新参数最小化交叉熵损失,同时通过Adam算法进行优化,得到最终网络模型,最后由softmax层进行情感分类。
所述步骤S2中改进后的3DRACNN从三维对数梅尔谱图中提取深层特征,引入了卷积块、卷积注意力模块(CBAM)和残差神经网络(ResNet),具体包括:
(1)卷积块由卷积层、组归一化层(GN)和线性整流单元(ReLU)组成,用于特征的获取;
(2)注意力模块包括通道和空间方面的两个注意力模块协助三维注意力卷积神经网络在空间和通道方面捕捉精细化特征;
(3)结合使用残差神经网络(ResNet)的跳跃连接技巧,设计了三个残差注意力块(RA)来依次学习深层特征。
将对数梅尔谱图大小调整为224×224×3作为三维注意力卷积神经网络的输入,第一层卷积核大小为3×2×2,步长为1×2×2。最大池化层大小为1×2×2,步长为1×2×2,保留突出部分的显著特征。接下来,每个RA块有两个卷积块作为第一步,再依次连接通道注意力模块与空间注意力模块,对从卷积块中得到的特征进行了空间和通道方面的关注。在第一个RA块中,两个卷积块都使用卷积核大小为2×1×1,步长为1的卷积层。第二个RA块在第一个卷积块中使用卷积核大小为1×2×2,步长为1×2×2的卷积层,在第二个卷积块中使用卷积核大小为2×1×1,步长为1的卷积层。第三个RA块与第二个RA块使用相同结构的两个卷积块。最后,应用步长为1×2×2的全局平均池化层,对信道的全局特征进行描述。
进一步,所述步骤S3使用设计好的CNN和AGRUs分别从裁剪的视频图像中提取面部静态外观特征和几何特征,具体包括:
(1)利用OpenFace2.0工具包裁剪人脸视频,提取得到人脸相关帧和面部关键点;本发明使用基于径向基函数(RBF)的k-means聚类算法选取一组关键帧来代表视频进行更有效的特征学习。
(2)面部静态外观特征提取网络由EfficientNet对表情相关特征进行关注,学习面部所有帧中的空间特征;
(3)面部几何特征提取网络由具有注意力机制的门控循环单元从关键帧中提取基于面部关键点的时间特征。具体来说,AGRUs模型由七个GRU子网和注意力机制组成,将面部关键点根据不同面部位置划分为七个区域分别输入给相应的七个GRU子网,以获取相对的几何位置依赖关系,然后将七个面部区域单独学习的所有特征进行串联,得到整个面部的整体几何特征,最后通过注意力机制学习权重向量,并自适应地重新调整权重,估计不同关键点区域的重要性以辅助提取更多的判别性特征。
进一步,所述步骤S4具体包括:
(1)对于语音和静态外观特征的联合学习,使用深度Bi-GRU进行视听情感特征的高度非线性融合,得到语音外观特征;
(2)对于面部几何特征,根据加权平均值算法,由融合权重将其与语音外观特征进行融合,得到混合特征;
(3)将整合的混合特征利用核线性判别分析进行特征降维,筛选出最具判别性的特征。
本发明的优点及有益效果如下:
本发明提供了一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,在相同的实验条件下,基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,能够改善情感识别模型泛化能力差和语音特征识别率低的问题。具体步骤:首先,对原始语音信号进行预处理生成对数梅尔谱图作为3DRACNN语音网络的输入进行预训练,网络的权重参数被迁移到后续学习过程中进而得到更好的权重初始化结果,减小过拟合发生的可能;其次,对于人脸检测容易失败的问题,通过基于面部帧和关键点的人脸特征提取方法,分别利用CNN和AGRUs提取得到静态外观特征和面部几何特征;然后,通过丰富的面部特征来改善语音特征识别率低的情况,将提取得到的语音特征和静态外观特征由深度Bi-GRU融合得到语音外观特征;最后,将面部几何特征与语音外观特征进一步融合得到更优质的混合特征,由KLDA进行特征选择过滤无关特征后进行情感识别,降低情感无关因素的影响,提高情感识别准确率。
附图说明
图1是本发明提供优选实施例基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法的总体框图;
图2是改进的3DRACNN语音网络结构图;
图3是面部特征提取网络结构图;
图4是融合模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明提供了一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,包括以下步骤:
S1:对原始语音信号进行预加重、分帧、加窗等预处理得到三维对数梅尔谱图,具体步骤如下:
(1)采用如下式所示高通滤波器提升高频部分:
H(Z)=1-μz-1 (1)
其中,H(Z)为Z域的传递函数,μ表示预加重系数,本发明取值0.96,预加重后的输出结果为x(n);
(2)由于语音信号具有短时平稳特性,需要对预加重后的输出x(n)进行分帧。为了解决分帧后端点处不连续问题,采用汉明窗进行加窗:
y(n)表示分帧后的语音信号,w(n,a)表示汉明窗的窗函数,一般情况下,a取0.46时,称为汉明窗,n=0,1,...,N-1,N为帧长。加窗后语音信号为:s(n)=y(n)×w(n,a);
(3)端点检测去除无声片段后,由离散傅里叶变换获得语音信号频域上的能量分布,输出是包含N个频带的复数S(k),S(k)表示原始信号中某一频率的幅度和相位,下式所示:
(4)根据人耳敏感程度,将频谱划分为多个Mel滤波器组,通过M个三角滤波器后得到频率响应为Hm(k),再计算每个滤波器组输出的对数能量p(m):
其中,Sa(k)表示第a个频带的幅度和相位。
(5)离散余弦变换对每帧数据进行降维,再由差分运算得到对应的一阶差分和二阶差分,将对数频谱及其一阶差分和二阶差分叠加在一起,得到水平长度与信号持续时间相关、垂直长度与滤波器组相关的三维对数梅尔谱图。
S2:将经过预处理后的三维对数梅尔谱图用于预训练3DRACNN(网络结构图如图2所示)语音网络以提高模型泛化能力,改进后的3DRACNN从三维对数梅尔谱图中提取深层特征,引入了卷积块、卷积注意力模块(CBAM)和残差神经网络(ResNet),具体包括:
(1)卷积块由卷积层、组归一化层(GN)和线性整流单元(ReLU)组成,用于特征的获取;
(2)注意力模块设计了通道和空间方面的两个注意力模块协助3DRACNN在空间和通道方面捕捉精细化特征;
(3)结合使用ResNet的跳跃连接技巧,设计了三个残差注意力块(RA)来依次学习深层特征。
将对数梅尔谱图大小调整为224×224×3作为RACNN的输入,第一层卷积核大小为3×2×2,步长为1×2×2。最大池化层大小为1×2×2,步长为1×2×2,保留突出部分的显著特征。接下来,每个RA块有两个卷积块作为第一步,再依次连接通道注意力模块与空间注意力模块,对从卷积块中得到的特征进行了空间和通道方面的关注。在第一个RA块中,两个卷积块都使用卷积核大小为2×1×1,步长为1的卷积层。第二个RA块在第一个卷积块中使用卷积核大小为1×2×2,步长为1×2×2的卷积层,在第二个卷积块中使用卷积核大小为2×1×1,步长为1的卷积层。第三个RA块与第二个RA块使用相同结构的两个卷积块。最后,应用步长为1×2×2的全局平均池化层,对信道的全局特征进行描述。
S3:使用设计好的CNN和AGRUs分别从裁剪的视频图像中提取面部静态外观特征和几何特征,面部特征提取网络如图3所示,具体内容为:
(1)人脸检测模块利用OpenFace2.0工具包裁剪人脸视频,提取得到人脸相关帧和面部关键点,本发明使用基于径向基函数(RBF)的k-means聚类算法选取一组关键帧来代表视频进行更有效的特征学习;
(2)面部静态外观特征提取网络由EfficientNet对表情相关特征进行关注,学习面部所有帧中的空间特征;
(3)面部几何特征提取网络由AGRUs从关键帧中提取基于面部关键点的时间特征,具体来说,AGRUs模型由七个GRU子网和注意力机制组成,将面部关键点根据不同面部位置划分为七个区域分别输入给相应的七个GRU子网,以获取相对的几何位置依赖关系,然后将七个面部区域单独学习的所有特征进行串联,得到整个面部的整体几何特征,最后通过注意力机制学习权重向量,并自适应地重新调整权重,估计不同关键点区域的重要性以辅助提取更多的判别性特征。
由设计好的CNN-GRU网络(即CNN和AGRUs网络)提取局部-整体、几何-外观和时间-空间特征,丰富面部特征的表现形式。
S4:利用设计的融合模型将语音特征依次与面部特征进行融合得到混合特征,改善语音特征识别率低的问题,融合模型示意图如图4所示,具体步骤如下:
(1)对于语音和静态外观特征的联合学习,使用深度双向门控循环单元(Bi-GRU)进行视听情感特征的高度非线性融合,得到语音外观特征。如图4所示,从多模态数据集中提取得到的面部相关帧利用EfficientNet提取得到静态外观特征,从多模态数据集中提取对数梅尔谱图输入基于残差网络的注意力卷积神经网络(RACNN),将在RACNN中得到的特征图重塑为大小为147×288的二维数据和静态外观特征作为深度Bi-GRU融合网络的输入进行特征融合,最后得到语音外观特征。
(2)对于面部几何特征,根据加权平均值算法,由融合权重将其与语音外观特征进行融合,得到混合特征。将整合的混合特征利用KLDA进行特征降维,筛选出最具判别性的特征。
作为循环神经网络的一种特殊形式,GRU能够捕捉任意长度序列的长期依赖关系,其使用隐藏状态来进行信息的传递,包含两个门:更新门和重置门。更新门决定上一个隐藏状态中需要被保留和记忆的信息,计算公式如(5)。重置门决定遗忘上一个隐藏状态中对当前时刻不重要的部分,用于计算当前的隐藏状态,如式(6)。
zt=σ(Wz·[ht-1,xt]) (5)
rt=σ(Wr·[ht-1,xt]) (6)
其中,zt表示更新门,rt表示重置门,值都在0到1之间。xt为当前输入,ht-1为上一个隐藏状态。σ表示sigmoid函数,值在0-1之间,用来充当门控信号,Wz和Wr表示权重矩阵,新的记忆内容计算公式为:
其中,tanh表示双曲正切激活函数,表示上一个隐藏状态中传递给下一个节点的隐状态,W表示权重矩阵。
当前时刻的计算公式为:
由于在情感识别中,还应该考虑到上下文信息,本发明采用了深度Bi-GRU,它包括两个独立的隐藏层,一个前向传递,另一个后向传递,并计算建立在其隐藏状态上的联合输出。
S5:在模型训练的过程中,采用交叉熵误差函数作为训练目标函数,同时利用Adam算法进行优化,最后由softmax层进行情感分类,具体包括:
交叉熵算法定义如下:
其中,m表示样本的数量,表示第i个样本的真实值,yi表示第i个样本的预测输出值,L表示损失值。
Adam算法实际上是将Momentum和RMSprop算法结合在一起,最后更新权重后的定义如下:
其中,表示经过偏差修正的Momentum指数加权平均数,/>表示经过偏差修正的RMSprop指数加权平均数,α和ε为超参数,ε一般取10-8。W表示更新前的权重。
Softmax函数的公式如下:
n表示分类的个数,一共有n个用数值表示的分类Sk,k∈(0,n],i表示k中的某个分类,gi表示该分类的值,Si表示第i个元素的分类概率。P(Si)表示由Softmax函数处理后得到的相应概率值。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于,包括以下步骤:
S1、对原始语音信号进行预处理得到三维对数梅尔谱图;
S2、将步骤S1预处理得到的三维对数梅尔谱图用于预训练基于残差网络的三维注意力卷积神经网络,基于残差网络的三维注意力卷积神经网络从三维对数梅尔谱图中提取深层特征;
S3、通过卷积神经网络和具有注意力机制的门控循环单元分别从裁剪的视频图像中提取面部静态外观特征和几何特征;
S4、采用融合模型将语音特征依次与面部特征进行融合得到混合特征,包括:
(1)对于语音和静态外观特征的联合学习,使用深度Bi-GRU进行视听情感特征的高度非线性融合,得到语音外观特征;
(2)对于面部几何特征,根据加权平均值算法,由融合权重将其与语音外观特征进行融合,得到混合特征;
(3)将整合的混合特征利用核线性判别分析进行特征降维,筛选出最具判别性的特征;
S5、在模型训练的过程中,以交叉熵误差函数作为训练目标函数,通过更新参数最小化交叉熵损失,同时通过Adam算法进行优化,得到最终网络模型,最后由softmax层进行情感分类。
2.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S1所述预处理包括预加重、分帧、加窗处理,具体包括以下步骤:
(1)采用如下式所示高通滤波器提升高频部分:
H(Z)=1-μz-1
其H(Z)为Z域的传递函数,μ表示预加重系数,预加重后的输出结果为x(n);
(2)对预加重后的输出x(n)进行分帧,然后采用汉明窗进行加窗:
y(n)表示分帧后的语音信号,w(n,a)表示汉明窗的窗函数,n=0,1,...,N-1,N为帧长,加窗后语音信号为:s(n)=y(n)×w(n,a);
(3)端点检测去除无声片段后,由离散傅里叶变换获得语音信号频域上的能量分布,输出是包含N个频带的复数S(k),S(k)表示原始信号中某一频率的幅度和相位,如下式所示:
(4)将频谱划分为多个Mel滤波器组,通过M个三角滤波器后得到频率响应为Hm(k),再计算每个滤波器组输出的对数能量p(m):
其中,Sa(k)表示第a个频带的幅度和相位;
(5)采用离散余弦变换对每帧数据进行降维,再由差分运算得到对应的一阶差分和二阶差分,将对数频谱及其一阶差分和二阶差分叠加在一起,得到水平长度与信号持续时间相关、垂直长度与滤波器组相关的三维对数梅尔谱图。
3.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S2所述基于残差网络的三维注意力卷积神经网络引入了卷积块、卷积注意力模块和残差神经网络,具体包括:
(1)卷积块由卷积层、组归一化层和线性整流单元组成,用于特征的获取;
(2)注意力模块包括通道和空间方面的两个注意力模块协助三维注意力卷积神经网络在空间和通道方面捕捉精细化特征;
(3)结合使用残差神经网络的跳跃连接技巧,设计了三个残差注意力块来依次学习深层特征。
4.根据权利要求3所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:所述基于残差网络的三维注意力卷积神经网络的具体处理过程如下:将对数梅尔谱图大小调整为224×224×3作为三维注意力卷积神经网络的输入,第一层卷积核大小为3×2×2,步长为1×2×2;最大池化层大小为1×2×2,步长为1×2×2,保留突出部分的显著特征;接下来,每个残差注意力块有两个卷积块作为第一步,再依次连接通道注意力模块与空间注意力模块,对从卷积块中得到的特征进行了空间和通道方面的关注;最后,应用步长为1×2×2的全局平均池化层,对信道的全局特征进行描述。
5.根据权利要求4所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:所述三个残差注意力块具体为:在第一个残差注意力块中,两个卷积块都使用卷积核大小为2×1×1,步长为1的卷积层;第二个残差注意力块在第一个卷积块中使用卷积核大小为1×2×2,步长为1×2×2的卷积层,在第二个卷积块中使用卷积核大小为2×1×1,步长为1的卷积层;第三个残差注意力块与第二个残差注意力块使用相同结构的两个卷积块。
6.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S3具体包括:
(1)利用OpenFace2.0工具包裁剪人脸视频,提取得到人脸相关帧和面部关键点;
(2)面部静态外观特征提取网络由EfficientNet对表情相关特征进行关注,学习面部所有帧中的空间特征;
(3)面部几何特征提取网络由具有注意力机制的门控循环单元从关键帧中提取基于面部关键点的时间特征。
7.根据权利要求6所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:所述具有注意力机制的门控循环单元由七个GRU子网和注意力机制组成,将面部关键点根据不同面部位置划分为七个区域分别输入给相应的七个GRU子网,以获取相对的几何位置依赖关系,然后将七个面部区域单独学习的所有特征进行串联,得到整个面部的整体几何特征,最后通过注意力机制学习权重向量,并自适应地重新调整权重。
8.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S5中所述交叉熵误差函数定义如下:
其中,m表示样本的数量,表示第i个样本的真实值,yi表示第i个样本的预测输出值,L表示损失值;
所述Adam算法是将Momentum和RMSprop算法结合在一起,最后更新权重后的定义如下:
其中,表示经过偏差修正的Momentum指数加权平均数,/>表示经过偏差修正的RMSprop指数加权平均数,α和ε为超参数;
所述softmax函数的公式如下:
n表示分类的个数,一共有n个用数值表示的分类Sk,k∈(0,n],i表示k中的某个分类,gi表示该分类的值,Si表示第i个元素的分类概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726187.3A CN113643723B (zh) | 2021-06-29 | 2021-06-29 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726187.3A CN113643723B (zh) | 2021-06-29 | 2021-06-29 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113643723A CN113643723A (zh) | 2021-11-12 |
CN113643723B true CN113643723B (zh) | 2023-07-25 |
Family
ID=78416265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726187.3A Active CN113643723B (zh) | 2021-06-29 | 2021-06-29 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643723B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155882B (zh) * | 2021-11-30 | 2023-08-22 | 浙江大学 | 一种基于语音识别的“路怒”情绪判断方法和装置 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN114970640B (zh) * | 2022-06-21 | 2023-10-27 | 徐州工程学院 | 一种基于知识蒸馏的手势识别方法及系统 |
CN115376518B (zh) * | 2022-10-26 | 2023-01-20 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
CN116563313B (zh) * | 2023-07-11 | 2023-09-19 | 安徽大学 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
CN116705059B (zh) * | 2023-08-08 | 2023-11-10 | 硕橙(厦门)科技有限公司 | 一种音频半监督自动聚类方法、装置、设备及介质 |
CN117577140B (zh) * | 2024-01-16 | 2024-03-19 | 北京岷德生物科技有限公司 | 面向脑瘫儿童的语音和面部表情数据处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111785301A (zh) * | 2020-06-28 | 2020-10-16 | 重庆邮电大学 | 一种基于残差网络的3dacrnn语音情感识别方法及存储介质 |
CN112784730A (zh) * | 2021-01-20 | 2021-05-11 | 东南大学 | 一种基于时域卷积网络的多模态情感识别方法 |
-
2021
- 2021-06-29 CN CN202110726187.3A patent/CN113643723B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111785301A (zh) * | 2020-06-28 | 2020-10-16 | 重庆邮电大学 | 一种基于残差网络的3dacrnn语音情感识别方法及存储介质 |
CN112784730A (zh) * | 2021-01-20 | 2021-05-11 | 东南大学 | 一种基于时域卷积网络的多模态情感识别方法 |
Non-Patent Citations (2)
Title |
---|
3D CNN-Based Speech Emotion Recognition Using K-Means Clustering and Spectrograms;N. Hajarolasvadi等;Entropy;第21卷(第5期);全文 * |
基于深度神经网络的人脸表情识别方法研究;张欣怡;中国优秀硕士学位论文全文数据库信息科技辑;I138-792 * |
Also Published As
Publication number | Publication date |
---|---|
CN113643723A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113643723B (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
CN108804453B (zh) | 一种视音频识别方法及装置 | |
CN113035227B (zh) | 一种多模态语音分离方法及系统 | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN110853680A (zh) | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
CN112037822B (zh) | 基于ICNN与Bi-LSTM的语音情感识别方法 | |
CN110570873A (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
Yogesh et al. | Bispectral features and mean shift clustering for stress and emotion recognition from natural speech | |
CN111950497A (zh) | 一种基于多任务学习模型的ai换脸视频检测方法 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
Kamaruddin et al. | Features extraction for speech emotion | |
CN113989893A (zh) | 一种基于表情和语音双模态的儿童情感识别算法 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN114879845A (zh) | 一种基于眼动仪的图片标签语音标注方法及系统 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
Zhu et al. | Emotion Recognition of College Students Based on Audio and Video Image. | |
Ying et al. | Design of speech emotion recognition algorithm based on deep learning | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
Sushma et al. | Emotion analysis using signal and image processing approach by implementing deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |