CN113793627B - 一种基于注意力的多尺度卷积语音情感识别方法及装置 - Google Patents
一种基于注意力的多尺度卷积语音情感识别方法及装置 Download PDFInfo
- Publication number
- CN113793627B CN113793627B CN202110916170.4A CN202110916170A CN113793627B CN 113793627 B CN113793627 B CN 113793627B CN 202110916170 A CN202110916170 A CN 202110916170A CN 113793627 B CN113793627 B CN 113793627B
- Authority
- CN
- China
- Prior art keywords
- attention
- layer
- feature
- emotion recognition
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力的多尺度卷积语音情感识别方法及装置。本发明所述的一种基于注意力的多尺度卷积语音情感识别方法包括:构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,得到待识别语音的情感分类结果。本发明所述的一种基于注意力的多尺度卷积语音情感识别方法在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,识别结果更为准确。
Description
技术领域
本发明涉及语音情感识别领域,特别是涉及一种基于注意力的多尺度卷积语音情感识别方法。
背景技术
语音情感识别可以帮助机器理解用户的意图,提高交互应用场景下的用户体验。随着人机交互的深入发展,SER受到了研究人员的广泛关注,如何提取能够有效区分情感的情绪状态是目前研究的难点之一。因此,特征生成及融合是语音情感识别的关键步骤之一,即将原始的语音特征发送到特征提取器中,生成与情感相关的信息。
近年来,深度学习算法被广泛用于生成高度抽象的情感相关特征表示,其中卷积神经网络(CNN)成为了研究的热门。然而CNN在提取特征的过程中往往存在对冗余信息的卷积运算,造成了计算量和存储空间的浪费。为进一步提高网络的表示能力,注意力机制最近被广泛应用于不同分支的特征融合中。通道注意力机制在改善深度卷积神经网络(CNNs)性能方面具有巨大的优势。为解决特征通道信息不均衡性的问题,引入了多通道卷积的神经网络模型。胡捷等人在“Squeeze-and-excitation networks.In IEEE Conference onComputer Vision and Pattern Recognition(CVPR)”中提出一种全新的特征重标定策略,显式地建模卷积特征的通道之间的相互依赖关系来进行特征通道间的融合。
然而,一些研究通过捕获更复杂的通道来改进SE模块或者结合额外的空间注意力。SEnet关注的是不同通道的像素的重要性可能不一样,而Woo等人在“CBAM:Convolutional Block Attention Module”中提出一个简单但是有效的CBAM模型,既考虑不同通道像素的重要性,又考虑了同一通道不同位置像素的重要性。这些方法虽然精度较高,但往往会带来模型复杂度高、计算量大的问题。
为解决这个问题,王其龙等人在“ECA-Net:Efficient Channel Attention forDeep Convolutional Neural Networks”中提出了ECA模块,证明了避免降维和适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。
然而,以上方案都无法解决特征提取时每一个特征通道本身的信息不均衡性。
发明内容
基于此,本发明的目的在于,提供一种基于注意力的多尺度卷积语音情感识别方法,改进将通道注意力和空间注意力进行拼接的CBAM模型,在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,有利于深度模型捕获到更多情感相关的信息,找到显著的情感区域。
第一方面,本发明提供一种基于注意力的多尺度卷积语音情感识别方法,包括以下步骤:
构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;
将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;
设置参数α,将所述第一特征图以1-α:α的比例进行通道上的分割,分割为两个子特征图,并对占比为ɑ的子特征图进行平均池化的下采样处理,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理,并对占比为ɑ的特征图进行上采样处理;
将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;
将所述第二特征图输入所述空间注意力层,进行注意力加权处理;
将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;
将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
进一步地,α=0.8。
进一步地,所述对一个子特征图进行并行的注意力加权处理,包括:
将所述子特征图输入所述注意力层,得到新特征图;
将所述新特征图与所述子特征图相乘,得到注意力加权特征图。
进一步地,所述第二卷积神经网络层包括两个5×5的卷积层,两个卷积层后都连接一个2×2的最大池化层。
进一步地,所述第一卷积神经网络层包括5×5的卷积层和批标准化层。
进一步地,将所述第二特征图输入所述空间注意力层,进行注意力加权处理,包括:
计算所述第二特征图的注意力分数:
使用softmax信息选择机制,计算在给定任务相关的查询向量q和输入X下,选择第i个输入信息的概率αi。
进一步地,所述第二全连接层中包括Dropout层。
第二方面,本发明还提供一种基于注意力的多尺度卷积语音情感识别装置,mmyy包括:
模型构建模块,用于构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;
特征图提取模块,用于将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;
特征图分割模块,用于设置参数α,将所述第一特征图以1-α:α的比例进行通道上的分割,分割为两个子特征图,并对占比为ɑ的子特征图进行平均池化的下采样处理,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理,并对占比为ɑ的特征图进行上采样处理;
特征图融合模块,用于将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;
注意力加权模块,用于将所述第二特征图输入所述空间注意力层,进行注意力加权处理;
特征降维模块,用于将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;
情感分类结果输出模块,用于将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
本发明提供的一种基于注意力的多尺度卷积语音情感识别方法及装置,使用了一种基于传统CNN进行改进的多尺度卷积神经网络,在不增加额外计算量的前提下,充分考虑不同尺度特征图的信息特征,增加卷积核的感知域,进行高效的情感特征提取,从而提高了SER的性能。同时,改进将通道注意力和空间注意力进行拼接的CBAM模型,在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,有利于深度模型捕获到更多情感相关的信息,找到显著的情感区域。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明所提供的一种基于注意力的多尺度卷积语音情感识别方法的流程图;
图2为本发明在一个实施例中所使用的语音情感识别模型的结构示意图;
图3为本发明在一个实施例中将第一特征图分割为两个子特征图的流程示意图;
图4为本发明所提供的一种基于注意力的多尺度卷积语音情感识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对背景技术中的问题,本发明提供一种基于注意力的多尺度卷积语音情感识别方法,如图1所示,该方法包括以下步骤:
S1:构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器。
本发明所使用的语音情感识别模型是基于CNN网络和CBAM模型的改进。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)”。
Convolutional Block Attention Module(CBAM)表示卷积模块的注意力机制模块,是一种结合了空间(spatial)和通道(channel)的注意力机制模块。相比于senet只关注通道(channel)的注意力机制可以取得更好的效果。
如图2所示,本发明所使用的语音情感识别模型,在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,有利于深度模型捕获到更多情感相关的信息,找到显著的情感区域。
S2:将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图。
其中,语谱图为对原始语音信号进行分帧、快速傅里叶变换后堆叠转换为用颜色深浅表示幅度值的二维图。
优选的,所述第一卷积神经网络层包括5×5的卷积层和批标准化层。
卷积公式如下所示:
其中,*表示卷积,卷积核V=[v2,v2,...,vC],vC表示第c个卷积核的参数。输出为U=[u1,u2,...,uC]。X为卷积层的输入,/>是一个二维空间核,表示作用于X的相应通道的vC的单个通道。
S3:将所述第一特征图分割为两个子特征图,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理。
优选的,如图3所示,将所述第一特征图分割为两个子特征图,包括:
设置参数α,将特征图以1-α:α的比例进行通道上的分割,并对占比为ɑ的特征图进行平均池化的下采样处理。
对于α参数的设置,通过对比实验发现,当α较大时,模型可以捕获更多的有用信息,性能更佳。然而,当α增大时,模型耗时更长。因此,在一个优选的实施例中,α设置为0.8。
之后,将两个子特征图分别馈入两条并行通道中,使得每个并行通道中的注意力层对子特征图进行注意力加权,第二卷积神经网络层对注意力加权后的子特征图进行底层特征提取处理。
优选的,对子特征图进行注意力加权处理,包括:
将所子述特征图输入所述注意力层,得到新特征图;
将所述新特征图与所述子特征图相乘,得到注意力加权特征图。
在一个具体的实施例中,注意力加权处理包括:
S301:通过使用全局平均池来生成通道级的统计信息,通过空间维度H×W收缩步骤S2中的输出U来生成统计值z,z的第c个元素的计算公式如下:
其中,uc(i,j)为步骤S2中的第c个元素的输出。
S302:使用一个简单的包含sigmoid激活的门控机制,计算公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,δ表示ReLU激活函数,对上一步的输出z进行全连接层操作W1×z后使用ReLU,然后进行全连接层操作W2δ(W1z)后使用sigmoid激活函数,得到s。W1和W2分别表示这两个全连接层的参数,以上两个操作整体就是所述的门控机制。
S303:重加权的操作,将上一步的输出看做是每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。如下公式所示:
其中,为注意力模块最后的输出,/>和Fscale(uc,sc)表示标量sc和特征映射uc之间的按通道相乘。
优选的,所述第二卷积神经网络层包括两个5×5的卷积层,用于进一步提取低层特征;两个卷积层后都连接一个2×2的最大池化层,作用是丢弃特征图中除最强特征以外的其它特征。
之后,将两个并行通道的处理结果输入所述第一全连接层之前,对占比为ɑ的特征图进行上采样处理,即反卷积处理,使得特征图恢复原来的大小。
S4:将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图。
S5:将所述第二特征图输入所述空间注意力层,进行注意力加权处理。建立全局相互依赖关系,减少空间冗余信息。
在一个具体的实施例中,给定一个任务相关的查询向量q,用注意力变量z∈[1,N]表示被选择信息的索引位置,即z=i表示选择了第i个输入信息。为方便计算,选择softmax信息选择机制。计算在给定q和X下,选择第i个输入信息的概率αi,如以下公式所示:
其中,输出αi为注意力分布,s(xi,q)为注意力打分函数。
S6:将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理。
优选的,在第二全连接层中添加Dropout层来减少特征参数,避免模型的过拟合。
S7:将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
第二方面,与前述方法对应,本发明还提供一种基于注意力的多尺度卷积语音情感识别装置,如图4所示,该装置包括:
模型构建模块,用于构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;
特征图提取模块,用于将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;
特征图分割模块,用于将所述第一特征图分割为两个子特征图,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理;
特征图融合模块,用于将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;
注意力加权模块,用于将所述第二特征图输入所述空间注意力层,进行注意力加权处理;
特征降维模块,用于将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;
情感分类结果输出模块,用于将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
本发明所述的基于注意力的多尺度卷积模型相比于CNN网络和CBAM模型,在不增加额外计算量的前提下,充分考虑不同尺度特征图的信息特征,增加卷积核的感知域,进行高效的情感特征提取。因此,该发明能够显著提升语音情感识别精度。卷积神经网络CNN由Yann LeCun在1998年提出以来就一直被用于各种人工智能领域的任务中,并且在语音情感识别领域取得了成功。具有局部感知的CNN能够对频谱特征的局部结构信息进行建模,并具有更强广泛性和鲁棒性的权值共享和池化技术。而由Woo等人在2018年提出的CBAM模型,将通道注意力机制和空间注意力机制拼接起来,同时考虑了多方面的特征信息。本发明提出的模型在以CNN作为卷积层的基础上,考虑到不同特征通道信息的不均衡性,增加了两个并行的通道注意力机制和融合通道的空间注意力机制。
使用不同模型进行语音情感识别的精度对比如下表所示:
表1模型准确率的加权平均值
Model | CASIA(WA%) |
CNN | 62.77 |
CBAM | 90.87 |
Proposed | 94.07 |
在CASIA语音数据集中,本发明提出的模型准确率的加权平均值远高于CNN和CBAM模型,其中比准确率为90.87%的CBAM模型高3.2%。可见,本发明提出的模型有滤除冗余信息、挖掘深度特征的能力,能够显著提高语音情感识别的精度。
本发明所提供的一种基于注意力的多尺度卷积语音情感识别方法及装置,公开了一种基于传统CNN进行改进的多尺度卷积神经网络,在不增加额外计算量的前提下,充分考虑不同尺度特征图的信息特征,增加卷积核的感知域,进行高效的情感特征提取,从而提高了SER的性能。同时,改进将通道注意力和空间注意力进行拼接的CBAM模型,在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,有利于深度模型捕获到更多情感相关的信息,找到显著的情感区域。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (8)
1.一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,包括以下步骤:
构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;
将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;
设置参数α,将所述第一特征图以1-α:α的比例进行通道上的分割,分割为两个子特征图,并对占比为ɑ的子特征图进行平均池化的下采样处理,将所述第一特征图分割为两个子特征图,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理,并对占比为ɑ的特征图进行上采样处理;
将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;
将所述第二特征图输入所述空间注意力层,进行注意力加权处理;
将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;
将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
2.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:α=0.8。
3.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,所述对一个子特征图进行并行的注意力加权处理,包括:
将所述子特征图输入所述注意力层,得到新特征图;
将所述新特征图与所述子特征图相乘,得到注意力加权特征图。
4.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:
所述第二卷积神经网络层包括两个5×5的卷积层,两个卷积层后都连接一个2×2的最大池化层。
5.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:
所述第一卷积神经网络层包括5×5的卷积层和批标准化层。
6.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,将所述第二特征图输入所述空间注意力层,进行注意力加权处理,包括:
计算所述第二特征图的注意力分数:
使用softmax信息选择机制,计算在给定任务相关的查询向量q和输入X下,选择第i个输入信息的概率αi。
7.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:
所述第二全连接层中包括Dropout层。
8.一种基于注意力的多尺度卷积语音情感识别装置,其特征在于,包括:
模型构建模块,用于构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;
特征图提取模块,用于将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;
特征图分割模块,用于设置参数α,将所述第一特征图以1-α:α的比例进行通道上的分割,分割为两个子特征图,并对占比为ɑ的子特征图进行平均池化的下采样处理,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理,并对占比为ɑ的特征图进行上采样处理;
特征图融合模块,用于将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;
注意力加权模块,用于将所述第二特征图输入所述空间注意力层,进行注意力加权处理;
特征降维模块,用于将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;
情感分类结果输出模块,用于将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916170.4A CN113793627B (zh) | 2021-08-11 | 2021-08-11 | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916170.4A CN113793627B (zh) | 2021-08-11 | 2021-08-11 | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793627A CN113793627A (zh) | 2021-12-14 |
CN113793627B true CN113793627B (zh) | 2023-12-29 |
Family
ID=78875853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916170.4A Active CN113793627B (zh) | 2021-08-11 | 2021-08-11 | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793627B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429948A (zh) * | 2020-03-27 | 2020-07-17 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN111754988A (zh) * | 2020-06-23 | 2020-10-09 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN112037822A (zh) * | 2020-07-30 | 2020-12-04 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN112735477A (zh) * | 2020-12-31 | 2021-04-30 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
-
2021
- 2021-08-11 CN CN202110916170.4A patent/CN113793627B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN111429948A (zh) * | 2020-03-27 | 2020-07-17 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN111754988A (zh) * | 2020-06-23 | 2020-10-09 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN112037822A (zh) * | 2020-07-30 | 2020-12-04 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN112735477A (zh) * | 2020-12-31 | 2021-04-30 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113793627A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325155B (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
CN112541503B (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN110223292B (zh) | 图像评估方法、装置及计算机可读存储介质 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN110020681A (zh) | 基于空间注意力机制的点云特征提取方法 | |
CN110852295B (zh) | 一种基于多任务监督学习的视频行为识别方法 | |
CN112801059B (zh) | 图卷积网络系统和基于图卷积网络系统的3d物体检测方法 | |
CN112580694B (zh) | 基于联合注意力机制的小样本图像目标识别方法及系统 | |
CN112070768A (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN116229077A (zh) | 一种基于改进的Mask-R-CNN网络的数学函数图像实例分割方法 | |
CN114612306A (zh) | 一种面向裂缝检测的深度学习超分辨率方法 | |
CN117218351A (zh) | 基于局部和全局上下文感知的三维点云语义分割方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN116681960A (zh) | 一种基于K8s的中尺度涡旋智能识别方法及系统 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN113688715A (zh) | 面部表情识别方法及系统 | |
CN113793627B (zh) | 一种基于注意力的多尺度卷积语音情感识别方法及装置 | |
CN116977631A (zh) | 一种基于DeepLabV3+的街景语义分割方法 | |
CN116524180A (zh) | 基于轻量级主干结构的戏曲舞台场景分割方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |