CN113593537B - 基于互补特征学习框架的语音情感识别方法及装置 - Google Patents
基于互补特征学习框架的语音情感识别方法及装置 Download PDFInfo
- Publication number
- CN113593537B CN113593537B CN202110850400.1A CN202110850400A CN113593537B CN 113593537 B CN113593537 B CN 113593537B CN 202110850400 A CN202110850400 A CN 202110850400A CN 113593537 B CN113593537 B CN 113593537B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- channel
- inputting
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 49
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 70
- 230000004927 fusion Effects 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 20
- 108091006146 Channels Proteins 0.000 description 59
- 238000013135 deep learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于互补特征学习框架的语音情感识别方法及装置。本发明所述的基于互补特征学习框架的语音情感识别方法包括:构建互补特征学习框架,框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,还包括注意力融合模块;将MFCC系数和手工制作特征分别通过独立特征学习通道进行特征提取,得到特征F1和特征F2;再将二者同时输入所述融合特征学习通道进行特征提取,得到特征F3;将特征F1、特征F2和特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;对所述分类特征进行分类,得到最终的情感识别与分类结果。本发明所述的语音情感识别方法结合了独立训练和融合训练的优点,情感识别结果更加准确。
Description
技术领域
本发明涉及语音情感识别领域,特别是涉及一种基于互补特征学习框架的语音情感识别方法及装置。
背景技术
深度学习是机器学习领域的一个部分,它模拟人脑进行学习和解释数据,在图像、声音和文本方面都有广泛的研究。相较于机器学习,深度学习擅于使用更多的数据或是更好的算法来提高学习的结果。目前,传统的深度学习框架主要分为单一特征和融合特征框架。单一特征是框架利用最传统的训练方式,而特征融合框架是指独立提取不同层次或分支的特征,在通过不同的融合方案后共同进行训练。与只使用一种特征的深度学习任务相比,融合特征的深度学习方法更能提高任务性能。然而,现有的研究都只注重融合在特征表达方面的优势发挥,却忽视了独立提取特征在情感识别中的表达方式不同,在一个softmax层内进行融合训练可能存在干扰的。基于此考虑,有研究者也提出了一种能够充分享手工制作特征优势和深度学习模型强大学习能力的独立训练框架,用不同的损失函数反馈来优化不同的模型,在深度学习的语音情感识别任务中性能有了很大的提升。
但独立训练的方法也有一定的不足:
1、没有充分考虑不同特征之间的相关性,忽视了共同训练方法的优势互补的特点,导致情绪信息的丢失。
2、独立训练通过简单的连接操作来实现不同通道的聚合,但这可能不是最好的选择。
发明内容
基于此,本发明的目的在于,提供一种基于互补特征学习框架的语音情感识别方法及装置、智能设备、存储介质,使用互补特征学习框架完成梅尔频率倒谱系数和手工制作特征的学习,方法综合了独立训练和融合训练提取特征的优势。
第一方面,本发明提供一种基于互补特征学习框架的语音情感识别方法,包括以下步骤:
构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
获取待识别语音的MFCC系数和手工制作特征;
将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
对所述分类特征进行分类,得到最终的情感识别与分类结果。
进一步地,将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1,包括:
将所述MFCC系数输入两层二维卷积层中进行特征提取,得到MFCC特征图,其中,每个二维卷积层后连接一个归一化层;
所述MFCC特征图进行展平处理后,使用全连接层进行特征提取,使用softmax层输出,得到特征F1。
进一步地,将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2,包括:
将所述手工制作特征输入三层全连接层中进行特征提取,得到手工制作特征图,其中,每个全连接层后面连接一个归一化层;
将所述手工制作特征图使用softmax输出,得到特征F2。
进一步地,将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3,包括:
对所述手工制作特征进行零填充后进行一维卷积处理,对所述MFCC系数进行一维卷积处理,将经过一维卷积处理后的手工制作特征和经过一维卷积处理后的MFCC系数进行拼接得到特征G(x);
对所述特征G(x)沿信道轴进行两层一维卷积,得到特征G1(x);
将特征G(x)进行转置,沿空间轴进行两层一维卷积,得到特征G2(x);
将所述特征G(x)、所述特征G1(x)和所述特征G2(x)进行拼接和展平处理;
使用全连接层对所述拼接和展平处理的结果进行特征提取,使用softmax层输出,得到特征F3。
进一步地,将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征,包括:
将所述特征F1、特征F2和特征F3拼接后展平,并进行逐点卷积得到聚合特征F(x);
计算所述聚合特征F(x)的注意融合权值W(x),将所述聚合特征F(x)和所述注意融合权值W(x)相乘,得到分类特征。
进一步地,所述计算所述聚合特征F(x)的注意融合权值W(x),包括:
对所述聚合特征F(x)进行全局平均池化处理和归一化处理,得到通道维度的描述子和符号维度描述子;
将所述通道维度的描述子和所述描述子与F(x)相乘,进行全局平均池化处理,生成信道符号的注意融合权值;
重复前述步骤连续进行三次,得到最终的权值W(x)。
进一步地,对所述分类特征进行分类,得到最终的情感识别与分类结果,包括:
使用SVM对所述分类特征进行分类,得到最终的情感识别与分类结果。
进一步地,所述获取待识别语音的MFCC系数,包括:
对待识别的原始语音信号进行分帧、加窗、傅里叶变换后堆叠起来,通过梅尔尺度滤波器组;
将每个梅尔尺度滤波器的对数能量带入离散余弦变换,得到MFCC系数。
进一步地,所述获取待识别语音的手工制作特征,包括:
使用openSMILE工具箱提取对待识别的原始语音信号进行处理,得到384维的openSMILE特征。
第二方面,本发明提供一种基于互补特征学习框架的语音情感识别装置,包括:
学习框架构建模块,用于构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
语音信号处理模块,用于获取待识别语音的MFCC系数和手工制作特征;
MFCC特征提取模块,用于将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
手工制作特征提取模块,用于将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
融合特征提取模块,用于将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
分类特征获取模块,用于将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
分类模块,用于对所述分类特征进行分类,得到最终的情感识别与分类结果。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种基于互补特征学习框架的语音情感识别方法的流程示意图;
图2为本发明提供的一种基于互补特征学习框架的语音情感识别方法所使用的互补特征学习框架的结构示意图;
图3为本发明提供的一种基于互补特征学习框架的语音情感识别方法所使用的互补特征学习框架的AFB注意力模块的结构和流程示意图;
图4为本发明提供的一种基于互补特征学习框架的语音情感识别方法在三个公共的语料库上的语音情感识别任务结果与其他识别方法的结果对比示意图;
图5为本发明提供的一种基于互补特征学习框架的语音情感识别方法在三个公共的语料库上的语音情感识别任务结果与不使用AFB注意力模块方法的结果对比示意图;
图6为本发明提供的一种基于互补特征学习框架的语音情感识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
语音情感识别是指由计算机自动识别输入语音的情感状态。一般来说,不同语言声调表情的语言信号在其时间构造、振幅构造、基频构造和共振峰构造等特征方面也有着不同的构造特点和分布规律。由此,只要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造等特征方面的构造特点和分布规律进行测算和分析,并以此为基础或模板,就可以识别出所有语言声调中所隐含的情感内容。
如图1所示,本发明提供的一种基于互补特征学习框架的语音情感识别方法包括以下步骤:
S1:构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块。
如图2所示,在一个优选的实施例中,本发明所使用的互补特征学习框架包括:
第一独立特征学习通道:由卷积层、全连接层和归一化层组成的CNN(卷积神经网络)模型;其中,每个卷积层后连接一个归一化层。
第二独立特征学习通道:由3个全连接层组成的DNN(深度神经网络)模型;其中,每个全连接层后面连接一个归一化层。
融合特征学习通道:由卷积层、拼接层组成。
注意力融合模块:由池化层、归一化层、卷积层组成。
以上3条特征学习通道分别提取得到不同的特征,输入注意力融合模块进行下一步的特征融合和提取。
S2:获取待识别语音的MFCC系数和手工制作特征。
其中,MFCC系数(梅尔频率倒谱系数)是指利用与频率成非线性的对应关系计算得到的频谱特征。在一个具体的实施例中,获取MFCC系数的步骤为:
对待识别的原始语音信号进行分帧、加窗、傅里叶变换后堆叠起来,通过梅尔尺度滤波器组;
将每个梅尔尺度滤波器的对数能量带入离散余弦变换,得到MFCC系数。
区别于深度学习特征,手工制作特征(hand crafted features)是指人为设计的特征,即直接设计特征本身,根据仿照人类视觉的特点对什么样的特征敏感,什么样的特征不敏感,提取图像中有区分能力的特征,因此提取出来的特征每一维往往都有具体的物理含义。
在一个具体的实施例中,获取手工制作特征的步骤为:使用openSMILE工具箱提取对待识别的原始语音信号进行处理,得到待识别语音的384维的openSMILE特征。
S3:将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1。
基于图2所示的互补特征学习框架,在一个具体的实施例中,提取得到特征F1的具体步骤包括:
S301:将所述MFCC系数输入两层二维卷积层中进行特征提取,得到MFCC特征图,其中,每个卷积层后连接一个归一化层。连接归一化层可减少内部变量漂移,加快训练过程。
S302:将所述MFCC特征图进行展平处理后,使用全连接层进行特征提取,使用softmax层输出,得到特征F1。
S4:将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2。
基于图2所示的互补特征学习框架,在一个具体的实施例中,提取得到特征F2的具体步骤包括:
S401:将所述手工制作特征输入三层全连接层中进行特征提取,得到手工制作特征图,其中,每个全连接层后面连接一个归一化层。
S402:将所述手工制作特征图使用softmax输出,得到特征F2。
S5:将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3。
基于图2所示的互补特征学习框架,在一个优选的实施例中,提取得到特征F3的具体步骤包括:
S501:对所述手工制作特征进行零填充后进行一维卷积处理,对所述MFCC系数进行一维卷积处理,将所述经过一维卷积处理后的手工制作特征和MFCC特征进行拼接得到特征G(x);
S502:对所述特征G(x)沿信道轴进行两层一维卷积,得到特征G1(x);
S503:将特征G(x)进行转置,沿空间轴进行两层一维卷积,得到特征G2(x);
S504:将所述特征G(x)、所述特征G1(x)和所述特征G2(x)进行拼接和展平处理;
S505:使用全连接层对所述拼接和展平处理的结果进行特征提取,使用softmax层输出,得到特征F3。
S6:将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征。
在一个优选的实施例中,如图3所示,本发明所使用的注意力融合模块为AFB注意力模块,提取分类特征的具体步骤包括:
S601:将所述特征F1、所述特征F2和所述特征F3拼接后展平,并进行逐点卷积得到聚合特征F(x)。
S602:对所述聚合特征F(x)进行全局平均池化处理和归一化处理,得到通道维度的描述子和符号维度描述子。
S603:将所述通道维度描述子和所述符号维度描述子与F(x)相乘,进行全局平均池化处理,生成信道符号的注意融合权值。
S604:重复步骤S602-S603三次,得到最终的权值W(x)。
S605:将所述聚合特征F(x)和所述注意融合权值W(x)相乘,得到分类特征。
S7:对所述分类特征进行分类,得到最终的情感识别与分类结果。
在一个具体的实施例中,使用SVM对所述分类特征进行分类,得到最终的情感识别与分类结果。
借助以往的独立训练方案,本申请实施例对不同的特征学习采用独立的损失反馈来进行深度学习的迭代优化。在两个独立的特征提取通道中,选取的MFCC和手工制作特征(HCF)分别作为CNN和DNN模型的输入。在CNN模型的设计上,采用二维卷积块挖掘MFCC在时间和频率域内的空间关系。该块由卷积层、最大池化层和批处理归一化层组成,并在生成的基于MFCC的独立特征表示中加入全连接层获得更多的有用信息。将独立CNN模型的输出记为F1。同时,DNN模型的体系结构由三个全连接层组成,每个全连接层后面连接一层归一化层。将独立的DNN模型输出记为F2。
与独立训练方法不同的是,为了充分利用所选特征的潜在优势,本发明使用的互补特征学习框架增加了第三条融合特征学习通道来学习两个不同特征间的交互特征。具体的,将MFCC和HCF结合到深度融合特征提取通道中。与二维CNN和DNN模型不同的是,为了生成更多的互补特征,分别采用了一维卷积过程来获得MFCC和HCF的高抽象特征表示。随后,将得到的特征图进行拼接。
紧接着,本发明使用一维卷积来从通道和空间上感知拼接后特征图的上下文。在信道相互作用卷积过程中,会沿信道轴进行卷积,而在空间卷积中,首先将拼接的特征图进行转置,沿着空间轴进行卷积过程得到空间感知特征。
将得到的从通道和空间上学习得到的特征和原始拼接的特征再拼接后使用全连接层进行学习,得到MFCC和HCF的交互特征F3。
基于如图2和图3所示的互补特征学习框架,在一个优选的实施例中,本发明提供的一种基于互补特征学习框架的语音情感识别方法具体包括如下步骤:
S11:对一个原始语音信号进行分帧、加窗、傅里叶变换后堆叠起来,再通过梅尔尺度滤波器组,再将每个滤波器的对数能量带入离散余弦变换得到MFCC系数。并使用openSMILE工具箱提取每个语音文件的384维的openSMILE特征。
S12:将得到的MFCC系数送入简单的两层二维卷积层中进行特征提取,每个卷积层后连接一个归一化层,减少内部变量漂移,加快训练过程。将得到的特征图展平后,使用全连接层和softmax层得到充分的特征F1。
S13:将得到的openSMILE手工提取特征送入三层简单的全连接层中提取特征,使用softmax层得到F2,每个全连接层后面连接一个归一化层。
S14:将得到的openSMILE首先进行零填充,并和MFCC特征单独进行一维的卷积提取特征。之后将二者的特征进行拼接得到G(x)。紧接着,会沿信道轴进行两层的一维卷积得到G1(x),并将G(x)进行转置,沿空间轴进行两层一维卷积G2(x)。
之后将得到的G1(x)、G2(x)和G(x)进行拼接和展平,并使用四层全连接层进行特征提取,每个全连接层后面连接一层归一化层,并使用softmax层得到F3。
S15:将得到的F1,F2,F3拼接后展平,并进行逐点卷积得到聚合结果为F(x)。
接着分别从通道和符号维度对F(x)进行全局平均池化,再使用sigmoid函数进行归一化,得到通道和符号维度的描述子,并将两个描述子与F(x)相乘后全局平均池化生成信道符号的注意融合权值。此过程连续进行三次,得到最终的权值W(x)。
最后利用跳跃连接对特征进行细化,尽可能保持提取的情感表征。具体来说,将F(x)和W(x)相乘的得到最终结果。
S16:最后使用SVM得到最后的情感识别与分类结果。
本发明所使用的互补特征学习框架相比于传统的融合训练方法和独立训练方法能够获得更多的判别性特征,如图4所示,在三个公共的语料库上的语音情感识别任务上能够获得更好的性能。并且,本发明在不同通道输出的聚合方案上提出了一个新颖的特征注意力模块,能够有效的计算特征向量的描述子,使得语音情感识别任务具有更好的性能。
如图5所示,本发明在三个公共的语料库上做出了对比实验。其中,融合特征学习通道的建立能够为语音情感识别任务获取更多的有用信息;并且,使用AFB模块来替代传统的拼接方法聚合不同通道的输出,在语音情感识别任务上具有更好的效果。
第二方面,如图6所示,与前述方法对应,本发明还提供一种基于互补特征学习框架的语音情感识别装置,包括:
学习框架构建模块,用于构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
语音信号处理模块,用于获取待识别语音的MFCC系数和手工制作特征;
MFCC特征提取模块,用于将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
手工制作特征提取模块,用于将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
融合特征提取模块,用于将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
分类特征获取模块,用于将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
分类模块,用于对所述分类特征进行分类,得到最终的情感识别与分类结果。
优选的,MFCC特征提取模块包括:
卷积单元,用于将所述MFCC系数输入两层二维卷积层中进行特征提取,得到MFCC特征图,其中,每个卷积层后连接一个归一化层;
全连接单元,用于将所述MFCC特征图进行展平处理后,使用全连接层进行特征提取,使用softmax层输出,得到特征F1。
优选的,手工制作特征提取模块包括:
手工制作特征图获取单元,用于将所述手工制作特征输入三层全连接层中进行特征提取,得到手工制作特征图,其中,每个全连接层后面连接一个归一化层;
特征F2输出单元,用于将所述手工制作特征图使用softmax输出,得到特征F2。
优选的,融合特征提取模块包括:
卷积拼接单元,用于对所述手工制作特征进行零填充后进行一维卷积处理,对所述MFCC系数进行一维卷积处理,将所述经过一维卷积处理后的手工制作特征和MFCC特征进行拼接得到特征G(x);
信道轴卷积单元,用于对所述特征G(x)沿信道轴进行两层一维卷积,得到特征G1(x);
空间轴卷积单元,用于将特征G(x)进行转置,沿空间轴进行两层一维卷积,得到特征G2(x);
拼接展平单元,用于将所述特征G(x)、所述特征G1(x)和所述特征G2(x)进行拼接和展平处理;
特征F3输出单元,用于使用全连接层对所述拼接和展平处理的结果进行特征提取,使用softmax层输出,得到特征F3。
优选的,分类特征获取模块包括:
聚合特征获取单元,用于将所述特征F1、所述特征F2和所述特征F3拼接后展平,并进行逐点卷积得到聚合特征F(x);
分类特征获取单元,用于计算所述聚合特征F(x)的注意融合权值W(x),将所述聚合特征F(x)和所述注意融合权值W(x)相乘,得到分类特征。
优选的,分类特征获取模块还包括:
描述子获取单元,用于对所述聚合特征F(x)进行全局平均池化处理和归一化处理,得到通道维度的描述子和符号维度描述子;
注意融合权值计算单元,用于将所述通道维度描述子和所述符号维度描述子与F(x)相乘,进行全局平均池化处理,生成信道符号的注意融合权值;
重复执行单元,用于重复前述步骤连续进行三次,得到最终的权值W(x)。
优选的,分类模块包括:
SVM分类单元,用于使用SVM对所述分类特征进行分类,得到最终的情感识别与分类结果。
优选的,语音信号处理模块包括:
MFCC系数获取单元,用于对待识别的原始语音信号进行分帧、加窗、傅里叶变换后堆叠起来,通过梅尔尺度滤波器组;并将每个梅尔尺度滤波器的对数能量带入离散余弦变换,得到MFCC系数;
手工制作特征获取单元,用于使用openSMILE工具箱提取对待识别的原始语音信号进行处理,得到待识别语音的384维的openSMILE特征。
本发明提供的一种基于互补特征学习框架的语音情感识别方法及装置,针对不同的特征提取模型,设计相对独立的反馈机制,这有利于学习特征间的独立信息,减少模型的相互干扰,提高深度模型的特征表达能力;同时,为了充分借助独立信息和互补信息的特征表征能力,并行设计不同特征的融合反馈机制,采用同一个反馈优化机制训练,并且最后与独立训练的两个结果一同再结合不同分类器进行分类。
因此,本发明提供的一种基于互补特征学习框架的语音情感识别方法及装置,可用在适合的深度学习多通道语音情感识别模型中,结合了独立训练和融合训练的特点,有利于学习不同特征之间的独立信息和交互信息,提高模型的特征表征能能力。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于互补特征学习框架的语音情感识别方法,其特征在于,包括以下步骤:
构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
获取待识别语音的MFCC系数和手工制作特征;
将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
对所述分类特征进行分类,得到最终的情感识别与分类结果。
2.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1,包括:
将所述MFCC系数输入两层二维卷积层中进行特征提取,得到MFCC特征图,其中,每个二维卷积层后连接一个归一化层;
将所述MFCC特征图进行展平处理后,使用全连接层进行特征提取,使用softmax层输出,得到特征F1。
3.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,将所述手工制作特征输入第二独立特征学习通道进行特征提取,得到特征F2,包括:
将所述手工制作特征输入三层全连接层中进行特征提取,得到手工制作特征图,其中,每个全连接层后面连接一个归一化层;
将所述手工制作特征图使用softmax输出,得到特征F2。
4.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3,包括:
对所述手工制作特征进行零填充后进行一维卷积处理,对所述MFCC系数进行一维卷积处理,将经过一维卷积处理后的手工制作特征和经过一维卷积处理后的MFCC系数进行拼接得到特征G(x);
对所述特征G(x)沿信道轴进行两层一维卷积,得到特征G1(x);
将特征G(x)进行转置,沿空间轴进行两层一维卷积,得到特征G2(x);
将所述特征G(x)、所述特征G1(x)和所述特征G2(x)进行拼接和展平处理;
使用全连接层对所述拼接和展平处理的结果进行特征提取,使用softmax层输出,得到特征F3。
5.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征,包括:
将所述特征F1、所述特征F2和所述特征F3拼接后展平,并进行逐点卷积得到聚合特征F(x);
计算所述聚合特征F(x)的注意融合权值W(x),将所述聚合特征F(x)和所述注意融合权值W(x)相乘,得到分类特征。
6.根据权利要求5所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,所述计算所述聚合特征F(x)的注意融合权值W(x),包括:
对所述聚合特征F(x)进行全局平均池化处理和归一化处理,得到通道维度的描述子和符号维度描述子;
将所述通道维度描述子和所述符号维度描述子与F(x)相乘,进行全局平均池化处理,生成信道符号的注意融合权值;
重复前述步骤连续进行三次,得到最终的权值W(x)。
7.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,对所述分类特征进行分类,得到最终的情感识别与分类结果,包括:
使用SVM对所述分类特征进行分类,得到最终的情感识别与分类结果。
8.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,所述获取待识别语音的MFCC系数,包括:
对待识别的原始语音信号进行分帧、加窗、傅里叶变换后堆叠起来,通过梅尔尺度滤波器组;
将每个梅尔尺度滤波器的对数能量带入离散余弦变换,得到MFCC系数。
9.根据权利要求1所述的一种基于互补特征学习框架的语音情感识别方法,其特征在于,所述获取待识别语音的手工制作特征,包括:
使用openSMILE工具箱提取对待识别的原始语音信号进行处理,得到384维的openSMILE特征。
10.一种基于互补特征学习框架的语音情感识别装置,其特征在于,包括:
学习框架构建模块,用于构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
语音信号处理模块,用于获取待识别语音的MFCC系数和手工制作特征;
MFCC特征提取模块,用于将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
手工制作特征提取模块,用于将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
融合特征提取模块,用于将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
分类特征获取模块,用于将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
分类模块,用于对所述分类特征进行分类,得到最终的情感识别与分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850400.1A CN113593537B (zh) | 2021-07-27 | 2021-07-27 | 基于互补特征学习框架的语音情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850400.1A CN113593537B (zh) | 2021-07-27 | 2021-07-27 | 基于互补特征学习框架的语音情感识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593537A CN113593537A (zh) | 2021-11-02 |
CN113593537B true CN113593537B (zh) | 2023-10-31 |
Family
ID=78250553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110850400.1A Active CN113593537B (zh) | 2021-07-27 | 2021-07-27 | 基于互补特征学习框架的语音情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593537B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116660982B (zh) * | 2023-08-02 | 2023-09-29 | 东北石油大学三亚海洋油气研究院 | 一种基于注意力卷积神经网络的全波形反演方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN111524535A (zh) * | 2020-04-30 | 2020-08-11 | 杭州电子科技大学 | 基于注意力机制的特征融合用于语音情感识别的方法 |
WO2020246844A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Device control method, conflict processing method, corresponding apparatus and electronic device |
CN112712824A (zh) * | 2021-03-26 | 2021-04-27 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
-
2021
- 2021-07-27 CN CN202110850400.1A patent/CN113593537B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020246844A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Device control method, conflict processing method, corresponding apparatus and electronic device |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN111524535A (zh) * | 2020-04-30 | 2020-08-11 | 杭州电子科技大学 | 基于注意力机制的特征融合用于语音情感识别的方法 |
CN112712824A (zh) * | 2021-03-26 | 2021-04-27 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
Exploration of an Independent Training Framework for Speech Emotion Recognition;SHUMING ZHONG等;IEEE Access;22533-22341 * |
语音任务下声学特征提取综述;郑纯军等;计算机科学;第47卷(第5期);110-119 * |
Also Published As
Publication number | Publication date |
---|---|
CN113593537A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN110992987B (zh) | 语音信号中针对通用特定语音的并联特征提取系统及方法 | |
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN111627419A (zh) | 一种基于水下目标及环境信息特征的声音生成方法 | |
CN111128211B (zh) | 一种语音分离方法及装置 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
CN113593537B (zh) | 基于互补特征学习框架的语音情感识别方法及装置 | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
Akinpelu et al. | Lightweight Deep Learning Framework for Speech Emotion Recognition | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN112700796B (zh) | 一种基于交互式注意力模型的语音情感识别方法 | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
CN114999633A (zh) | 一种基于多模态共享矢量空间的抑郁识别方法及系统 | |
CN114882888A (zh) | 基于变分自编码和对抗生成网络的声纹识别方法及系统 | |
CN113823318A (zh) | 一种基于人工智能的倍率确定方法、音量调节方法及装置 | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN113744759A (zh) | 音色模板定制方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |