CN115472182A - 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 - Google Patents
一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 Download PDFInfo
- Publication number
- CN115472182A CN115472182A CN202210980973.0A CN202210980973A CN115472182A CN 115472182 A CN115472182 A CN 115472182A CN 202210980973 A CN202210980973 A CN 202210980973A CN 115472182 A CN115472182 A CN 115472182A
- Authority
- CN
- China
- Prior art keywords
- feature
- encoder
- emotion recognition
- features
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 77
- 230000004927 fusion Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000002996 emotional effect Effects 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置,首先获取来自不同领域的语音数据进行数据的预训练,将语音数据转化为频谱,从中提取梅尔倒频谱、线谱对和PCM loudness等语音特征;其次将语音特征输入到多通道自编码器当中来对输入的语音特征进行处理,最终得到特征Rl,并附加上域对抗神经网络,消除特征的非情感信息;然后将目标数据X经过深度卷积神经网络提取出特征再经过Flatten得到特征Rd,然后将Rl和Rd融合得到特征Rc;最后将Rl、Rd和Rc先经过线性处理,然后进行点积注意力,最终通过多头注意力进行融合,将融合结果输入到双向长短期记忆网络分类器中从而得到在本模型下最优的结果,实现了语音情感识别性能的提升。
Description
技术领域
本发明涉及语音情感识别技术领域,尤其涉及一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置。
背景技术
语音是人类最常见的交流形式,人工智能够从语音中学习情感信息和分析信息,因而变得越来越重要。从字面表达中获取信息也不能满足日益增长的要求,因为很大一部分的信息都是由人类的情感来传达的,从字面上获得的信息不一定能够满足人们的需求,例如一些短词可能与字面意思完全相反,所以促进了语音情感识别(SER)的发展,这一研究课题在工业界和学术界都引起了越来越大的兴趣。
现有的方法中,由于缺乏大型和自然的标记数据集,以及无法从语音信号中提取出最优的特征,因此导致识别性能欠佳。
发明内容
本发明提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置,用以解决或者至少部分解决现有技术中的方法存识别性能不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法,包括:
获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练;
将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
在一种实施方式中,多通道自编码器通过多个局部分类器和全局分类器来对输入的特征进行处理,最后将所有的局部分类器和全局分类器的输出进行结合得到处理后的特征,其中局部分类器包括去噪编码器、瓶颈层、隐藏层和分类器层。
在一种实施方式中,域对抗神经网络包含情绪标签判别器、说话者域分类器和语料库域分类器,通过域对抗对处理后的特征施加约束,消除处理后的特征中的非情感性信息,获取更优的特征,作为第一特征。
在一种实施方式中,第二特征融合模块的处理过程包括:
分别对第一特征、第二特征和融合后的特征进行线性处理;
将线性处理后的第一特征、第二特征和融合后的特征通过点积注意力进行计算,得到计算结果;
将计算结果经过Concat进行融合,得到融合结果。
在一种实施方式中,分类器采用双向长短期记忆网络分类器。
在一种实施方式中,利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,包括:
从来自不同领域的语音数据中提取出梅尔倒频谱、线谱对和声音强度;
将提取出的特征输入多通道自编码器进行处理,得到处理后的特征,利用域对抗神经网络消除处理后的特征中的非情感信息,得到第一特征。
基于同样的发明构思,本发明第二方面提供了一种基于注意力特征融合的多通道自编码器的语音情感识别装置,包括:
数据获取模块,用于获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
模型构建模块,用于构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
预训练模块,用于利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,
微调模块,用于将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
识别模块,用于利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明提供的一种基于注意力特征融合的多通道自编码器的语音情感识别方法,构建了构建语音情感识别模型,首先通过对语音情感识别(SER)模型进行预训练来学习额外的特征以解决数据集不足的问题,然后通过语音情感识别(SER)模型当中的多通道自编码器(MTC-AE)考虑不同特征之间的独立性和相关性以此提高特征的质量,然后在多通道自编码器(MTC-AE)处理后得到的特征Rl,并附加上域对抗神经网络(DANN)来消除特征Rl当中的非情感性的信息,最后引入多头注意力(MHA)来减少特征融合阶段期间的信息丢失,从而可以得到最优的特征,有效地提升了语音情感识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于注意力特征融合的多通道自编码器的语音情感识别方法的整体流程示意图;
图2为本发明实施例中多通道自编码器的特征提取过程示意图。
具体实施方式
本申请发明人通过大量的研究与实践发现:目前存在两个主要的问题限制了SER系统的识别能力,首先是缺乏大型和自然的标记数据集,因为记录和注释与情感相关的数据集是一件非常耗时的事情。其次就是如何从语音信号中提取出最优的特征。
因此,本发明主要关注如何处理缺乏数据集和如何从语音信号中提取出最优的特征。首先通过对语音情感识别(SER)模型进行预训练来学习额外的特征以解决数据集不足的问题,然后通过语音情感识别(SER)模型当中的多通道自编码器(MTC-AE)考虑不同特征之间的独立性和相关性以此提高特征的质量,然后在多通道自编码器(MTC-AE)处理后得到的特征Rl之上附加上域对抗神经网络(DANN)来消除特征征Rl当中的非情感性的信息,最后引入多头注意力(MHA)来减少特征融合阶段期间的信息丢失,可以提取出最优特征,因此有效的提升了语音情感识别性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法,包括:
获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练;
将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
具体来说,来自不同领域的语音数据包括各种语音数据,与目标任务不直接相关。目标数据是指与目标任务(语音情感识别任务相关)直接相关的数据,也就是经过标注的与情感相关的数据集,通过迁移学习,可以在一些数据量比较大的数据(与目标任务不直接相关的数据)上预训练,然后在数据量比较小的数据(和目标任务直接相关的数据,也就是目标数据)上进行模型微调,从而可以从pretrain数据(预训练数据,即来自不同领域的语音数据)中学到大量知识,又可以适应目标数据的特定任务。
请参见图1,为本发明实施例中基于注意力特征融合的多通道自编码器的语音情感识别方法的整体流程示意图。Concatenate表示Contact操作。
具体实施过程中,域对抗神经网络采用DANN。
处理后的特征为Rl,目标数据X经过深度卷积神经网络进行特征提取后再经过Flatten(展平)得到第二特征Rd,Rl与Rd通过Contact进行融合后通过一个全连接层,得到Rc。
在模型的微调过程中,根据实际应用场景和模型识别效果,对模型中的域对抗多通道自编码器进行调整,从而可以得到最优的模型,以提升情感识别的性能。
在一种实施方式中,多通道自编码器通过多个局部分类器和全局分类器来对输入的特征进行处理,最后将所有的局部分类器和全局分类器的输出进行结合得到处理后的特征,其中局部分类器包括去噪编码器、瓶颈层、隐藏层和分类器层。
请参见图2,为本发明实施例中多通道自编码器的特征提取过程示意图。
具体来说,多通道自编码器包括多个局部分类器和一个全局分类器,在多通道自编码器(MTC-AE)每个局部分类器中(RNN)中最低的两层都是通过无监督的方式使用堆叠去噪编码器(SDAE)进行预训练,然后将瓶颈层、隐藏层和分类器层连接起来形成一个局部分类器。各个局部分类器的分类结果联合高级特征,从而得到处理后的特征。
在一种实施方式中,域对抗神经网络包含情绪标签判别器、说话者域分类器和语料库域分类器,通过域对抗对处理后的特征施加约束,消除处理后的特征中的非情感性信息,获取更优的特征,作为第一特征。
具体来说,通过域对抗对处理后的特征施加约束,可以消除处理后的特征中的非情感性信息,得到情感识别中的最优特征。其中,情绪标签判别器、说话者域分类器和语料库域分类器在图1中分别用情感分类器、Speaker分类器和Corpora分类器表示。
在一种实施方式中,第二特征融合模块的处理过程包括:
分别对第一特征、第二特征和融合后的特征进行线性处理;
将线性处理后的第一特征、第二特征和融合后的特征通过点积注意力进行计算,得到计算结果;
将计算结果经过Concat进行融合,得到融合结果。
具体实施过程中,第一特征、第二特征和融合后的特征分别为Rl、Rd和Rc,三种特征分别进行线性处理后,进行点积注意力计算,得到计算结果,再通过Concat得到融合结果。
在一种实施方式中,分类器采用双向长短期记忆网络分类器。
双向长短期记忆网络分类器为Bi-LSTM Classifier。
在一种实施方式中,利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,包括:
从来自不同领域的语音数据中提取出梅尔倒频谱、线谱对和声音强度;
将提取出的特征输入多通道自编码器进行处理,得到处理后的特征,利用域对抗神经网络消除处理后的特征中的非情感信息,得到第一特征。
具体实施过程中,将获取的来自不同领域的语音数据作为预训练样本,首先进行预处理,提取出梅尔倒频谱(MFCC)、线谱对(LSP)和脉冲编码调制声音强度(PCM loudness)等语音特征,然后将提取出的特征输入多通道自编码器。
在多通道自编码器(MTC-AE)的预训练阶段,该编码器通过将P(X)重构为P’(X)来更新多通道自动编码器的权值,多通道自动编码器(MTC-AE)的目标函数定义为:
LMTC-AE=argmin||P(X)-P’(X)||2
其中,P(X)表示预训练数据,P’(X)为将预训练数据进行重构后得到的数据。
将域对抗神经网络(DANN)附加到处理后的特征Rl上,域对抗神经网络(DANN)定义如下:
LD=Le-λ(βLs+(1-β)Lc)其中Le、Ls和Lc是域对抗神经网络(DANN)中情感、说话者和语料库分类任务的损失函数,β是权衡参数来控制每个损失项的权重,λ为负常数。
域对抗多通道自编码器(DAMTC-AE)由多通道自编码器(MTC-AE)和域对抗神经网络(DANN)组成,最终的目标函数定义如下:
LDAMTC-AE=LMTC-AE+αLD,LMTC-AE是预训练好的多通道自编码器的重建损失,α是权重。
在具体实施例中,将Rl、Rd和Rc三种特征进行线性处理然后通过点积注意力进行计算,其中第i个注意力头Headi的得分的定义如下:
特征Rd、Rl和Rc分别对应Query、Key和Value,和为第i个Head的可训练参数矩阵。Qi、Ki、Vi分别表示线性处理后的特征,Headi中的Q、K、V为通用的表示,在公式中具体是指Qi、Ki、Vi,将它们(Qi、Ki、Vi)代入Headi的公式中,可以得到第i个注意力头Headi的得分,作为计算结果。
将每一个注意力头的得分经过Concat进行融合,得到融合结果,过程如下:
Mh(Q,K,V)=Concat(Head1,Head2,...,Headn)
最终,将融合结果输入到双向长短期记忆网络分类器(Bi-LSTM Classifier)中从而得到在本模型下最优的结果,实现了语音情感识别性能的提升。
与现有技术相比,本发明具有以下有益效果:
1、相比基于深度去噪自编码器的方法,由于采用多通道自编码器的方法,不仅能够去噪而且能够同时考虑特征的独立性和相关性,得到了更优的特征。
2、通过对模型中的多通道域对抗自编码器进行预训练,能够从其他语料库中提取潜在特征,从而解决了训练数据不足的问题。
3、由于可以利用多通道自编码器得到更优的特征,并通过预训练可以提取出潜在特征,从而可以得出最优的模型,因此可以提高模型的识别性能。
实施例二
基于同样的发明构思,本实施例提供了一种基于注意力特征融合的多通道自编码器的语音情感识别装置,包括:
数据获取模块,用于获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
模型构建模块,用于构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
预训练模块,用于利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,
微调模块,用于将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
识别模块,用于利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于注意力特征融合的多通道自编码器的语音情感识别方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于注意力特征融合的多通道自编码器的语音情感识别方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于图像检索增强的航拍图像分类所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,包括:
获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练;
将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
2.如权利要求1所述的基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,多通道自编码器通过多个局部分类器和全局分类器来对输入的特征进行处理,最后将所有的局部分类器和全局分类器的输出进行结合得到处理后的特征,其中局部分类器包括去噪编码器、瓶颈层、隐藏层和分类器层。
3.如权利要求1所述的基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,域对抗神经网络包含情绪标签判别器、说话者域分类器和语料库域分类器,通过域对抗对处理后的特征施加约束,消除处理后的特征中的非情感性信息,获取更优的特征,作为第一特征。
4.如权利要求1所述的基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,第二特征融合模块的处理过程包括:
分别对第一特征、第二特征和融合后的特征进行线性处理;
将线性处理后的第一特征、第二特征和融合后的特征通过点积注意力进行计算,得到计算结果;
将计算结果经过Concat进行融合,得到融合结果。
5.如权利要求1所述的基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,分类器采用双向长短期记忆网络分类器。
6.如权利要求1所述的基于注意力特征融合的多通道自编码器的语音情感识别方法,其特征在于,利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,包括:
从来自不同领域的语音数据中提取出梅尔倒频谱、线谱对和声音强度;
将提取出的特征输入多通道自编码器进行处理,得到处理后的特征,利用域对抗神经网络消除处理后的特征中的非情感信息,得到第一特征。
7.一种基于注意力特征融合的多通道自编码器的语音情感识别装置,其特征在于,包括:
数据获取模块,用于获取来自不同领域的语音数据和目标数据,其中,目标数据为与语音情感识别任务相关的数据;
模型构建模块,用于构建语音情感识别模型,包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器,其中,域对抗多通道自编码器包括多通道自编码器和域对抗神经网络,多通道自编码器考虑不同特征之间的独立性和相关性,对输入的特征进行处理后,得到处理后的特征,域对抗神经网络用于消除处理后的特征中的非情感信息,得到第一特征;深度卷积神经网络用于从输入的数据中提取出第二特征,第一特征融合模块用于将第一特征和第二特征进行融合,得到融合后的特征,第二特征融合模块用于根据第一特征、第二特征和融合后的特征,得到融合结果,分类器用于根据融合结果,得到语音情感识别结果;
预训练模块,用于利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练,
微调模块,用于将目标数据输入深度卷积神经网络,根据模型识别效果对构建语音情感识别模型进行微调,得到训练好的语音情感识别模型;
识别模块,用于利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至6中任一项权利要求所述的方法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980973.0A CN115472182A (zh) | 2022-08-16 | 2022-08-16 | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980973.0A CN115472182A (zh) | 2022-08-16 | 2022-08-16 | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115472182A true CN115472182A (zh) | 2022-12-13 |
Family
ID=84367949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210980973.0A Pending CN115472182A (zh) | 2022-08-16 | 2022-08-16 | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115472182A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727307A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 基于特征融合的鸟类声音智能识别方法 |
-
2022
- 2022-08-16 CN CN202210980973.0A patent/CN115472182A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727307A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 基于特征融合的鸟类声音智能识别方法 |
CN117727307B (zh) * | 2024-02-18 | 2024-04-16 | 百鸟数据科技(北京)有限责任公司 | 基于特征融合的鸟类声音智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN111160533A (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN113361636B (zh) | 一种图像分类方法、系统、介质及电子设备 | |
CN112418166B (zh) | 一种基于多模态信息的情感分布学习方法 | |
CN109147763A (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN113851131A (zh) | 一种跨模态唇语识别方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 | |
CN116561533B (zh) | 一种教育元宇宙中虚拟化身的情感演化方法及终端 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |