CN112489689A - 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 - Google Patents

基于多尺度差异对抗的跨数据库语音情感识别方法及装置 Download PDF

Info

Publication number
CN112489689A
CN112489689A CN202011376020.0A CN202011376020A CN112489689A CN 112489689 A CN112489689 A CN 112489689A CN 202011376020 A CN202011376020 A CN 202011376020A CN 112489689 A CN112489689 A CN 112489689A
Authority
CN
China
Prior art keywords
database
emotion
representing
voice
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011376020.0A
Other languages
English (en)
Other versions
CN112489689B (zh
Inventor
郑文明
郑婉璐
宗源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011376020.0A priority Critical patent/CN112489689B/zh
Publication of CN112489689A publication Critical patent/CN112489689A/zh
Application granted granted Critical
Publication of CN112489689B publication Critical patent/CN112489689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多尺度差异对抗的跨数据库语音情感识别方法,方法包括:(1)获取多个语音情感数据库;(2)提取每一语音信号的全局IS10特征,提取全局特征;(3)将语音信号分成前后重叠50%的五段短片段并分别提取其IS10特征;(4)输入双向长短时间记忆模型,再输入注意力机制模型,输出作为局部特征;(5)将全局IS10特征和局部特征并联,提取联合特征;(6)建立神经网络,包括对应于上述三种尺度的三个领域判别器,和情感分类器;(7)训练神经网络,网络总损失为情感分类器损失减去三个领域判别器损失;(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。本发明识别结果更准确。

Description

基于多尺度差异对抗的跨数据库语音情感识别方法及装置
技术领域
本发明涉及语音情感识别技术,尤其涉及一种基于多尺度差异对抗的跨数据库语音情感识别方法及装置。
背景技术
语音情感识别是情感计算领域中的一个热门研究问题,应用前景广阔。由于不同数据库之间存在较大的特征分布差异,很大程度上影响了系统的表现。同时语音信号具有独特的序列属性,所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号:帧尺度、整句话尺度。跨数据库语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种基于多尺度差异对抗的跨数据库语音情感识别方法,本发明采用局部,全局和联合尺度上进行领域对抗学习,减小源域数据库数据以及目标域数据库数据的特征分布差异,在此基础之上进行分类,使得识别结果更准确。
技术方案:本发明所述的基于多尺度差异对抗的跨数据库语音情感识别方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取IS10 low-level特征,然后利用卷积神经网络做为全局特征提取器提取深度特征,作为全局特征Xg;特征提取器包括三层卷积层;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局IS10特征和局部特征并联,输入另一个卷积神经网络做为联合特征提取器提取深度特征,作为联合特征,特征提取器包括三层卷积层;
(6)建立神经网络,所述神经网络包括对应于上述三种尺度的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的局部特征,全局特征和联合特征分别混合起来作为三个样本,输入对应尺度的领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去三个领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。
进一步的,步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。
进一步的,步骤(2)中所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
进一步的,步骤(4)中所述双向长短时间记忆模型为:
Figure BDA0002808218650000021
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;
Figure BDA0002808218650000022
是局部IS10特征。
步骤(4)中所述注意力机制模型为:
f(Hl)=WTHl
Figure BDA0002808218650000023
Figure BDA0002808218650000024
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,
Figure BDA0002808218650000025
表示Hl第i、j个元素,
Figure BDA0002808218650000026
表示注意力机制模型的输出。Fl表示局部特征提取器。
进一步的,步骤(5)中所述联合特征提取器为:
Figure BDA0002808218650000031
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
进一步的,步骤(7)中所述网络总损失为:
Figure BDA0002808218650000032
式中,式中,
Figure BDA0002808218650000033
表示网络总损失,λ为正则化乘数,其中:
Figure BDA0002808218650000034
Figure BDA0002808218650000035
Figure BDA0002808218650000036
Figure BDA0002808218650000037
形如
Figure BDA0002808218650000038
表示领域判别器的交叉熵损失函数,
Figure BDA0002808218650000039
分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数,
Figure BDA00028082186500000310
表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;yi表示源域数据库中语音信号的情感类别标签,
Figure BDA00028082186500000311
表示源域、目标域数据库中语音信号的全局特征,
Figure BDA00028082186500000312
表示源域、目标域数据库中语音信号的局部特征,
Figure BDA00028082186500000313
表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
本发明还公开了一种基于多尺度差异对抗的跨数据库语音情感识别装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现上述方法。
有益效果:本发明与现有技术相比,其显著优点是:本发明提供了一种多尺度特征的领域对抗的语音情感识别方法,该方法结合了多种时间尺度的语音情感特征,相应地,多种尺度的领域判别器和情感分类器互相对抗学习,通过反向传播算法更新网络参数最终学习到一种既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征,使得识别准确率更高。三个领域判别器可以在网络学习过程中动态地调整特征参数,使源域和目标域数据库的特征分布更接近。当领域判别器不能区分数据是来自于源域数据库还是目标域数据库时,在源域数据库上训练的分类器可以更好地分类目标域数据库。
附图说明
图1是本发明的一个实施例的流程示意图;
图2是本发明的神经网络训练过程示意图。
具体实施方式
本实施例提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法,如图1和图2所示,包括:
(1)获取多个存储有若干语音信号和对应情感类别标签的语音情感数据库,分别做为源域数据库和目标域数据库。步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库。两种数据库可以是不同语言的。
(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征,其中,IS10特征为“Interspeech 2010paralinguistic challenge.Christian Müller,“Theinterspeech 2010 paralinguistic challenge,”Proc Interspeech,2010.”中的特征,其定义见该文献,不再赘述,该特征提取时采用openSMILE toolkit(一个公开的工具包)进行提取。采用
Figure BDA0002808218650000041
表示提取的IS10特征,d表示IS10特征的维度1582。随后输入全局特征提取器提取深度特征,作为全局特征Xg
所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征。
若一个语音信号划分为前后重叠50%的N(N=5)个短片段,则该语音信号的IS10特征表示为:
Figure BDA0002808218650000042
Figure BDA0002808218650000043
表示第N个片段的IS10特征。
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征。
其中,若双向长短时间记忆模型采用L()表示,其中隐藏节点的个数为h,具体前向和后向隐藏节点数为1582,则注意力机制模型的输出为:
Figure BDA0002808218650000051
f(Hl)=WTHl
Figure BDA0002808218650000052
Figure BDA0002808218650000053
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,
Figure BDA0002808218650000054
表示Hl第i、j个元素,
Figure BDA0002808218650000055
表示注意力机制模型的输出。Fl表示局部特征提取器。
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局IS10特征和局部特征并联,输入另一个卷积神经网络提取深度特征,作为联合特征;
联合特征提取器为:
Figure BDA0002808218650000056
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
(6)建立神经网络,所述神经网络包括对应于上述三种尺度的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别。
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练。
步骤(7)中所述网络总损失为:
Figure BDA0002808218650000057
式中,式中,
Figure BDA0002808218650000058
表示网络总损失,λ为正则化乘数,其中:
Figure BDA0002808218650000061
Figure BDA0002808218650000062
Figure BDA0002808218650000063
Figure BDA0002808218650000064
形如
Figure BDA0002808218650000065
表示领域判别器的交叉熵损失函数,
Figure BDA0002808218650000066
分别表示局部尺度,全局尺度,联合尺度上的领域判别器的交叉熵损失函数,
Figure BDA0002808218650000067
表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;yi表示源域数据库中语音信号的情感类别标签,
Figure BDA0002808218650000068
表示源域、目标域数据库中语音信号的全局特征,
Figure BDA0002808218650000069
表示源域、目标域数据库中语音信号的局部特征,
Figure BDA00028082186500000610
表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
Figure BDA00028082186500000611
参数λ表示为正则化乘数,λ初始值为0,在训练结束之前逐渐增长到1。γ为10,p表示训练进程,范围为0到1。
通过学习和训练,得到既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征。
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。
本发明还提供了一种基于多尺度差异对抗的跨数据库语音情感识别方法装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现上述方法。
下面以IEMOCAP和MSP-improv情感数据库中的四种类别(生气、高兴、悲伤、中性)的语音情感数据为例进行验证,验证结果如表1所示:
表1
特征种类 有权重准确率(%) 无权重准确率(%)
全局尺度对抗 33.25 30.03
局部尺度对抗 33.42 33.05
联合尺度对抗 36.29 31.84
联合局部特征不经过领域判别器 28.16 25.08
多尺度差异对抗 43.43 34.59
其中“全局尺度对抗”、“局部尺度对抗”、“联合尺度对抗”分别为单独输入以上尺度的特征到对应尺度的领域判别器,“联合局部特征不经过领域判别器”为不经过领域判别过程,直接进行情感分类。“多尺度差异对抗”为三种尺度特征同时输入以上三种尺度的领域判别器。
实验结果表明,多尺度差异对抗的跨数据库语音情感识别方法取得了最高的语音情感识别准确率。在IEMOCAP做源数据库,MSP-improve做目标域数据库的四类(生气、高兴、悲伤、中性)的语音情感识别任务中,本发明提出的基于模型相对于其他方法得到了更好的识别结果。相较于其他方法,本发明成功地在多个特征尺度上同时地减小了数据库之间的特征分布差异,获得了情感相关但是领域无关的语音特征,提高了语音情感识别准确率。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于,该方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取IS10 low-level特征,然后利用卷积神经网络做为全局特征提取器提取深度特征,作为全局特征,特征提取器包括三层卷积层;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将全局IS10特征和局部特征并联,输入另一个卷积神经网络做为联合特征提取器提取深度特征,作为联合特征,特征提取器包括三层卷积层;
(6)建立神经网络,所述神经网络包括对应于上述三种尺度的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的局部特征,全局特征和联合特征分别混合起来作为三个样本,输入对应尺度的领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去三个领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。
2.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(1)中,划分源域数据库和目标域数据库的方法为:将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库,另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库;两种数据库可以是不同语言的。
3.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(2)中所述全局特征提取器为:
Gg=Fg(Xg)
式中,Fg表示卷积神经网络,包含三层卷积层,Xg表示全局语音IS10特征,Gg表示得到的全局特征。
4.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(4)中所述双向长短时间记忆模型为:
Figure FDA0002808218640000021
式中L()为双向长短时间记忆模型,Hl表示获得的隐藏层状态;
Figure FDA0002808218640000022
表示局部IS10特征;
步骤(4)中所述注意力机制模型为:
f(Hl)=WTHl
Figure FDA0002808218640000023
Figure FDA0002808218640000024
式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的输出,αi表示注意力权重,
Figure FDA0002808218640000025
表示Hl第i、j个元素,
Figure FDA0002808218640000026
表示注意力机制模型的输出,即局部特征。
5.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(5)中所述联合特征提取器为:
Figure FDA0002808218640000027
式中,Fh表示卷积神经网络,包含三层卷积层,Gh表示得到的联合特征。
6.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于:步骤(7)中所述网络总损失为:
Figure FDA0002808218640000028
式中,
Figure FDA0002808218640000029
表示网络总损失,λ为正则化乘数,其中:
Figure FDA00028082186400000210
Figure FDA0002808218640000031
Figure FDA0002808218640000032
Figure FDA0002808218640000033
形如
Figure FDA0002808218640000034
表示领域判别器的交叉熵损失函数,
Figure FDA0002808218640000035
分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数,
Figure FDA0002808218640000036
表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;
Figure FDA0002808218640000037
表示源域数据库中语音信号的情感类别标签,
Figure FDA0002808218640000038
表示源域、目标域数据库中语音信号的全局特征,
Figure FDA0002808218640000039
表示源域、目标域数据库中语音信号的局部特征,
Figure FDA00028082186400000310
表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;
网络训练目的是最小化网络总损失函数。
7.一种基于多尺度差异对抗的跨数据库语音情感识别装置,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现权利要求1-6中任意一项所述的方法。
CN202011376020.0A 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 Active CN112489689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011376020.0A CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011376020.0A CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Publications (2)

Publication Number Publication Date
CN112489689A true CN112489689A (zh) 2021-03-12
CN112489689B CN112489689B (zh) 2024-04-30

Family

ID=74937525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011376020.0A Active CN112489689B (zh) 2020-11-30 2020-11-30 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN112489689B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077823A (zh) * 2021-03-24 2021-07-06 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN114708609A (zh) * 2021-11-12 2022-07-05 中国矿业大学 一种基于持续学习的域适应骨架行为识别方法和系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
US20110295607A1 (en) * 2010-05-31 2011-12-01 Akash Krishnan System and Method for Recognizing Emotional State from a Speech Signal
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN110992988A (zh) * 2019-12-24 2020-04-10 东南大学 一种基于领域对抗的语音情感识别方法及装置
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
WO2020196978A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
US20110295607A1 (en) * 2010-05-31 2011-12-01 Akash Krishnan System and Method for Recognizing Emotional State from a Speech Signal
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
WO2020196978A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN110992988A (zh) * 2019-12-24 2020-04-10 东南大学 一种基于领域对抗的语音情感识别方法及装置
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NING JIN 等: "Multi-Task Learning Model Based on Multi-Scale CNN and LSTM for Sentiment Classification", IEEE ACCESS, vol. 8, pages 77060 - 77072, XP011786489, DOI: 10.1109/ACCESS.2020.2989428 *
张昕然 等: "用于跨库语音情感识别的DBN特征融合方法", 信号处理, vol. 33, no. 5, pages 649 - 660 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077823A (zh) * 2021-03-24 2021-07-06 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN113077823B (zh) * 2021-03-24 2024-05-03 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN114708609A (zh) * 2021-11-12 2022-07-05 中国矿业大学 一种基于持续学习的域适应骨架行为识别方法和系统
CN114708609B (zh) * 2021-11-12 2023-08-18 中国矿业大学 一种基于持续学习的域适应骨架行为识别方法和系统

Also Published As

Publication number Publication date
CN112489689B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
US10515292B2 (en) Joint acoustic and visual processing
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN106294344A (zh) 视频检索方法和装置
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
Benzebouchi et al. Multi-classifier system for authorship verification task using word embeddings
CN104538036A (zh) 一种基于语义细胞混合模型的说话人识别方法
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN110727765A (zh) 基于多注意力机制的问题分类方法、系统及存储介质
CN110853630A (zh) 面向边缘计算的轻量级语音识别方法
CN112489689A (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Niyozmatova et al. Classification Based On Decision Trees And Neural Networks
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
Bagadi et al. An evolutionary optimization method for selecting features for speech emotion recognition
Birla A robust unsupervised pattern discovery and clustering of speech signals
Bharti et al. Automated speech to sign language conversion using Google API and NLP
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant