CN115512721A - 基于pdan的跨库语音情感识别方法及装置 - Google Patents

基于pdan的跨库语音情感识别方法及装置 Download PDF

Info

Publication number
CN115512721A
CN115512721A CN202211010176.6A CN202211010176A CN115512721A CN 115512721 A CN115512721 A CN 115512721A CN 202211010176 A CN202211010176 A CN 202211010176A CN 115512721 A CN115512721 A CN 115512721A
Authority
CN
China
Prior art keywords
emotion
loss
neural network
source domain
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211010176.6A
Other languages
English (en)
Inventor
宗源
连海伦
郑文明
常洪丽
张佳成
路成
唐传高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211010176.6A priority Critical patent/CN115512721A/zh
Publication of CN115512721A publication Critical patent/CN115512721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)提取待识别语音语谱图特征,输入训练好的模型,识别出情感类别。本发明识别准确率更高。

Description

基于PDAN的跨库语音情感识别方法及装置
技术领域
本发明涉及语音情感识别技术,尤其涉及一种基于渐进式分布适配神经网络的跨库 语音情感识别方法及装置
背景技术
语音是人类日常生活中的一种主要交流方式,其中包含着丰富的情感信息。想象一 下,如果计算机能够从人类的语音信号中理解情绪状态,那么人机交互无疑会更加自然。 因此,从语音信号中自动识别情绪状态的研究,例如,语音情感识别(SER)在情感计算、人机交互和语音信号处理领域引起了广泛关注。在过去的几十年中,已经提出了许 多性能良好的SER方法,并在广泛使用的公开可用的语音情感数据库上取得了可喜的 性能。然而,值得注意的是,他们中的大多数没有考虑训练和测试语音信号可能由不同 相同的麦克风或在不同的环境下记录的现实场景。在这种情况下,训练和测试语音样本 之间可能存在特征分布不匹配,因此这些原本表现良好的SER方法的性能可能会急剧 下降,这就带来了SER中一项有意义且更具挑战性的任务,即跨库SER。与传统的 SER不同,跨库SER中的标记训练和未标记测试样本来自不同的语音数据库库。遵循 跨库SER中的命名约定,将在本文件中将训练和测试样本/数据库/特征集称为源集和 目标集。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种识别准确度更高的基于渐进 式分布适配神经网络的跨库语音情感识别方法。
技术方案:本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别方法包 括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的 情感类别。
进一步的,步骤(2)具体包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
进一步的,所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:
卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;
损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源 域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的 情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感 知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
进一步的,所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感 辨别损失:
Figure BDA0003810453550000021
式中,
Figure BDA0003810453550000022
是情感辨别损失,
Figure BDA0003810453550000023
是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,Ns表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、 第三全连接层的参数,
Figure BDA0003810453550000024
表示第i个源域样本的语谱图特征,f表示卷积神经网络的参 数,
Figure BDA0003810453550000025
表示第i个源域样本的情感标签。
进一步的,所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘 分布差异损失:
Figure BDA0003810453550000026
式中,
Figure BDA0003810453550000027
是边缘分布损失,Ns表示源域样本数目,Nt表示目标域样本数目,g1表 示第一全连接层参数,
Figure BDA0003810453550000028
表示第i个源域样本的语谱图特征,
Figure BDA0003810453550000029
表示第i个目标域样本 的语谱图特征,f表示卷积神经网络的参数,Φ(·)是核映射算子,
Figure BDA0003810453550000031
代表再生核希尔 伯特空间。
进一步的,所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件 分布适配损失:
Figure BDA0003810453550000032
式中,
Figure BDA0003810453550000033
表示条件分布适配损失,
Figure BDA0003810453550000034
Figure BDA0003810453550000035
分别表示源域和目标域属于第j类情感的第i个样本,C表示情感类别数,
Figure BDA0003810453550000036
Figure BDA0003810453550000037
分别表示源域和目标域中属于第j类情 感样本数,且满足
Figure BDA0003810453550000038
Figure BDA0003810453550000039
Ns表示源域样本数目,Nt表 示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、 第二全连接层、第三全连接层的参数,
Figure BDA00038104535500000310
代表再生核希尔伯特空间。
进一步的,所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情绪 类感知条件分布适应正则化项:
Figure BDA00038104535500000311
式中,Cr是粗糙情感类别数,Cr小于情感类别数C,
Figure BDA00038104535500000312
Figure BDA00038104535500000313
分别表示源域和目 标域属于第j类情感的第i个样本,Φ(·)是核映射算子,
Figure BDA00038104535500000314
Figure BDA00038104535500000315
分别表示源域和目标 域中属于第j类情感样本数,且满足
Figure BDA00038104535500000316
Figure BDA00038104535500000317
Ns表示 源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示 第一全连接层、第二全连接层的参数,
Figure BDA00038104535500000318
代表再生核希尔伯特空间。
进一步的,所述总损失计算单元用于按照下式计算总损失:
Figure BDA00038104535500000319
式中,
Figure BDA00038104535500000320
为总损失,λ1、λ2、和λ3是使得
Figure BDA00038104535500000321
最小的权衡系数。
进一步的,步骤(4)具体包括:
(4-1)对跨库语音情感识别模型的参数进行随机初始化;
(4-2)预测目标域样本的伪情感标签
Figure BDA00038104535500000322
(4-3)根据
Figure BDA00038104535500000323
计算总损失
Figure BDA00038104535500000324
(4-4)根据总损失
Figure BDA0003810453550000041
使用经典的随机梯度下降优化算法更新跨库语音情感识别模型的参数;
(4-5)判断总损失是否收敛,若不收敛,则根据当前跨库语音情感识别模型的参数, 更新伪情感标签
Figure BDA0003810453550000042
并返回步骤(4-3),若收敛则网络训练完成。
本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别装置,包括处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 上述方法。
有益效果:本发明与现有技术相比,其显著优点是:
1、本发明提出了一种新的端到端深度迁移学习模型,称为渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN),以应对跨库SER任务。与现有的大多数方法不同,PDAN可以利用深度神经网络和语音频谱的非线性映射能力, 直接从原始语音信号中学习跨库不变和情感判别语音特征。
2、本发明通过向不同的全连接层添加三个不同的MMD损失函数来逐步适配源语音样本和目标语音样本之间的特征分布;
3、本发明准确性更高。
附图说明
图1是本发明提供的基于渐进式分布适配神经网络的跨库语音情感识别方法的一个 实施例的流程示意图;
图2是本发明提供的的渐进式分布适配神经网络的结构图。
具体实施方式
本实施例提供了一种基于渐进式分布适配神经网络的跨库语音情感识别方法,如图 1所示,包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库。
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征。
该步骤包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异。
本发明建立的基于渐进式分布适配神经网络的跨库语音情感识别模型如图2所示, 具体包括:卷积神经网络和损失计算模块,卷积神经网络具体为AlexNet,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;损失计算模块分别 包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间 的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件 分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项 的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感辨别损失, 用于实现使网络具有情感辨别性的目标:
Figure BDA0003810453550000051
式中,
Figure BDA0003810453550000052
是情感辨别损失,
Figure BDA0003810453550000053
是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,Ns表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、 第三全连接层的参数,
Figure BDA0003810453550000054
表示第i个源域样本的语谱图特征,f表示卷积神经网络的参 数,
Figure BDA0003810453550000055
表示第i个源域样本的情感标签,对于yi,如果对应语音样本的标签是第j个情 感,则只有第j个条目设为1,其他条目设为0。
所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘分布差异损 失:
Figure BDA0003810453550000056
式中,
Figure BDA0003810453550000057
是边缘分布损失,Ns表示源域样本数目,Nt表示目标域样本数目,g1表 示第一全连接层参数,
Figure BDA0003810453550000058
表示第i个源域样本的语谱图特征,
Figure BDA0003810453550000059
表示第i个目标域样本 的语谱图特征,f表示卷积神经网络的参数,Φ(·)是核映射算子,
Figure BDA00038104535500000510
代表再生核希尔 伯特空间(Reproducing Kernel Hilbert Space,RKHS)。
所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件分布适配损 失:
Figure BDA0003810453550000061
式中,
Figure BDA0003810453550000062
表示条件分布适配损失,
Figure BDA0003810453550000063
Figure BDA0003810453550000064
分别表示源域和目标域属于第j类情感的第i个样本,C表示情感类别数,
Figure BDA0003810453550000065
Figure BDA0003810453550000066
分别表示源域和目标域中属于第j类情 感样本数,且满足
Figure BDA0003810453550000067
Figure BDA0003810453550000068
Ns表示源域样本数目,Nt表 示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、 第二全连接层、第三全连接层的参数,
Figure BDA0003810453550000069
代表再生核希尔伯特空间。
所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情绪类感知条件 分布适应正则化项:
Figure BDA00038104535500000610
式中,Cr是粗糙情感类别数,Cr小于情感类别数C,
Figure BDA00038104535500000611
Figure BDA00038104535500000612
分别表示源域和目 标域属于第j类情感的第i个样本,Φ(·)是核映射算子,
Figure BDA00038104535500000613
Figure BDA00038104535500000614
分别表示源域和目标 域中属于第j类情感样本数,且满足
Figure BDA00038104535500000615
Figure BDA00038104535500000616
Ns表示 源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示 第一全连接层、第二全连接层的参数,
Figure BDA00038104535500000617
代表再生核希尔伯特空间。
Figure BDA00038104535500000618
看起来像是
Figure BDA00038104535500000619
的升级版本,但是,它们实际上是非常不同的。具体来说,
Figure BDA00038104535500000620
是根据细粒度情感类别在“效价-唤醒”情绪轮中按照效价维度上的分布将它们分为高效价组与低效价组,然后根据新的分组计算条件MMD。设计
Figure BDA00038104535500000621
的主要原因是因为细粒度 情感在唤醒维度上是不好区分的,因为大多数现有的典型情绪都是高唤醒的,只有少数 情绪,例如“伤心”是低唤醒的。换句话说,由于这些情绪中的大多数难以区分,因此在 最后一个全连接层中直接对齐源和目标语音特征之间的精细情绪类别感知条件分布差 距可能是一项艰巨的任务。然而,有趣的是,沿着效价维度,这些情绪之间的可分离性 会显着提高。因为根据分组“愤怒”、“厌恶”、和“恐惧”属于低效价组,而“惊讶” 和“开心”属于高效价组,即使它们在唤醒维度上均属于高唤醒组。出于此原因,将粗 粒度情感信息引导的条件分布(即,效价维度的对齐)应用于第二个全连接层中,因此 设计
Figure BDA00038104535500000622
以有利于减小域间差异。根据计算特征分布适配使用的情感类信息的复杂性,可 以看出本发明所提模型中的特征分布适应操作呈现出一种渐进的方式,因此将其称之为 渐进式分布适配神经网络。
Figure BDA0003810453550000071
Figure BDA0003810453550000072
主要旨在模型消除域间差异性。这三个损失函数都是基于最大平均 差异(Maximum Mean Discrepancy,MMD)计算的。MMD的具体计算公式如下:
Figure BDA0003810453550000073
其中k(·)是一个核函数,它用计算预定义函数代替了Φ(·)生成的RKHS中向量之间的内 积运算。
Figure BDA0003810453550000074
Figure BDA0003810453550000075
表示Xs,Xt中的第i列。
所述总损失计算单元用于按照下式计算总损失:
Figure BDA0003810453550000076
式中,
Figure BDA0003810453550000077
为总损失,λ1、λ2、和λ3是使得
Figure BDA0003810453550000078
最小的权衡系数。
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型。
该步骤具体包括:
(4-1)对跨库语音情感识别模型的参数(即,f,g1,g2,g3)进行随机初始化;
(4-2)预测目标域样本的伪情感标签
Figure BDA0003810453550000079
(4-3)根据
Figure BDA00038104535500000710
计算总损失
Figure BDA00038104535500000711
(4-4)根据总损失
Figure BDA00038104535500000712
使用经典的随机梯度下降优化(Stochastic GradientDescent, SGD)算法更新跨库语音情感识别模型的参数;
(4-5)判断总损失是否收敛,若不收敛,则根据当前跨库语音情感识别模型的参数, 更新伪情感标签
Figure BDA00038104535500000713
并返回步骤(4-3),若收敛则网络训练完成。
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的 情感类别。
本实施例还提供了一种基于渐进式分布适配神经网络的跨库语音情感识别装置,包 括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程 序时实现上述方法。
为了评估本发明提出的PDAN模型在跨库语音情感识别任务中的性能,基于 EMO-DB,CASIA,和eNTERFACE三个数据库进行了大量的实验。具体地说,使用上 述语音情感数据库中的任意两个作为源和目标样本集,从而获得6个典型的跨库SER 任务,如表1所示,其中B、E、C分别为EmoDB、eNTERFACE、CASIA的缩写,箭 头的左右数据库库分别对应源域数据库和目标域数据库。此外,由于这些数据库库具有 不同的情感,在每个跨库的SER任务中,提取具有相同情感标签的语音样本,以确保标 签的一致性。所选数据库库的详细样本统计如表1所示。此外,对于本方法中的基于高 低效价维度信息引导的条件概率分布适配约束项,仍然需要将数据库中离散情感标签根 据效价-唤醒度情感轮模型中的情感效价维度重新划分,具体参见表2。在实验中,为了 凸显方法设计的通用性。此外选择了多种基于深度学习的领域自适应方法作为对比,包 括DAN(Deep Adaptation Networks)、DANN(Domain-Adversarial Neutral Network)、 Deep-CORAL、DSAN(Deep Subdomain AdaptationNetwork)等方法,并以AlexNet作 为它们的主干网络。为了同时体现深度神经网络相比于传统方法的优越之处,这里也将 SVM作为基准方法,并选取了一系列优秀且经典的领域自适应方法作为对比,其中包 括Transfer Component Analysis(TCA)、Subspace Alignment(SA)、Domain Adaptive Subspace Learning(DoSL)、Geodesic Flow Kernel(GFK)、和Joint Distribution Adaptive Regression(JDAR)。请注意传统方法使用的特征集为INTERSPEECH 2009Emotion Challenge和INTERSPEECH 2010Paralinguistic Challenge。而对于实验结果评价指标, 实验中使用加权平均召回率(Unweighted Average Recall,UAR)作为评价标准。所有验 证结果如表3所示。
表1
Figure BDA0003810453550000081
表2
Figure BDA0003810453550000082
表3
Figure BDA0003810453550000091
实验结果表明,基于本发明提出的语音情感识别方法,取得了较高的跨语库语音情 感识别率。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围, 因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的情感类别。
2.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:步骤(2)具体包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
3.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:
卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;
损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
4.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感辨别损失:
Figure FDA0003810453540000011
式中,
Figure FDA0003810453540000021
是情感辨别损失,
Figure FDA0003810453540000022
是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,Ns表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、第三全连接层的参数,
Figure FDA0003810453540000023
表示第i个源域样本的语谱图特征,f表示卷积神经网络的参数,
Figure FDA0003810453540000024
表示第i个源域样本的情感标签。
5.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘分布差异损失:
Figure FDA0003810453540000025
式中,
Figure FDA0003810453540000026
是边缘分布损失,Ns表示源域样本数目,Nt表示目标域样本数目,g1表示第一全连接层参数,
Figure FDA0003810453540000027
表示第i个源域样本的语谱图特征,
Figure FDA0003810453540000028
表示第i个目标域样本的语谱图特征,f表示卷积神经网络的参数,Φ(·)是核映射算子,
Figure FDA0003810453540000029
代表再生核希尔伯特空间。
6.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件分布适配损失:
Figure FDA00038104535400000210
式中,
Figure FDA00038104535400000211
表示条件分布适配损失,
Figure FDA00038104535400000212
Figure FDA00038104535400000213
分别表示源域和目标域属于第j类情感的第i个样本,C表示情感类别数,
Figure FDA00038104535400000214
Figure FDA00038104535400000215
分别表示源域和目标域中属于第j类情感样本数,且满足
Figure FDA00038104535400000216
Figure FDA00038104535400000217
Ns表示源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、第二全连接层、第三全连接层的参数,
Figure FDA00038104535400000218
代表再生核希尔伯特空间。
7.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情绪类感知条件分布适应正则化项:
Figure FDA00038104535400000219
式中,Cr是粗糙情感类别数,Cr小于情感类别数C,
Figure FDA0003810453540000031
Figure FDA0003810453540000032
分别表示源域和目标域属于第j类情感的第i个样本,Φ(·)是核映射算子,
Figure FDA0003810453540000033
Figure FDA0003810453540000034
分别表示源域和目标域中属于第j类情感样本数,且满足
Figure FDA0003810453540000035
Figure FDA0003810453540000036
Ns表示源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示第一全连接层、第二全连接层的参数,
Figure FDA0003810453540000037
代表再生核希尔伯特空间。
8.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述总损失计算单元用于按照下式计算总损失:
Figure FDA0003810453540000038
式中,
Figure FDA0003810453540000039
为总损失,λ1、λ2、和λ3是使得
Figure FDA00038104535400000310
最小的权衡系数。
9.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:步骤(4)具体包括:
(4-1)对跨库语音情感识别模型的参数进行随机初始化;
(4-2)预测目标域样本的伪情感标签
Figure FDA00038104535400000311
(4-3)根据
Figure FDA00038104535400000312
计算总损失
Figure FDA00038104535400000313
(4-4)根据总损失
Figure FDA00038104535400000314
使用经典的随机梯度下降优化算法更新跨库语音情感识别模型的参数;
(4-5)判断总损失是否收敛,若不收敛,则根据当前跨库语音情感识别模型的参数,更新伪情感标签
Figure FDA00038104535400000315
并返回步骤(4-3),若收敛则网络训练完成。
10.一种基于渐进式分布适配神经网络的跨库语音情感识别装置,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9中任意一项所述的方法。
CN202211010176.6A 2022-08-23 2022-08-23 基于pdan的跨库语音情感识别方法及装置 Pending CN115512721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211010176.6A CN115512721A (zh) 2022-08-23 2022-08-23 基于pdan的跨库语音情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211010176.6A CN115512721A (zh) 2022-08-23 2022-08-23 基于pdan的跨库语音情感识别方法及装置

Publications (1)

Publication Number Publication Date
CN115512721A true CN115512721A (zh) 2022-12-23

Family

ID=84501853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211010176.6A Pending CN115512721A (zh) 2022-08-23 2022-08-23 基于pdan的跨库语音情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN115512721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117017288A (zh) * 2023-06-14 2023-11-10 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117017288A (zh) * 2023-06-14 2023-11-10 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备
CN117017288B (zh) * 2023-06-14 2024-03-19 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备

Similar Documents

Publication Publication Date Title
Becker et al. Interpreting and explaining deep neural networks for classification of audio signals
CN110289003B (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110472649B (zh) 基于多尺度分析和集成树模型的脑电情感分类方法及系统
Mo et al. Neural architecture search for keyword spotting
CN109597876A (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN112766355A (zh) 一种标签噪声下的脑电信号情绪识别方法
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN110797084A (zh) 基于深层神经网络的脑脊液蛋白质的预测方法
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
CN115512721A (zh) 基于pdan的跨库语音情感识别方法及装置
CN112466284B (zh) 一种口罩语音鉴别方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Schwenker et al. Radial basis function neural networks and temporal fusion for the classification of bioacoustic time series
Al Dujaili et al. Automatic speech emotion recognition based on hybrid features with ANN, LDA and K_NN classifiers
Angadi et al. Hybrid deep network scheme for emotion recognition in speech
CN114743569A (zh) 一种基于双层融合深度网络的语音情感识别方法
CN113707172A (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN109767788A (zh) 一种基于lld和dss融合特征的语音情感识别方法
Zhao et al. Upgraded attention-based local feature learning block for speech emotion recognition
CN113553896B (zh) 一种基于多特征深度森林的脑电情绪识别方法
CN115114953B (zh) 一种基于循环神经网络的情绪脑信号识别方法
Mirhassani et al. Fuzzy decision fusion of complementary experts based on evolutionary cepstral coefficients for phoneme recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination