CN115512721A - 基于pdan的跨库语音情感识别方法及装置 - Google Patents
基于pdan的跨库语音情感识别方法及装置 Download PDFInfo
- Publication number
- CN115512721A CN115512721A CN202211010176.6A CN202211010176A CN115512721A CN 115512721 A CN115512721 A CN 115512721A CN 202211010176 A CN202211010176 A CN 202211010176A CN 115512721 A CN115512721 A CN 115512721A
- Authority
- CN
- China
- Prior art keywords
- emotion
- loss
- neural network
- source domain
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)提取待识别语音语谱图特征,输入训练好的模型,识别出情感类别。本发明识别准确率更高。
Description
技术领域
本发明涉及语音情感识别技术,尤其涉及一种基于渐进式分布适配神经网络的跨库 语音情感识别方法及装置
背景技术
语音是人类日常生活中的一种主要交流方式,其中包含着丰富的情感信息。想象一 下,如果计算机能够从人类的语音信号中理解情绪状态,那么人机交互无疑会更加自然。 因此,从语音信号中自动识别情绪状态的研究,例如,语音情感识别(SER)在情感计算、人机交互和语音信号处理领域引起了广泛关注。在过去的几十年中,已经提出了许 多性能良好的SER方法,并在广泛使用的公开可用的语音情感数据库上取得了可喜的 性能。然而,值得注意的是,他们中的大多数没有考虑训练和测试语音信号可能由不同 相同的麦克风或在不同的环境下记录的现实场景。在这种情况下,训练和测试语音样本 之间可能存在特征分布不匹配,因此这些原本表现良好的SER方法的性能可能会急剧 下降,这就带来了SER中一项有意义且更具挑战性的任务,即跨库SER。与传统的 SER不同,跨库SER中的标记训练和未标记测试样本来自不同的语音数据库库。遵循 跨库SER中的命名约定,将在本文件中将训练和测试样本/数据库/特征集称为源集和 目标集。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种识别准确度更高的基于渐进 式分布适配神经网络的跨库语音情感识别方法。
技术方案:本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别方法包 括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的 情感类别。
进一步的,步骤(2)具体包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
进一步的,所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:
卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;
损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源 域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的 情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感 知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
进一步的,所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感 辨别损失:
式中,是情感辨别损失,是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,Ns表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、 第三全连接层的参数,表示第i个源域样本的语谱图特征,f表示卷积神经网络的参 数,表示第i个源域样本的情感标签。
进一步的,所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘 分布差异损失:
式中,是边缘分布损失,Ns表示源域样本数目,Nt表示目标域样本数目,g1表 示第一全连接层参数,表示第i个源域样本的语谱图特征,表示第i个目标域样本 的语谱图特征,f表示卷积神经网络的参数,Φ(·)是核映射算子,代表再生核希尔 伯特空间。
进一步的,所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件 分布适配损失:
式中,表示条件分布适配损失,和分别表示源域和目标域属于第j类情感的第i个样本,C表示情感类别数,和分别表示源域和目标域中属于第j类情 感样本数,且满足和Ns表示源域样本数目,Nt表 示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、 第二全连接层、第三全连接层的参数,代表再生核希尔伯特空间。
进一步的,所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情绪 类感知条件分布适应正则化项:
式中,Cr是粗糙情感类别数,Cr小于情感类别数C,和分别表示源域和目 标域属于第j类情感的第i个样本,Φ(·)是核映射算子,和分别表示源域和目标 域中属于第j类情感样本数,且满足和Ns表示 源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示 第一全连接层、第二全连接层的参数,代表再生核希尔伯特空间。
进一步的,所述总损失计算单元用于按照下式计算总损失:
进一步的,步骤(4)具体包括:
(4-1)对跨库语音情感识别模型的参数进行随机初始化;
本发明所述的基于渐进式分布适配神经网络的跨库语音情感识别装置,包括处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 上述方法。
有益效果:本发明与现有技术相比,其显著优点是:
1、本发明提出了一种新的端到端深度迁移学习模型,称为渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN),以应对跨库SER任务。与现有的大多数方法不同,PDAN可以利用深度神经网络和语音频谱的非线性映射能力, 直接从原始语音信号中学习跨库不变和情感判别语音特征。
2、本发明通过向不同的全连接层添加三个不同的MMD损失函数来逐步适配源语音样本和目标语音样本之间的特征分布;
3、本发明准确性更高。
附图说明
图1是本发明提供的基于渐进式分布适配神经网络的跨库语音情感识别方法的一个 实施例的流程示意图;
图2是本发明提供的的渐进式分布适配神经网络的结构图。
具体实施方式
本实施例提供了一种基于渐进式分布适配神经网络的跨库语音情感识别方法,如图 1所示,包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库。
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征。
该步骤包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异。
本发明建立的基于渐进式分布适配神经网络的跨库语音情感识别模型如图2所示, 具体包括:卷积神经网络和损失计算模块,卷积神经网络具体为AlexNet,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;损失计算模块分别 包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间 的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件 分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项 的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感辨别损失, 用于实现使网络具有情感辨别性的目标:
式中,是情感辨别损失,是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,Ns表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、 第三全连接层的参数,表示第i个源域样本的语谱图特征,f表示卷积神经网络的参 数,表示第i个源域样本的情感标签,对于yi,如果对应语音样本的标签是第j个情 感,则只有第j个条目设为1,其他条目设为0。
所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘分布差异损 失:
式中,是边缘分布损失,Ns表示源域样本数目,Nt表示目标域样本数目,g1表 示第一全连接层参数,表示第i个源域样本的语谱图特征,表示第i个目标域样本 的语谱图特征,f表示卷积神经网络的参数,Φ(·)是核映射算子,代表再生核希尔 伯特空间(Reproducing Kernel Hilbert Space,RKHS)。
所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件分布适配损 失:
式中,表示条件分布适配损失,和分别表示源域和目标域属于第j类情感的第i个样本,C表示情感类别数,和分别表示源域和目标域中属于第j类情 感样本数,且满足和Ns表示源域样本数目,Nt表 示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、 第二全连接层、第三全连接层的参数,代表再生核希尔伯特空间。
所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情绪类感知条件 分布适应正则化项:
式中,Cr是粗糙情感类别数,Cr小于情感类别数C,和分别表示源域和目 标域属于第j类情感的第i个样本,Φ(·)是核映射算子,和分别表示源域和目标 域中属于第j类情感样本数,且满足和Ns表示 源域样本数目,Nt表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示 第一全连接层、第二全连接层的参数,代表再生核希尔伯特空间。
看起来像是的升级版本,但是,它们实际上是非常不同的。具体来说,是根据细粒度情感类别在“效价-唤醒”情绪轮中按照效价维度上的分布将它们分为高效价组与低效价组,然后根据新的分组计算条件MMD。设计的主要原因是因为细粒度 情感在唤醒维度上是不好区分的,因为大多数现有的典型情绪都是高唤醒的,只有少数 情绪,例如“伤心”是低唤醒的。换句话说,由于这些情绪中的大多数难以区分,因此在 最后一个全连接层中直接对齐源和目标语音特征之间的精细情绪类别感知条件分布差 距可能是一项艰巨的任务。然而,有趣的是,沿着效价维度,这些情绪之间的可分离性 会显着提高。因为根据分组“愤怒”、“厌恶”、和“恐惧”属于低效价组,而“惊讶” 和“开心”属于高效价组,即使它们在唤醒维度上均属于高唤醒组。出于此原因,将粗 粒度情感信息引导的条件分布(即,效价维度的对齐)应用于第二个全连接层中,因此 设计以有利于减小域间差异。根据计算特征分布适配使用的情感类信息的复杂性,可 以看出本发明所提模型中的特征分布适应操作呈现出一种渐进的方式,因此将其称之为 渐进式分布适配神经网络。
所述总损失计算单元用于按照下式计算总损失:
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型。
该步骤具体包括:
(4-1)对跨库语音情感识别模型的参数(即,f,g1,g2,g3)进行随机初始化;
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的 情感类别。
本实施例还提供了一种基于渐进式分布适配神经网络的跨库语音情感识别装置,包 括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程 序时实现上述方法。
为了评估本发明提出的PDAN模型在跨库语音情感识别任务中的性能,基于 EMO-DB,CASIA,和eNTERFACE三个数据库进行了大量的实验。具体地说,使用上 述语音情感数据库中的任意两个作为源和目标样本集,从而获得6个典型的跨库SER 任务,如表1所示,其中B、E、C分别为EmoDB、eNTERFACE、CASIA的缩写,箭 头的左右数据库库分别对应源域数据库和目标域数据库。此外,由于这些数据库库具有 不同的情感,在每个跨库的SER任务中,提取具有相同情感标签的语音样本,以确保标 签的一致性。所选数据库库的详细样本统计如表1所示。此外,对于本方法中的基于高 低效价维度信息引导的条件概率分布适配约束项,仍然需要将数据库中离散情感标签根 据效价-唤醒度情感轮模型中的情感效价维度重新划分,具体参见表2。在实验中,为了 凸显方法设计的通用性。此外选择了多种基于深度学习的领域自适应方法作为对比,包 括DAN(Deep Adaptation Networks)、DANN(Domain-Adversarial Neutral Network)、 Deep-CORAL、DSAN(Deep Subdomain AdaptationNetwork)等方法,并以AlexNet作 为它们的主干网络。为了同时体现深度神经网络相比于传统方法的优越之处,这里也将 SVM作为基准方法,并选取了一系列优秀且经典的领域自适应方法作为对比,其中包 括Transfer Component Analysis(TCA)、Subspace Alignment(SA)、Domain Adaptive Subspace Learning(DoSL)、Geodesic Flow Kernel(GFK)、和Joint Distribution Adaptive Regression(JDAR)。请注意传统方法使用的特征集为INTERSPEECH 2009Emotion Challenge和INTERSPEECH 2010Paralinguistic Challenge。而对于实验结果评价指标, 实验中使用加权平均召回率(Unweighted Average Recall,UAR)作为评价标准。所有验 证结果如表3所示。
表1
表2
表3
实验结果表明,基于本发明提出的语音情感识别方法,取得了较高的跨语库语音情 感识别率。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围, 因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;
(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;
(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;
(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;
(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的情感类别。
2.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:步骤(2)具体包括:
(2-1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本;
(2-2)对源域样本和目标域样本依次进行分帧、加窗预处理;
(2-3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
3.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:
卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;
损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。
10.一种基于渐进式分布适配神经网络的跨库语音情感识别装置,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211010176.6A CN115512721A (zh) | 2022-08-23 | 2022-08-23 | 基于pdan的跨库语音情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211010176.6A CN115512721A (zh) | 2022-08-23 | 2022-08-23 | 基于pdan的跨库语音情感识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115512721A true CN115512721A (zh) | 2022-12-23 |
Family
ID=84501853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211010176.6A Pending CN115512721A (zh) | 2022-08-23 | 2022-08-23 | 基于pdan的跨库语音情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117017288A (zh) * | 2023-06-14 | 2023-11-10 | 西南交通大学 | 跨被试情绪识别模型及其训练方法、情绪识别方法、设备 |
-
2022
- 2022-08-23 CN CN202211010176.6A patent/CN115512721A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117017288A (zh) * | 2023-06-14 | 2023-11-10 | 西南交通大学 | 跨被试情绪识别模型及其训练方法、情绪识别方法、设备 |
CN117017288B (zh) * | 2023-06-14 | 2024-03-19 | 西南交通大学 | 跨被试情绪识别模型及其训练方法、情绪识别方法、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Becker et al. | Interpreting and explaining deep neural networks for classification of audio signals | |
CN110289003B (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN110188047B (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN110472649B (zh) | 基于多尺度分析和集成树模型的脑电情感分类方法及系统 | |
Mo et al. | Neural architecture search for keyword spotting | |
CN109597876A (zh) | 一种基于强化学习的多轮对话答复选择模型及其方法 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN112766355A (zh) | 一种标签噪声下的脑电信号情绪识别方法 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN110797084A (zh) | 基于深层神经网络的脑脊液蛋白质的预测方法 | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN115512721A (zh) | 基于pdan的跨库语音情感识别方法及装置 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
Schwenker et al. | Radial basis function neural networks and temporal fusion for the classification of bioacoustic time series | |
Al Dujaili et al. | Automatic speech emotion recognition based on hybrid features with ANN, LDA and K_NN classifiers | |
Angadi et al. | Hybrid deep network scheme for emotion recognition in speech | |
CN114743569A (zh) | 一种基于双层融合深度网络的语音情感识别方法 | |
CN113707172A (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN109767788A (zh) | 一种基于lld和dss融合特征的语音情感识别方法 | |
Zhao et al. | Upgraded attention-based local feature learning block for speech emotion recognition | |
CN113553896B (zh) | 一种基于多特征深度森林的脑电情绪识别方法 | |
CN115114953B (zh) | 一种基于循环神经网络的情绪脑信号识别方法 | |
Mirhassani et al. | Fuzzy decision fusion of complementary experts based on evolutionary cepstral coefficients for phoneme recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |