CN114038480A

CN114038480A - 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法

Info

Publication number: CN114038480A
Application number: CN202111308297.4A
Authority: CN
Inventors: 傅洪亮; 汪洋; 陶华伟; 耿磊; 康超男; 庄志豪; 刘曼; 杨静; 郭歆莹; 单帅; 于航
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本发明公布了一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。本方法首先利用基于编解码风格的一维卷积自编码器对特征进行处理，得到了更具表征性的特征，随后，将最大均值差异（Maxmiun Mean Discrepancy，MMD）作为源域目标域距离度量手段，纳入对抗域自适应架构用以减轻其学习过程中面临的平衡挑战，促进源域与目标域特征分布的有效对齐。最后，模型综合考虑了特征提取网络及特征分布差异损失，提升了识别效果。

Description

一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法

技术领域

本发明属于一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。

背景技术

近年来，语音情感识别已经成为人机交互，模式识别和情感计算中的热门课题，赋予计算机识别情感的能力是使机器走向智能的关键性技术。传统的语音情感识别中，众多算法已经取得了显著的识别表现，但这些算法往往是在基于同一语音情感库上进行训练和测试，而在实际应用中，训练数据和测试数据往往来自不同数据库，两者之间有着不同的语种，文化，说话人发音风格以及分类方式，这些差异造成了训练集和测试集数据分布的不匹配，也使得原本经过良好训练的模型应用于未知测试集时性能严重下跌，由此，跨库语音情感识别，这一极具挑战性的问题应运而生，众多研究者开始致力于提升跨库语音情感的识别性能。

对于这个问题，已经有大量基于特征处理和特征分布对齐的算法被提出，其中特征处理主要是构建新的网络模型，试图从语音信号中提取更具表征性的情感特征，有利于进行下一步的特征分布对齐，而特征分布对齐主要采用域自适应方法，减轻训练库和测试库间的数据分布差异，以使得模型在训练库上的良好性能迁移到测试库上。

因此，本发明主要关注如何有效提取语音信号中具有强表征能力的情感特征以及减轻训练语音库和测试语音库之间的特征分布差异，使用一维卷积层探索邻近特征经过卷积后与情感信息间的联系，并采用基于编解码风格的神经网络确保所提特征的有效性。在经过有效的特征处理后，使用对抗域自适应完成特征分布对齐，并利用MMD减轻对抗学习中的平衡挑战，更好的实现知识迁移，提升跨库语音情感识别性能。

发明内容

对于跨库语音情感识别，情感特征的有效提取和不同库间的特征分布对齐是提升性能的关键性技术，本文构建了一个新型一维卷积自编码器提取具有强表征能力的情感特征，并使用对抗域自适应完成特征分布对齐，特别采用了MMD减轻了对抗学习中的平衡挑战，更好的完成知识迁移，具体步骤如下：

(1)语音预处理：提取原始语音信号中的基频(F0)，梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征作为特征处理网络的输入；

(2)特征处理：将步骤(1)提取到的一维统计特征送入一维卷积自编码器中，首先利用卷积层对特征进行处理，然后利用转置卷积层对特征进行还原，将还原后的语音特征与原始特征构造重构误差，其中训练库分类损失、卷积过程、反卷积过程以及重构损失定义如下：

其中y_p为网络输出预测情感标签，y_s为真实情感标签，L_ce为交叉熵函数，

其中[X_j1,X_j2...X_js]为相邻的统计特征，Y(j)为卷积联合后得到的结果，K和b分别为卷积过程中的权重和偏置，

其中X^R和X分别重构后得到的特征与原始特征；

(3)特征分布对齐：将步骤(2)中编码器器输出的特征送入对抗域自适应模块的域鉴别器中，通过混淆域鉴别器对齐训练库和测试库的特征分布，并采用MMD同时度量训练库和测试库的统计差异，域鉴别器损失和MMD距离如下：

其中F为特征处理网络，D为域鉴别器，d_i为测试库的真实域标签，

其中H为再生希尔伯特空间，用于寻找特征映射函数φ，使得训练库和测试库经过映射后特征分布距离最小；

(4)模型训练：将步骤(1)得到的一维统计特征输入特征处理网络，得到分类损失

和重构损失

，将卷积自编码器中编码器提取到的具有强表征能力的特征送入域鉴别器，得到对抗损失

，并使用MMD进行统计差异最小化，得到MMD损失

，联合这些损失对模型进行优化：

(5)重复步骤(2)(3)(4)，优化网络模型参数；

(6)经过一定轮次的迭代后，得到本方法指导下的最优模型，实现跨库语音情感识别性能的提升。

附图说明

如附图所示，图1为本发明的实现流程图。

具体实施方式

下面结合具体实施方式对本发明做更进一步的说明。

(1)特征提取，提取原始语音信号中的基频(F0)，梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征，并利用多个统计函数得到共计1582维的语音统计特征，作为特征处理网络的输入。

(2)特征处理，将步骤(1)得到的一维语音特征输入一维卷积自编码器中，自编码器包含四个一维卷积模块和四个一维转置模块，一维卷积模块由卷积层、批归一化(BN)层、dropout层和激活层(Relu函数)构成，四个一维卷积层的参数设置分别为{16×9×2，32×9×2，64×9×2，128×9×2}(卷积核个数×卷积核尺寸×步长)，一维反卷积模块由一维转置卷积层，批归一化(BN)层和激活层(Relu函数)构成，四个一维转置卷积层的参数设置分别为{64×9×2，32×9×2，16×9×2，1×9×2}(卷积核个数×卷积核尺寸×步长)。

(3)将经过特征处理后得到的具有强表征能力的特征输入对抗域自适应模块，使用混淆域鉴别器的方法，让经过处理的训练语音库特征和测试语音库特征的差异减小，其中域鉴别器采用三个Dense层对输入特征进行域分类，第一个Dense层设置为全连接层(1582，1024)、激活层(Relu函数)和dropout(0.5)层，第二个Dense层设置为全连接层(1024，1024)、激活层(Relu函数)和dropout(0.5)层，第三个Dense层设置为(1024，1)和激活层(sigmoid函数)，进行域分类，当域鉴别器无法分辨特征来自训练库还是测试库时，达到促进特征分布对齐的效果，但由于对抗学习中平衡挑战的存在，混淆域鉴别器不能很好的保证特征分布的对齐，因此，将距离度量手段MMD纳入对抗性学习框架中，在混淆域鉴别器的同时，将训练库和测试库的统计差异进行对齐，很好的弥合了对抗学习中的平衡挑战，促进了跨库语音情感识别过程中的知识迁移。

(4)模型的学习率和批处理大小都设置为0.001和16，使用最速梯度下降法训练网络模型，模型迭代训练2000轮，分类器使用softmax。

(5)结合模型中的源域分类损失

、训练库和测试库的重构损失

和

对抗损失

和MMD损失

对模型进行反向传播训练，迭代优化网络参数，提高跨库语音情感识别性能，将本文所提方法(CAEADA)与其它跨库语音情感识别方法及域自适应方法在三个基准语音情感库上设置的六个任务进行识别性能对比，这些方法分别为SVM(一种非深度分类方法)，TCA(迁移成分分析)，DoSL(域自适应子空间学习)，JDAR(联合分布自适应回归)，DAAN(对抗域自适应)，MDD(最大密度发散度域自适应)，采用未加权平均召回率作为评价指标。

(6)实验设置，为验证模型有效性，选择语音情感识别中广泛应用的3个情感语音库，EmoDB(B)，eNTERFACE(E),CASIA(C)作为基准库，选取其共同情感种类进行实验，设置了六组任务如下表：

(7)实验结果如下，整体识别效果证明所公开方法的有效性。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。