CN114038480A - 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 - Google Patents

一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 Download PDF

Info

Publication number
CN114038480A
CN114038480A CN202111308297.4A CN202111308297A CN114038480A CN 114038480 A CN114038480 A CN 114038480A CN 202111308297 A CN202111308297 A CN 202111308297A CN 114038480 A CN114038480 A CN 114038480A
Authority
CN
China
Prior art keywords
domain
self
library
encoder
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111308297.4A
Other languages
English (en)
Inventor
傅洪亮
汪洋
陶华伟
耿磊
康超男
庄志豪
刘曼
杨静
郭歆莹
单帅
于航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202111308297.4A priority Critical patent/CN114038480A/zh
Publication of CN114038480A publication Critical patent/CN114038480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。本方法首先利用基于编解码风格的一维卷积自编码器对特征进行处理,得到了更具表征性的特征,随后,将最大均值差异(Maxmiun Mean Discrepancy,MMD)作为源域目标域距离度量手段,纳入对抗域自适应架构用以减轻其学习过程中面临的平衡挑战,促进源域与目标域特征分布的有效对齐。最后,模型综合考虑了特征提取网络及特征分布差异损失,提升了识别效果。

Description

一种基于一维卷积自编码器与对抗域自适应的跨库语音情感 识别方法
技术领域
本发明属于一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。
背景技术
近年来,语音情感识别已经成为人机交互,模式识别和情感计算中的热门课题,赋予计算机识别情感的能力是使机器走向智能的关键性技术。传统的语音情感识别中,众多算法已经取得了显著的识别表现,但这些算法往往是在基于同一语音情感库上进行训练和测试,而在实际应用中,训练数据和测试数据往往来自不同数据库,两者之间有着不同的语种,文化,说话人发音风格以及分类方式,这些差异造成了训练集和测试集数据分布的不匹配,也使得原本经过良好训练的模型应用于未知测试集时性能严重下跌,由此,跨库语音情感识别,这一极具挑战性的问题应运而生,众多研究者开始致力于提升跨库语音情感的识别性能。
对于这个问题,已经有大量基于特征处理和特征分布对齐的算法被提出,其中特征处理主要是构建新的网络模型,试图从语音信号中提取更具表征性的情感特征,有利于进行下一步的特征分布对齐,而特征分布对齐主要采用域自适应方法,减轻训练库和测试库间的数据分布差异,以使得模型在训练库上的良好性能迁移到测试库上。
因此,本发明主要关注如何有效提取语音信号中具有强表征能力的情感特征以及减轻训练语音库和测试语音库之间的特征分布差异,使用一维卷积层探索邻近特征经过卷积后与情感信息间的联系,并采用基于编解码风格的神经网络确保所提特征的有效性。在经过有效的特征处理后,使用对抗域自适应完成特征分布对齐,并利用MMD减轻对抗学习中的平衡挑战,更好的实现知识迁移,提升跨库语音情感识别性能。
发明内容
对于跨库语音情感识别,情感特征的有效提取和不同库间的特征分布对齐是提升性能的关键性技术,本文构建了一个新型一维卷积自编码器提取具有强表征能力的情感特征,并使用对抗域自适应完成特征分布对齐,特别采用了MMD减轻了对抗学习中的平衡挑战,更好的完成知识迁移,具体步骤如下:
(1)语音预处理:提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征作为特征处理网络的输入;
(2)特征处理:将步骤(1)提取到的一维统计特征送入一维卷积自编码器中,首先利用卷积层对特征进行处理,然后利用转置卷积层对特征进行还原,将还原后的语音特征与原始特征构造重构误差,其中训练库分类损失、卷积过程、反卷积过程以及重构损失定义如下:
Figure BDA0003340936290000021
其中yp为网络输出预测情感标签,ys为真实情感标签,Lce为交叉熵函数,
Figure BDA0003340936290000022
Figure BDA0003340936290000023
其中[Xj1,Xj2...Xjs]为相邻的统计特征,Y(j)为卷积联合后得到的结果,K和b分别为卷积过程中的权重和偏置,
Figure BDA0003340936290000024
其中XR和X分别重构后得到的特征与原始特征;
(3)特征分布对齐:将步骤(2)中编码器器输出的特征送入对抗域自适应模块的域鉴别器中,通过混淆域鉴别器对齐训练库和测试库的特征分布,并采用MMD同时度量训练库和测试库的统计差异,域鉴别器损失和MMD距离如下:
Figure BDA0003340936290000025
其中F为特征处理网络,D为域鉴别器,di为测试库的真实域标签,
Figure BDA0003340936290000026
其中H为再生希尔伯特空间,用于寻找特征映射函数φ,使得训练库和测试库经过映射后特征分布距离最小;
(4)模型训练:将步骤(1)得到的一维统计特征输入特征处理网络,得到分类损失
Figure BDA0003340936290000027
和重构损失
Figure BDA0003340936290000028
,将卷积自编码器中编码器提取到的具有强表征能力的特征送入域鉴别器,得到对抗损失
Figure BDA0003340936290000029
,并使用MMD进行统计差异最小化,得到MMD损失
Figure BDA00033409362900000210
,联合这些损失对模型进行优化:
Figure BDA0003340936290000031
(5)重复步骤(2)(3)(4),优化网络模型参数;
(6)经过一定轮次的迭代后,得到本方法指导下的最优模型,实现跨库语音情感识别性能的提升。
附图说明
如附图所示,图1为本发明的实现流程图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)特征提取,提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征,并利用多个统计函数得到共计1582维的语音统计特征,作为特征处理网络的输入。
(2)特征处理,将步骤(1)得到的一维语音特征输入一维卷积自编码器中,自编码器包含四个一维卷积模块和四个一维转置模块,一维卷积模块由卷积层、批归一化(BN)层、dropout层和激活层(Relu函数)构成,四个一维卷积层的参数设置分别为{16×9×2,32×9×2,64×9×2,128×9×2}(卷积核个数×卷积核尺寸×步长),一维反卷积模块由一维转置卷积层,批归一化(BN)层和激活层(Relu函数)构成,四个一维转置卷积层的参数设置分别为{64×9×2,32×9×2,16×9×2,1×9×2}(卷积核个数×卷积核尺寸×步长)。
(3)将经过特征处理后得到的具有强表征能力的特征输入对抗域自适应模块,使用混淆域鉴别器的方法,让经过处理的训练语音库特征和测试语音库特征的差异减小,其中域鉴别器采用三个Dense层对输入特征进行域分类,第一个Dense层设置为全连接层(1582,1024)、激活层(Relu函数)和dropout(0.5)层,第二个Dense层设置为全连接层(1024,1024)、激活层(Relu函数)和dropout(0.5)层,第三个Dense层设置为(1024,1)和激活层(sigmoid函数),进行域分类,当域鉴别器无法分辨特征来自训练库还是测试库时,达到促进特征分布对齐的效果,但由于对抗学习中平衡挑战的存在,混淆域鉴别器不能很好的保证特征分布的对齐,因此,将距离度量手段MMD纳入对抗性学习框架中,在混淆域鉴别器的同时,将训练库和测试库的统计差异进行对齐,很好的弥合了对抗学习中的平衡挑战,促进了跨库语音情感识别过程中的知识迁移。
(4)模型的学习率和批处理大小都设置为0.001和16,使用最速梯度下降法训练网络模型,模型迭代训练2000轮,分类器使用softmax。
(5)结合模型中的源域分类损失
Figure BDA0003340936290000041
、训练库和测试库的重构损失
Figure BDA0003340936290000042
Figure BDA0003340936290000043
对抗损失
Figure BDA0003340936290000044
和MMD损失
Figure BDA0003340936290000045
对模型进行反向传播训练,迭代优化网络参数,提高跨库语音情感识别性能,将本文所提方法(CAEADA)与其它跨库语音情感识别方法及域自适应方法在三个基准语音情感库上设置的六个任务进行识别性能对比,这些方法分别为SVM(一种非深度分类方法),TCA(迁移成分分析),DoSL(域自适应子空间学习),JDAR(联合分布自适应回归),DAAN(对抗域自适应),MDD(最大密度发散度域自适应),采用未加权平均召回率作为评价指标。
(6)实验设置,为验证模型有效性,选择语音情感识别中广泛应用的3个情感语音库,EmoDB(B),eNTERFACE(E),CASIA(C)作为基准库,选取其共同情感种类进行实验,设置了六组任务如下表:
Figure BDA0003340936290000046
(7)实验结果如下,整体识别效果证明所公开方法的有效性。
Figure BDA0003340936290000047
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.本发明提出了一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法,主要包含以下步骤:
(1)语音预处理:提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征作为特征处理网络的输入;
(2)特征处理:将步骤(1)提取到的一维统计特征送入一维卷积自编码器中,首先利用卷积层对特征进行处理,然后利用转置卷积层对特征进行还原,将还原后的语音特征与原始特征构造重构误差,其中训练库分类损失、卷积过程、反卷积过程以及重构损失定义如下:
Figure FDA0003340936280000011
其中yp为网络输出预测情感标签,ys为真实情感标签,Lce为交叉熵函数,
Figure FDA0003340936280000012
Figure FDA0003340936280000013
其中[Xj1,Xj2...Xjs]为相邻的统计特征,Y(j)为卷积联合后得到的结果,K和b分别为卷积过程中的权重和偏置,
Figure FDA0003340936280000014
其中XR和X分别重构后得到的特征与原始特征;
(3)特征分布对齐:将步骤(2)中编码器器输出的特征送入对抗域自适应模块的域鉴别器中,通过混淆域鉴别器对齐训练库和测试库的特征分布,并采用MMD同时度量训练库和测试库的统计差异,域鉴别器损失和MMD距离如下:
Figure FDA0003340936280000015
其中F为特征处理网络,D为域鉴别器,di为测试库的真实域标签,
Figure FDA0003340936280000016
其中H为再生希尔伯特空间,用于寻找特征映射函数φ,使得训练库和测试库经过映射后特征分布距离最小;
(4)模型训练:将步骤(1)得到的一维统计特征输入特征处理网络,得到分类损失
Figure FDA0003340936280000017
和重构损失
Figure FDA0003340936280000021
将卷积自编码器中编码器提取到的具有强表征能力的特征送入域鉴别器,得到对抗损失
Figure FDA0003340936280000022
并使用MMD进行统计差异最小化,得到MMD损失
Figure FDA0003340936280000023
联合这些损失对模型进行优化:
Figure FDA0003340936280000024
(5)重复步骤(2)(3)(4),优化网络模型参数;
(6)经过一定轮次的迭代后,得到本方法指导下的最优模型,实现跨库语音情感识别性能的提升。
CN202111308297.4A 2021-11-05 2021-11-05 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 Pending CN114038480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111308297.4A CN114038480A (zh) 2021-11-05 2021-11-05 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111308297.4A CN114038480A (zh) 2021-11-05 2021-11-05 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法

Publications (1)

Publication Number Publication Date
CN114038480A true CN114038480A (zh) 2022-02-11

Family

ID=80136469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111308297.4A Pending CN114038480A (zh) 2021-11-05 2021-11-05 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法

Country Status (1)

Country Link
CN (1) CN114038480A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220286426A1 (en) * 2020-09-24 2022-09-08 Apple Inc. Network address compression for electronic devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220286426A1 (en) * 2020-09-24 2022-09-08 Apple Inc. Network address compression for electronic devices
US11750557B2 (en) * 2020-09-24 2023-09-05 Apple Inc. Network address compression for electronic devices

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN109447099B (zh) 一种基于pca降维的多分类器融合方法
CN109410917A (zh) 基于改进型胶囊网络的语音数据分类方法
CN110534101B (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
Mo et al. Neural architecture search for keyword spotting
Ribeiro et al. Deep dense and convolutional autoencoders for unsupervised anomaly detection in machine condition sounds
CN114492521A (zh) 一种基于声振信号的随钻岩性智能识别方法与系统
Xue et al. Exploring attention mechanisms based on summary information for end-to-end automatic speech recognition
CN111048097A (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
CN110634476A (zh) 一种快速搭建鲁棒性声学模型的方法及系统
CN116527357A (zh) 一种基于门控Transformer的Web攻击检测方法
Sun et al. Text-independent speaker identification based on deep Gaussian correlation supervector
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Kamal et al. An innovative approach utilizing binary-view transformer for speech recognition task
CN114038480A (zh) 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
Wang et al. Robust speaker identification of iot based on stacked sparse denoising auto-encoders
Naranjo-Alcazar et al. On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification
Best et al. Deep audio embeddings for vocalisation clustering
CN114338199A (zh) 一种基于注意力机制的恶意流量检测方法和系统
Wang et al. Improving the security of audio captchas with adversarial examples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination