CN114038480A - 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 - Google Patents
一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 Download PDFInfo
- Publication number
- CN114038480A CN114038480A CN202111308297.4A CN202111308297A CN114038480A CN 114038480 A CN114038480 A CN 114038480A CN 202111308297 A CN202111308297 A CN 202111308297A CN 114038480 A CN114038480 A CN 114038480A
- Authority
- CN
- China
- Prior art keywords
- domain
- self
- library
- encoder
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 18
- 230000008451 emotion Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008929 regeneration Effects 0.000 claims description 2
- 238000011069 regeneration method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。本方法首先利用基于编解码风格的一维卷积自编码器对特征进行处理,得到了更具表征性的特征,随后,将最大均值差异(Maxmiun Mean Discrepancy,MMD)作为源域目标域距离度量手段,纳入对抗域自适应架构用以减轻其学习过程中面临的平衡挑战,促进源域与目标域特征分布的有效对齐。最后,模型综合考虑了特征提取网络及特征分布差异损失,提升了识别效果。
Description
技术领域
本发明属于一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法。
背景技术
近年来,语音情感识别已经成为人机交互,模式识别和情感计算中的热门课题,赋予计算机识别情感的能力是使机器走向智能的关键性技术。传统的语音情感识别中,众多算法已经取得了显著的识别表现,但这些算法往往是在基于同一语音情感库上进行训练和测试,而在实际应用中,训练数据和测试数据往往来自不同数据库,两者之间有着不同的语种,文化,说话人发音风格以及分类方式,这些差异造成了训练集和测试集数据分布的不匹配,也使得原本经过良好训练的模型应用于未知测试集时性能严重下跌,由此,跨库语音情感识别,这一极具挑战性的问题应运而生,众多研究者开始致力于提升跨库语音情感的识别性能。
对于这个问题,已经有大量基于特征处理和特征分布对齐的算法被提出,其中特征处理主要是构建新的网络模型,试图从语音信号中提取更具表征性的情感特征,有利于进行下一步的特征分布对齐,而特征分布对齐主要采用域自适应方法,减轻训练库和测试库间的数据分布差异,以使得模型在训练库上的良好性能迁移到测试库上。
因此,本发明主要关注如何有效提取语音信号中具有强表征能力的情感特征以及减轻训练语音库和测试语音库之间的特征分布差异,使用一维卷积层探索邻近特征经过卷积后与情感信息间的联系,并采用基于编解码风格的神经网络确保所提特征的有效性。在经过有效的特征处理后,使用对抗域自适应完成特征分布对齐,并利用MMD减轻对抗学习中的平衡挑战,更好的实现知识迁移,提升跨库语音情感识别性能。
发明内容
对于跨库语音情感识别,情感特征的有效提取和不同库间的特征分布对齐是提升性能的关键性技术,本文构建了一个新型一维卷积自编码器提取具有强表征能力的情感特征,并使用对抗域自适应完成特征分布对齐,特别采用了MMD减轻了对抗学习中的平衡挑战,更好的完成知识迁移,具体步骤如下:
(1)语音预处理:提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征作为特征处理网络的输入;
(2)特征处理:将步骤(1)提取到的一维统计特征送入一维卷积自编码器中,首先利用卷积层对特征进行处理,然后利用转置卷积层对特征进行还原,将还原后的语音特征与原始特征构造重构误差,其中训练库分类损失、卷积过程、反卷积过程以及重构损失定义如下:
其中yp为网络输出预测情感标签,ys为真实情感标签,Lce为交叉熵函数,
其中[Xj1,Xj2...Xjs]为相邻的统计特征,Y(j)为卷积联合后得到的结果,K和b分别为卷积过程中的权重和偏置,
其中XR和X分别重构后得到的特征与原始特征;
(3)特征分布对齐:将步骤(2)中编码器器输出的特征送入对抗域自适应模块的域鉴别器中,通过混淆域鉴别器对齐训练库和测试库的特征分布,并采用MMD同时度量训练库和测试库的统计差异,域鉴别器损失和MMD距离如下:
其中F为特征处理网络,D为域鉴别器,di为测试库的真实域标签,
其中H为再生希尔伯特空间,用于寻找特征映射函数φ,使得训练库和测试库经过映射后特征分布距离最小;
(4)模型训练:将步骤(1)得到的一维统计特征输入特征处理网络,得到分类损失和重构损失,将卷积自编码器中编码器提取到的具有强表征能力的特征送入域鉴别器,得到对抗损失,并使用MMD进行统计差异最小化,得到MMD损失,联合这些损失对模型进行优化:
(5)重复步骤(2)(3)(4),优化网络模型参数;
(6)经过一定轮次的迭代后,得到本方法指导下的最优模型,实现跨库语音情感识别性能的提升。
附图说明
如附图所示,图1为本发明的实现流程图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)特征提取,提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征,并利用多个统计函数得到共计1582维的语音统计特征,作为特征处理网络的输入。
(2)特征处理,将步骤(1)得到的一维语音特征输入一维卷积自编码器中,自编码器包含四个一维卷积模块和四个一维转置模块,一维卷积模块由卷积层、批归一化(BN)层、dropout层和激活层(Relu函数)构成,四个一维卷积层的参数设置分别为{16×9×2,32×9×2,64×9×2,128×9×2}(卷积核个数×卷积核尺寸×步长),一维反卷积模块由一维转置卷积层,批归一化(BN)层和激活层(Relu函数)构成,四个一维转置卷积层的参数设置分别为{64×9×2,32×9×2,16×9×2,1×9×2}(卷积核个数×卷积核尺寸×步长)。
(3)将经过特征处理后得到的具有强表征能力的特征输入对抗域自适应模块,使用混淆域鉴别器的方法,让经过处理的训练语音库特征和测试语音库特征的差异减小,其中域鉴别器采用三个Dense层对输入特征进行域分类,第一个Dense层设置为全连接层(1582,1024)、激活层(Relu函数)和dropout(0.5)层,第二个Dense层设置为全连接层(1024,1024)、激活层(Relu函数)和dropout(0.5)层,第三个Dense层设置为(1024,1)和激活层(sigmoid函数),进行域分类,当域鉴别器无法分辨特征来自训练库还是测试库时,达到促进特征分布对齐的效果,但由于对抗学习中平衡挑战的存在,混淆域鉴别器不能很好的保证特征分布的对齐,因此,将距离度量手段MMD纳入对抗性学习框架中,在混淆域鉴别器的同时,将训练库和测试库的统计差异进行对齐,很好的弥合了对抗学习中的平衡挑战,促进了跨库语音情感识别过程中的知识迁移。
(4)模型的学习率和批处理大小都设置为0.001和16,使用最速梯度下降法训练网络模型,模型迭代训练2000轮,分类器使用softmax。
(5)结合模型中的源域分类损失、训练库和测试库的重构损失和对抗损失和MMD损失对模型进行反向传播训练,迭代优化网络参数,提高跨库语音情感识别性能,将本文所提方法(CAEADA)与其它跨库语音情感识别方法及域自适应方法在三个基准语音情感库上设置的六个任务进行识别性能对比,这些方法分别为SVM(一种非深度分类方法),TCA(迁移成分分析),DoSL(域自适应子空间学习),JDAR(联合分布自适应回归),DAAN(对抗域自适应),MDD(最大密度发散度域自适应),采用未加权平均召回率作为评价指标。
(6)实验设置,为验证模型有效性,选择语音情感识别中广泛应用的3个情感语音库,EmoDB(B),eNTERFACE(E),CASIA(C)作为基准库,选取其共同情感种类进行实验,设置了六组任务如下表:
(7)实验结果如下,整体识别效果证明所公开方法的有效性。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (1)
1.本发明提出了一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法,主要包含以下步骤:
(1)语音预处理:提取原始语音信号中的基频(F0),梅尔倒频谱(MFCC)和线谱对(LSP)等语音特征作为特征处理网络的输入;
(2)特征处理:将步骤(1)提取到的一维统计特征送入一维卷积自编码器中,首先利用卷积层对特征进行处理,然后利用转置卷积层对特征进行还原,将还原后的语音特征与原始特征构造重构误差,其中训练库分类损失、卷积过程、反卷积过程以及重构损失定义如下:
其中yp为网络输出预测情感标签,ys为真实情感标签,Lce为交叉熵函数,
其中[Xj1,Xj2...Xjs]为相邻的统计特征,Y(j)为卷积联合后得到的结果,K和b分别为卷积过程中的权重和偏置,
其中XR和X分别重构后得到的特征与原始特征;
(3)特征分布对齐:将步骤(2)中编码器器输出的特征送入对抗域自适应模块的域鉴别器中,通过混淆域鉴别器对齐训练库和测试库的特征分布,并采用MMD同时度量训练库和测试库的统计差异,域鉴别器损失和MMD距离如下:
其中F为特征处理网络,D为域鉴别器,di为测试库的真实域标签,
其中H为再生希尔伯特空间,用于寻找特征映射函数φ,使得训练库和测试库经过映射后特征分布距离最小;
(4)模型训练:将步骤(1)得到的一维统计特征输入特征处理网络,得到分类损失和重构损失将卷积自编码器中编码器提取到的具有强表征能力的特征送入域鉴别器,得到对抗损失并使用MMD进行统计差异最小化,得到MMD损失联合这些损失对模型进行优化:
(5)重复步骤(2)(3)(4),优化网络模型参数;
(6)经过一定轮次的迭代后,得到本方法指导下的最优模型,实现跨库语音情感识别性能的提升。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308297.4A CN114038480A (zh) | 2021-11-05 | 2021-11-05 | 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308297.4A CN114038480A (zh) | 2021-11-05 | 2021-11-05 | 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114038480A true CN114038480A (zh) | 2022-02-11 |
Family
ID=80136469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111308297.4A Pending CN114038480A (zh) | 2021-11-05 | 2021-11-05 | 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038480A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220286426A1 (en) * | 2020-09-24 | 2022-09-08 | Apple Inc. | Network address compression for electronic devices |
-
2021
- 2021-11-05 CN CN202111308297.4A patent/CN114038480A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220286426A1 (en) * | 2020-09-24 | 2022-09-08 | Apple Inc. | Network address compression for electronic devices |
US11750557B2 (en) * | 2020-09-24 | 2023-09-05 | Apple Inc. | Network address compression for electronic devices |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN111429938B (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN109447099B (zh) | 一种基于pca降维的多分类器融合方法 | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN110534101B (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
Mo et al. | Neural architecture search for keyword spotting | |
Ribeiro et al. | Deep dense and convolutional autoencoders for unsupervised anomaly detection in machine condition sounds | |
CN114492521A (zh) | 一种基于声振信号的随钻岩性智能识别方法与系统 | |
Xue et al. | Exploring attention mechanisms based on summary information for end-to-end automatic speech recognition | |
CN111048097A (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN114067915A (zh) | 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法 | |
CN110634476A (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
CN116527357A (zh) | 一种基于门控Transformer的Web攻击检测方法 | |
Sun et al. | Text-independent speaker identification based on deep Gaussian correlation supervector | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Kamal et al. | An innovative approach utilizing binary-view transformer for speech recognition task | |
CN114038480A (zh) | 一种基于一维卷积自编码器与对抗域自适应的跨库语音情感识别方法 | |
Zhiyan et al. | Speech emotion recognition based on deep learning and kernel nonlinear PSVM | |
Wang et al. | Robust speaker identification of iot based on stacked sparse denoising auto-encoders | |
Naranjo-Alcazar et al. | On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification | |
Best et al. | Deep audio embeddings for vocalisation clustering | |
CN114338199A (zh) | 一种基于注意力机制的恶意流量检测方法和系统 | |
Wang et al. | Improving the security of audio captchas with adversarial examples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |