CN113077823B - 一种基于深度自编码器子域自适应跨库语音情感识别方法 - Google Patents

一种基于深度自编码器子域自适应跨库语音情感识别方法 Download PDF

Info

Publication number
CN113077823B
CN113077823B CN202110316366.XA CN202110316366A CN113077823B CN 113077823 B CN113077823 B CN 113077823B CN 202110316366 A CN202110316366 A CN 202110316366A CN 113077823 B CN113077823 B CN 113077823B
Authority
CN
China
Prior art keywords
self
voice
loss
emotion
subdomain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110316366.XA
Other languages
English (en)
Other versions
CN113077823A (zh
Inventor
庄志豪
刘曼
陶华伟
傅洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202110316366.XA priority Critical patent/CN113077823B/zh
Publication of CN113077823A publication Critical patent/CN113077823A/zh
Application granted granted Critical
Publication of CN113077823B publication Critical patent/CN113077823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于深度自编码器子域自适应跨库语音情感识别方法,本发明包括以下步骤:首先,源域和目标域提取的高维语音特征分别输入两个深度自编码网络,将高维特征映射到低维特征空间中,压缩特征中的冗余信息;其次,将低维特征输入基于MMD的子域自适应模型中,实现了不同情感类别空间中的特征分布对齐,并将对齐后的特征输入softmax分类器进行分类;最后,将带标签源域数据计算的交叉熵loss和MMD loss添加进自编码网络进行有监督地优化训练,确保跨语料库语音情感识别系统的准确率。本发明提出的方法可以学习更多不同领域的共同情感特征,模型在不同的语料库中具有很好的鲁棒性和泛化性。

Description

一种基于深度自编码器子域自适应跨库语音情感识别方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于深度自编码器子域自适应跨库语音情感识别方法。
背景技术
语音作为人类交流最自然便利的方式之一。语音信号除了承载语义信息外,还承载着诸如性别、情感状态等其他信息,当人类语音交流时,两个人很容易感受到彼此的情感状态。情感是人类具有标志性的自然属性,在人们日常生产生活过程中扮演着重要的角色,并且对人类的行为判断产生一定的影响。人工智能的本质是使计算机模拟人类的思考判断,并作出相应的类人行为。人工智能想要从低级智能向高级智能发展,那么赋予计算机情感的感知将是必不可少的。
传统语音情感识别的研究都是在同一个语音数据库上进行训练和测试,训练集和测试集具有同样的特征空间分布,往往可以达到较高的识别率。在实际语音情感识别系统中,一方面训练集和测试集往往来自不同的语料库,由于不同语料库的情感获取方法、情感种类以及录音环境有所不同,此时训练集和测试集存在分布差异,从而导致基于同分布假设的传统语音情感识别方法不能够很好地解决跨库识别问题;另一方面随着大数据时代的到来,数据的暴增而人工标注的昂贵,迁移学习对跨语料库的运用受到了越来越多研究者们的重视,利用已标注过的数据来帮助目标数据的训练己成为语音情感识别一个重要的研宄方向。
迁移学习是机器学习领域近年来一个比较热门的研究领域,主要通过迁移当前领域已有知识来解决目标领域中数据仅有少量标签甚至没有标签的学习问题,在很多应用领域得到了广泛的研究如文本分类与聚类、图像分类、传感器定位、协同过滤等。受到迁移学习在这些领域成功应用的启发,在语音情感识别的跨库研究中使用迁移学习。而域自适应的引入己被证明可以显著减少不同领域之间特征分布的差异性,但相比于使用单一数据库进行语音情感识别率来说,跨库语音情感识别的识别率显得非常不理想,所以寻找更加有效的迁移方法来提高跨库语音情感识别的识别率显得尤为重要。
因此本发明主要关注于不同语料库之间的跨库语音情感识别,使用两个深度自编码器,并且交叉使用激活函数以获取更匹配的特征,以及引入基于MMD的子域自适应算法,使其可以对齐以类别划分的子域之间的特征分布,减少不同域之间的分布差异,实现更为有效的跨库语音情感识别。
发明内容
为了解决不同语料数据库之间特征分布差异的问题,更好地将带标记源域数据的知识迁移到无标记目标域,实现无标记数据的准确分类,提出了一种用于跨库语音情感识别深度自编码器子域自适应方法。具体步骤如下:
(1)语音预处理:将源域语料库中的语音数据按对应的情感分类标记数字标签,而目标域数据库不做标签处理,之后对其进行分帧及加窗,为下一步提取特征做准备。
(2)语音特征提取:对步骤(1)预处理完毕后的语音数据,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差、最大最小值等。
(3)特征压缩:将步骤(2)得到的语音特征输入两个深度自编码器,其中一个自编码器提取源域数据特征,进行有监督学习,另一个为辅助性自编码器,用来无监督学习目标域数据特征。假设自编码的输入为x,编码阶段的输入用y表示,relu()和elu()为非线性激活函数,则编码过程表示如下:
y=f(wx+b) (6)
从而获取源域和目标域在低维空间中的情感表示。
(4)特征分布对齐:将步骤(3)得到的低维特征输入子域自适应模块,该模块度量了在考虑不同样本权重的情况下,源域相关子域经验分布核均值嵌入与目标域核均值嵌入之间的Hilbert Schmidt范数,实现了源域和目标域在不同情感空间中的特征分布对齐。该算法实现如下,
(5)训练模型:整个网络训练是通过梯度下降法不断优化训练的,由带标签数据计算的交叉熵作为分类loss,两个自编码器的重构loss,以及域自适应层中基于MMD度量准则的子域自适应loss组成总的损失函数一起优化训练网络参数。整个网络的损失函数表示为:
loss=loss重构1+loss重构2+loss分类+lossMMD (10)
(6)重复步骤(3)、(4),迭代训练网络模型。
(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(2)中的目标域数据集,最终实现语音情感在跨语料库条件下的情感识别。
附图说明
如附图所示,图1为一种基于深度自编码器子域自适应跨库语音情感识别方法模型框架图,图2为子域情感特征对齐示意图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)语音特征是进行跨库情感识别的关键,我们使用的语音特征是2010年国际语音情感识别挑战赛的标准特征集,这个特征集包含了声学特征中使用最为广泛的特征和函数。我们使用开源工具包Opensmile从语音中提取这些特征,每条语音提取出的特征都为1582维,所以使用EMO-DB数据库的5类情感语音共有368条语音,数据总量为368*1582;eNTERFACE数据库的5类情感语音共有1072条语音,数据总量为1072*1582。
(2)标签问题。本发明网络模型是基于有监督学习的跨库语音情感识别,网络训练过程中,训练集使用真实的标签,并将其类别标签one-hot向量形式,与最后经softmax输出的概率做互熵损失,计算出分类损失loss。计算自适应loss时,并没有使用目标域的类别标签,而是使用目标域类别的概率分布作为目标域的标签,即为伪标签。
(3)将步骤(1)得到的源域和目标域数据集特征分别输入两个深度自动编码器模型提取高级情感特征。两个自编码器采用相同的结构,编码部分包含5层隐层神经网络,除了第3层使用ELU之外,其余隐层均使用ReLU激活函数,而解码部分则都是采用ReLU激活函数。激活函数的交叉使用一方面在一定程度上缓解了ReLU导致过多的神经元失活,丢失情感信息的弊端,另一方面使用ELU函数可以使得数据输出均值均接近于零,加快网络收敛速度。
(4)网络训练过程设置学习率为0.01,batch size设置为350,解码隐层神经节点依次设置为1300、1000、700、500、50,每次训练10000epochs。
(5)为了进一步验证该算法的有效性,分别采用2种方案进行测试。在方案1中,将eNTERFACE数据库(类别标签已知)作为训练库,并将EMO-DB数据库(类别标签未知)作为测试库;在方案2中,将EMO-DB数据库(类别标签已知)作为训练库,并将eNTERFACE数据库(类别标签未知)作为测试库。选择2个数据库共有的生气、厌恶、害怕、高兴、伤心等5类基本情感进行实验评价。将所提算法与MMD+AE及AE模型在相同的价标准下作对比,其中MMD+AE是在该发明网络模型的基础上使用了传统的基于MMD的域自适应,而AE则是仅使用深度自编码器。不同方法在eNTERFACE语料库、EMO-DB语料库的识别准确度如表1所示。
表一不同方法得到的准确率
AE AE+MMD ours
E-B 48.10% 49.18% 55.16%
B-E 36.85% 38.34% 40.67%
平均 42.48% 43.76% 47.92%
表中E为eNTERFACE语料库,B为EMO-DB语料库。从实验结果上看,我们提出的方法比AE和AE+MMD分别提升了5.44%和4.16%,证明了我们的模型可以学习到更多领域间的共同特征,能够有效地完成迁移学习,实现从带标记数据中跨邻域识别无标记数据的情感类别。

Claims (1)

1.一种基于深度自编码器子域自适应跨库语音情感识别方法,其特征在于,包括以下步骤:
(1)语音预处理:将源域语料库中的语音数据按对应的情感分类标记数字标签,而目标域数据库不做标签处理,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)语音特征提取:对步骤(1)预处理完毕后的语音数据,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差;
(3)特征压缩:将步骤(2)得到的语音特征输入两个深度自编码器,其中一个自编码器提取源域数据特征,进行有监督学习,另一个为辅助性自编码器,用来无监督学习目标域数据特征;两个自编码器采用相同的结构,编码部分包含5层隐层神经网络,除了第3层使用ELU之外,其余隐层均使用ReLU激活函数,而解码部分则都是采用ReLU激活函数;假设自编码的输入为x,编码阶段的输入用y表示,relu()和elu()为非线性激活函数,则编码过程表示如下:
y=f(wx+b) (1)
从而获取源域和目标域在低维空间中的情感表示;
(4)特征分布对齐:将步骤(3)得到的低维特征输入子域自适应模块,该模块度量了在考虑不同样本权重的情况下,源域相关子域经验分布核均值嵌入与目标域核均值嵌入之间的Hilbert Schmidt范数,实现了源域和目标域在不同情感空间中的特征分布对齐;该模块实现如下:
(5)训练模型:整个网络训练是通过梯度下降法不断优化训练的,由带标签数据计算的交叉熵作为分类loss,两个自编码器的重构loss,以及域自适应层中基于MMD度量准则的子域自适应loss组成总的损失函数一起优化训练网络参数;整个网络的损失函数表示为:
loss=loss重构1+loss重构2+loss分类+lossMMD (5)
(6)重复步骤(3)、(4),迭代训练网络模型;
(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(2)中的目标域数据集,最终实现语音情感在跨语料库条件下的情感识别。
CN202110316366.XA 2021-03-24 2021-03-24 一种基于深度自编码器子域自适应跨库语音情感识别方法 Active CN113077823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316366.XA CN113077823B (zh) 2021-03-24 2021-03-24 一种基于深度自编码器子域自适应跨库语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316366.XA CN113077823B (zh) 2021-03-24 2021-03-24 一种基于深度自编码器子域自适应跨库语音情感识别方法

Publications (2)

Publication Number Publication Date
CN113077823A CN113077823A (zh) 2021-07-06
CN113077823B true CN113077823B (zh) 2024-05-03

Family

ID=76610373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316366.XA Active CN113077823B (zh) 2021-03-24 2021-03-24 一种基于深度自编码器子域自适应跨库语音情感识别方法

Country Status (1)

Country Link
CN (1) CN113077823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN113934814B (zh) * 2021-08-01 2024-05-28 北京工业大学 古诗文主观题自动评分方法
CN115240649B (zh) * 2022-07-19 2023-04-18 于振华 一种基于深度学习的语音识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN112397092A (zh) * 2020-11-02 2021-02-23 天津理工大学 基于领域自适应子空间的无监督跨库语音情感识别方法
CN112489689A (zh) * 2020-11-30 2021-03-12 东南大学 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN112397092A (zh) * 2020-11-02 2021-02-23 天津理工大学 基于领域自适应子空间的无监督跨库语音情感识别方法
CN112489689A (zh) * 2020-11-30 2021-03-12 东南大学 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于卷积神经网络特征表征的语音情感识别方法;姜芃旭 等;《电子器件》;第42卷(第4期);正文998-1001页 *
基于特征迁移学习方法的跨库语音情感识别;宋鹏 等;《清华大学学报(自然科学版)》;56(11);正文1179-1183页 *
基于自编码器的语音情感识别方法研究;钟昕孜 等;《电子设计工程》;28(6);正文69-73页 *
钟昕孜 等.基于自编码器的语音情感识别方法研究.《电子设计工程》.2020,28(6),正文69-73页. *

Also Published As

Publication number Publication date
CN113077823A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113077823B (zh) 一种基于深度自编码器子域自适应跨库语音情感识别方法
WO2015180368A1 (zh) 一种半监督语音特征可变因素分解方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN108597539A (zh) 基于参数迁移和语谱图的语音情感识别方法
CN109523994A (zh) 一种基于胶囊神经网络的多任务语音分类方法
CN108899049A (zh) 一种基于卷积神经网络的语音情感识别方法及系统
CN111400469A (zh) 针对语音问答的智能生成系统及其方法
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN110459225A (zh) 一种基于cnn融合特征的说话人辨认系统
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
Elshaer et al. Transfer learning from sound representations for anger detection in speech
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN113569553A (zh) 基于改进Adaboost算法的句子相似性判断方法
CN116386102A (zh) 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
CN113380418A (zh) 一种通过对话文本分析识别抑郁症的系统
CN110210562B (zh) 基于深度网络和稀疏Fisher矢量的图像分类方法
CN112541082A (zh) 一种文本情感分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant