CN113555038A - 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 - Google Patents

基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 Download PDF

Info

Publication number
CN113555038A
CN113555038A CN202110758039.XA CN202110758039A CN113555038A CN 113555038 A CN113555038 A CN 113555038A CN 202110758039 A CN202110758039 A CN 202110758039A CN 113555038 A CN113555038 A CN 113555038A
Authority
CN
China
Prior art keywords
domain
emotion
features
feature
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110758039.XA
Other languages
English (en)
Other versions
CN113555038B (zh
Inventor
郑文明
路成
宗源
唐传高
李溯南
连海伦
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110758039.XA priority Critical patent/CN113555038B/zh
Publication of CN113555038A publication Critical patent/CN113555038A/zh
Application granted granted Critical
Publication of CN113555038B publication Critical patent/CN113555038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统,对情感语音数据进行预处理,获得高质量的情感语音样本,从所述情感语音样本中提取出单通道梅尔频谱作为时频特征,对所述时频特征经过深度卷积神经网络,得到语音情感的局部特征和全局特征,作为分层特征,建立无监督的深度领域对抗神经网络,将有标签的训练数据和无标签的测试数据提取分层特征后作为输入,对深度领域对抗网络进行训练,将待识别的情感语音数据预处理后输入训练好的深度领域对抗网络,得到语音情感识别结果。本发明识别效果更好、识别率更高。

Description

基于无监督领域对抗学习的说话人无关语音情感识别方法及 系统
技术领域
本发明涉及语音处理技术领域,尤其是一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统。
背景技术
语音情感识别旨在使机器能够通过语音信号判别人类的情感状态(如高兴、悲伤、惊讶等),是情感计算和模式识别领域的重要研究方向。目前国内外许多研究机构(如美国MIT媒体实验室、英国帝国理工学院GLAM实验室、中科院自动化所等)均致力于语音情感识别研究,已经取得了一系列阶段性的成果,并开始尝试应用于服务、医疗等领域。
但是现有语音情感识别技术在实用中仍面临重大困境,即目前方法的开发与评测往往都是基于实验室录制的数据集。这些语音数据集与真实场景下的语音数据相比存在较大的差异,使得训练的模型在新数据集上识别性能大大降低。具体来说,真实场景下的语音数据易受到环境噪声、说话人、语种、录制设备等因素差异的影响,使得语音中情感特征的分布存在显著差异从而造成情感信息的表征异常困难,严重制约语音情感识别方法的泛化性能,为鲁棒语音情感识别带来了巨大的挑战。特别是语音信号中与说话人相关的信息,对语音情感的表征影响极大。这种影响主要表现在:(1)不同说话人表达同种情感的差异较大;(2)说话人相关的特征与情感特征容易混淆,例如,不同的人说话时音调有高有低,而不同的情感在表达时也有类似的现象,如高兴、惊讶等高唤醒度的情感在表达时音调较高,悲伤、厌恶等低唤醒度的情感在表达时音调较低。这些影响会导致训练数据和测试数据的语音情感信息特征分布产生鸿沟。因此,如何消除域间特征分布差异对语音情感信息表征的影响,已成为真实场景下鲁棒语音情感识别亟需突破的关键技术难题。
受制于以上限制,当前说话人无关语音情感别识别的研究的性能远低于说话人有关的语音情感识别性能,距离实际应用仍有一段距离。此外,领域自适应方法在跨领域视觉任务上的成功也为消除语音数据中特征分布差异提供了一条有效的途径,但目前相关研究仍处于初级阶段。
发明内容
本发明所要解决的技术问题在于,提供一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统,识别效果更好、识别率更高。
为解决上述技术问题,本发明提供一种基于无监督领域对抗学习的说话人无关语音情感识别方法,包括如下步骤:
(1)获取若干源域和目标域的情感语音样本,去噪后获得干净的语音信号;
(2)对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入;
(3)将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征;
(4)对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作;
(5)对源域的高层特征经过情感判别器进行分类;
(6)对源域的高层特征经过说话人判别器进行分类;
(7)对源域和目标域的高层特征经过领域判别器进行分类;
(8)对深度特征提取器、类别判别器、说话人判别器、领域判别器进行联合训练,得到最优模型参数;
(9)将待识别的情感语音样本输入训练好的深度特征提取器和情感判别器,得到识别出的语音情感。
优选的,步骤(2)中,对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入具体包括如下步骤:
(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作;
(2-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;
(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
优选的,步骤(3)中,将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征具体包括如下步骤:
(3-1)将源域和目标域的特征同时输入深度特征提取网络;
(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块,其中每个卷积模块均包含2D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)、最大平均池化三个操作,每个全连接模块包含一个全连接操作。
优选的,步骤(4)中,对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作具体包括如下步骤:
(4-1)源域和目标域的对数梅尔频谱经过深度特征提取网络分别获得源域的局部特征Ls和全局特征Gs以及目标域的局部特征Lt和全局特征Gt
(4-2)分别计算源域与目标域的局部特征和全局特征的分布距离Dl=MK-MMD(Ls,Lt),Dg=MK-MMD(Gs,Gt);
(4-3)对计算得到的局部特征分布距离进行弱对齐策略,对全局特征分布进行强对齐策略得到领域分布距离D=λl·Dgg·Dg
优选的,步骤(5)中,对源域的高层特征经过情感判别器进行分类具体包括如下步骤:
(5-1)对源域的高层特征Gs经过情感判别器进行情感分类;
(5-2)情感判别器为一个三层的全连接网络,其隐节点维度分别为4096、256、情感类别数c。
优选的,步骤(6)中,对源域的高层特征经过说话人判别器进行分类具体包括如下步骤:
(6-1)对源域的高层特征Gs经过说话人判别器进行说话人分类;
(6-2)说话人判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、源域说话人数p。
优选的,步骤(7)中,对源域和目标域的高层特征经过领域判别器进行分类具体包括如下步骤:
(7-1)对源域和目标域的高层特征Gs和Gt经过领域判别器进行领域分类;
(7-2)领域判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、2。
相应的,一种基于无监督领域对抗学习的说话人无关语音情感识别系统,包括:
样本预处理模块,用于获取若干语音样本,预处理后转换成干净的语音信号;
对数梅尔频谱特征提取模块,用于从预处理后的语音样本中提取对数梅尔频谱特征
分层特征提取模块,用于对梅尔谱特征提取局部特征和全局特征;
分层特征分布对齐模块,用于对源域-目标域的局部特征分布进行强对齐以及对全局特征分布进行弱对齐;
情感判别器模块,用于对源域高层特征进行情感类别分类;
说话人判别器模块,用于对源域高层特征进行说话人类别分类;
领域判别器模块,用于对源域和目标域的高层特征进行领域类别分类;
无监督领域对抗学习网络训练模块,用于建立由分层特征提取网络、分层特征分布对齐网络、情感判别网络、说话人判别网络、领域判别网络合并而成的无监督领域对抗学习网络,将每路对应特征作为输入,对无监督领域对抗学习网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的无监督领域对抗学习网络,得到识别出的语音情感。
优选的,样本预处理模块具体包括:重采样单元,用于将所述语音样本进行重采样至16k HZ;去噪单元,用于将重采样后的语音信号进行去噪处理得到干净的语音信号;对数梅尔频谱特征提取模块具体包括:分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征;分层特征提取模块具体包括:局部特征提取单元,用于获取所述源域和目标域语音样本的局部特征;全局特征提取单元,用于获取所述源域和目标域语音样本的全局特征;分层特征分布对齐模块具体包括:局部特征对齐单元,用于对所述源域和目标域语音样本的局部特征进行强对齐;全局特征对齐单元,用于对所述源域和目标域语音样本的全局特征进行弱对齐。
优选的,情感判别器模块具体包括:情感特征映射单元,用于对所述源域语音样本的高层特征进行情感特征空间映射;情感特征分类单元,用于对所述源域语音样本的情感特征进行分类预测;说话人判别器模块具体包括:说话人特征映射单元,用于对所述源域语音样本的高层特征进行说话人特征空间映射;说话人特征分类单元,用于对所述源域语音样本的说话人特征进行分类预测;领域判别器模块具体包括:领域特征映射单元,用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射;领域特征分类单元,用于对所述源域-目标域语音样本的领域特征进行分类预测。
本发明的有益效果为:本发明首先通过样本预处理模块和特征提取模块获取的特征鲁棒性更好,然后通过分层特征提取模块和分层特征对齐模块获得具有与人无关但与情感有关的泛化性的特征,最后利用情感判别器模块、说话人判别器模块以及领域判别器模块进一步增强获得特征的情感判别性和与说话人无关的泛化性,本发明识别效果更好、识别率更高。
附图说明
图1为本发明的方法流程示意图。
图2为本发明与其他方法在Emo-DB数据集下的实验结果对比示意图。
图3为本发明与其他方法在eNTERFACE数据集下的实验结果对比示意图。
图4为本发明与其他方法在CASIA数据集下的实验结果对比示意图。
图5为本发明在Emo-DB数据集下的归一化混淆矩阵。
图6为本发明在eNTERFACE数据集下的归一化混淆矩阵。
图7为本发明在CASIA数据集下的归一化混淆矩阵。
具体实施方式
如图1所示,一种基于无监督领域对抗学习的说话人无关语音情感识别方法,包括如下步骤:
(1)获取若干源域和目标域的情感语音样本,去噪后获得干净的语音信号。
(2)对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入。
该步骤具体包括:(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作;(2-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
本实施例中,分帧、加窗、短时离散傅里叶变换以及梅尔滤波器组均采用Librosa开源语音信号处理库,该处理库采用汉明窗,窗长25ms,帧间重叠率50%,fft点数512,梅尔滤波器40个。
(3)将源域和目标域的频谱特征输入深度特征提取器获得分层(低层-高层)的语音情感特征。
该步骤具体包括:(3-1)将源域和目标域的特征同时输入深度特征提取网络;(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块,其中每个卷积模块均包含2D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)、最大平均池化三个操作,每个全连接模块包含一个全连接操作。
本实施例中五个卷积的尺寸分别为(3,3,32)、(3,3,64)、(3,3,128)、(3,3,256)、(3,3,512)和(3,3,512),两个全连接的尺寸为(7*7*512,4096),(4096,4096)。
(4)对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作。
该步骤具体包括:(4-1)源域和目标域的对数梅尔频谱经过深度特征提取网络分别获得源域的局部特征Ls和全局特征Gs以及目标域的局部特征Lt和全局特征Gt;(4-2)分别计算源域与目标域的局部特征和全局特征的分布距离Dl=MK-MMD(Ls,Lt),Dg=MK-MMD(Gs,Gt);(4-3)对计算得到的局部特征分布距离进行弱对齐策略,对全局特征分布进行强对齐策略得到领域分布距离D=λl·Dgg·Dg
本实施例中,源域和目标域语音样本的局部特征Ls维度分别为64、128、256、512、1024、1024;它们的全局特征维度为4096、4096;多核均值差异距离采用的是高斯核函数为
Figure BDA0003147959100000061
k(Xs,Xt)=<φ(xs),φ(xt)>。
(5)对源域的高层特征经过情感判别器进行分类。
该步骤具体包括:(5-1)对源域的高层特征Gs经过情感判别器进行情感分类;(5-2)情感判别器为一个三层的全连接网络,其隐节点维度分别为4096、256、情感类别数c。
本实施例中,根据具体数据库的不同情感类别c的设置为:Emo-DB的情感类别c为7,eNTERFACE的情感类别c为6,CASIA的情感类别c为6。
(6)对源域的高层特征经过说话人判别器进行分类。
该步骤具体包括:(6-1)对源域的高层特征Gs经过说话人判别器进行说话人分类;(6-2)说话人判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、源域说话人数p。
本实施例中,根据具体数据库中源域数据的不同说话人数量p的设置为:Emo-DB的说话人数量p为10,eNTERFACE的说话人过多进行分组数量p为5,CASIA的说话人数量p为4。
(7)对源域和目标域的高层特征经过领域判别器进行分类。
该步骤具体包括:(7-1)对源域和目标域的高层特征Gs和Gt经过领域判别器进行领域分类;(7-2)领域判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、2。
(8)对深度特征提取器、类别判别器、说话人判别器、领域判别器进行联合训练,得到最优模型参数。
本实施例中,特征提取器和类别判别器采用正向梯度,而说话人判别器和领域判别器采用反向梯度,利用梯度反转层(GRL)来实现。
(6)将待识别的情感语音样本输入训练好的深度特征提取器和情感判别器,得到识别出的语音情感。
其中,在训练好神经网络后进行测试,测试结果如下:
为验证本发明的无监督领域对抗网络的有效性与必要性,在Emo-DB、eNTERFACE和CASIA数据集上进行了实验,选取加权平均召回率(WAR)和不加权平均召回率(UAR)作为评价指标,结果如图2、图3和图4所示,可以观察到本发明的无监督领域对抗网络在三个数据集上均取得了最好的效果,其中分层特征分布对齐模块和判别器模块的加入对结果的提升起到了关键作用。为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题,我们对于无监督领域对抗网络在三个数据集上的结果计算了归一化混淆矩阵,如图5、图6和图7所示。
本实施例还提供了一种基于无监督领域对抗网络的说话人无关语音情感识别系统,包括:
样本预处理模块,用于获取若干语音样本,预处理后转换成干净的语音信号;
对数梅尔频谱特征提取模块,用于从预处理后的语音样本中提取对数梅尔频谱特征
分层特征提取模块,用于对梅尔谱特征提取局部特征和全局特征;
分层特征分布对齐模块,用于对源域-目标域的局部特征分布进行强对齐以及对全局特征分布进行弱对齐;
情感判别器模块,用于对源域高层特征进行情感类别分类;
说话人判别器模块,用于对源域高层特征进行说话人类别分类;
领域判别器模块,用于对源域和目标域的高层特征进行领域类别分类;
无监督领域对抗学习网络训练模块,用于建立由分层特征提取网络、分层特征分布对齐网络、情感判别网络、说话人判别网络、领域判别网络合并而成的无监督领域对抗学习网络,将每路对应特征作为输入,对无监督领域对抗学习网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的无监督领域对抗学习网络,得到识别出的语音情感。
其中,样本预处理模块具体包括:
重采样单元,用于将所述语音样本进行重采样至16k HZ;
去噪单元,用于将重采样后的语音信号进行去噪处理得到干净的语音信号。
其中,对数梅尔频谱特征提取模块具体包括:
分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;
频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;
对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征。
其中,分层特征提取模块具体包括:
局部特征提取单元,用于获取所述源域和目标域语音样本的局部特征;
全局特征提取单元,用于获取所述源域和目标域语音样本的全局特征。
其中,分层特征分布对齐模块具体包括:
局部特征对齐单元,用于对所述源域和目标域语音样本的局部特征进行强对齐;
全局特征对齐单元,用于对所述源域和目标域语音样本的全局特征进行弱对齐。
其中,情感判别器模块具体包括:
情感特征映射单元,用于对所述源域语音样本的高层特征进行情感特征空间映射;
情感特征分类单元,用于对所述源域语音样本的情感特征进行分类预测。
其中,说话人判别器具体包括:
说话人特征映射单元,用于对所述源域语音样本的高层特征进行说话人特征空间映射;
说话人特征分类单元,用于对所述源域语音样本的说话人特征进行分类预测。
其中,领域判别器模块具体包括:
领域特征映射单元,用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射;
领域特征分类单元,用于对所述源域-目标域语音样本的领域特征进行分类预测。

Claims (10)

1.基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,包括如下步骤:
(1)获取若干源域和目标域的情感语音样本,去噪后获得干净的语音信号;
(2)对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入;
(3)将源域和目标域的频谱特征输入深度特征提取器获得分层的语音情感特征;
(4)对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作;
(5)对源域的高层特征经过情感判别器进行分类;
(6)对源域的高层特征经过说话人判别器进行分类;
(7)对源域和目标域的高层特征经过领域判别器进行分类;
(8)对深度特征提取器、类别判别器、说话人判别器、领域判别器进行联合训练,得到最优模型参数;
(9)将待识别的情感语音样本输入训练好的深度特征提取器和情感判别器,得到识别出的语音情感。
2.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(2)中,对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入具体包括如下步骤:
(2-1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作;
(2-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;
(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
3.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(3)中,将源域和目标域的频谱特征输入深度特征提取器获得分层的语音情感特征具体包括如下步骤:
(3-1)将源域和目标域的特征同时输入深度特征提取网络;
(3-2)深度特征提取网络包含五个卷积模块和两个全连接模块,其中每个卷积模块均包含2D卷积、批归一化、线性激活函数、最大平均池化三个操作,每个全连接模块包含一个全连接操作。
4.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(4)中,对源域和目标域的低层局部特征与高层全局特征分别进行领域特征分布的对齐操作具体包括如下步骤:
(4-1)源域和目标域的对数梅尔频谱经过深度特征提取网络分别获得源域的局部特征Ls和全局特征Gs以及目标域的局部特征Lt和全局特征Gt
(4-2)分别计算源域与目标域的局部特征和全局特征的分布距离Dl=MK-MMD(Ls,Lt),Dg=MK-MMD(Gs,Gt);
(4-3)对计算得到的局部特征分布距离进行弱对齐策略,对全局特征分布进行强对齐策略得到领域分布距离D=λl·Dgg·Dg
5.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(5)中,对源域的高层特征经过情感判别器进行分类具体包括如下步骤:
(5-1)对源域的高层特征Gs经过情感判别器进行情感分类;
(5-2)情感判别器为一个三层的全连接网络,其隐节点维度分别为4096、256、情感类别数c。
6.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(6)中,对源域的高层特征经过说话人判别器进行分类具体包括如下步骤:
(6-1)对源域的高层特征Gs经过说话人判别器进行说话人分类;
(6-2)说话人判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、源域说话人数p。
7.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法,其特征在于,步骤(7)中,对源域和目标域的高层特征经过领域判别器进行分类具体包括如下步骤:
(7-1)对源域和目标域的高层特征Gs和Gt经过领域判别器进行领域分类;
(7-2)领域判别器为一个三层的全连接网络,其隐节点维度分别为4096、100、2。
8.如权利要求1所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统,其特征在于,包括:
样本预处理模块,用于获取若干语音样本,预处理后转换成干净的语音信号;
对数梅尔频谱特征提取模块,用于从预处理后的语音样本中提取对数梅尔频谱特征
分层特征提取模块,用于对梅尔谱特征提取局部特征和全局特征;
分层特征分布对齐模块,用于对源域-目标域的局部特征分布进行强对齐以及对全局特征分布进行弱对齐;
情感判别器模块,用于对源域高层特征进行情感类别分类;
说话人判别器模块,用于对源域高层特征进行说话人类别分类;
领域判别器模块,用于对源域和目标域的高层特征进行领域类别分类;
无监督领域对抗学习网络训练模块,用于建立由分层特征提取网络、分层特征分布对齐网络、情感判别网络、说话人判别网络、领域判别网络合并而成的无监督领域对抗学习网络,将每路对应特征作为输入,对无监督领域对抗学习网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的无监督领域对抗学习网络,得到识别出的语音情感。
9.如权利要求8所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统,其特征在于,样本预处理模块具体包括:重采样单元,用于将所述语音样本进行重采样至16k HZ;去噪单元,用于将重采样后的语音信号进行去噪处理得到干净的语音信号;对数梅尔频谱特征提取模块具体包括:分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征;分层特征提取模块具体包括:局部特征提取单元,用于获取所述源域和目标域语音样本的局部特征;全局特征提取单元,用于获取所述源域和目标域语音样本的全局特征;分层特征分布对齐模块具体包括:局部特征对齐单元,用于对所述源域和目标域语音样本的局部特征进行强对齐;全局特征对齐单元,用于对所述源域和目标域语音样本的全局特征进行弱对齐。
10.如权利要求8所述的基于无监督领域对抗学习的说话人无关语音情感识别方法的识别系统,其特征在于,情感判别器模块具体包括:情感特征映射单元,用于对所述源域语音样本的高层特征进行情感特征空间映射;情感特征分类单元,用于对所述源域语音样本的情感特征进行分类预测;说话人判别器模块具体包括:说话人特征映射单元,用于对所述源域语音样本的高层特征进行说话人特征空间映射;说话人特征分类单元,用于对所述源域语音样本的说话人特征进行分类预测;领域判别器模块具体包括:领域特征映射单元,用于对所述源域-目标域语音样本的高层特征进行领域特征空间映射;领域特征分类单元,用于对所述源域-目标域语音样本的领域特征进行分类预测。
CN202110758039.XA 2021-07-05 2021-07-05 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 Active CN113555038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758039.XA CN113555038B (zh) 2021-07-05 2021-07-05 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758039.XA CN113555038B (zh) 2021-07-05 2021-07-05 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN113555038A true CN113555038A (zh) 2021-10-26
CN113555038B CN113555038B (zh) 2023-12-29

Family

ID=78102738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758039.XA Active CN113555038B (zh) 2021-07-05 2021-07-05 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN113555038B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240649A (zh) * 2022-07-19 2022-10-25 于振华 一种基于深度学习的语音识别方法和系统
CN116631410A (zh) * 2023-07-25 2023-08-22 北京安吉贝玛健康科技有限公司 一种基于深度学习的语音识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN112397092A (zh) * 2020-11-02 2021-02-23 天津理工大学 基于领域自适应子空间的无监督跨库语音情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN112397092A (zh) * 2020-11-02 2021-02-23 天津理工大学 基于领域自适应子空间的无监督跨库语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PAUL PU LIANG ETC.: "Multimodal Local-Global Ranking Fusion for Emotion Recognition", 《2018 ASSOCIATION FOR COMPUTING MACHINERY》, pages 472 - 476 *
XINRAN ZHANG ETC.: "A speech emotion recognition method in cross-languages corpus based on feature adaptation", 《2015 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY SYSTEMS AND INNOVATION (ICITSI)》, pages 1 - 4 *
YUN JIN ETC.: "A feature selection and feature fusion combination method for speaker-independent speech emotion recognition", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 4808 - 4812 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240649A (zh) * 2022-07-19 2022-10-25 于振华 一种基于深度学习的语音识别方法和系统
CN116631410A (zh) * 2023-07-25 2023-08-22 北京安吉贝玛健康科技有限公司 一种基于深度学习的语音识别方法
CN116631410B (zh) * 2023-07-25 2023-10-24 陈志丰 一种基于深度学习的语音识别方法

Also Published As

Publication number Publication date
CN113555038B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Becker et al. Interpreting and explaining deep neural networks for classification of audio signals
Lee et al. Sample-level deep convolutional neural networks for music auto-tagging using raw waveforms
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN113555038B (zh) 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
Adam et al. Spoken english alphabet recognition with mel frequency cepstral coefficients and back propagation neural networks
Nawas et al. Speaker recognition using random forest
Bu et al. A Monte Carlo search-based triplet sampling method for learning disentangled representation of impulsive noise on steering gear
CN114023353A (zh) 基于聚类分析和相似度计算的变压器故障分类方法及系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Alzahra et al. Bird sounds classification by combining PNCC and robust Mel-log filter bank features
CN114898778A (zh) 基于注意力时频网络的语音情感识别方法及系统
Aibinu et al. Evaluating the effect of voice activity detection in isolated Yoruba word recognition system
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
Mankad et al. On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems
Bai et al. CIAIC-BAD system for DCASE2018 challenge task 3
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN115346514A (zh) 一种面向智能驾驶测评的音频预警智能识别方法
Akdeniz et al. Detecting audio copy-move forgery with an artificial neural network
Salim et al. Constant Q Cepstral Coefficients for Automatic Speaker Verification System for Dysarthria Patients
Xie et al. Image processing and classification procedure for the analysis of australian frog vocalisations
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
Seltzer et al. Automatic detection of corrupt spectrographic features for robust speech recognition
Gul et al. Single channel speech enhancement by colored spectrograms
Singh A text independent speaker identification system using ANN, RNN, and CNN classification technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant