CN112863494B - 基于半监督对抗变分自编码的语音情感识别方法及系统 - Google Patents

基于半监督对抗变分自编码的语音情感识别方法及系统 Download PDF

Info

Publication number
CN112863494B
CN112863494B CN202110070151.4A CN202110070151A CN112863494B CN 112863494 B CN112863494 B CN 112863494B CN 202110070151 A CN202110070151 A CN 202110070151A CN 112863494 B CN112863494 B CN 112863494B
Authority
CN
China
Prior art keywords
emotion
data
model
label
ssavae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110070151.4A
Other languages
English (en)
Other versions
CN112863494A (zh
Inventor
赵欢
肖宇锋
王松
高迎雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110070151.4A priority Critical patent/CN112863494B/zh
Publication of CN112863494A publication Critical patent/CN112863494A/zh
Application granted granted Critical
Publication of CN112863494B publication Critical patent/CN112863494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于半监督对抗变分自编码的语音情感识别方法及系统,该方法步骤包括:S1.构建生成式对抗网络,并结合半监督变分自编码模型以及生成式对抗网络构建语音情感识别模型,其中将输入数据中带情感标签数据与对应的情感标签作为输入,以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理,由生成式对抗网络学习输入数据在隐含层的特征概率分布,构建得到SSAVAE模型;S2.使用训练集对构建得到的SSAVAE模型进行训练;S3.输入待处理语音情感数据,将待处理语音情感数据输入至训练后的SSAVAE模型中,得到情感识别结果。本发明具有实现方法简单、识别精度高、泛化能力且抗数据扰动性能好等优点。

Description

基于半监督对抗变分自编码的语音情感识别方法及系统
技术领域
本发明涉及语音情感识别技术领域,尤其涉及一种基于半监督对抗变分自编码的语音情感识别方法及系统。
背景技术
语音情感识别旨在从语音信号中提取出与情感相关的特征,并识别当前说话人的情感状态,增强人机交互的自然度,它可以广泛应用于人机交互、语音客服、车载系统等不同场景。语音情感识别是属于模式识别的任务之一。利用不同的监督学习模型能够构建识别性能良好的语音情感识别系统,如:隐马尔可夫模型、高斯混合模型、支持向量机等,然而,上述模型均是浅层的模型结构,限制了模型学习语音信号中深层次的情感特征表达。
随着深度学习在语音识别、图像处理等领域的成功应用,越来越多的研究将深度学习应用于语音情感识别领域。与浅层学习模型相比,深度学习能学习语音数据中深层次的复杂数据表征,获取丰富的情感信息,改善模型识别性能,能够取得相比于传统机器学习更优的识别性能。但是将深度学习应用于语音情感识别中时,模型参数优化依赖于数据量,因而会存在性能需要严重依赖于带情感标签的数据集的问题。
为了缓解上述模型参数优化对数据量的依赖问题,有从业者提出使用半监督学习方法实现语音情感分类,利用少量标签数据和大量无标签数据进行模型训练,通过学习标签数据和无标签数据在特征空间的低维映射得到共同表征,但是该类方法仍然会存在以下问题:
(1)由于通常仅关注学习标签数据和无标签数据在特征空间的共同表征,而学习到的共同表征是输入数据在特征的低维映射,因而上述半监督学习方法泛化能力较弱,其性能极易受到输入数据扰动的影响。
(2)情感特征表征的质量将直接影响到模型的识别性能,上述使用半监督学习方法构建得到的模型不能充分表征情感特征,情感特征表征质量仍有待提高,影响语音情感识别的精度。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、识别精度高、泛化能力且抗数据扰动性能好的基于半监督对抗变分自编码的语音情感识别方法及系统。
为解决上述技术问题,本发明提出的技术方案为:
一种基于半监督对抗变分自编码的语音情感识别方法,步骤包括:
S1.SSAVAE(Semisupervised Adversarial Variational Autoencoder,半监督对抗变分自编码)模型构建:构建生成式对抗网络(Generative Adversarial Networks,GAN),并结合半监督变分自编码(Semisupervised Variational Autoencoder,SSVAE)模型以及所述生成式对抗网络构建语音情感识别模型,其中将输入数据中带情感标签数据与对应的情感标签作为输入,使得生成的隐含层特征符合情感标签的分布特性,以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将情感标签作为隐含变量,在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享,由所述生成式对抗网络学习输入数据在隐含层的特征概率分布,构建得到SSAVAE模型;
S2.模型训练:使用训练集对构建得到的所述SSAVAE模型进行训练,所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
S3.情感识别:输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至训练后的所述SSAVAE模型中,由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,基于所述特征概率分布得到情感识别结果。
进一步的,所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率,以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。
进一步的,构建所述SSAVAE模型时,使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y),其中,x为输入数据,y为情感标签,z为隐含特征空间向量,p(z)为隐含特征空间向量z的概率分布,qφ(z|x,y)为参数φ的概率函数;所述生成式对抗网络的目标函数表示为:
Figure BDA0002905509740000021
其中,σ(·)表示sigmoid函数。
进一步的,所述步骤S1中构建SSAVAE模型的步骤包括:
S1.1.对输入数据中带情感标签数据构建联合概率分布:
p(x,y)=∫pθ(x,y|z)p(z)dz
其中,θ为模型参数,pθ(x,y|z)表示在给定向量z和参数θ的情况下,生成输入数据x和对应情感标签y的条件概率分布;
S1.2.使用概率分布函数qφ(z|x,y)近似真实的后验分布概率,构建得到带情感标签数据的对数边缘似然概率模型为:
logpθ(x,y)≥∑z~q(z|x,y)logpθ(x,y|z)-DKL[qφ(z|x,y)||p(z)]=-L(x,y)
并最大化下界后转换得到:
Figure BDA0002905509740000031
S1.3.使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y),将步骤S1.2最大化下界后得到的带情感标签数据对数边缘似然概率模型转换为所述SSAVAE模型中针对带情感标签数据所需优化的目标函数,即为:
Figure BDA0002905509740000032
S1.4.利用重参数方法,将所述SSAVAE模型中针对带情感标签数据所需优化的目标函数最终转换为:
Figure BDA0002905509740000033
其中,L(x,y)表示在输入数据存在情感标签时的目标损失函数。
进一步的,构建所述SSAVAE模型时,对输入数据中无情感标签数据,使用所有可能的类别y的加权之和构建似然概率,权重值使用当前由带标签数据学习到的关于当前类别的条件概率
Figure BDA0002905509740000034
进行估计,并利用参数φ的概率函数qφ(z,y|x)近似真实后验概率,由概率分布qφ(y|x)作为语音情感分类器,对输入数据的情感状态进行判断,其中x为输入数据,y为情感标签,z为隐含特征空间向量。
进一步的,无情感标签数据的对数边缘似然概率模型具体为:
Figure BDA0002905509740000035
其中,H(qφ(y|x))表示输入数据x的标签条件概率分布熵。
进一步的,所述SSAVAE模型的联合目标函数为:
Figure BDA0002905509740000036
其中,x为输入数据,y为情感标签,pl为带情感标签数据的概率分布,pu为无情感标签数据的概率分布,L'(x,y)为带情感标签数据的对数边缘似然概率模型,U'(x)为无情感标签数据的对数边缘似然概率模型。
进一步的,所述SSAVAE模型中还包括附加损失项,以使得模型能学习到带情感标签数据中情感类别分布特性,最终得到的所述SSAVAE模型的联合目标函数为:
Figure BDA0002905509740000041
其中,J'为附加损失项,C为平衡控制因子,x为输入数据,y为情感标签,qφ(y|x)为参数φ的概率函数。
一种基于半监督对抗变分自编码的语音情感识别系统,包括:
SSAVAE模型构建模块,用于构建生成式对抗网络,并结合半监督变分自编码模型以及所述生成式对抗网络构建情感识别模型,其中将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将标签信息作为隐含变量,在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享,由所述生成式对抗网络学习输入数据在特征空间的概率分布,构建得到SSAVAE模型;
模型训练模块,用于使用训练集对构建得到的SSAVAE模型进行训练,所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
情感识别模块,用于输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至训练后的所述SSAVAE模型中,由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,基于所述特征概率分布得到情感识别结果。
一种基于半监督对抗变分自编码的语音情感识别系统,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,所述处理器用于执行所述计算机程序,以执行如上述方法。
与现有技术相比,本发明的优点在于:
1、本发明在半监督变分编码器模型的基础上,引入生成式对抗网络,构建形成基于半监督对抗变分自编码的语音情感识别模型SSAVAE,通过该模型SSAVAE学习带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,对于带情感标签数据,将数据与标签作为输入,从而使得生成的隐含层特征也符合情感标签的分布特性,对于无标签数据则被视为数据属性缺失问题,将标签信息视为潜在变量值,两种数据通过共享特征空间分布特性来共享情感信息,能够解决传统直接使用半监督方法会存在标签数据依赖和泛化性能的问题。
2、本发明通过结合半监督变分编码模型以及生成式对抗网络构建形成SSAVAE模型,利用生成式对抗网络GAN学习输入数据在隐含层的特征概率分布,能够改善传统情感识别模型中学习隐含层特征分布的能力,减少模型对特征表的限制,提高特征表征质量,从而结合生成式对抗网络GAN和变分自编码的优势,能够学习到输入数据在特征空间中准确的概率分布特性,提高对复杂分布的表征能力,构建得到性能良好的语音情感识别模型,有效提高语音情感识别的精度以及泛化能力。
附图说明
图1是本实施例基于半监督对抗变分自编码的语音情感识别方法的实现流程示意图。
图2是本实施例中采用的半监督变分自编码模型的原理示意图。
图3是本实施例中基于半监督对抗变分自编码构建SSAVAE模型的原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于半监督对抗变分自编码的语音情感识别方法的步骤包括:
S1.SSAVAE模型构建:构建生成式对抗网络GAN并结合半监督变分自编码模型SSVAE以及生成式对抗网络构建语音情感识别模型,其中将输入数据中带情感标签数据与对应的情感标签作为输入,使得生成的隐含层特征符合情感标签的分布特性,以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将情感标签作为隐含变量,在特征空间中将带情感标签数据的类别信息与无情感标签数据共享,由生成式对抗网络学习输入数据在隐含层的特征概率分布,构建得到SSAVAE模型;
S2.模型训练:使用训练集对构建得到的SSAVAE模型进行训练,训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
S3.情感识别:输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至训练后的SSAVAE模型中,由SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,基于特征概率分布得到情感识别结果。
本实施例在半监督变分编码器模型的基础上,引入生成式对抗网络,构建形成基于半监督对抗变分自编码的语音情感识别模型SSAVAE,通过该模型SSAVAE学习带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,根据有无带情感标签信息分为两种情况:对于带情感标签数据,将数据与标签作为输入,使得生成的隐含层特征也符合情感标签的分布特性;对于无标签数据则被视为数据属性缺失问题,将标签信息视为潜在变量值,输入数据由数据与潜在类别值生成,而对于数据的分布概率是关于类别的期望,上述两种数据通过共享特征空间分布特性来共享情感信息,能够解决传统直接使用半监督方法会存在标签数据依赖和泛化性能的问题。
本实施例基于SSAVAE模型,利用生成式对抗网络GAN学习输入数据在隐含层的特征概率分布,能够改善传统情感识别模型中学习隐含层特征分布的能力,减少模型对特征表的限制,提高特征表征质量,从而结合生成式对抗网络GAN和变分自编码的优势,使得能够学习到输入数据在特征空间中准确的概率分布特性,充分表征情感特征,构建得到性能良好的语音情感识别模型。
假设给定N个带情感标签样本数据集{(x1,y1),(x2,y2),…,(xN,yN)}和M个无标签样本集{xN+1,xN+2,…,xN+M},其中y∈{1,2,…,K},K表示情感类别总数,如图2所示,本实施例基于半监督变分编码器SSVAE学习数据集的概率分布,包括带情感标签数据的概率分布pl(x,y)、不带情感标签数据的概率分布pu(x)以及类别的条件概率分布pθ(y|x),其中θ为模型参数,假定数据在隐含特征空间向量z的概率分布p(z)保持一致。
本实施例考虑两种不同情况下的概率分布函数:一种是带情感标签数据;一种是无情感标签数据,无情感标签数据可以看成存在标签信息属性值的情况。如图2所示,本实施例基于半监督变分编码模型SSVAE中,输入数据是由类别标签向量y和隐含随机向量z通过生成网络生成而成;对于无标签数据,本实施例使用对所有可能的类别y的加权之和生成似然概率,权重值使用当前由标签数据学习到的关于当前类别的条件概率
Figure BDA0002905509740000061
进行估计。由于真实后验概率pθ(z,y|x)无法计算,为了解决该解剖,本实施例利用已知参数的概率函数qφ(z,y|x)来近似真实后验概率,其中φ表示该概率函数的参数。假设隐含随机向量z和标签y满足相互独立分布的原则,则有qφ(z,y|x)=qφ(z|x)qφ(y|x),其中概率qφ(y|x)可以作为语音情感分类器,以用于对输入数据的情感状态进行判断。
本实施例基于半监督变分编码器SSVAE构建联合目标函数的具体步骤为:
对于第一种情况,即输入数据存在对应的情感标签信息。在该情况下,使用SSVAE模型学习在给定参数θ情况下,输入数据x和其对应情感标签y的联合概率分布。带情感标签的联合概率分布具体表示为:
p(x,y)=∫pθ(x,y|z)p(z)dz (1)
其中,pθ(x,y|z)表示在给定随机向量z和参数θ的情况下,生成输入数据x和其对应情感标签y的条件概率分布。
由于pθ(x,y|z)的真实后验分布概率pθ(z|y,x)无法计算得到,导致pθ(x,y)也难以计算。本实施例引入已知参数φ的概率分布函数qφ(z|x,y)来近似真实的后验分布概率,以解决上述真实后验分布概率pθ(z|y,x)无法计算、以及pθ(x,y)难以计算的问题,得到带标签输入数据的对数边缘似然概率为:
logpθ(x,y)≥∑z~q(z|x,y)logpθ(x,y|z)-DKL[qφ(z|x,y)||p(z)]=-L(x,y) (2)
获得大量的语音情感数据存在很大的难度,大部分语音情感数据实际是无情感标签数据。本实施例针对第二种情况,即输入数据不存在对应的情感标签信息,该无标签数据被视为标签属性缺失,即其对应的情感标签被视为隐含变量,该类数据无标签数据由隐含向量z和其对应的情感类别变量y生成,其对数边缘似然概率可以表示为:
Figure BDA0002905509740000071
其中,H(qφ(y|x))表示给定数据x的标签条件概率分布熵,qφ(y|x)可以用于情感分类。
步骤S2中进行训练过程中,训练数据集是由部分带标签和大量不带标签的数据组成。则构建SSAVAE的联合目标函数表示为:
Figure BDA0002905509740000072
其中用于执行情感分类的分布pθ(y|x)由分布qφ(y|x)近似得到,其参数以公式(4)为优化目标函数进行优化更新。但是从公式(4)可知,情感标签预测分布qφ(y|x)仅与无标签数据有关,而理想情况下应该也服从带标签数据的概率分布特性。为了解决这个问题,在公式(4)中增加一个附加损失项,使得模型能学习到带情感标签数据中情感类别分布特性,则联合目标函数可以改写为:
Figure BDA0002905509740000073
其中,C为平衡控制因子。在训练阶段,模型中参数根据上式进行优化,最终得到最优的模型。
由于上述SSVAE模型缺少学习输入数据隐含层特征分布的能力,不能准确表征情感特征,本实施例基于上述SSVAE模型,进一步利用对抗学习方法来提高模型的情感特征表征质量,结合生成式对抗网络GAN来构建形成SSAVAE模型,如图3所示。本实施例首先将语音情感数据分为带标签与无标签两种情感,其中无标签的数据被当一种属性缺失问题来进行处理,从而通过语音情感识别算法从带标签和不带标签数据中获取数据的内在表征,由于表征数据的学习受限于情感类别标签,可以将标签信息注入到模型中,从而可以用于语音情感分类。由SSAVAE模型直接利用于生成式对抗网络GAN机制学习输入在隐含特征空间的真实分布,从而减少了参数限制,提高对复杂分布的表征能力,进一步提高模型性能。
本实施例步骤S1中构建SSAVAE模型的详细步骤包括:
S1.1.对输入数据中带情感标签数据构建联合概率分布:
p(x,y)=∫pθ(x,y|z)p(z)dz (1)
其中,θ为模型参数,pθ(x,y|z)表示在给定向量z和参数θ的情况下,生成输入数据x和对应情感标签y的条件概率分布;
S1.2.使用概率分布函数qφ(z|x,y)近似真实的后验分布概率,构建得到带情感标签数据的对数边缘似然概率模型为:
logpθ(x,y)≥∑z~q(z|x,y)logpθ(x,y|z)-DKL[qφ(z|x,y)||p(z)]=-L(x,y) (2)
上述公式(2)的右边为带标签数据的ELBO,因此需要最大化下界,同时标签y和隐向量z相互独立,则将上式(2)最大化下界后转换得到:
Figure BDA0002905509740000081
S1.3.使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y),该对抗判别网络的目标函数可以表示为:
Figure BDA0002905509740000082
其中,σ(·)表示sigmoid函数。从上式可知,T(x,y,z)主要是判别(x,y,z)是来源于先验概率p(z)还是来源于推断网络qφ(z|x,y),该式可以用任何函数形式来表示变量x,y,z。T(x,y,z)的最优值为:
T*(x,y,z)=logqφ(z|x,y)-logp(z) (8)
将步骤S1.2最大化下界后得到的带情感标签数据对数边缘似然概率模型转换为SSAVAE模型中针对带情感标签数据所需优化的目标函数,即将公式(8)代入公式(6),得到SSAVAE要优化的目标函数为:
Figure BDA0002905509740000083
S1.4.利用重参数方法,将SSAVAE模型中针对带情感标签数据所需优化的目标函数最终转换为:
Figure BDA0002905509740000091
其中,L(x,y)表示在输入数据存在情感标签时的目标损失函数,ε表示扰动变量。
如上述公式(2)通过优化ELBO来得到真实的最大似然概率,然而它需要依赖于推断网络qφ(z|x,y)对输入数据的表征能力。qφ(z|x,y)具体为基于对角协方差矩阵的高斯分布,其均值与方差向量通过神经网络编码学习得到,该网络以输入x和标签y作为输入。传统SSVAE模型自由依赖于输入x和标签y,但是对隐向量z的依赖受到参数模型的限制,极大的限制了模型对数据的学习能力。为了减少参数对模型表征能力的限制,让模型准确学习到后验概率,本实施例通过构建SSAVAE模型,利用生成式对抗网络GAN直接从数据输入中学习后验分布概率,以使得SSAVAE模型能够直接学习到输入数据的后验分布概率,有效减少参数限制,提高对复杂分布的表征能力。
当qφ(z|x,y)存在明确的概率分布表示时,利用重参数化来对模型进行优化,但是其后验概率会受到概率参数的限制,本实施例通过定义一个对抗判别网络T(x,y,z)来表示公式(6)中logp(z)-logqφ(z|x,y),该对抗判别网络的目标函数表示如上式(7)所示,将公式(8)代入公式(6),即可得到如(9)所示的SSAVAE要优化的目标函数,经过利用重参数技术进一步即可得到如(10)所示的目标函数L'(x,y)。
由于获得大量的语音情感数据存在很大的难度,大部分语音情感数据是无情感标签数据。本实施例构建SSAVAE模型时,将无标签数据被视为标签属性缺失,即其对应的情感标签被视为隐含变量,对输入数据中该类无情感标签数据,使用所有可能的类别y的加权之和构建似然概率,权重值使用当前由带标签数据学习到的关于当前类别的条件概率
Figure BDA0002905509740000092
进行估计,并利用参数φ的概率函数qφ(z,y|x)近似真实后验概率,由概率分布qφ(y|x)作为语音情感分类器,对输入数据的情感状态进行判断。
本实施例中构建模型SSAVAE时,对于无标签数据,由隐含向量z和其对应的情感类别变量y生成,再将公式(6)代入公式(3)后,即可得到无情感标签数据的对数边缘似然概率模型,即为:
Figure BDA0002905509740000093
其中,H(qφ(y|x))表示输入数据x的标签条件概率分布熵,qφ(y|x)可以用于情感分类。
训练数据集由部分带标签和大量不带标签的数据组成,本实施例中构建得到的SSAVAE模型的联合目标函数具体为:
Figure BDA0002905509740000101
其中,x为输入数据,y为情感标签,pl为带情感标签数据的概率分布,pu为无情感标签数据的概率分布,L'(x,y)为带情感标签数据的对数边缘似然概率模型,U'(x)为无情感标签数据的对数边缘似然概率模型。
由于用于执行情感分类的分布pθ(y|x)由分布qφ(y|x)近似得到,模型的参数需要以公上式(4)为优化目标函数进行优化更新。但是从公式(4)可知,情感标签预测分布qφ(y|x)仅与无标签数据有关,而理想情况下应该也服从带标签数据的概率分布特性。为了解决上述问题,本实施例SSAVAE模型中还包括附加损失项,以使得模型能学习到带情感标签数据中情感类别分布特性,即在上述在公式(4)中增加一个附加损失项,最终得到的SSAVAE模型的联合目标函数为:
Figure BDA0002905509740000102
其中,J'为附加损失项,C为平衡控制因子,x为输入数据,y为情感标签,qφ(y|x)为参数φ的概率函数。
本实施例通过上述方法构建语音情感识别模型,能缓解对情感标签信息的依赖,有效减少参数限制,提高对复杂分布的表征能力,构建得到识别性能良好的语音情感识别模型,利用该语音情感识别模型,能够有效提高语音情感识别的精度,以及提高抗数据扰动性能、泛化能力。
本实施例基于半监督对抗变分自编码的语音情感识别系统,包括:
SSAVAE模型构建模块,用于构建生成式对抗网络,并结合半监督变分自编码模型以及生成式对抗网络构建情感识别模型,其中将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将标签信息作为隐含变量,在特征空间中将带情感标签数据的类别信息与无情感标签数据共享,由生成式对抗网络学习输入数据在特征空间的概率分布,构建得到SSAVAE模型;
模型训练模块,用于使用训练集对构建得到的SSAVAE模型进行训练,所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
情感识别模块,用于输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至所述训练后的SSAVAE模型中,得到情感识别结果输出。
本实施例中,所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率,以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。
上述SSAVAE模型具体如图3所示,其中构建SSAVAE模型时,具体使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y)。构建SSAVAE模型时,对输入数据中无情感标签数据,使用所有可能的类别y的加权之和构建似然概率,权重值使用当前由带标签数据学习到的关于当前类别的条件概率
Figure BDA0002905509740000111
进行估计,并利用参数φ的概率函数qφ(z,y|x)近似真实后验概率,由概率分布qφ(y|x)作为语音情感分类器,对输入数据的情感状态进行判断,其中x为输入数据,y为情感标签,z为隐含特征空间向量。
本实施例基于半监督对抗变分自编码的语音情感识别系统与上述基于半监督对抗变分自编码的语音情感识别一一对应,两者具有相同的实现原理以及效果,在此不再一一赘述。
在另一实施例中,本发明基于半监督对抗变分自编码的语音情感识别系统还可以为:包括处理器以及存储器,存储器用于存储计算机程序,处理器用于执行所述计算机程序,其特征在于,处理器用于执行计算机程序,以执行如上述基于半监督对抗变分自编码的语音情感识别方法。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种基于半监督对抗变分自编码的语音情感识别方法,其特征在于,步骤包括:
S1.SSAVAE模型构建:构建生成式对抗网络,并结合半监督变分自编码模型以及所述生成式对抗网络构建语音情感识别模型,其中将输入数据中带情感标签数据与对应的情感标签作为输入,使得生成的隐含层特征符合情感标签的分布特性,以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将情感标签作为隐含变量,在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享,由所述生成式对抗网络学习输入数据在隐含层的特征概率分布,构建得到SSAVAE模型;
S2.模型训练:使用训练集对构建得到的所述SSAVAE模型进行训练,所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
S3.情感识别:输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至训练后的所述SSAVAE模型中,由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,基于所述特征概率分布得到情感识别结果。
2.根据权利要求1所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于:所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率,以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。
3.根据权利要求2所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,构建所述SSAVAE模型时,使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y),其中,x为输入数据,y为情感标签,z为隐含特征空间向量,p(z)为隐含特征空间向量z的概率分布,qφ(z|x,y)为参数φ的概率函数;所述生成式对抗网络的目标函数表示为:
Figure FDA0003892656080000011
其中,σ(·)表示sigmoid函数。
4.根据权利要求3所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,所述步骤S1中构建SSAVAE模型的步骤包括:
S1.1.对输入数据中带情感标签数据构建联合概率分布:
p(x,y)=∫pθ(x,y|z)p(z)dz
其中,θ为模型参数,pθ(x,y|z)表示在给定向量z和参数θ的情况下,生成输入数据x和对应情感标签y的条件概率分布;
S1.2.使用概率分布函数qφ(z|x,y)近似真实的后验分布概率,构建得到带情感标签数据的对数边缘似然概率模型为:
logpθ(x,y)≥∑z~q(z|x,y)logpθ(x,y|z)-DKL[qφ(z|x,y)||p(z)]=-L(x,y)
并最大化下界后转换得到:
Figure FDA0003892656080000021
S1.3.使用生成式对抗网络T(x,y,z)表示logp(z)-logqφ(z|x,y),将步骤S1.2最大化下界后得到的带情感标签数据对数边缘似然概率模型转换为所述SSAVAE模型中针对带情感标签数据所需优化的目标函数,即为:
Figure FDA0003892656080000022
S1.4.利用重参数方法,将所述SSAVAE模型中针对带情感标签数据所需优化的目标函数最终转换为:
Figure FDA0003892656080000023
其中,L(x,y)表示在输入数据存在情感标签时的目标损失函数,ε表示扰动变量。
5.根据权利要求1~4中任意一项所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,构建所述SSAVAE模型时,对输入数据中无情感标签数据,使用所有可能的类别y的加权之和构建似然概率,权重值使用当前由带标签数据学习到的关于当前类别的条件概率
Figure FDA0003892656080000024
进行估计,θ为pθ(x,y|z)模型的参数,pθ(x,y|z)表示在给定向量z和参数θ的情况下,生成输入数据x和对应情感标签y的条件概率分布,并利用参数φ的概率函数qφ(z,y|x)近似真实后验概率,由概率分布qφ(y|x)作为语音情感分类器,对输入数据的情感状态进行判断,其中x为输入数据,y为情感标签,z为隐含特征空间向量。
6.根据权利要求5所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,无情感标签数据的对数边缘似然概率模型具体为:
Figure FDA0003892656080000025
其中,H(qφ(y|x))表示输入数据x的标签条件概率分布熵,L(x,y)表示在输入数据存在情感标签时的目标损失函数。
7.根据权利要求1~4中任意一项所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,所述SSAVAE模型的联合目标函数为:
Figure FDA0003892656080000031
其中,x为输入数据,y为情感标签,pl为带情感标签数据的概率分布,pu为无情感标签数据的概率分布,L'(x,y)为带情感标签数据的对数边缘似然概率模型,U'(x)为无情感标签数据的对数边缘似然概率模型。
8.根据权利要求7所述的基于半监督对抗变分自编码的语音情感识别方法,其特征在于,所述SSAVAE模型中还包括附加损失项,以使得模型能学习到带情感标签数据中情感类别分布特性,最终得到的所述SSAVAE模型的联合目标函数为:
Figure FDA0003892656080000032
其中,J'为附加损失项,C为平衡控制因子,x为输入数据,y为情感标签,qφ(y|x)为参数φ的概率函数。
9.一种基于半监督对抗变分自编码的语音情感识别系统,其特征在于,包括:
SSAVAE模型构建模块,用于构建生成式对抗网络,并结合半监督变分自编码模型以及所述生成式对抗网络构建情感识别模型,其中将输入数据中无情感标签数据作为情感标签属性缺失类型处理,即将标签信息作为隐含变量,在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享,由所述生成式对抗网络学习输入数据在特征空间的概率分布,构建得到SSAVAE模型;
模型训练模块,用于使用训练集对构建得到的SSAVAE模型进行训练,所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集,得到训练后的SSAVAE模型;
情感识别模块,用于输入待处理语音情感数据,其中包括带情感标签数据以及无情感标签数据,将待处理语音情感数据输入至训练后的所述SSAVAE模型中,由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布,基于所述特征概率分布得到情感识别结果。
10.一种基于半监督对抗变分自编码的语音情感识别系统,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,其特征在于,所述处理器用于执行所述计算机程序,以执行如权利要求1~8中任意一项所述方法。
CN202110070151.4A 2021-01-19 2021-01-19 基于半监督对抗变分自编码的语音情感识别方法及系统 Active CN112863494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110070151.4A CN112863494B (zh) 2021-01-19 2021-01-19 基于半监督对抗变分自编码的语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110070151.4A CN112863494B (zh) 2021-01-19 2021-01-19 基于半监督对抗变分自编码的语音情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN112863494A CN112863494A (zh) 2021-05-28
CN112863494B true CN112863494B (zh) 2023-01-06

Family

ID=76007397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110070151.4A Active CN112863494B (zh) 2021-01-19 2021-01-19 基于半监督对抗变分自编码的语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN112863494B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421545B (zh) * 2021-06-30 2023-09-29 平安科技(深圳)有限公司 多模态的语音合成方法、装置、设备及存储介质
CN115240649B (zh) * 2022-07-19 2023-04-18 于振华 一种基于深度学习的语音识别方法和系统
CN116089894B (zh) * 2023-03-02 2023-07-21 苏州黑盾环境股份有限公司 基于半监督对抗变分自动编码的冷水机组未知故障诊断方法
CN116543603B (zh) * 2023-07-07 2023-09-29 四川大学 一种考虑空域态势和局部优化的航迹补全预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
KR102174189B1 (ko) * 2018-08-10 2020-11-04 서울대학교산학협력단 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
CN110286749B (zh) * 2019-05-27 2022-11-15 华中师范大学 基于深度数据的手部姿势估计和追踪方法
CN111428853B (zh) * 2020-01-16 2023-07-11 东华大学 一种带噪声学习的负样本对抗生成方法

Also Published As

Publication number Publication date
CN112863494A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112863494B (zh) 基于半监督对抗变分自编码的语音情感识别方法及系统
Ji et al. Improved prototypical networks for few-shot learning
Rahman et al. A unified approach for conventional zero-shot, generalized zero-shot, and few-shot learning
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
Gao et al. Deep label distribution learning with label ambiguity
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
Parvin et al. MKNN: Modified k-nearest neighbor
Lu et al. Dense and sparse reconstruction error based saliency descriptor
Hara et al. Attentional network for visual object detection
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN111666406A (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Liu et al. Relation-based discriminative cooperation network for zero-shot classification
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
Coviello et al. The variational hierarchical EM algorithm for clustering hidden Markov models
Yu et al. A multilayer pyramid network based on learning for vehicle logo recognition
CN110147798B (zh) 一种可用于网络信息检测的语义相似度学习方法
Yan et al. Fine-grained image analysis via progressive feature learning
CN114972904A (zh) 一种基于对抗三元组损失的零样本知识蒸馏方法及系统
CN113222002A (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN116681921A (zh) 一种基于多特征损失函数融合的目标标注方法及系统
Zhou et al. Implicit counterfactual data augmentation for deep neural networks
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN111581467B (zh) 基于子空间表示和全局消歧方法的偏标记学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant