CN112863494B

CN112863494B - 基于半监督对抗变分自编码的语音情感识别方法及系统

Info

Publication number: CN112863494B
Application number: CN202110070151.4A
Authority: CN
Inventors: 赵欢; 肖宇锋; 王松; 高迎雪
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-01-06
Anticipated expiration: 2041-01-19
Also published as: CN112863494A

Abstract

本发明公开一种基于半监督对抗变分自编码的语音情感识别方法及系统，该方法步骤包括：S1.构建生成式对抗网络，并结合半监督变分自编码模型以及生成式对抗网络构建语音情感识别模型，其中将输入数据中带情感标签数据与对应的情感标签作为输入，以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理，由生成式对抗网络学习输入数据在隐含层的特征概率分布，构建得到SSAVAE模型；S2.使用训练集对构建得到的SSAVAE模型进行训练；S3.输入待处理语音情感数据，将待处理语音情感数据输入至训练后的SSAVAE模型中，得到情感识别结果。本发明具有实现方法简单、识别精度高、泛化能力且抗数据扰动性能好等优点。

Description

基于半监督对抗变分自编码的语音情感识别方法及系统

技术领域

本发明涉及语音情感识别技术领域，尤其涉及一种基于半监督对抗变分自编码的语音情感识别方法及系统。

背景技术

语音情感识别旨在从语音信号中提取出与情感相关的特征，并识别当前说话人的情感状态，增强人机交互的自然度，它可以广泛应用于人机交互、语音客服、车载系统等不同场景。语音情感识别是属于模式识别的任务之一。利用不同的监督学习模型能够构建识别性能良好的语音情感识别系统，如：隐马尔可夫模型、高斯混合模型、支持向量机等，然而，上述模型均是浅层的模型结构，限制了模型学习语音信号中深层次的情感特征表达。

随着深度学习在语音识别、图像处理等领域的成功应用，越来越多的研究将深度学习应用于语音情感识别领域。与浅层学习模型相比，深度学习能学习语音数据中深层次的复杂数据表征，获取丰富的情感信息，改善模型识别性能，能够取得相比于传统机器学习更优的识别性能。但是将深度学习应用于语音情感识别中时，模型参数优化依赖于数据量，因而会存在性能需要严重依赖于带情感标签的数据集的问题。

为了缓解上述模型参数优化对数据量的依赖问题，有从业者提出使用半监督学习方法实现语音情感分类，利用少量标签数据和大量无标签数据进行模型训练，通过学习标签数据和无标签数据在特征空间的低维映射得到共同表征，但是该类方法仍然会存在以下问题：

(1)由于通常仅关注学习标签数据和无标签数据在特征空间的共同表征，而学习到的共同表征是输入数据在特征的低维映射，因而上述半监督学习方法泛化能力较弱，其性能极易受到输入数据扰动的影响。

(2)情感特征表征的质量将直接影响到模型的识别性能，上述使用半监督学习方法构建得到的模型不能充分表征情感特征，情感特征表征质量仍有待提高，影响语音情感识别的精度。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、识别精度高、泛化能力且抗数据扰动性能好的基于半监督对抗变分自编码的语音情感识别方法及系统。

为解决上述技术问题，本发明提出的技术方案为：

一种基于半监督对抗变分自编码的语音情感识别方法，步骤包括：

S1.SSAVAE(Semisupervised Adversarial Variational Autoencoder,半监督对抗变分自编码)模型构建：构建生成式对抗网络(Generative Adversarial Networks,GAN)，并结合半监督变分自编码(Semisupervised Variational Autoencoder,SSVAE)模型以及所述生成式对抗网络构建语音情感识别模型，其中将输入数据中带情感标签数据与对应的情感标签作为输入，使得生成的隐含层特征符合情感标签的分布特性，以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理，即将情感标签作为隐含变量，在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享，由所述生成式对抗网络学习输入数据在隐含层的特征概率分布，构建得到SSAVAE模型；

S2.模型训练：使用训练集对构建得到的所述SSAVAE模型进行训练，所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集，得到训练后的SSAVAE模型；

S3.情感识别：输入待处理语音情感数据，其中包括带情感标签数据以及无情感标签数据，将待处理语音情感数据输入至训练后的所述SSAVAE模型中，由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布，基于所述特征概率分布得到情感识别结果。

进一步的，所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率，以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。

进一步的，构建所述SSAVAE模型时，使用生成式对抗网络T(x,y,z)表示logp(z)-logq_φ(z|x,y)，其中，x为输入数据，y为情感标签，z为隐含特征空间向量，p(z)为隐含特征空间向量z的概率分布，q_φ(z|x,y)为参数φ的概率函数；所述生成式对抗网络的目标函数表示为：

其中，σ(·)表示sigmoid函数。

进一步的，所述步骤S1中构建SSAVAE模型的步骤包括：

S1.1.对输入数据中带情感标签数据构建联合概率分布：

p(x,y)＝∫p_θ(x,y|z)p(z)dz

其中，θ为模型参数，p_θ(x,y|z)表示在给定向量z和参数θ的情况下，生成输入数据x和对应情感标签y的条件概率分布；

S1.2.使用概率分布函数q_φ(z|x,y)近似真实的后验分布概率，构建得到带情感标签数据的对数边缘似然概率模型为：

logp_θ(x,y)≥∑_z～q(z|x,y)logp_θ(x,y|z)-D_KL[q_φ(z|x,y)||p(z)]＝-L(x,y)

并最大化下界后转换得到：

S1.3.使用生成式对抗网络T(x,y,z)表示logp(z)-logq_φ(z|x,y)，将步骤S1.2最大化下界后得到的带情感标签数据对数边缘似然概率模型转换为所述SSAVAE模型中针对带情感标签数据所需优化的目标函数，即为：

S1.4.利用重参数方法，将所述SSAVAE模型中针对带情感标签数据所需优化的目标函数最终转换为：

其中，L(x,y)表示在输入数据存在情感标签时的目标损失函数。

进一步的，构建所述SSAVAE模型时，对输入数据中无情感标签数据，使用所有可能的类别y的加权之和构建似然概率，权重值使用当前由带标签数据学习到的关于当前类别的条件概率

进行估计，并利用参数φ的概率函数q_φ(z,y|x)近似真实后验概率，由概率分布q_φ(y|x)作为语音情感分类器，对输入数据的情感状态进行判断，其中x为输入数据，y为情感标签，z为隐含特征空间向量。

进一步的，无情感标签数据的对数边缘似然概率模型具体为：

其中，H(q_φ(y|x))表示输入数据x的标签条件概率分布熵。

进一步的，所述SSAVAE模型的联合目标函数为：

其中，x为输入数据，y为情感标签，p_l为带情感标签数据的概率分布，p_u为无情感标签数据的概率分布，L'(x,y)为带情感标签数据的对数边缘似然概率模型，U'(x)为无情感标签数据的对数边缘似然概率模型。

进一步的，所述SSAVAE模型中还包括附加损失项，以使得模型能学习到带情感标签数据中情感类别分布特性，最终得到的所述SSAVAE模型的联合目标函数为：

其中，J'为附加损失项，C为平衡控制因子，x为输入数据，y为情感标签，q_φ(y|x)为参数φ的概率函数。

一种基于半监督对抗变分自编码的语音情感识别系统，包括：

SSAVAE模型构建模块，用于构建生成式对抗网络，并结合半监督变分自编码模型以及所述生成式对抗网络构建情感识别模型，其中将输入数据中无情感标签数据作为情感标签属性缺失类型处理，即将标签信息作为隐含变量，在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享，由所述生成式对抗网络学习输入数据在特征空间的概率分布，构建得到SSAVAE模型；

模型训练模块，用于使用训练集对构建得到的SSAVAE模型进行训练，所述训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集，得到训练后的SSAVAE模型；

情感识别模块，用于输入待处理语音情感数据，其中包括带情感标签数据以及无情感标签数据，将待处理语音情感数据输入至训练后的所述SSAVAE模型中，由所述SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布，基于所述特征概率分布得到情感识别结果。

一种基于半监督对抗变分自编码的语音情感识别系统，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序，以执行如上述方法。

与现有技术相比，本发明的优点在于：

1、本发明在半监督变分编码器模型的基础上，引入生成式对抗网络，构建形成基于半监督对抗变分自编码的语音情感识别模型SSAVAE，通过该模型SSAVAE学习带情感标签数据和无情感标签数据共有的隐含层的特征概率分布，对于带情感标签数据，将数据与标签作为输入，从而使得生成的隐含层特征也符合情感标签的分布特性，对于无标签数据则被视为数据属性缺失问题，将标签信息视为潜在变量值，两种数据通过共享特征空间分布特性来共享情感信息，能够解决传统直接使用半监督方法会存在标签数据依赖和泛化性能的问题。

2、本发明通过结合半监督变分编码模型以及生成式对抗网络构建形成SSAVAE模型，利用生成式对抗网络GAN学习输入数据在隐含层的特征概率分布，能够改善传统情感识别模型中学习隐含层特征分布的能力，减少模型对特征表的限制，提高特征表征质量，从而结合生成式对抗网络GAN和变分自编码的优势，能够学习到输入数据在特征空间中准确的概率分布特性，提高对复杂分布的表征能力，构建得到性能良好的语音情感识别模型，有效提高语音情感识别的精度以及泛化能力。

附图说明

图1是本实施例基于半监督对抗变分自编码的语音情感识别方法的实现流程示意图。

图2是本实施例中采用的半监督变分自编码模型的原理示意图。

图3是本实施例中基于半监督对抗变分自编码构建SSAVAE模型的原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于半监督对抗变分自编码的语音情感识别方法的步骤包括：

S1.SSAVAE模型构建：构建生成式对抗网络GAN并结合半监督变分自编码模型SSVAE以及生成式对抗网络构建语音情感识别模型，其中将输入数据中带情感标签数据与对应的情感标签作为输入，使得生成的隐含层特征符合情感标签的分布特性，以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理，即将情感标签作为隐含变量，在特征空间中将带情感标签数据的类别信息与无情感标签数据共享，由生成式对抗网络学习输入数据在隐含层的特征概率分布，构建得到SSAVAE模型；

S2.模型训练：使用训练集对构建得到的SSAVAE模型进行训练，训练集中包括带情感标签信息的标签数据集及无情感标签信息的无标签数据集，得到训练后的SSAVAE模型；

S3.情感识别：输入待处理语音情感数据，其中包括带情感标签数据以及无情感标签数据，将待处理语音情感数据输入至训练后的SSAVAE模型中，由SSAVAE模型学习待处理语音情感数据中带情感标签数据和无情感标签数据共有的隐含层的特征概率分布，基于特征概率分布得到情感识别结果。

本实施例在半监督变分编码器模型的基础上，引入生成式对抗网络，构建形成基于半监督对抗变分自编码的语音情感识别模型SSAVAE，通过该模型SSAVAE学习带情感标签数据和无情感标签数据共有的隐含层的特征概率分布，根据有无带情感标签信息分为两种情况：对于带情感标签数据，将数据与标签作为输入，使得生成的隐含层特征也符合情感标签的分布特性；对于无标签数据则被视为数据属性缺失问题，将标签信息视为潜在变量值，输入数据由数据与潜在类别值生成，而对于数据的分布概率是关于类别的期望，上述两种数据通过共享特征空间分布特性来共享情感信息，能够解决传统直接使用半监督方法会存在标签数据依赖和泛化性能的问题。

本实施例基于SSAVAE模型，利用生成式对抗网络GAN学习输入数据在隐含层的特征概率分布，能够改善传统情感识别模型中学习隐含层特征分布的能力，减少模型对特征表的限制，提高特征表征质量，从而结合生成式对抗网络GAN和变分自编码的优势，使得能够学习到输入数据在特征空间中准确的概率分布特性，充分表征情感特征，构建得到性能良好的语音情感识别模型。

假设给定N个带情感标签样本数据集{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}和M个无标签样本集{x_N+1,x_N+2,…,x_N+M}，其中y∈{1,2,…,K}，K表示情感类别总数，如图2所示，本实施例基于半监督变分编码器SSVAE学习数据集的概率分布，包括带情感标签数据的概率分布p_l(x,y)、不带情感标签数据的概率分布p_u(x)以及类别的条件概率分布p_θ(y|x)，其中θ为模型参数，假定数据在隐含特征空间向量z的概率分布p(z)保持一致。

本实施例考虑两种不同情况下的概率分布函数：一种是带情感标签数据；一种是无情感标签数据，无情感标签数据可以看成存在标签信息属性值的情况。如图2所示，本实施例基于半监督变分编码模型SSVAE中，输入数据是由类别标签向量y和隐含随机向量z通过生成网络生成而成；对于无标签数据，本实施例使用对所有可能的类别y的加权之和生成似然概率，权重值使用当前由标签数据学习到的关于当前类别的条件概率

本实施例基于半监督变分编码器SSVAE构建联合目标函数的具体步骤为：

对于第一种情况，即输入数据存在对应的情感标签信息。在该情况下，使用SSVAE模型学习在给定参数θ情况下，输入数据x和其对应情感标签y的联合概率分布。带情感标签的联合概率分布具体表示为：

p(x,y)＝∫p_θ(x,y|z)p(z)dz (1)

其中，p_θ(x,y|z)表示在给定随机向量z和参数θ的情况下，生成输入数据x和其对应情感标签y的条件概率分布。

由于p_θ(x,y|z)的真实后验分布概率p_θ(z|y,x)无法计算得到，导致p_θ(x,y)也难以计算。本实施例引入已知参数φ的概率分布函数q_φ(z|x,y)来近似真实的后验分布概率，以解决上述真实后验分布概率p_θ(z|y,x)无法计算、以及p_θ(x,y)难以计算的问题，得到带标签输入数据的对数边缘似然概率为：

logp_θ(x,y)≥∑_z～q(z|x,y)logp_θ(x,y|z)-D_KL[q_φ(z|x,y)||p(z)]＝-L(x,y) (2)

获得大量的语音情感数据存在很大的难度，大部分语音情感数据实际是无情感标签数据。本实施例针对第二种情况，即输入数据不存在对应的情感标签信息，该无标签数据被视为标签属性缺失，即其对应的情感标签被视为隐含变量，该类数据无标签数据由隐含向量z和其对应的情感类别变量y生成，其对数边缘似然概率可以表示为：

其中，H(q_φ(y|x))表示给定数据x的标签条件概率分布熵，q_φ(y|x)可以用于情感分类。

步骤S2中进行训练过程中，训练数据集是由部分带标签和大量不带标签的数据组成。则构建SSAVAE的联合目标函数表示为：

其中用于执行情感分类的分布p_θ(y|x)由分布q_φ(y|x)近似得到，其参数以公式(4)为优化目标函数进行优化更新。但是从公式(4)可知，情感标签预测分布q_φ(y|x)仅与无标签数据有关，而理想情况下应该也服从带标签数据的概率分布特性。为了解决这个问题，在公式(4)中增加一个附加损失项，使得模型能学习到带情感标签数据中情感类别分布特性，则联合目标函数可以改写为：

其中，C为平衡控制因子。在训练阶段，模型中参数根据上式进行优化，最终得到最优的模型。

由于上述SSVAE模型缺少学习输入数据隐含层特征分布的能力，不能准确表征情感特征，本实施例基于上述SSVAE模型，进一步利用对抗学习方法来提高模型的情感特征表征质量，结合生成式对抗网络GAN来构建形成SSAVAE模型，如图3所示。本实施例首先将语音情感数据分为带标签与无标签两种情感，其中无标签的数据被当一种属性缺失问题来进行处理，从而通过语音情感识别算法从带标签和不带标签数据中获取数据的内在表征，由于表征数据的学习受限于情感类别标签，可以将标签信息注入到模型中，从而可以用于语音情感分类。由SSAVAE模型直接利用于生成式对抗网络GAN机制学习输入在隐含特征空间的真实分布，从而减少了参数限制，提高对复杂分布的表征能力，进一步提高模型性能。

本实施例步骤S1中构建SSAVAE模型的详细步骤包括：

S1.1.对输入数据中带情感标签数据构建联合概率分布：

p(x,y)＝∫p_θ(x,y|z)p(z)dz (1)

上述公式(2)的右边为带标签数据的ELBO，因此需要最大化下界，同时标签y和隐向量z相互独立，则将上式(2)最大化下界后转换得到：

S1.3.使用生成式对抗网络T(x,y,z)表示logp(z)-logq_φ(z|x,y)，该对抗判别网络的目标函数可以表示为：

其中，σ(·)表示sigmoid函数。从上式可知，T(x,y,z)主要是判别(x,y,z)是来源于先验概率p(z)还是来源于推断网络q_φ(z|x,y)，该式可以用任何函数形式来表示变量x,y,z。T(x,y,z)的最优值为：

T^*(x,y,z)＝logq_φ(z|x,y)-logp(z) (8)

将步骤S1.2最大化下界后得到的带情感标签数据对数边缘似然概率模型转换为SSAVAE模型中针对带情感标签数据所需优化的目标函数，即将公式(8)代入公式(6)，得到SSAVAE要优化的目标函数为：

S1.4.利用重参数方法，将SSAVAE模型中针对带情感标签数据所需优化的目标函数最终转换为：

其中，L(x,y)表示在输入数据存在情感标签时的目标损失函数，ε表示扰动变量。

如上述公式(2)通过优化ELBO来得到真实的最大似然概率，然而它需要依赖于推断网络q_φ(z|x,y)对输入数据的表征能力。q_φ(z|x,y)具体为基于对角协方差矩阵的高斯分布，其均值与方差向量通过神经网络编码学习得到，该网络以输入x和标签y作为输入。传统SSVAE模型自由依赖于输入x和标签y，但是对隐向量z的依赖受到参数模型的限制，极大的限制了模型对数据的学习能力。为了减少参数对模型表征能力的限制，让模型准确学习到后验概率，本实施例通过构建SSAVAE模型，利用生成式对抗网络GAN直接从数据输入中学习后验分布概率，以使得SSAVAE模型能够直接学习到输入数据的后验分布概率，有效减少参数限制，提高对复杂分布的表征能力。

当q_φ(z|x,y)存在明确的概率分布表示时，利用重参数化来对模型进行优化，但是其后验概率会受到概率参数的限制，本实施例通过定义一个对抗判别网络T(x,y,z)来表示公式(6)中logp(z)-logq_φ(z|x,y)，该对抗判别网络的目标函数表示如上式(7)所示，将公式(8)代入公式(6)，即可得到如(9)所示的SSAVAE要优化的目标函数，经过利用重参数技术进一步即可得到如(10)所示的目标函数L'(x,y)。

由于获得大量的语音情感数据存在很大的难度，大部分语音情感数据是无情感标签数据。本实施例构建SSAVAE模型时，将无标签数据被视为标签属性缺失，即其对应的情感标签被视为隐含变量，对输入数据中该类无情感标签数据，使用所有可能的类别y的加权之和构建似然概率，权重值使用当前由带标签数据学习到的关于当前类别的条件概率

进行估计，并利用参数φ的概率函数q_φ(z,y|x)近似真实后验概率，由概率分布q_φ(y|x)作为语音情感分类器，对输入数据的情感状态进行判断。

本实施例中构建模型SSAVAE时，对于无标签数据，由隐含向量z和其对应的情感类别变量y生成，再将公式(6)代入公式(3)后，即可得到无情感标签数据的对数边缘似然概率模型，即为：

其中，H(q_φ(y|x))表示输入数据x的标签条件概率分布熵，q_φ(y|x)可以用于情感分类。

训练数据集由部分带标签和大量不带标签的数据组成，本实施例中构建得到的SSAVAE模型的联合目标函数具体为：

由于用于执行情感分类的分布p_θ(y|x)由分布q_φ(y|x)近似得到，模型的参数需要以公上式(4)为优化目标函数进行优化更新。但是从公式(4)可知，情感标签预测分布q_φ(y|x)仅与无标签数据有关，而理想情况下应该也服从带标签数据的概率分布特性。为了解决上述问题，本实施例SSAVAE模型中还包括附加损失项，以使得模型能学习到带情感标签数据中情感类别分布特性，即在上述在公式(4)中增加一个附加损失项，最终得到的SSAVAE模型的联合目标函数为：

本实施例通过上述方法构建语音情感识别模型，能缓解对情感标签信息的依赖，有效减少参数限制，提高对复杂分布的表征能力，构建得到识别性能良好的语音情感识别模型，利用该语音情感识别模型，能够有效提高语音情感识别的精度，以及提高抗数据扰动性能、泛化能力。

本实施例基于半监督对抗变分自编码的语音情感识别系统，包括：

SSAVAE模型构建模块，用于构建生成式对抗网络，并结合半监督变分自编码模型以及生成式对抗网络构建情感识别模型，其中将输入数据中无情感标签数据作为情感标签属性缺失类型处理，即将标签信息作为隐含变量，在特征空间中将带情感标签数据的类别信息与无情感标签数据共享，由生成式对抗网络学习输入数据在特征空间的概率分布，构建得到SSAVAE模型；

情感识别模块，用于输入待处理语音情感数据，其中包括带情感标签数据以及无情感标签数据，将待处理语音情感数据输入至所述训练后的SSAVAE模型中，得到情感识别结果输出。

本实施例中，所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率，以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。

上述SSAVAE模型具体如图3所示，其中构建SSAVAE模型时，具体使用生成式对抗网络T(x,y,z)表示logp(z)-logq_φ(z|x,y)。构建SSAVAE模型时，对输入数据中无情感标签数据，使用所有可能的类别y的加权之和构建似然概率，权重值使用当前由带标签数据学习到的关于当前类别的条件概率

本实施例基于半监督对抗变分自编码的语音情感识别系统与上述基于半监督对抗变分自编码的语音情感识别一一对应，两者具有相同的实现原理以及效果，在此不再一一赘述。

在另一实施例中，本发明基于半监督对抗变分自编码的语音情感识别系统还可以为：包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行所述计算机程序，其特征在于，处理器用于执行计算机程序，以执行如上述基于半监督对抗变分自编码的语音情感识别方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于半监督对抗变分自编码的语音情感识别方法，其特征在于，步骤包括：

S1.SSAVAE模型构建：构建生成式对抗网络，并结合半监督变分自编码模型以及所述生成式对抗网络构建语音情感识别模型，其中将输入数据中带情感标签数据与对应的情感标签作为输入，使得生成的隐含层特征符合情感标签的分布特性，以及将输入数据中无情感标签数据作为情感标签属性缺失类型处理，即将情感标签作为隐含变量，在特征空间中将带情感标签数据的类别信息与所述无情感标签数据共享，由所述生成式对抗网络学习输入数据在隐含层的特征概率分布，构建得到SSAVAE模型；

2.根据权利要求1所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于：所述SSAVAE模型中具体使用所述生成式对抗网络学习输入数据的后验分布概率，以使得所述SSAVAE模型能够直接学习到输入数据的后验分布概率。

3.根据权利要求2所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，构建所述SSAVAE模型时，使用生成式对抗网络T(x,y,z)表示logp(z)-logq_φ(z|x,y)，其中，x为输入数据，y为情感标签，z为隐含特征空间向量，p(z)为隐含特征空间向量z的概率分布，q_φ(z|x,y)为参数φ的概率函数；所述生成式对抗网络的目标函数表示为：

其中，σ(·)表示sigmoid函数。

4.根据权利要求3所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，所述步骤S1中构建SSAVAE模型的步骤包括：

S1.1.对输入数据中带情感标签数据构建联合概率分布：

p(x,y)＝∫p_θ(x,y|z)p(z)dz

logp_θ(x,y)≥∑_z～q(z|x,y)logp_θ(x,y|z)-D_KL[q_φ(z|x,y)||p(z)]＝-L(x,y)

并最大化下界后转换得到：

5.根据权利要求1～4中任意一项所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，构建所述SSAVAE模型时，对输入数据中无情感标签数据，使用所有可能的类别y的加权之和构建似然概率，权重值使用当前由带标签数据学习到的关于当前类别的条件概率

进行估计，θ为p_θ(x,y|z)模型的参数，p_θ(x,y|z)表示在给定向量z和参数θ的情况下，生成输入数据x和对应情感标签y的条件概率分布，并利用参数φ的概率函数q_φ(z,y|x)近似真实后验概率，由概率分布q_φ(y|x)作为语音情感分类器，对输入数据的情感状态进行判断，其中x为输入数据，y为情感标签，z为隐含特征空间向量。

6.根据权利要求5所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，无情感标签数据的对数边缘似然概率模型具体为：

其中，H(q_φ(y|x))表示输入数据x的标签条件概率分布熵，L(x,y)表示在输入数据存在情感标签时的目标损失函数。

7.根据权利要求1～4中任意一项所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，所述SSAVAE模型的联合目标函数为：

8.根据权利要求7所述的基于半监督对抗变分自编码的语音情感识别方法，其特征在于，所述SSAVAE模型中还包括附加损失项，以使得模型能学习到带情感标签数据中情感类别分布特性，最终得到的所述SSAVAE模型的联合目标函数为：

9.一种基于半监督对抗变分自编码的语音情感识别系统，其特征在于，包括：

10.一种基于半监督对抗变分自编码的语音情感识别系统，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序，以执行如权利要求1～8中任意一项所述方法。