CN114360520A

CN114360520A - 语音分类模型的训练方法、装置、设备及存储介质

Info

Publication number: CN114360520A
Application number: CN202210042806.1A
Authority: CN
Inventors: 司世景; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-15
Also published as: WO2023134067A1

Abstract

本申请涉及人工智能领域，具体公开了一种语音分类模型的训练方法、装置、设备及存储介质，所述方法通过获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签；对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵；将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征；将所述句子表征输入所述初始语音分类模型的分类网络得到预测标签，然后根据所述样本标签和所述预测标签对所述初始语音分类模型的进行迭代训练，从而得到训练好的语音分类模型。在语音分类模型中加入变分信息瓶颈处理网络，压缩了样本信息并抑制了无用信息，从而减小了过拟合现象的发生。

Description

语音分类模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种语音分类模型的训练方法、装置、设备及存储介质。

背景技术

目前，以卷积神经网络(Convolutional Neural Networks,CNN)为首的很多深度学习网络(Deep Neural Networks,DNN)在各类下游任务中被广泛应用，例如语音分类任务。在语音分类任务中，通过一个简单的CNN往往就可以达到很好的分类效果。大部分CNN网络在训练时是将语音进行标注，在语音信息和目标标签之间建立联系，从而对CNN模型进行训练，但这种训练方式受限于标签的准确度、样本数据量以及样本分布情况，标注成本较高，且容易出现过拟合。

发明内容

本申请提供了一种语音分类模型的训练方法、装置、设备及存储介质，以减少过拟合现象的发生。

第一方面，本申请提供了一种语音分类模型的训练方法，所述方法包括：

获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签；

对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵；

将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征；

将所述句子表征输入所述初始语音分类模型的分类网络得到预测标签，并根据所述样本标签和所述预测标签对所述初始语音分类模型进行迭代训练，以得到训练好的语音分类模型。

第二方面，本申请还提供了一种语音分类模型的训练装置，所述装置包括：

样本获取模块，用于获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签；

预处理模块，用于对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵；

瓶颈处理模块，用于将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征；

模型训练模块，用于将所述句子表征输入所述初始语音分类模型的分类网络得到预测标签，并根据所述样本标签和所述预测标签对所述初始语音分类模型进行迭代训练，以得到训练好的语音分类模型。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音分类模型的训练方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音分类模型的训练方法。

本申请公开了一种语音分类模型的训练方法、装置、设备及存储介质，通过获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签；对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵；将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征；将句子表征输入初始语音分类模型的分类网络得到预测标签，然后根据样本标签和预测标签对初始语音分类模型进行迭代训练，从而得到训练好的语音分类模型。在语音分类模型中加入变分信息瓶颈处理网络，压缩了样本信息并抑制了无用信息，从而减小了过拟合现象的发生。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音分类模型的训练方法的步骤示意流程图；

图2是本申请实施例提供的对样本语音进行预处理得到向量矩阵的步骤示意流程图；

图3是本申请实施例提供的一种训练编码器的步骤示意流程图；

图4是本申请实施例提供的一种语音分类模型的训练装置的示意性框图；

图5是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语音分类模型的训练方法、装置、计算机设备及存储介质。该语音分类模型的训练方法利用了人工智能领域中的神经网络，通过对神经网络的迭代训练得到语音分类模型。并且训练出的语音分类模型可以用于进行语音情感类型的分类等分类场景，提高分类性能。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语音分类模型的训练方法的示意流程图。该语音分类模型的训练方法通过加入变分信息瓶颈处理层来实现对无用信息的压缩，将较为重要的信息进入分类模型中参与分类，从而提高模型分类准确率和减少过拟合情况的发生。

如图1所示，该语音分类模型的训练方法，具体包括：步骤S101至步骤S104。

S101、获取样本数据。

其中，样本数据中包括样本语音和所述样本语音对应的样本标签。在进行模型训练时，可以获取一个小样本数据集来参与模型的训练，其中，小样本数据集可以表示为

样本语音

样本语音对应的样本标签

)。在具体实施过程中，样本标签可以是表示样本语音的情感类型的情感标签。

S102、对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵。

在得到样本数据后，需要对样本数据中的样本语音进行预处理，其中，预处理可以包括对样本语音进行定长分割、特征提取和向量提取等。

当样本数据中的各个样本语音的长度不同时，可以将样本语音分别截取为定长的语音信号，然后再对这些定长的语音信号进行特征提取和向量提取。

在一实施例中，请参阅图2，对样本语音进行预处理得到向量矩阵的步骤包括：S1021、对所述样本语音进行特征提取，得到所述样本语音对应的数字信号；S1022、将所述数字信号输入预先训练的编码器，得到所述数字信号对应的向量矩阵。

在对样本语音进行特征提取时，可以将样本语音通过特征提取层，从而得到样本语音对应的梅尔频率倒谱系数的(Mel Frequency Cepstral Coefficients,MFCCs)的特征分布图，进而得到样本语音对应的数字信号。然后将得到的数字信号输入编码器中，得到数字信号所对应的向量矩阵。

在一实施例中，可以使用自监督对比学习的概念，构造对比损失函数来对编码器进行预训练，从而提高编码器对于语音特征的抓取能力，为分类任务提供良好的模型基础。

在具体实施过程中，请参阅图3，训练编码器的步骤可以包括：S201、获取训练语音，并对所述训练语音进行增广处理，得到所述训练语音对应的第一增广矩阵和第二增广矩阵；S202、将所述第一增广矩阵输入编码器，得到所述第一增广矩阵对应的第一特征向量，以及将所述第二增广矩阵输入所述编码器，得到所述第二增广矩阵对应的第二特征向量；S203、根据所述第一特征向量和所述第二特征向量对所述编码器进行对比训练，得到预先训练的编码器。

训练语音可以使用样本数据中的样本语音，也可以再寻找其他的语音数据作为训练语音，使用样本数据中的样本语音作为训练语音能够不增加额外的训练成本。下面以使用样本语音作为训练语音为例对编码器的训练过程进行说明。

对多条训练语音进行数据增广，也即在训练语音上增加一些噪音，例如对训练语音进行调速、覆盖训练语音中的某一频率等等，对训练语音进行变换，从而得到该训练语音所对应的增广矩阵。

例如对

进行数据增广，得到两个独立的增广矩阵，分别为第一增广矩阵t₁(x)和第二增广矩阵t₂(x)。其中，t₁(x_i)，t₂(x_i)表示为同一训练语音i的采用不同的增广方式得到的不同的增广矩阵，比如t₁(x_i)为训练语音中的第i条使用第一增广方式进行数据增广后得到的第一增广矩阵，t₂(x_i)为训练语音中的第i条使用第二增广方式进行数据增广后得到的第二增广矩阵。

则分别对应t₁(x_i)，t₂(x_i)在经过编码器以后的特征向量。

在分别得到第一增广矩阵t₁(x_i)对应的第一特征向量

以及第二增广矩阵t₂(x_i)对应的第二特征向量

后，即可对编码器进行迭代训练，具体步骤包括：

计算所述第一特征向量和所述第二特征向量之间的相似度；基于所述编码器的损失函数，根据所述相似度计算所述编码器的损失函数值，根据所述损失函数值对所述编码器进行迭代训练。

计算第一特征向量

和第二特征向量

的内积，通过计算出的内积来表示第一特征向量

和第二特征向量

之间的相似度，进而根据损失函数公式来计算损失函数值，其中，损失函数的计算公式为：

其中，L_NCE表示损失函数，

表示第i条训练语音对应的第一特征向量，v⁽²⁾表示第二特征向量的集合，

表示第i条训练语音对应的第二特征向量，

表示第j条训练语音对应的第二特征向量，s表示第一特征向量

和第二特征向量

的相似度，N表示训练语音的总数量。

另外，还可以使用对比损失，对比损失的损失函数包括：

其中，L_con表示对比损失的损失函数，S_SimCLR表示第一特征向量

和第二特征向量

的内积，也即第一特征向量

和第二特征向量

的内积之间的相似度。

在计算出编码器的损失函数值后，根据编码器的损失函数值来对编码器的参数进行更新，从而最大化编码器对于语音信号中的有用信息的提取能力。

S103、将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征。

样本语音的向量矩阵代表样本语音的特征分布图，将向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络中，进行信息的压缩，从而得到句子表征。

假定压缩后的特征表征Z是一个K维高斯分布，那么向量矩阵经过一个CNN后，再分别经过两个线性模型(Linear Module)，就可以得到的均值μ_x及方差∑_x。已知压缩后的特征表征

即Z是在p_θ(z|x)分布上的随机取样。根据重新参数化(Reparameterization)方法，可以得到最终压缩后的句子表征Z＝μ(x)+Σ(x)⊙ε,ε～N(0,I)。

通过高斯分布引入一定的噪音，从而在一定程度上降低了句子表征对样本语音的表征能力，从而阻止最后的分类模型学习到一些无用的特征。

S104、将所述句子表征输入所述初始语音分类模型的分类网络得到预测标签，并根据所述样本标签和所述预测标签对所述初始语音分类模型进行迭代训练，以得到训练好的语音分类模型。

将句子表征输入到初始语音分类模型的分类网络中，由分类网络根据句子表征进行预测，得到分类网络输出的预测标签，然后再根据样本标签和预测标签来对初始语音分类模型中的分类网络和变分信息瓶颈处理网络进行迭代训练，从而得到训练好的语音分类模型。例如当损失函数值最小或达到预设的训练次数时，将训练好的变分信息瓶颈处理网络和分类网络作为训练好的语音分类模型，来用于对待分类语音进行分类。

在一实施例中，分类网络中包括多层感知器网络和分类器，将句子表征输入多层感知器网络，然后再将多层感知器网络的输出作为分类器的输入，从而使分类器基于输入的特征生成预测出的预测标签。

在一实施例中，对初始语音分类模型进行迭代训练的步骤包括：基于所述初始语音分类模型的损失函数公式，根据所述预测标签和所述样本标签计算所述初始语音分类模型的损失函数值，并基于所述损失函数值对所述初始语音分类模型进行迭代训练。

在得到分类网络的输出后，基于损失函数公式，根据分类网络输出的预测标签和样本标签来计算初始语音分类模型的损失函数值。

在一实施例中，所述初始语音分类模型的损失函数公式，包括：

其中，

表示初始语音分类模型的损失函数，x表示样本语音，z表示句子表征，β表示平衡系数,

分别表示关于变量x,z分布的期望,KL为相对熵，表征两个概率分布之间的差异，θ为变分信息瓶颈处理网络的模型参数，

为分类网络的模型参数，μ_x，μ₀为维度为K的均值向量，∑_x，∑₀为协方差矩阵，

是最后输出的预测标签

通过最小化损失函数

来更新分类网络和变分信息瓶颈处理网络的模型参数，在完成有限次的迭代后，分类网络和变分信息瓶颈处理网络的模型参数得到更新优化，从而完成对初始语音分类模型的训练任务，得到训练好的语音分类模型，可以使用该训练好的语音分类模型进行语音分类的任务。

在得到训练好的语音分类模型后，即可利用该训练好的语音分类模型来对待分类语音进行语音分类，语音分类的过程可以包括：

首先获取待分类语音，然后对待分类语音进行预处理，得到待分类语音所对应的向量矩阵。在此过程中，若待分类语音的长度不一，则可以将待分类语音截取为定长的语音信号，然后通过特征提取层得到待分类语音的数字信号，再经过前述训练的编码器，最终得到待分类语音所对应的向量矩阵。

然后将待分类语音输入至前述训练的语音分类模型中，进行语音分类，得到预测标签。在此过程中，待分类语音首先经过变分信息瓶颈处理网络，经由信息瓶颈处理网络得到压缩后的待分类语音所对应的句子表征的期望值

再将变分信息瓶颈处理网络的输出作为分类网络中多层感知器网络的输入，将分类网络中多层感知器网络的输出作为分类网络中分类器的输入来计算

从而得到预测标签。

上述实施例提供的语音分类模型的训练方法，通过获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签；对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵；将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征；将句子表征输入初始语音分类模型的分类网络得到预测标签，然后根据样本标签和预测标签对初始语音分类模型进行迭代训练，从而得到训练好的语音分类模型。在语音分类模型中加入变分信息瓶颈处理网络，压缩了样本信息并抑制了无用信息，从而减小了过拟合现象的发生。

请参阅图4，图4是本申请的实施例还提供一种语音分类模型的训练装置的示意性框图，该语音分类模型的训练装置用于执行前述的语音分类模型的训练方法。其中，该语音分类模型的训练装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图4所示，语音分类模型的训练装置300包括：样本获取模块301、预处理模块302、瓶颈处理模块303和模型训练模块304。

样本获取模块301，用于获取样本数据，所述样本数据包括样本语音和所述样本语音对应的样本标签。

预处理模块302，用于对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵。

在一实施例中，预处理模块302包括特征提取子模块3021和信号编码子模块3022。其中，特征提取子模块3021，用于对所述样本语音进行特征提取，得到所述样本语音对应的数字信号；信号编码子模块3022，用于将所述数字信号输入预先训练的编码器，得到所述数字信号对应的向量矩阵。

因此，该语音分类模型的训练装置还可以包括：语音处理模块、向量生成模块和对比训练模块。

其中，语音处理模块用于获取训练语音，并对所述训练语音进行增广处理，得到所述训练语音对应的第一增广矩阵和第二增广矩阵。

向量生成模块用于将所述第一增广矩阵输入编码器，得到所述第一增广矩阵对应的第一特征向量，以及将所述第二增广矩阵输入所述编码器，得到所述第二增广矩阵对应的第二特征向量。

对比训练模块用于根据所述第一特征向量和所述第二特征向量对所述编码器进行对比训练，得到预先训练的编码器。

通过语音处理模块对训练语音进行数据增广，得到第一增广矩阵和第二增广矩阵，然后由向量生成模块将第一增广矩阵和第二增广矩阵分别输入编码器中，得到第一增广矩阵对应的第一特征向量和第二增广矩阵对应的第二特征向量。对比训练模块计算第一特征向量和第二特征向量之间的相似度并基于相似度计算损失函数值，从而根据损失函数值对编码器进行迭代训练，得到预先训练的编码器。

瓶颈处理模块303，用于将所述向量矩阵输入初始语音分类模型的变分信息瓶颈处理网络，得到所述样本语音对应的句子表征。

模型训练模块304，用于将所述句子表征输入所述初始语音分类模型的分类网络得到预测标签，并根据所述样本标签和所述预测标签对所述初始语音分类模型进行迭代训练，以得到训练好的语音分类模型。

在具体实施过程中，模型训练模块304可以用于：基于所述初始语音分类模型的损失函数公式，根据所述预测标签和所述样本标签计算所述初始语音分类模型的损失函数值，并基于所述损失函数值对所述初始语音分类模型进行迭代训练。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音分类模型的训练装置和各模块的具体工作过程，可以参考前述语音分类模型的训练方法实施例中的对应过程，在此不再赘述。

上述的语音分类模型的训练装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图5，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音分类模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音分类模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述对所述样本语音进行预处理，得到所述样本语音对应的向量矩阵时，用于实现：

对所述样本语音进行特征提取，得到所述样本语音对应的数字信号；

将所述数字信号输入预先训练的编码器，得到所述数字信号对应的向量矩阵。

在一个实施例中，所述处理器在实现所述根据所述样本标签和所述预测标签对所述初始语音分类模型进行迭代训练时，用于实现：

基于所述初始语音分类模型的损失函数公式，根据所述预测标签和所述样本标签计算所述初始语音分类模型的损失函数值，并基于所述损失函数值对所述初始语音分类模型络进行迭代训练。

在一个实施例中，所述初始语音分类模型的损失函数公式，包括：

其中，

是分类网络输出的预测标签

在一个实施例中，所述处理器用于实现：

获取训练语音，并对所述训练语音进行增广处理，得到所述训练语音对应的第一增广矩阵和第二增广矩阵；

将所述第一增广矩阵输入编码器，得到所述第一增广矩阵对应的第一特征向量，以及将所述第二增广矩阵输入所述编码器，得到所述第二增广矩阵对应的第二特征向量；

根据所述第一特征向量和所述第二特征向量对所述编码器进行对比训练，得到预先训练的编码器。

在一个实施例中，所述处理器在实现所述根据所述第一特征向量和所述第二特征向量对所述编码器进行对比训练时，用于实现：

计算所述第一特征向量和所述第二特征向量之间的相似度；

基于所述编码器的损失函数，根据所述相似度计算所述编码器的损失函数值，根据所述损失函数值对所述编码器进行迭代训练。

在一个实施例中，所述编码器的损失函数，包括：

其中，L_NCE表示所述编码器的损失函数，

表示第i条训练语音对应的第二特征向量，

和第二特征向量

的相似度，N表示训练语音的总数量。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音分类模型的训练方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等，所述存储介质可以是非易失性的，也可以是易失性的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。