CN116564292A

CN116564292A - 语音分类模型训练方法、语音分类方法、装置及设备

Info

Publication number: CN116564292A
Application number: CN202310765897.6A
Authority: CN
Inventors: 赵晴
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-08-08
Anticipated expiration: 2043-06-27
Also published as: CN116564292B

Abstract

本发明涉及语音分类技术领域，公开了语音分类模型训练方法、语音分类方法、装置及设备，包括：获取训练数据，训练数据为新场景数据与分类错误数据；获取教师模型与学生模型；将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵；计算得到学生模型与教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；计算得到最终损失；基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型，本发明通过仅采用新场景数据及分类错误数据，对语音分类模型进行微调，降低了时间与计算成本，解决了分类错误情况，提升了在新场景下的分类效果。

Description

语音分类模型训练方法、语音分类方法、装置及设备

技术领域

本发明涉及语音分类技术领域，具体涉及语音分类模型训练方法、语音分类方法、装置及设备。

背景技术

端到端深度神经网络已成为语音分类领域中的一种流行框架，与传统分类识别框架相比，它可以简化模型的构建和训练流程。在实际应用中，许多场合需要现有的语音分类模型既可以分类新场景下的语音数据，又能够保持原有场景的分类准确率。

相关技术中，由于新数据集的分布不一致等问题往往导致灾难性遗忘，即旧数据集的错误率急剧增大，因而多通过增量学习方法解决灾难性遗忘问题。目前的增量学习方法一般需要接触较多旧数据集或者与旧数据集一起联合训练，但在实际应用中往往受限且消耗的时间和计算成本很大。

发明内容

有鉴于此，本发明提供了语音分类模型训练方法、语音分类方法、装置及设备，以解决目前增量学习消耗时间和计算成本很大的问题。

第一方面，本发明提供了一种语音分类模型训练方法，方法包括：

获取训练数据，训练数据为新场景数据与分类错误数据；

获取教师模型与学生模型，教师模型为已训练好的语音分类模型，学生模型的结构与教师模型的结构相同；

将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵；

基于教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；

基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失；

基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。

在本发明中，通过仅采用新场景数据及分类错误数据，对已有的语音分类模型进行微调，避免了使用较多旧数据集或者与旧数据集一起联合训练，进而降低了时间与计算成本。通过采用新场景数据及分类错误数据对语音分类模型进行训练，解决了该模型在实际应用中出现的分类错误情况，同时提升了在新场景下的分类效果。通过仅使用新场景数据及分类错误数据进行训练，克服了混合新旧场景数据集重新训练方法中遇到的训练数据不平衡的问题与数据量大导致的训练的速度较慢问题。通过联合交叉熵损失和蒸馏损失，在提升对新数据的分类效果的同时，保证模型在原场景下的效果，解决迁移学习及Fine-tuning微调训练导致的灾难性遗忘问题。

在一种可选的实施方式中，基于教师模型的预测结果与学生模型的预测结果，计算得到学生模型与教师模型之间的第一蒸馏损失，包括：

对学生模型的预测结果进行激活，得到第一结果矩阵；

对教师模型的预测结果进行归一化处理，得到第二结果矩阵；

基于第一结果矩阵与第二结果矩阵，计算得到学生模型与教师模型之间的第一蒸馏损失。

在该方式中，通过计算得到学生模型与教师模型之间预测结果的蒸馏损失，对学生模型的预测结果进行限制，限制学生模型预测结果的变化。

在一种可选的实施方式中，基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的梯度类激活损失，包括：

基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，获取教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵；

基于教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵，计算得到教师模型的梯度热力图与学生模型的梯度热力图；

计算教师模型的梯度热力图与学生模型的梯度热力图之间的差值，得到学生模型与教师模型之间的梯度类激活损失。

在该方式中，通过使用编码器的注意力矩阵作为权重，计算加权后的梯度作为梯度热力图，计算得到教师模型与学生模型之间的热力图损失，通过教师模型与学生模型之间的热力图损失对学生模型进行训练，从而限制学生模型梯度的变化，减小学生模型参数的变化。

在一种可选的实施方式中，基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的第二蒸馏损失，包括：

对教师模型的中间层参数矩阵与学生模型的中间层参数矩阵进行主成分提取，得到教师模型各中间层的重要特征与学生模型各中间层的重要特征；

计算教师模型各中间层的重要特征与学生模型各中间层的重要特征之间的最短变化路径；

计算最短变化路径均值与教师模型各中间层的重要特征之商，得到学生模型与教师模型之间的第二蒸馏损失。

在该方式中，通过计算得到学生模型与教师模型之间重要特征变化路径的蒸馏损失，对学生模型的参数变化进行限制。

在一种可选的实施方式中，基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失，包括：

通过公式

loss＝ce_weight*ce_loss+(alpha*loss1+beta*loss2+gamma*loss3)*(1-ce_weight)计算得到最终损失；

其中，ce_weight为交叉熵损失对应权重，ce_loss为交叉熵损失，alpha为第一蒸馏损失对应权重，loss1为第一蒸馏损失，beta为梯度类激活损失对应权重，loss2为梯度类激活损失，gamma为第二蒸馏损失对应权重，loss3为第二蒸馏损失。

在该方式中，通过利用交叉熵损失优化语音对新数据的分类效果，同时利用蒸馏损失来降低模型在增量学习中的遗忘。其中蒸馏损失包括：同时使用基于预测结果的第一蒸馏损失、梯度加权类激活映射方法得到的梯度类激活损失和基于重要特征变化路径的第二蒸馏损失，分别限制模型的最终预测结果、模型训练时的梯度改变和模型参数的变化。

第二方面，本发明提供了一种语音分类方法，方法包括：

获取待分类语音数据；

将待分类语音数据输入语音分类模型中，得到待分类语音数据的语音分类结果，其中语音分类模型是利用第一方面任意一项的语音分类模型训练方法训练得到的。

在本发明中，通过利用新场景数据及分类错误数据训练得到的目标语音分类模型，可以得到更为准确的语音分类结果，更适配在新场景和分类错误情况下进行语音分类。

第三方面，本发明提供了一种语音分类模型训练装置，装置包括：

数据获取模块，用于获取训练数据，训练数据为新场景数据与分类错误数据；

模型获取模块，用于获取教师模型与学生模型，教师模型为已训练好的语音分类模型，学生模型的结构与教师模型的结构相同；

数据输入模块，用于将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵；

损失计算模块，用于基于教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；

最终损失计算模块，用于基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失；

梯度回传模块，用于基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。

第四方面，本发明提供了一种语音分类装置，装置包括：

语音数据获取模块，用于获取待分类语音数据；

语音分类模块，用于将待分类语音数据输入语音分类模型中，分类得到待分类语音数据的语音分类结果，其中语音分类模型是利用第三方面任意一项的语音分类模型训练装置训练得到的。

第五方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面及其对应的任一实施方式的语音分类模型训练方法或者执行第二方面中的语音分类方法。

第六方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面及其对应的任一实施方式的语音分类模型训练方法或者执行第二方面中的语音分类方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的语音分类模型训练方法的流程示意图。

图2是根据本发明实施例的一种方言分类模型的框架示意图。

图3是根据本发明实施例的另一语音分类模型训练方法的流程图。

图4是根据本发明实施例的又一语音分类模型训练方法的流程图。

图5是根据本发明实施例的再一语音分类模型训练方法的流程图。

图6是根据本发明实施例的语音分类方法的流程图。

图7是根据本发明实施例的语音分类模型训练装置的结构框图。

图8是根据本发明实施例的语音分类装置的结构框图。

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决上述问题，本发明实施例中提供一种语音分类模型训练方法，用于计算机设备中，需要说明的是，其执行主体可以是语音分类模型训练装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部，其中，该计算机设备可以是终端或客户端或服务器，服务器可以是一台服务器，也可以为由多台服务器组成的服务器集群，本申请实施例中的终端可以是智能手机、个人电脑、平板电脑等其他智能硬件设备。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

本实施例中的计算机设备，适用于在新场景和出现分类错误的情况下，对现有的语音分类模型进行微调的使用场景。通过本发明提供语音分类模型训练方法，通过仅采用新场景数据及分类错误数据，对已有的语音分类模型进行微调，避免了使用较多旧数据集或者与旧数据集一起联合训练，进而降低了时间与计算成本。通过采用新场景数据及分类错误数据对语音分类模型进行训练，解决了该模型在实际应用中出现的分类错误情况，同时提升了在新场景下的分类效果。通过仅使用新场景数据及分类错误数据进行训练，克服了混合新旧场景数据集重新训练方法中遇到的训练数据不平衡的问题与数据量大导致的训练的速度较慢问题。通过联合交叉熵损失和蒸馏损失，在提升对新数据的分类效果的同时，保证模型在原场景下的效果，解决迁移学习及fintinue训练导致的灾难性遗忘问题。

根据本发明实施例，提供了一种语音分类模型训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种语音分类模型训练方法，可用于上述的计算机设备，图1是根据本发明实施例的语音分类模型训练方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取训练数据。

在本发明实施例中，训练数据为新场景数据与分类错误数据。

步骤S102，获取教师模型与学生模型。

在本发明实施例中，教师模型为已训练好的语音分类模型，学生模型的结构与教师模型的结构相同。

步骤S103，将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵。

在一示例中，图2是根据本发明实施例的一种方言分类模型的框架示意图。如图2所示，方言分类模型包括特征提取层、下采样层、编码器层与方言分类层。将待分类音频输入方言分类层，输出特征提取层、下采样层、编码器层与方言分类层四层中间层参数矩阵，输出的预测结果为方言类别。

步骤S104，基于教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失。

在一示例中，交叉熵损失的计算方法可以通过使用模型最终预测结果矩阵(即模型的输出)与分类标注结果的oneshot矩阵计算得到。

步骤S105，基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失。

步骤S106，基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。

在一示例中，对学生模型进行梯度回传可以包括：根据计算得到的最终损失，从学生模型的最后一层开始，依次向前面一层传播，更新学生模型每一层的参数，得到目标语音分类模型。

本实施例提供的语音分类模型训练方法，通过仅采用新场景数据及分类错误数据，对已有的语音分类模型进行微调，避免了使用较多旧数据集或者与旧数据集一起联合训练，进而降低了时间与计算成本。通过采用新场景数据及分类错误数据对语音分类模型进行训练，解决了该模型在实际应用中出现的分类错误情况，同时提升了在新场景下的分类效果。通过仅使用新场景数据及分类错误数据进行训练，克服了混合新旧场景数据集重新训练方法中遇到的训练数据不平衡的问题与数据量大导致的训练的速度较慢问题。通过联合交叉熵损失和蒸馏损失，在提升对新数据的分类效果的同时，保证模型在原场景下的效果，解决迁移学习及fintinue训练导致的灾难性遗忘问题。

在本实施例中提供了一种语音分类模型训练方法，可用于上述的计算机设备，图3是根据本发明实施例的另一语音分类模型训练方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取训练数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

步骤S302，获取教师模型与学生模型。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S303，将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S304，基于教师模型的预测结果与学生模型的预测结果，计算得到学生模型与教师模型之间的第一蒸馏损失。

具体地，上述步骤S304包括：

步骤S3041，对学生模型的预测结果进行激活，得到第一结果矩阵。

在一示例中，同一条音频分别经过教师模型和学生模型，可以得到学生模型预测结果矩阵与教师模型预测结果矩阵。通过计算学生模型预测结果矩阵的log_softmax，得到第一结果矩阵。

步骤S3042，对教师模型的预测结果进行归一化处理，得到第二结果矩阵。

在一示例中，通过计算教师模型预测矩阵的softmax结果，得到第二结果矩阵。

步骤S3043，基于第一结果矩阵与第二结果矩阵，计算得到学生模型与教师模型之间的第一蒸馏损失。

在一示例中，通过如下公式

preloss＝KD(log_softmax(Stu/T),softmax(Tea/T))

计算第一结果矩阵与第二结果矩阵之间的蒸馏损失，得到学生模型与教师模型之间的第一蒸馏损失。其中，preloss为第一蒸馏损失，log_softmax(Stu/T)为第一结果矩阵，softmax(Tea/T)为第二结果矩阵。

步骤S305，基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失。详细请参见图1所示实施例的步骤S305，在此不再赘述。

步骤S306，基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。详细请参见图1所示实施例的步骤S306，在此不再赘述。

本实施例提供的语音分类模型训练方法，通过计算得到学生模型与教师模型之间预测结果的蒸馏损失，对学生模型的预测结果进行限制，限制学生模型预测结果的变化。

在本实施例中提供了一种语音分类模型训练方法，可用于上述的计算机设备，图4是根据本发明实施例的又一语音分类模型训练方法的流程图，如图4所示，该流程包括如下步骤：

步骤S401，获取训练数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

步骤S402，获取教师模型与学生模型。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S403，将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S404，基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的梯度类激活损失。

在一示例中，通过Grad-cam++方法(梯度加权类激活映射方法)，计算得到学生模型与教师模型之间的梯度类激活损失。

具体地，上述步骤S404包括：

步骤S4041，基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，获取教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵。

步骤S4042，基于教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵，计算得到教师模型的梯度热力图与学生模型的梯度热力图。

在一示例中，通过使用编码器的注意力矩阵作为权重，将权重乘以的模型从n层到n+1层的梯度作为梯度热力图，分别计算teacher模型和student模型在模型n到n+1层的热力图，得到教师模型的梯度热力图与学生模型的梯度热力图。

步骤S4043，计算教师模型的梯度热力图与学生模型的梯度热力图之间的差值，得到学生模型与教师模型之间的梯度类激活损失。

在一示例中，通过计算teacher模型和student模型两个热力图的差值，作为Grad-cam++方法的loss，即梯度类激活损失。

步骤S405，基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失。详细请参见图1所示实施例的步骤S405，在此不再赘述。

步骤S406，基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。详细请参见图1所示实施例的步骤S406，在此不再赘述。

本实施例提供的语音分类模型训练方法，通过使用编码器的注意力矩阵作为权重，计算加权后的梯度作为梯度热力图，计算得到教师模型与学生模型之间的热力图损失，通过教师模型与学生模型之间的热力图损失对学生模型进行训练，从而限制学生模型梯度的变化，减小学生模型参数的变化。

在本实施例中提供了一种语音分类模型训练方法，可用于上述的计算机设备，图5是根据本发明实施例的再一语音分类模型训练方法的流程图，如图5所示，该流程包括如下步骤：

步骤S501，获取训练数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

步骤S502，获取教师模型与学生模型。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S503，将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S504，基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的第二蒸馏损失。

具体地，上述步骤S504包括：

步骤S5041，对教师模型的中间层参数矩阵与学生模型的中间层参数矩阵进行主成分提取，得到教师模型各中间层的重要特征与学生模型各中间层的重要特征。

在一示例中，通过PCA主成分分析方法，提取teacher模型和student模型第n层输出矩阵的重要特征，得到教师模型各中间层的重要特征与学生模型各中间层的重要特征。

步骤S5042，计算教师模型各中间层的重要特征与学生模型各中间层的重要特征之间的最短变化路径。

在一示例中，通过计算第n层输出矩阵的重要特征从teacher模型走到student模型的最短变化路径(马氏距离)，得到教师模型各中间层的重要特征与学生模型各中间层的重要特征之间的最短变化路径。

步骤S5043，计算最短变化路径均值与教师模型各中间层的重要特征之商，得到学生模型与教师模型之间的第二蒸馏损失。

在一示例中，通过计算各重要特征的移动均值除以teacher模型的重要特征作为最终的loss，得到学生模型与教师模型之间的第二蒸馏损失。

步骤S505，基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失。

具体地，上述步骤S505包括：通过公式

loss＝ce_weight*ce_loss+(alpha*loss1+beta*loss2+gamma*loss3)*(1-ce_weight)

计算得到最终损失。

在本发明实施例中，ce_weight为交叉熵损失对应权重，ce_loss为交叉熵损失，alpha为第一蒸馏损失对应权重，loss1为第一蒸馏损失，beta为梯度类激活损失对应权重，loss2为梯度类激活损失，gamma为第二蒸馏损失对应权重，loss3为第二蒸馏损失。

在一示例中，通过如下公式

最终loss＝ce_weight*ce_loss+(alpha*基于预测结果的蒸馏loss+beta*(Grad-cam++方法的loss)+gamma*基于参数重要特征变化路径的蒸馏loss)*(1-ce_weight)

计算得到最终损失，其中，ce_weight为交叉熵损失对应权重，ce_loss为交叉熵损失，alpha为第一蒸馏损失对应权重，基于预测结果的蒸馏loss为第一蒸馏损失，，beta为梯度类激活损失对应权重，Grad-cam++方法的loss为梯度类激活损失，gamma为第二蒸馏损失对应权重，基于参数重要特征变化路径的蒸馏loss为第二蒸馏损失，最终loss为最终损失。

步骤S506，基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。详细请参见图1所示实施例的步骤S506，在此不再赘述。

本实施例提供的语音分类模型训练方法，通过计算得到学生模型与教师模型之间重要特征变化路径的蒸馏损失，对学生模型的参数变化进行限制。

在本实施例中提供了一种语音分类方法，可用于上述的计算机设备，图6是根据本发明实施例的语音分类方法的流程图，如图6所示，该流程包括如下步骤：

步骤S601，获取待分类语音数据。

步骤S602，将待分类语音数据输入语音分类模型中，得到待分类语音数据的语音分类结果。

在本发明实施例中，语音分类模型是利用上述实施例任意一项的语音分类模型训练方法训练得到的。

本实施例提供的语音分类方法，通过利用新场景数据及分类错误数据训练得到的目标语音分类模型，可以得到更为准确的语音分类结果，更适配在新场景和分类错误情况下进行语音分类。

在本实施例中还提供了一种语音分类模型训练装置，该装置用于实现上述语音分类模型训练方法的实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种语音分类模型训练装置，如图7所示，包括：

数据获取模块701，用于获取训练数据，训练数据为新场景数据与分类错误数据；

模型获取模块702，用于获取教师模型与学生模型，教师模型为已训练好的语音分类模型，学生模型的结构与教师模型的结构相同；

数据输入模块703，用于将训练数据输入教师模型与学生模型，得到教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵；

损失计算模块704，用于基于教师模型的预测结果、学生模型的预测结果、教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，计算得到学生模型与教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；

最终损失计算模块705，用于基于交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失；

梯度回传模块706，用于基于最终损失，对学生模型进行梯度回传，得到目标语音分类模型。

在一些可选的实施方式中，损失计算模块704包括：

学生预测结果激活单元，用于对学生模型的预测结果进行激活，得到第一结果矩阵；

教师预测结果归一化单元，用于对教师模型的预测结果进行归一化处理，得到第二结果矩阵；

第一蒸馏损失计算单元，用于基于第一结果矩阵与第二结果矩阵，计算得到学生模型与教师模型之间的第一蒸馏损失。

在一些可选的实施方式中，损失计算模块704包括：

注意力矩阵获取单元，用于基于教师模型的中间层参数矩阵与学生模型的中间层参数矩阵，获取教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵；

梯度热力图计算单元，用于基于教师模型的编码器注意力矩阵与学生模型的编码器注意力矩阵，计算得到教师模型的梯度热力图与学生模型的梯度热力图；

梯度类激活损失计算单元，用于计算教师模型的梯度热力图与学生模型的梯度热力图之间的差值，得到学生模型与教师模型之间的梯度类激活损失。

在一些可选的实施方式中，损失计算模块704包括：

重要特征提取单元，用于对教师模型的中间层参数矩阵与学生模型的中间层参数矩阵进行主成分提取，得到教师模型各中间层的重要特征与学生模型各中间层的重要特征；

最短变化路径计算单元，用计算教师模型各中间层的重要特征与学生模型各中间层的重要特征之间的最短变化路径；

第二蒸馏损失计算单元，用计算最短变化路径均值与教师模型各中间层的重要特征之商，得到学生模型与教师模型之间的第二蒸馏损失。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的语音分类模型训练装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

在本实施例中还提供了一种语音分类装置，该装置用于实现上述语音分类模型训练方法的实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种语音分类装置，如图8所示，包括：

语音数据获取模块801，用于获取待分类语音数据；

语音分类模块802，用于将待分类语音数据输入语音分类模型中，分类得到待分类语音数据的语音分类结果。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的语音分类装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图7所示的语音分类模型训练装置与上述图8所示的语音分类装置。

请参阅图9，图9是本发明可选实施例提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语音分类模型训练方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据为新场景数据与分类错误数据；

获取教师模型与学生模型，所述教师模型为已训练好的语音分类模型，所述学生模型的结构与所述教师模型的结构相同；

将所述训练数据输入所述教师模型与所述学生模型，得到所述教师模型的预测结果、所述学生模型的预测结果、所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵；

基于所述教师模型的预测结果、所述学生模型的预测结果、所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵，计算得到所述学生模型与所述教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；

基于所述交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失；

基于所述最终损失，对所述学生模型进行梯度回传，得到目标语音分类模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述教师模型的预测结果与所述学生模型的预测结果，计算得到所述学生模型与所述教师模型之间的第一蒸馏损失，包括：

对所述学生模型的预测结果进行激活，得到第一结果矩阵；

对所述教师模型的预测结果进行归一化处理，得到第二结果矩阵；

基于所述第一结果矩阵与所述第二结果矩阵，计算得到所述学生模型与所述教师模型之间的第一蒸馏损失。

3.根据权利要求1所述的方法，其特征在于，所述基于所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵，计算得到所述学生模型与所述教师模型之间的梯度类激活损失，包括：

基于所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵，获取所述教师模型的编码器注意力矩阵与所述学生模型的编码器注意力矩阵；

基于所述教师模型的编码器注意力矩阵与所述学生模型的编码器注意力矩阵，计算得到所述教师模型的梯度热力图与所述学生模型的梯度热力图；

计算所述教师模型的梯度热力图与所述学生模型的梯度热力图之间的差值，得到所述学生模型与所述教师模型之间的梯度类激活损失。

4.根据权利要求1所述的方法，其特征在于，所述基于所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵，计算得到所述学生模型与所述教师模型之间的第二蒸馏损失，包括：

对所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵进行主成分提取，得到所述教师模型各中间层的重要特征与所述学生模型各中间层的重要特征；

计算所述教师模型各中间层的重要特征与所述学生模型各中间层的重要特征之间的最短变化路径；

计算所述最短变化路径均值与所述教师模型各中间层的重要特征之商，得到所述学生模型与所述教师模型之间的第二蒸馏损失。

5.根据权利要求1所述的方法，其特征在于，所述基于所述交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失，包括：

通过公式

loss＝ce_weight*ce_loss+(alpha*loss1+beta*loss2+gamma*loss3)*(1-ce_weight)计算得到所述最终损失；

其中，ce_weight为所述交叉熵损失对应权重，ce_loss为所述交叉熵损失，alpha为所述第一蒸馏损失对应权重，loss1为所述第一蒸馏损失，beta为所述梯度类激活损失对应权重，loss2为所述梯度类激活损失，gamma为所述第二蒸馏损失对应权重，loss3为所述第二蒸馏损失。

6.一种语音分类方法，其特征在于，所述方法包括：

获取待分类语音数据；

将所述待分类语音数据输入语音分类模型中，得到所述待分类语音数据的语音分类结果，其中所述语音分类模型是利用权利要求1-5任意一项所述的语音分类模型训练方法训练得到的。

7.一种语音分类模型训练装置，其特征在于，所述装置包括：

数据获取模块，用于获取训练数据，所述训练数据为新场景数据与分类错误数据；

模型获取模块，用于获取教师模型与学生模型，所述教师模型为已训练好的语音分类模型，所述学生模型的结构与所述教师模型的结构相同；

数据输入模块，用于将所述训练数据输入所述教师模型与所述学生模型，得到所述教师模型的预测结果、所述学生模型的预测结果、所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵；

损失计算模块，用于基于所述教师模型的预测结果、所述学生模型的预测结果、所述教师模型的中间层参数矩阵与所述学生模型的中间层参数矩阵，计算得到所述学生模型与所述教师模型之间的交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失；

最终损失计算模块，用于基于所述交叉熵损失、第一蒸馏损失、梯度类激活损失与第二蒸馏损失，计算得到最终损失；

梯度回传模块，用于基于所述最终损失，对所述学生模型进行梯度回传，得到目标语音分类模型。

8.一种语音分类装置，其特征在于，所述装置包括：

语音数据获取模块，用于获取待分类语音数据；

语音分类模块，用于将所述待分类语音数据输入语音分类模型中，分类得到所述待分类语音数据的语音分类结果，其中所述语音分类模型是利用权利要求7任意一项所述的语音分类模型训练装置训练得到的。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至5中任一项所述的语音分类模型训练方法或者执行权利要求6中所述的语音分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至5中任一项所述的语音分类模型训练方法或者执行权利要求6中所述的语音分类方法。