CN117174083A

CN117174083A - 模型训练方法、装置、存储介质及电子设备

Info

Publication number: CN117174083A
Application number: CN202311264566.0A
Authority: CN
Inventors: 单长浩; 孙思宁; 杨青
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-05

Abstract

本发明提供一种模型训练方法、装置、存储介质及电子设备，该方法包括：获取训练数据和第一语音识别模型；对训练数据进行特征掩码，得到特征掩码后的训练数据；调用第一语音识别模型，对训练数据进行类别预测，得到训练数据中各个语音特征的参考类别标签；调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到特征掩码后的训练数据中各个掩码特征的预测类别标签；采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以确定第二语音识别模型。本发明实施例可降低模型训练的成本，并提高语音识别模型的准确率。

Description

模型训练方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练方法、装置、存储介质及电子设备。

背景技术

目前，语音识别技术在智能手机、智能音箱和智能电视等设备上得到了广泛的应用，所谓的语音识别技术是将语音转为文字的技术，常见的语音识别系统通常为基于深度学习的端到端语音识别模型，比如CTC(Connectionist Temporal Classification，联结主义时序分类，一种端到端语音识别结构)、LAS(Listen attend and spell，一种基于注意力机制的编解码模型)、RNN-T(Recurrent Neural Network-Transducer，循环神经网络变化器)等等；其中，端到端的语音识别模型在训练过程中需要数万甚至数十万的语音数据(包含音频数据和音频数据对应的文本数据(即标注文本))。在实际场景中，音频数据获取比较容易且成本较低，但是音频数据对应的文本数据需要专业的标注人员进行人工标注来获取，使得获取文本数据的成本较高，从而导致模型训练的成本较高。基于此，如何降低模型训练的成本，并提高语音识别模型的准确率成为一个研究热点。

发明内容

有鉴于此，本发明实施例提供了一种模型训练方法、装置、存储介质及电子设备，以解决模型训练中音频数据对应文本数据的标注成本较高，从而导致模型训练成本较高等问题；也就是说，本发明实施例可降低模型训练的成本，并提高语音识别模型的准确率，即本发明实施例可在保证语音识别模型的准确率的前提下，降低模型训练的成本。

根据本发明的一方面，提供了一种模型训练方法，所述方法包括：

获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；

对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；

调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；

调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；

采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别。

根据本发明的另一方面，提供了一种模型训练装置，所述装置包括：

获取单元，用于获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；

处理单元，用于对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；

所述处理单元，还用于调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；

所述处理单元，还用于调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；

所述处理单元，还用于采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括处理器、以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述所提及的方法。

根据本发明的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述所提及的方法。

本发明实施例可在获取到训练数据，以及获取到第一语音识别模型后，对训练数据进行特征掩码，得到特征掩码后的训练数据，训练数据包括多个语音特征，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果，以便于后续通过训练数据和特征掩码后的训练数据，对第一语音识别模型进行模型训练。然后，可调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的参考类别标签；并调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签；基于此，可采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别。可见，本发明实施例可将通过第一语音识别模型预测得到的参考类别标签作为训练数据对应的文本数据(即用于获取训练数据的音频数据对应的文本数据)，以基于各个参考类别标签进行模型训练，从而无需标注人员进行人工标注，以通过大量无标注的低成本数据对第一语音识别模型进行预训练，可有效降低模型训练的成本，并可提高语音识别模型的准确率，也就是说，可在保证语音识别模型的准确率的前提下，降低模型训练的成本。并且，语音识别模型为一个神经网络模型，本发明实施例可通过神经网络自聚类的方式生成无监督数据的参考类别标签，使得预测得到的参考类别标签更为准确，以提高语音识别模型的准确率，并可使得语音识别模型收敛的更快更好，从而使得本发明实施例可具有良好的鲁棒性和实际应用能力。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被公开，在附图中：

图1示出了根据本发明示例性实施例的一种模型训练方法的流程示意图；

图2示出了根据本发明示例性实施例的另一种模型训练方法的流程示意图；

图3示出了根据本发明示例性实施例的又一种模型训练方法的流程示意图；

图4示出了根据本发明示例性实施例的再一种模型训练方法的流程示意图；

图5示出了根据本发明示例性实施例的一种模型训练装置的示意性框图；

图6示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

需要说明的是，本发明实施例提供的模型训练方法的执行主体可以是一个或多个电子设备，本发明对此不作限定；其中，电子设备可以是终端(即客户端)或者服务器，那么在执行主体包括多个电子设备，且多个电子设备中包括至少一个终端和至少一个服务器时，本发明实施例提供的模型训练方法可由终端和服务器共同执行。相应的，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端、飞行器，等等。此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算(cloud computing)、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

基于上述描述，本发明实施例提出一种模型训练方法，该模型训练方法可以由上述所提及的电子设备(终端或服务器)执行；或者，该模型训练方法可由终端和服务器共同执行。为了便于阐述，后续均以电子设备执行该模型训练方法为例进行说明；如图1所示，该模型训练方法可包括以下步骤S101-S105：

S101，获取训练数据，以及获取第一语音识别模型，训练数据包括多个语音特征。

其中，语音特征(即语音向量)可以为Fbank(Filter bank，一种频域特征)特征，也可以是MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)特征，等等；本发明对此不作限定。需要说明的是，语音识别模型(如第一语音识别模型和第二语音识别模型等)可以为一个神经网络模型；可选的，语音识别模型可以是基于Transformer(转换器模型，一种基于自注意力机制的深度学习模型)的语音识别模型，也可以是基于Conformer(Convolution-augmented transformer，基于卷积神经网络的转换器模型)的语音识别模型，等等；本发明对此不作限定。其中，Transformer模型或Conformer模型可用于输出语音特征的高层表示特征；可选的，语音识别模型中还可以包括但不限于卷积神经网络或循环神经网络等，本发明对此不作限定。

在本发明实施例中，训练数据的获取方式可以包括但不限于以下几种：

第一种获取方式：电子设备可以获取训练数据的下载链接，并基于该下载链接进行数据下载，得到训练数据集，以将训练数据集中的任一训练数据作为上述训练数据。

第二种获取方式：电子设备可存储有训练数据集，训练数据集包括至少一个训练数据，那么电子设备可从训练数据集中选取出一个训练数据，并将选取出的训练数据作为上述训练数据。

第三种获取方式：语音识别模型包括语音特征提取模块，那么电子设备可获取语音数据(即音频数据)，并调用第一语音识别模型中的语音特征提取模块，对语音数据进行特征提取，以实现对语音数据的语音信号处理，从而将连续的语音数据提取为包括多个语音特征的训练数据，即可得到训练数据。具体的，电子设备可将语音数据提取为T个N维的特征向量(即T帧语音特征)，T和N均为正整数，本发明对T和N的具体取值不作限定。示例性的，电子设备通常可将1秒语音转化为100*80的矩阵，此时T的取值为100，N的取值为80。可选的，若语音识别模型包括语音特征提取模块，那么在迭代过程中，电子设备可通过语音特征提取模块对训练数据进行更新，即对各个语音特征的向量表示进行更新，从而不断提高语音特征的向量表示的精确性。

S102，对训练数据进行特征掩码，得到特征掩码后的训练数据，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果。

在本发明实施例中，电子设备可基于指定掩码字符，对训练数据进行特征掩码，得到特征掩码后的训练数据；在此种情况下，一个掩码特征可包括至少一个指定掩码字符，也就是说，电子设备可将相应语音特征中的元素替换为指定掩码字符。其中，指定掩码字符可以为0，也可以为1等，本发明对此不作限定。

可选的，电子设备可随机将多个语音特征中的至少一个语音特征在时间维度上替换为指定掩码字符，也就是说，电子设备可从多个语音特征中随机确定出至少一个语音特征，并分别对确定出的至少一个语音特征中每个语音特征进行特征掩码，以实现对训练数据的特征掩码，从而得到至少一个语音特征中每个语音特征对应的掩码特征，即得到至少一个掩码特征；或者，电子设备也可确定预设掩码概率和预设时间长度，那么电子设备可从多个音频特征中确定出预设时间长度下的至少一个语音特征，并随机生成一个概率，若生成的概率大于预设掩码概率，则可对预设时间长度下的至少一个语音特征进行特征掩码，若生成的概率小于预设掩码概率，则可重新从多个语音特征中确定出预设时间长度下的至少一个语音特征，直至实现对训练数据的特征掩码，此时电子设备即是采用一定概率将固定时间长度的语音特征全部掩码(即掩盖)，等等。可选的，预设掩码概率和预设时间长度均可以是按照经验设置的，也可以是按照实际需求设置的，本发明对此不作限定。

应当理解的是，多个语音特征中的各个语音特征，与特征掩码后的训练数据中的各个特征一一对应，也就是说，特征掩码后的训练数据中的一个特征与训练数据中的一个语音特征相对应，且特征掩码后的训练数据还包括至少一个非掩码特征，一个非掩码特征是指未被特征掩码的语音特征，至少一个掩码特征中的特征数量与至少一个非掩码特征中的特征数量之和，与训练数据中的特征数量相同。

示例性的，假设训练数据包括语音特征1、语音特征2、语音特征3、语音特征4以及语音特征5，且在对训练数据进行特征掩码时，电子设备对语音特征2和语音特征3进行了特征掩码，从而得到语音特征2对应的掩码特征和语音特征3对应的掩码特征，在此种情况下，特征掩码后的训练数据可以包括语音特征1、语音特征2对应的掩码特征、语音特征3对应的掩码特征、语音特征4以及语音特征5，此时至少一个掩码特征包括语音特征2对应的掩码特征和语音特征3对应的掩码特征，至少一个非掩码特征包括语音特征1、语音特征4以及语音特征5。

S103，调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的参考类别标签。

需要说明的是，语音识别模型还可包括类别预测模块，该类别预测模块可以指的是Softmax(归一化指数函数)分类器；基于此，在调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的参考类别标签时，电子设备可先调用第一语音识别模型对多个语音特征中各个语音特征进行特征提取，以得到各个语音特征的高层表示特征，然后电子设备可调用第一语音识别模型中的类别预测模块，基于各个语音特征的高层表示特征，对训练数据进行类别预测(即对各个语音特征进行类别预测)，得到各个语音特征的参考类别标签(类别标签也可称为特征标签)，如图2所示。其中，图2所示的神经网络模型可以指的是语音识别模型中的高层表示特征提取模块，用于对语音特征进行特征提取，以输出高层表示特征，如Transformer模型或Conformer模型等。

S104，调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签。

可选的，电子设备可调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到特征掩码后的训练数据中各个特征的预测类别标签；然后，电子设备可从特征掩码后的训练数据中各个特征的预测类别标签中，确定出至少一个掩码特征中各个掩码特征的预测类别标签。

S105，采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别。

应当理解的是，电子设备可获取多个训练数据，从而分别采用多个训练数据中的各个训练数据对第一语音识别模型进行模型训练；在此种情况下，模型优化后的第一语音识别模型可以是基于多个训练数据对第一语音识别模型进行模型训练所得到的，也就是说，每轮均可采用多个训练数据进行模型训练，即在一轮模型训练中，需各个训练数据均用于进行模型训练后，才完成一轮模型训练。为了便于阐述，后续均采用一个训练数据进行模型训练为例进行说明。

基于上述描述，本发明实施例还提出一种更为具体的模型训练方法。相应的，该模型训练方法可以由上述所提及的电子设备(终端或服务器)执行；或者，该模型训练方法可由终端和服务器共同执行。为了便于阐述，后续均以电子设备执行该模型训练方法为例进行说明；请参见图3，该模型训练方法可包括以下步骤S301-S307：

S301，获取训练数据，以及获取第一语音识别模型，训练数据包括多个语音特征。

具体的，在获取第一语音识别模型时，电子设备可获取初始语音识别模型、初始类别预测模型以及初始训练数据，初始训练数据包括H个语音特征，H为正整数；其中，初始语音识别模型包括的至少一个模型参数中的每个模型参数均是随机初始化得到的。可选的，至少一个模型参数可以包括但不限于：初始语音识别模型包括的高层表示特征提取模块中的所有模型参数、初始语音识别模型包括的语音特征提取模块中的所有模型参数，以及初始语音识别模型包括的类别预测模块中的所有模型参数，等等；本发明对此不作限定。应当理解的是，初始语音识别模型中除至少一个模型参数以外的模型参数可以是经过预训练所得到的，也可以是根据经验设置的，本发明对此不作限定。需要说明的，初始训练数据可以与上述训练数据相同，也可以与上述训练数据不同，本发明对此不作限定。可选的，初始类别预测模型可以为BEST-RQ(BERT-based Speech pre-Training with Random-projectionQuantizer，基于bert的随机投影量化语音预训练)模型，也可以为基于K-means(K-均值)的深度聚类模型，还可以为基于谱聚类的深度聚类模型，等等；本发明对此不作限定。其中，bert为Bidirectional Encoder Representation from Transformers的缩写，是一种基于Transformer的双向编码器表示。

然后，电子设备可对初始训练数据进行特征掩码，得到特征掩码后的初始训练数据，特征掩码后的初始训练数据包括M个掩码特征，M为正整数，且M小于H；基于此，电子设备可调用初始类别预测模型，对初始训练数据进行类别预测，得到H个语音特征中每个语音特征的参考类别标签，并可调用初始语音识别模型，对特征掩码后的初始训练数据进行类别预测，得到M个掩码特征中每个掩码特征的预测类别标签。进一步的，电子设备可采用M个掩码特征中每个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算初始语音识别模型的初始模型损失值，并按照减小初始模型损失值的方向，优化初始语音识别模型中的模型参数，以基于模型优化后的初始语音识别模型，获取第一语音识别模型。

同理，初始训练数据的数量可以为多个，那么电子设备可采用多个初始训练数据对初始语音识别模型进行模型训练；为了便于阐述，后续均以一个初始训练数据为例进行说明。

进一步的，电子设备还可按照减小初始模型损失值的方向，优化初始类别预测模型中的模型参数，得到模型优化后的初始类别预测模型，从而提高类别预测模型的模型性能，以提高类别预测模型所预测的参考类别标签的准确率，即提高类别预测模型的准确率；基于此，在基于模型优化后的初始语音识别模型，获取第一语音识别模型时，电子设备可基于模型优化后的初始语音识别模型和模型优化后的初始类别预测模型，获取第一语音识别模型。具体的，电子设备可继续基于模型优化后的初始类别预测模型和初始训练数据，对模型优化后的初始语音识别模型进行模型训练，直至满足第一语音收敛条件，以将满足第一语音收敛条件的语音识别模型作为第一语音识别模型。可选的，第一语音收敛条件可以指的是训练次数(即训练轮数)达到第一语音训练次数阈值，也可以指的是连续两次迭代的损失值之间的差值小于第一语音损失差值等，本发明对此不作限定；可选的，第一语音训练次数阈值和第一语音损失差值可以是按照经验设置的，也可以是按照实际需求设置的，本发明对此不作限定。其中，连续两次迭代的损失值之间的差值小于一个语音损失差值的情况，也可称为模型停止收敛的情况。

综上可见，本发明实施例可通过类别预测模型对语音特征进行参考类别标签的预测，以基于参考类别标签实现对初始语音识别模型的模型训练，可有效避免语音识别模型陷入局部最优，且可有效加快收敛速度，并提高语音识别模型的准确率，即提高语音识别模型所预测的类别标签的准确率。

S302，对训练数据进行特征掩码，得到特征掩码后的训练数据，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果。

S303，调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的类别概率，一个语音特征的类别概率包括相应语音特征属于多个类别中每个类别的概率值。

S304，分别对各个语音特征的类别概率进行平滑处理，得到各个语音特征的平滑类别概率。

在本发明实施例中，针对多个语音特征中的任一语音特征，电子设备可从多个语音特征中确定出任一语音特征的Q个相邻语音特征，Q个相邻语音特征中任一相邻语音特征与任一语音特征之间的距离，小于多个语音特征中除Q个相邻语音特征以外的其他语音特征与任一语音特征之间的距离，Q为正整数；然后，电子设备可对Q个相邻语音特征中各个相邻语音特征的类别概率进行加权求和，以实现对任一语音特征的类别概率的平滑处理，得到任一语音特征的平滑类别概率。其中，两个语音特征之间的距离可以指的是两个语音特征在时间维度上的距离；示例性的，假设多个语音特征在时间维度上依次包括语音特征1、语音特征2、语音特征3、语音特征4以及语音特征5，那么语音特征1与语音特征2之间的距离可以为1，语音特征1与语音特征3之间的距离可以为2，以及语音特征1与语音特征5之间的距离可以为4，等等。需要说明的是，在对Q个相邻语音特征中各个相邻语音特征的类别概率进行加权求和时，电子设备可确定各个相邻语音特征对应的权重，并按照各个相邻语音特征对应的权重，对各个相邻语音特征的类别概率进行加权求和；可选的，各个相邻语音特征对应的权重可以相同(此时即为均值运算)，也可以不同(如随机生成各个相邻语音特征对应的权重，或与任一语音特征之间的距离越小的相邻语音特征对应的权重越大等)，本发明对此不作限定。示例性的，以各个相邻语音特征对应的权重相同为例进行说明，假设任一语音特征的各个相邻语音特征的类别概率分别为(0.6,0.2,0.2)、(0.7,0.2,0.1)以及(0.7,0.1,0.2)，那么此时任一语音特征的平滑类别概率可以为(0.67,0.17,0.17)，等等。

在一种具体的实现中，电子设备可确定预设距离阈值，并基于预设距离阈值，从多个语音特征中确定出任一语音特征的Q个相邻语音特征；在此种情况下，电子设备可将多个语音特征中，与任一语音特征之间的距离小于或等于预设距离阈值的语音特征，作为任一语音特征的相邻语音特征，以确定出任一语音特征的Q个相邻语音特征，也就是说，任一语音特征的任一相邻语音特征与任一语音特征之间的距离，小于或等于预设距离阈值。可选的，预设距离阈值可以为1或2等，本发明对此不作限定。

示例性的，假设多个语音特征在时间维度上依次包括语音特征1、语音特征2、语音特征3、语音特征4以及语音特征5，任一语音特征为语音特征3，且预设距离阈值为1，在此种情况下，语音特征1-5与任一语音特征之间的距离分别为2、1、0、1以及2，即语音特征2、语音特征3以及语音特征4与任一语音特征之间的距离小于或等于预设距离阈值，那么电子设备可将语音特征2、语音特征3以及语音特征4均作为任一语音特征的相邻语音特征，即任一语音特征的Q个相邻语音特征可以包括语音特征2、语音特征3以及语音特征4。

另一种实施方式中，电子设备可确定预设数量阈值(即Q的取值)，那么电子设备可基于预设数量阈值，从多个语音特征中确定出任一语音特征的Q个相邻语音特征；在此种情况下，电子设备可将距离任一语音特征最近的前预设数量阈值个(即前Q个)语音特征，作为任一语音特征的相邻语音特征，从而确定出任一语音特征的Q个相邻语音特征。可选的，预设数量阈值可以是按照经验设置的，也可以是按照实际需求设置的，本发明对此不作限定。

示例性的，假设预设数量阈值为3，多个语音特征在时间维度上依次包括语音特征1、语音特征2、语音特征3、语音特征4以及语音特征5；在此种情况下，当任一语音特征为语音特征1时，距离任一语音特征最近的前3个语音特征为语音特征1、语音特征2以及语音特征3，则电子设备可将语音特征1、语音特征2以及语音特征3作为任一语音特征的相邻语音特征；当任一语音特征为语音特征4时，距离任一语音特征最近的前3个语音特征为语音特征3、语音特征4以及语音特征5，那么电子设备可将语音特征3、语音特征4以及语音特征5作为任一语音特征的相邻语音特征。

S305，基于各个语音特征的平滑类别概率，分别确定各个语音特征的参考类别标签。

具体的，针对多个语音特征中的任一语音特征，电子设备可将任一语音特征的平滑类别概率中最大概率值所指示的类别标签作为任一语音特征的参考类别标签。

S306，调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签。

S307，采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别。

具体的，基于模型优化后的第一语音识别模型，确定第二语音识别模型的具体实施方式可以包括步骤s11-s14：

s11，确定训练数据对应的掩码训练数据，掩码训练数据包括P个掩码特征，且掩码训练数据中的特征与训练数据中的特征一一对应，P为正整数。

其中，掩码训练数据可以与特征掩码后的训练数据相同，也可以与特征掩码后的训练数据不同，也就是说，电子设备可将特征掩码后的训练数据作为掩码训练数据，也可再次对训练数据进行特征掩码，从而得到掩码训练数据，等等；本发明对此不作限定。

s12，调用模型优化后的第一语音识别模型，对掩码训练数据进行类别预测，得到P个掩码特征中每个掩码特征的预测类别标签。

s13，从各个语音特征的参考类别标签中，确定出P个掩码特征中每个掩码特征对应语音特征的参考类别标签。

s14，采用P个掩码特征中每个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算模型优化后的第一语音识别模型的第一模型损失值，并按照减小第一模型损失值的方向，优化模型优化后的第一语音识别模型中的模型参数，得到第三语音识别模型，以基于第三语音识别模型，确定第二语音识别模型。

需要说明的是，电子设备可迭代执行步骤s11-s14，以继续对第三语音识别模型进行模型训练，也就是说，电子设备可调用第三语音识别模型对当前的掩码训练数据进行类别预测，以基于当前的掩码训练数据中掩码特征的预测类别标签对第三语音识别模型进行模型训练，直至满足第二语音收敛条件，以将满足第二语音收敛条件的语音识别模型作为第四语音识别模型，从而可基于第四语音识别模型，确定第二语音识别模型。可见，在基于第一语音识别模型获取第四语音识别模型的过程中，各个语音特征的参考类别标签可不发生改变，从而减小计算量，以提高收敛速度，减小模型训练的时间。

可选的，第二语音收敛条件可以指的是训练次数达到第二语音训练次数阈值，也可以指的是连续两次迭代的损失值之间的差值小于第二语音损失差值等，本发明对此不作限定；可选的，第二语音训练次数阈值和第二语音损失差值可以是按照经验设置的，也可以是按照实际需求设置的，本发明对此不作限定。

进一步的，在基于第四语音识别模型，确定第二语音识别模型时，电子设备可调用第四语音识别模型，对训练数据进行类别预测，以更新各个语音特征的参考类别标签，即电子设备可通过第四语音识别模型重新生成各个语音特征的参考类别标签，然后基于更新后的各个语音特征的参考类别标签，继续对第四语音识别模型进行模型训练，直至满足第三语音收敛条件，并将满足第三语音收敛条件的语音识别模型作为预训练语音识别模型，从而基于预训练语音识别模型，确定第二语音识别模型。应当理解的是，在获取预训练语音识别模型的过程中，每满足一次第二语音收敛条件，电子设备则可调用当前系统时间下的语音识别模型对各个语音特征的参考类别标签进行更新，以继续进行模型训练直至满足第三语音收敛条件。示例性的，如图4所示，每当执行步骤2以达到第二语音收敛条件时(如每执行第二语音训练次数阈值次迭代或连续两次迭代的损失值之间的差值小于第二语音损失差值时)，电子设备可使用步骤2中训练好的模型作为步骤1中实现标签生成的模型，以重新生成各个语音特征的参考类别标签，然后继续对语音识别模型进行模型训练(即继续执行步骤2)，也就是说，电子设备可重复执行1和2直至满足第三语音收敛条件。在本发明实施例中，可使用中间训练好的语音识别模型(即满足第二语音收敛条件时的语音识别模型)，对参考类别标签进行更新，可有效提高聚类效果，即提高参考类别标签的准确率，从而加快语音识别模型的收敛速度。

可选的，第三语音收敛条件可以指的是训练次数达到第三语音训练次数阈值，也可以指的是连续两次迭代的损失值之间的差值小于第三语音损失差值等，本发明对此不作限定；可选的，第三语音训练次数阈值和第三语音损失差值可以是按照经验设置的，也可以是按照实际需求设置的，本发明对此不作限定。

相应的，在基于模型优化后的第一语音识别模型，确定第二语音识别模型时，电子设备可获取目标训练数据，目标训练数据包括音频数据和音频数据对应的文本数据，并基于模型优化后的第一语音识别模型，确定预训练语音识别模型，预训练语音识别模型是完成无监督训练的语音识别模型，以及调用预训练语音识别模型，对音频数据进行语音识别，得到语音识别结果；然后，采用语音识别结果和文本数据之间的差异，计算预训练语音识别模型的第二模型损失值，并按照减小第二模型损失值的方向，优化预训练语音识别模型中的模型参数，以基于模型优化后的预训练语音识别模型，确定第二语音识别模型。可见，电子设备可先基于模型优化后的第一语音识别模型，确定预训练语音识别模型，然后继续对预训练语音识别模型进行模型训练，从而得到模型优化后的预训练语音识别模型，以基于模型优化后的预训练语音识别模型，确定第二语音识别模型；如图4所示，步骤4中的识别模型训练即是指对预训练语音识别模型的有监督训练，从而得到第二语音识别模型。需要说明的是，目标训练数据为有监督训练数据，且通过目标训练数据对预训练语音识别模型进行模型训练的过程为有监督训练过程。

本发明实施例可在获取到训练数据，以及获取到第一语音识别模型后，对训练数据进行特征掩码，得到特征掩码后的训练数据，训练数据包括多个语音特征，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果，然后，可调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的类别概率，一个语音特征的类别概率包括相应语音特征属于多个类别中每个类别的概率值；并分别对各个语音特征的类别概率进行平滑处理，得到各个语音特征的平滑类别概率，从而基于各个语音特征的平滑类别概率，分别确定各个语音特征的参考类别标签。进一步的，可调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签；从而采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别。可见，本发明实施例可通过语音识别模型自聚类的方式生成无监督训练过程的参考类别标签，且具有更好的聚类效果，使得参考类别标签更为准确，可使无监督训练的语音识别模型收敛的更快更好，以更好地进行有监督训练，可具有良好的鲁棒性和实际应用能力。另外，在参考类别标签的生成过程中，进行了时间维度的平滑处理(即平滑操作)，使得时间相邻的语音特征类别相似，更符合语音的特性。

基于上述模型训练方法的相关实施例的描述，本发明实施例还提出了一种模型训练装置，该模型训练装置可以是运行于电子设备中的一个计算机程序(包括程序代码)；如图5所示，该模型训练装置可包括获取单元501和处理单元502。该模型训练装置可以执行图1或图3所示的模型训练方法，即该模型训练装置可以运行上述单元：

获取单元501，用于获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；

处理单元502，用于对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；

所述处理单元502，还用于调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；

所述处理单元502，还用于调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；

所述处理单元502，还用于采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别。

在一种实施方式中，获取单元501在获取第一语音识别模型时，可具体用于：

获取初始语音识别模型、初始类别预测模型以及初始训练数据，所述初始训练数据包括H个语音特征，H为正整数；

对所述初始训练数据进行特征掩码，得到特征掩码后的初始训练数据，所述特征掩码后的初始训练数据包括M个掩码特征，M为正整数；

调用所述初始类别预测模型，对所述初始训练数据进行类别预测，得到所述H个语音特征中每个语音特征的参考类别标签；

调用所述初始语音识别模型，对所述特征掩码后的初始训练数据进行类别预测，得到所述M个掩码特征中每个掩码特征的预测类别标签；

采用所述M个掩码特征中每个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述初始语音识别模型的初始模型损失值，并按照减小所述初始模型损失值的方向，优化所述初始语音识别模型中的模型参数，以基于模型优化后的初始语音识别模型，获取第一语音识别模型。

另一种实施方式中，处理单元502，还可用于：

按照减小所述初始模型损失值的方向，优化所述初始类别预测模型中的模型参数，得到模型优化后的初始类别预测模型；

获取单元501在基于模型优化后的初始语音识别模型，获取第一语音识别模型时，可具体用于：

基于模型优化后的初始语音识别模型和所述模型优化后的初始类别预测模型，获取第一语音识别模型。

另一种实施方式中，处理单元502在调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签时，可具体用于：

调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的类别概率，一个语音特征的类别概率包括相应语音特征属于多个类别中每个类别的概率值；

分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率；

基于所述各个语音特征的平滑类别概率，分别确定所述各个语音特征的参考类别标签。

另一种实施方式中，处理单元502在分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率时，可具体用于：

针对所述多个语音特征中的任一语音特征，从所述多个语音特征中确定出所述任一语音特征的Q个相邻语音特征，所述Q个相邻语音特征中任一相邻语音特征与所述任一语音特征之间的距离，小于所述多个语音特征中除所述Q个相邻语音特征以外的其他语音特征与所述任一语音特征之间的距离，Q为正整数；

对所述Q个相邻语音特征中各个相邻语音特征的类别概率进行加权求和，以实现对所述任一语音特征的类别概率的平滑处理，得到所述任一语音特征的平滑类别概率。

另一种实施方式中，处理单元502在基于模型优化后的第一语音识别模型，确定第二语音识别模型时，可具体用于：

确定所述训练数据对应的掩码训练数据，所述掩码训练数据包括P个掩码特征，且所述掩码训练数据中的特征与所述训练数据中的特征一一对应，P为正整数；

调用模型优化后的第一语音识别模型，对所述掩码训练数据进行类别预测，得到所述P个掩码特征中每个掩码特征的预测类别标签；

从所述各个语音特征的参考类别标签中，确定出所述P个掩码特征中每个掩码特征对应语音特征的参考类别标签；

采用所述P个掩码特征中每个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述模型优化后的第一语音识别模型的第一模型损失值，并按照减小所述第一模型损失值的方向，优化所述模型优化后的第一语音识别模型中的模型参数，得到第三语音识别模型，以基于所述第三语音识别模型，确定第二语音识别模型。

获取目标训练数据，所述目标训练数据包括音频数据和所述音频数据对应的文本数据；

基于模型优化后的第一语音识别模型，确定预训练语音识别模型，所述预训练语音识别模型是完成无监督训练的语音识别模型；

调用所述预训练语音识别模型，对所述音频数据进行语音识别，得到语音识别结果；

采用所述语音识别结果和所述文本数据之间的差异，计算所述预训练语音识别模型的第二模型损失值，并按照减小所述第二模型损失值的方向，优化所述预训练语音识别模型中的模型参数，以基于模型优化后的预训练语音识别模型，确定第二语音识别模型。

根据本发明的一个实施例，图1或图3所示的方法所涉及的各个步骤均可由图5所示的模型训练装置中的各个单元来执行的。例如，图1中所示的步骤S101可由图5中所示的获取单元501执行，步骤S102-S105均可由图5中所示的处理单元502执行。又如，图3中所示的步骤S301可由图5中所示的获取单元501执行，步骤S302-S307均可由图5中所示的处理单元502执行，等等。

根据本发明的另一个实施例，图5所示的模型训练装置中的各个单元均可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，任一模型训练装置也可以包括其他单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用电子设备上运行能够执行如图1或图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5中所示的模型训练装置，以及来实现本发明实施例的模型训练方法。所述计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述电子设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本发明实施例的方法。

本发明示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。

本发明示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。

参考图6，现将描述可以作为本发明的服务器或客户端的电子设备600的结构框图，其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型训练装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本发明使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

并且，应理解的是，以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述基于模型优化后的初始语音识别模型，获取第一语音识别模型，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签，包括：

5.根据权利要求4所述的方法，其特征在于，所述分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述基于模型优化后的第一语音识别模型，确定第二语音识别模型，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述基于模型优化后的第一语音识别模型，确定第二语音识别模型，包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。