CN113689860A

CN113689860A - 语音识别模型的训练、语音识别方法、装置及设备

Info

Publication number: CN113689860A
Application number: CN202110865009.9A
Authority: CN
Inventors: 韩雨; 武卫东; 李健; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-23

Abstract

本申请实施例提供了一种语音识别模型的训练方法、语音识别方法、装置及设备。该方法包括：重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，训练过程包括：将小语种音频数据输入至第一语音识别模型，得到第一文本数据，当第一文本数据的置信度不满足停止训练条件时，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据，将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型；将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。本申请实现了高效训练小语种语音识别模型。

Description

语音识别模型的训练、语音识别方法、装置及设备

技术领域

本申请涉及语音技术领域，特别是涉及一种语音识别模型的训练、语音识别方法、装置及设备。

背景技术

众所周知，模型训练离不开一定数量级的训练数据。训练数据越多，训练得到的模型的效果越好。小语种语音识别模型亦不例外。小语种语音识别模型的训练数据通常需要包括小语种音频数据以及对应的标注数据，该标注数据为小语种音频数据对应的文本数据。

但是，由于对应有标注数据的小语种音频数据的数据量较少，且采用人工对小语种音频数据进行标注的成本较高。因此，小语种语音识别模型的训练较为困难，亟需一种高效地小语种语音识别模型的训练方法。

发明内容

本申请实施例的目的在于提供一种语音识别模型的训练、语音识别方法、装置及设备，以实现高效地训练小语种语音识别模型。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种语音识别模型的训练方法，所述方法包括：

重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，所述训练过程包括：

将小语种音频数据输入至第一语音识别模型，得到第一文本数据，所述第一语音识别模型是基于第一样本数据训练得到，所述第一样本数据包括小语种音频数据以及对应的第二文本数据，

当所述第一文本数据的置信度不满足停止训练条件时，根据所述第一文本数据、对应的小语种音频数据以及所述第一样本数据，生成第二样本数据，

将所述第二样本数据输入至所述第一语音识别模型，对所述第一语音识别模型进行训练，生成第二语音识别模型，并将所述第二语音识别模型作为所述第一语音识别模型；

将所述第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。

可选的，所述第一文本数据的置信度满足停止训练条件，包括：

当前训练过程中所述第一文本数据的置信度相较于前一训练过程中第一文本数据的置信度的变化量低于变量阈值；

或者，所述第一文本数据的置信度大于第一置信度阈值。

可选的，所述小语种音频数据包括多个音频片段，所述第一文本数据包括与所述多个音频片段分别对应的文本数据，所述根据所述第一文本数据、对应的小语种音频数据以及所述第一样本数据，生成第二样本数据，包括：

从各所述文本数据中，筛选得到置信度满足设定置信度要求的目标文本数据；

根据所述目标文本数据、对应的小语种音频数据以及所述第一样本数据，生成第二样本数据。

可选的，所述目标文本数据的置信度大于第二置信度阈值，或者，所述目标文本数据包括置信度由高到低排序的各所述第一文本数据中，前指定数量个第一文本数据。

可选的，在所述将所述第二样本数据输入至所述第一语音识别模型之前，所述方法还包括：

提取所述第二样本数据中小语种音频数据的特征数据；

对所述特征数据进行增强处理，得到处理后的特征数据；

更新所述第二样本数据，更新后的第二样本数据包括所述处理后的特征数据、对应的第一文本数据以及对应的第二文本数据。

可选的，所述增强处理包括速度扰动处理和/或SpecAugment处理。

在本申请实施的第二方面，还提供了一种语音识别方法，所述方法包括：

获取待识别的小语种音频数据；

将所述小语种音频数据输入目标语音识别模型，得到文本数据，其中，所述目标语音识别模型采用如权利要求1至6任一项所述的语音识别模型的训练方法训练得到。

在本申请实施的第三方面，还提供了一种语音识别模型的训练装置，所述装置包括：

训练模块，用于重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，所述训练过程包括：

确定模块，用于将所述第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。

在本申请实施的第四方面，还提供了一种语音识别装置，所述装置包括：

获取模块，用于获取待识别的小语种音频数据；

识别模块，用于将所述小语种音频数据输入目标语音识别模型，得到文本数据，其中，所述目标语音识别模型采用如权利要求1至6任一项所述的语音识别模型的训练方法训练得到。

在本申请实施的第五方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的语音识别模型的训练方法，或者使得计算机执行上述任一所述的语音识别方法。

在本申请实施的第六方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的语音识别模型的训练方法，或者使得计算机执行上述任一所述的语音识别方法。

本申请实施例提供的语音识别模型的训练方法、语音识别方法、装置及设备，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后，通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音识别模型的训练方法的流程图。

图2为本申请实施例提供的一种小语种音频数据处理方法的流程图。

图3为本申请实施例提供的另一种语音识别模型的训练方法的流程图。

图4为本申请实施例提供的一种语音识别方法的流程图。

图5为本申请实施例提供的一种语音识别模型的训练装置的框图。

图6为本申请实施例提供的一种语音识别装置的框图。

图7为本申请实施例提供的一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参考图1，其示出了本申请实施例提供的一种语音识别模型的训练方法的流程示意图。该训练方法可以由诸如一台服务器、多台服务器构成的服务器集群、或者终端等电子设备执行。需要说明的是，本申请实施例涉及的小语种可以指的是阿拉伯语、西班牙语、意大利语、葡萄牙语等。本申请实施例以小语种为阿拉伯语为例进行说明。如图1所示，所述方法包括：

步骤101、重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，训练过程包括：将小语种音频数据输入至第一语音识别模型，得到第一文本数据，第一语音识别模型是基于第一样本数据训练得到，第一样本数据包括小语种音频数据以及对应的第二文本数据，当第一文本数据的置信度不满足停止训练条件时，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据，将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。

本申请实施例中，语音识别模型的训练过程包括以下步骤1011至步骤1014。

步骤1011、将小语种音频数据输入至第一语音识别模型，得到第一文本数据。

本申请实施例中，小语种音频数据可以包括至少一个音频片段。且各音频片段可以属于同一语种或者不同语种。例如，小语种音频数据可以包括阿拉伯语的歌唱片段。其中，小语种音频数据可以通过多种方式获取。可选地，电子设备可以从网络上爬取小语种音频数据。或者，电子设备可以通过录音设备采集小语种音频数据。需要说的是，电子设备在获取到小语种音频数据后，可以对该小语种音频数据进行过滤、格式化等预处理，以滤除小语种音频数据中的噪声，使得小语种音频数据符合第一语音识别模型的可识别格式。从而使得该小语种音频数据具有高可用性。

电子设备将小语种音频数据输入至第一语音识别模型，以使得第一语音识别模型对小语种音频数据进行解码，得到第一文本数据，确定第一文本数据的置信度。该该置信度可以用于指示小语种音频数据为正确翻译结果的概率。不难理解的是，在小语种音频数据包括多个音频片段时，将小语种音频数据输入至第一语音识别模型后，可以得到与不同音频片段对应的文本数据，也即是第一文本数据包括与不同的音频片段对应的文本数据。

本申请实施例中，第一语音识别模型可以是预先训练得到的模型。则在执行步骤101之前，所述方法还包括：获取第一样本数据。将第一样本数据输入至基础网络训练模型对基础网络训练模型进行训练。将训练得到的基础网络训练模型作为第一语音识别模型。其中，该第一样本数据包括：小语种音频数据以及对应的第二文本数据，该第二文本数据为对应的小语种音频数据的标签(又称标注信息、标注数据)。

可选地，在将第一样本数据输入至基础网络训练模型对基础网络训练模型进行训练之前，电子设备还可以对该第一训练数据中，小语种音频数据进行特征提取，并将提取后的语音特征数据进行速度扰动和/或SpecAugment处理，得到增强后的语音特征数据。将增强后的语音特征数据以及对应的第二文本数据作为第一样本数据。其中，速度扰动指的是一种加快或者减慢原始音频的速率的数据增强方式。一般采用速度扰动处理后使得扰动后音频长度可以增加至原始的0.9倍或1.1倍。Specaugment指的是一种在原始音频的语谱图上进行遮盖、掩蔽等操作的数据增强方式。

在一种实现场景中，电子设备可以采集100小时的阿拉伯语音频数据以及对应的第二文本数据作为第一样本训练数据。电子设备对100小时的阿拉伯语音频数据进行语音特征数据提取后，将提取到的语音特征数据进行速度扰动和SpecAugment处理等数据增强处理，得到增强后的语音特征数据。采用增强后的语音特征数据以及对应的第二文本数据作为第一样本数据，对基础网络训练模型进行训练，得到第一语音识别模型。

步骤1012、判断第一文本数据的置信度是否满足停止训练条件。若否，执行步骤1013；若是，停止执行训练过程。

本申请实施例中，电子设备可以在得到第一文本训练数据后，确定第一文本训练数据的置信度。以判断第一文本数据的置信度是否满足停止训练条件。当第一文本数据的置信度不满足停止训练条件时，表明第一文本数据的准确性不高。当第一文本数据的置信度满足停止训练条件时，表明第一文本数据的准确性较高，此时可以停止训练过程。该第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，即为目标语音识别模型。

可选地，第一文本数据的置信度满足停止训练条件的可以包括：当前训练过程中第一文本数据的置信度相较于前一训练过程中第一文本数据的置信度的变化量低于变量阈值。或者，第一文本数据的置信度大于第一置信度阈值。需要说明的是，在当前训练过程为电子设备执行的首次训练过程时，可以认为该当前训练过程的前一训练过程中第一文本数据的置信度为0。则当前过程中第一文本数据的置信度相较于前一训练过程中第一文本数据的置信度的变化量为当前过程中第一文本数据的置信度。

在一种可选地实现方式中，在输入第一语音识别模型的小语种音频数据包括多个音频片段的情况下，第一文本数据包括各音频片段对应的多个文本数据。则第一文本数据的置信度可以指的是各文本数据的置信度，或者，第一文本数据的置信度可以指的是基于各文本数据的置信度确定的置信度。例如，第一文本数据的置信度可以为各文本数据的置信度的平均值。或者，第一文本数据的置信度可以为各文本数据段的置信度之和等。

步骤1013、电子设备可以根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。

当第一文本数据的置信度不满足停止训练条件时，表明第一文本数据的准确性不高，则电子设备可以根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。也即是，电子设备可以将第一样本数据、对应的小语种音频数据与原第一样本数据混合，生成第二样本数据，从而利用第二样本数据对第一语音识别模型进行再次训练。

在一种可选地实现方式中，电子设备可以直接将第一文本数据、该第一文本数据对应的输入至第一语音识别模型的小语种音频数据，以及第一样本数据中包括的小语种音频数据和对应的第二文本数据，作为第二样本数据。

在另一种可选地实现方式中，在输入第一语音识别模型的小语种音频数据包括多个音频片段的情况下，第一文本数据包括各音频片段对应的多个文本数据。电子设备根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据的过程可以包括：电子设备从各文本数据中，筛选得到置信度满足设定置信度要求的目标文本数据。根据目标文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。其中，目标文本数据的置信度大于第二置信度阈值，或者，目标文本数据包括置信度由高到低排序的各第一文本数据中，前指定数量个第一文本数据。

示例的，电子设备可以获取各文本数据的置信度，将置信度大于第二置信度阈值的文本数据作为目标文本数据。将目标文件数据、目标文件数据对应的输入至第一语音训练模型的小语种音频数据以及第一样本数据包括的小语种音频数据以及对应的第二文本数据，作为第二样本数据。

步骤1014、将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。执行步骤1011。

本申请实施例中，电子设备将第二样本数据输入至第一语音模型，以对第一语音识别模型进行再次训练，得到第二语音识别模型。并将该第二语音识别模型作为第一语音识别模型。从而重复执行步骤1011将小语种音频数据输入至第一语音识别模型，得到第一文本数据。该重复输入至第一语音识别模型的小语种音频数据可以是步骤1011获取的小语种音频数据。或者也可以是电子设备重新获取的不同的小语种音频数据。

步骤102、将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。

本申请实施例中，电子设备在判断第一文本数据的置信度满足停止训练条件时，第一文本数据的准确性不高，也说明用于生成第一文本数据的第一语音模型的准确性较高。则停止执行训练过程，将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。

本申请实施例中，如图2所示，电子设备在将第二样本数据输入至第一语音识别模型之前，方法还包括：

步骤201、提取第二样本数据中小语种音频数据的特征数据。

可选的，电子设备可以将第二样本数据中小语种音频数据输入至语音特征提取模型，得到该小语种音频数据的特征数据。其中，特征数据可以用于表征语音数据的参数以及参数的属性值。示例的，语音特征提取模型是基于样本语音数据无监督训练得到的。语音提取模型用于将语音数据编码得到隐层特征，并将隐层特征进行非线性空间映射，得到语音的特征数据。

步骤202、对特征数据进行增强处理，得到处理后的特征数据。

本申请实施例中，电子设备可以对特征数据进行速度扰动处理和/或SpecAugment处理等增强处理，得到处理后的特征数据。其中，速度扰动指的是一种加快或者减慢原始音频的速率的数据增强方式。一般采用速度扰动处理后使得扰动后音频长度可以增加至原始的0.9倍或1.1倍。Specaugment指的是一种在原始音频的语谱图上进行遮盖、掩蔽等操作的数据增强方式。

步骤203、更新第二样本数据，更新后的第二样本数据包括处理后的特征数据、对应的第一文本数据以及对应的第二文本数据。

本申请实施例中，电子设备将处理后的特征数据、对应的第一文本数据以及对应的第二文本数据更新为第二样本数据。并采用更新后的第二样本数据对第一语音识别模型进行再次训练。这样，通过第二样本数据中小语种音频数据进行特征数据提取以及增强处理，进一步丰富了用于训练第一语音识别模型的样本数量。进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

需要说明的是，本申请实施例提供的语音识别模型的训练方法中步骤的先后顺序可以适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

综上所述，本申请实施例提供的语音识别模型的训练方法，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后，通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

示例的，请参考图3，本申请实施例以小语种为阿拉伯语为例，对语音识别模型的训练方法进行进一步说明。如图3所示，所述方法包括：

步骤301、获取第一样本数据。第一样本数据包括100小时的阿拉伯语音频数据以及对应的标注数据，其中，100小时的阿拉伯语音频数据包括多个音频片段。

本申请实施例中，标注数据指的是音频片段对应的第二文本数据。

步骤302、提取阿拉伯语音频数据的特征数据，对提取后的特征数据进行数据增强处理，得到处理后的特征数据。

步骤302的解释和实现方式可以参考前述步骤201至步骤203的解释和实现方式，本申请实施例对此不做赘述。

步骤303、采用处理后的特征数据以及对应的标注数据，训练基础网络训练模型0.md1。

其中，将处理后的特征数据以及对应的标注数据作为第一样本数据，并将该第一样本数据输入至基础网络训练模型，训练得到第一语音识别模型0.md1。

步骤304、获取阿拉伯音频数据，对获取的阿拉伯音频数据进行预处理，得到预处理后的阿拉伯音频数据。预处理包括过滤以及格式化。

本申请实施例中，电子设备可以对阿拉伯音频数据进行过滤、格式化等预处理，以滤除小语种音频数据中的噪声，使得小语种音频数据符合第一语音识别模型的可识别格式。从而使得该小语种音频数据具有高可用性。

步骤305、提取阿拉伯音频数据的特征数据，并对特征数据进行增强处理，得到处理后的特征数据。

步骤305的解释和实现方式可以参考前述步骤201至步骤203的解释和实现方式，本申请实施例对此不做赘述。

步骤306、将处理后的特征数据输入至第一语音识别模型0.md1进行语音识别，得到第一文本数据，以及确定第一文本数据的置信度。其中，第一文本数据包括各音频片段分别对应的文本数据。

电子设备将处理后的特征数据输入至第一语音识别模型0.md1进行语音识别，得到第一文本数据，也即是将处理后的特征数据输入至第一语音识别模型0.md1进行解码，得到阿拉伯音频数据对应的解码结果，即第一文本数据。步骤306的解释和实现方式可以参考前述步骤1011的解释和实现方式，本申请实施例对此不做赘述。

步骤307、将各文本数据中，置信度大于第一置信度阈值的文本数据、该文本数据对应的音频片段，以及100小时的阿拉伯语音频数据以及对应的标注数据，作为第二样本数据。

步骤307的解释和实现方式可以参考前述步骤1013的解释和实现方式，本申请实施例对此不做赘述。

步骤308、将第二样本数据输入至第一语音识别模型0.md1，对第一语音识别模型进行训练，生成第二语音识别模型1.md1。

步骤308的解释和实现方式可以参考前述步骤1014的解释和实现方式，本申请实施例对此不做赘述。

步骤309、将对阿拉伯音频数据依次进行预处理、特征数据提取以及增强处理后的数据，输入至第二语音识别模型1.md1，得到第三文本数据，以及确定第三文本数据的置信度。其中，第三文本数据包括各音频片段分别对应的文本数据。

本申请实施例中，电子设备可以将前述步骤305处理后的特征数据再次输入第二语音识别模型1.md1，得到对应的第三文本数据以及确定第三文本数据的置信度。

步骤310、判断第三文本数据的置信度相较于第一文本数据的置信度的变化量是否低于第二置信度阈值。若否，针对第二语音识别模型1.md1返回执行步骤307。若是，执行步骤311。

步骤308的解释和实现方式可以参考前述步骤1012的解释和实现方式，本申请实施例对此不做赘述。

步骤311、将第二语音识别模型1.md1作为目标语音识别模型。

本申请实施例中，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后。通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

请参考图4，其示出了本申请实施例提供的一种语音识别方法的流程图。该语音识别方法可以由诸如一台服务器、由多台服务器构成的服务器集群、或者终端等电子设备执行。如图4所示，方法包括：

步骤401、获取待识别的小语种音频数据。

本申请实施例中，可以采用电子设备携带的录音设备采集待识别的小语种音频数据。

步骤402、将小语种音频数据输入目标语音识别模型，得到文本数据。其中，目标语音识别模型采用本申请任一实施例提供的语音识别模型的训练方法训练得到。

综上所述，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后。通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

请参考图5，其示出了本申请实施例提供的一种语音识别模型的训练装置。如图5所示，装置包括：

训练模块501，用于重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，训练过程包括：

将小语种音频数据输入至第一语音识别模型，得到第一文本数据，第一语音识别模型是基于第一样本数据训练得到，第一样本数据包括小语种音频数据以及对应的第二文本数据，

当第一文本数据的置信度不满足停止训练条件时，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据，

将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。

确定模块502，用于将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。

可选的，第一文本数据的置信度满足停止训练条件，包括：

当前训练过程中第一文本数据的置信度相较于前一训练过程中第一文本数据的置信度的变化量低于变量阈值；

或者，第一文本数据的置信度大于第一置信度阈值。

可选的，小语种音频数据包括多个音频片段，第一文本数据包括与多个音频片段分别对应的文本数据，训练模块501，还用于：

从各文本数据中，筛选得到置信度满足设定置信度要求的目标文本数据；

根据目标文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。

可选的，目标文本数据的置信度大于第二置信度阈值，或者，目标文本数据包括置信度由高到低排序的各第一文本数据中，前指定数量个第一文本数据。

可选的，装置还包括：

提取模块，用于提取第二样本数据中小语种音频数据的特征数据。

增强处理模块，用于对特征数据进行增强处理，得到处理后的特征数据。

更新模块，用于更新第二样本数据，更新后的第二样本数据包括处理后的特征数据、对应的第一文本数据以及对应的第二文本数据。

可选的，增强处理包括速度扰动处理和/或SpecAugment处理。

综上所述，本申请实施例提供的语音识别模型的训练装置，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后。通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

请参考图6，其示出了本申请实施例提供的一种语音识别装置的框图。如图6所示，装置包括：

获取模块601，用于获取待识别的小语种音频数据。

识别模块602，用于将小语种音频数据输入目标语音识别模型，得到文本数据，其中，目标语音识别模型采用如权利要求1至6任一项的语音识别模型的训练方法训练得到。

综上所述，本申请实施例提供的语音识别装置，在采用包括小语种音频数据以及对应的第二文本数据的第一样本数据训练得到第一语音识别模型后。通过将小语种音频数据输入至第一语音识别模型，得到第一文本数据。从而在第一文本数据的置信度不满足停止训练条件的情况下，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型。重复对第一语音识别模型执行将小语种音频数据输入至第一语音识别模型，得到第一文本数据，并在第一文本数据的置信度不满足停止训练条件的情况下，继续执行根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据。将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型。直至第一文本数据的置信度满足停止训练条件。并将第一文本数据的置信度满足停止训练条件时得到的第一语音识别模型，作为目标语音识别模型。该技术方案中，循环将第一文本数据作为输入至第一语音识别模型的小语种音频模型的伪标签，丰富了具有标注数据的小语种音频数据的数据量，进而提高了小语种语音识别模型的训练效率，提升了训练得到的小语种语音识别模型的效果。

本申请实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现本申请实施例提供的方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音识别模型的训练，或者，使得计算机执行上述实施例中任一所述的语音识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音识别模型的训练，或者，使得计算机执行上述实施例中任一所述的语音识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一文本数据的置信度满足停止训练条件，包括：

或者，所述第一文本数据的置信度大于第一置信度阈值。

3.根据权利要求1所述的方法，其特征在于，所述小语种音频数据包括多个音频片段，所述第一文本数据包括与所述多个音频片段分别对应的文本数据，所述根据所述第一文本数据、对应的小语种音频数据以及所述第一样本数据，生成第二样本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标文本数据的置信度大于第二置信度阈值，或者，所述目标文本数据包括置信度由高到低排序的各所述第一文本数据中，前指定数量个第一文本数据。

5.根据权利要求1所述的方法，其特征在于，在所述将所述第二样本数据输入至所述第一语音识别模型之前，所述方法还包括：

提取所述第二样本数据中小语种音频数据的特征数据；

对所述特征数据进行增强处理，得到处理后的特征数据；

6.根据权利要求5所述的方法，其特征在于，所述增强处理包括速度扰动处理和/或SpecAugment处理。

7.一种语音识别方法，其特征在于，所述方法包括：

获取待识别的小语种音频数据；

8.一种语音识别模型的训练装置，其特征在于，所述装置包括：

9.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的小语种音频数据；

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于执行所述指令，以实现如权利要求1至6任一所述方法的步骤，或者，实现如权利要求7所述方法的步骤。