CN113724700B

CN113724700B - 语种识别、语种识别模型训练方法及装置

Info

Publication number: CN113724700B
Application number: CN202111223156.2A
Authority: CN
Inventors: 杨军; 方磊; 张梦; 施志强; 张胡; 方四安; 柳林
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-08-12
Anticipated expiration: 2041-10-20
Also published as: CN113724700A

Abstract

本发明提供一种语种识别、语种识别模型训练方法及装置，所述识别方法包括：将待识别语音数据输入至语种识别模型，得到语种识别模型输出的语种识别结果；其中，语种识别模型包括语种特征提取层和语种分类层，语种识别模型是基于如下过程训练得到的：对语种特征提取层进行第一训练；固定第一训练完成后语种特征提取层的参数，基于均衡样本集对语种分类层进行第二训练，得到训练完成的语种识别模型，均衡样本集中各语种的样本语音的数量规模一致。本发明提供的语种识别、语种识别模型训练方法及装置，能够在语种分布不均衡的场景下，准确进行语种识别。

Description

语种识别、语种识别模型训练方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语种识别、语种识别模型训练方法及装置。

背景技术

语种识别是指机器根据输入的语音数据，自动判断该语音数据所属的语言种类，例如汉语、英语、法语或日语等。

目前，多基于因子分析的TV(Total variability)语种识别系统对待识别的语音数据进行语种识别。然而，该方法应用于语种数据分布不均衡的场景下时，如在少数类语种的数据分布比例与多数类语种的数据分布比例相差较大时，语种识别精度较低。

发明内容

本发明提供一种语种识别、语种识别模型训练方法及装置，用以解决现有技术中语种分布不均衡时，语种识别精度较低的缺陷。

本发明提供一种语种识别方法，包括：

确定待识别语音数据；

将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；

其中，所述语种识别模型包括语种特征提取层和语种分类层，所述语种识别模型是基于如下过程训练得到的：

对所述语种特征提取层进行第一训练；

固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

根据本发明提供的一种语种识别方法，所述第一训练以最大化不同语种的样本语音的语种特征之间的差异，和/或，最小化相同语种的样本语音的语种特征之间的差异为目标。

根据本发明提供的一种语种识别方法，所述对所述语种特征提取层进行第一训练，包括：

基于所述语种特征提取层和特征识别层，构建初始网络；

将样本语音输入至所述初始网络，得到所述初始网络中所述语种特征提取层输出的样本语音的语种特征，以及所述特征识别层基于所述样本语音的语种特征识别并输出的预测语种；

基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，以及所述预测语种与所述样本语音的语种标签之间的差异，对所述初始网络进行参数迭代。

根据本发明提供的一种语种识别方法，所述基于均衡样本集对所述语种分类层进行第二训练，包括：

将所述均衡样本集输入至所述第一训练完成后所述语种特征提取层，得到所述第一训练完成后所述语种特征提取层输出的均衡样本的语种特征；

将所述均衡样本的语种特征输入至所述语种分类层，得到所述语种分类层输出的语种预测结果；

基于所述语种预测结果与所述均衡样本的语种标签之间的差异，对所述语种分类层进行参数迭代。

根据本发明提供的一种语种识别方法，所述将所述均衡样本的语种特征输入至所述语种分类层，得到所述语种分类层输出的语种预测结果，包括：

将所述均衡样本的语种特征输入至所述语种分类层的注意力层，得到所述注意力层输出的注意力特征；

将所述注意力特征输入至所述语种分类层的语种预测层，得到所述语种预测层输出的所述语种预测结果。

根据本发明提供的一种语种识别方法，所述均衡样本集是基于如下步骤获取的：

获取多个语种的样本语音；

分别对各语种的样本语音进行均衡采样，将所述均衡采样所得的样本语音添加至所述均衡样本集。

本发明还提供一种语种识别模型训练方法，所述语种识别模型包括语种特征提取层和语种分类层，包括：

对所述语种特征提取层进行第一训练；

本发明还提供一种语种识别装置，包括：

语音确定单元，用于确定待识别语音数据；

语种识别单元，用于将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；

对所述语种特征提取层进行第一训练；

本发明提供一种语种识别模型训练装置，，所述语种识别模型包括语种特征提取层和语种分类层，包括：

第一训练单元，用于对所述语种特征提取层进行第一训练；

第二训练单元，用于固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语种识别方法的步骤，和/或，所述处理器执行所述程序时实现如上述任一种所述语种识别模型训练方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语种识别方法的步骤，和/或，该计算机程序被处理器执行时实现如上述任一种所述语种识别模型训练方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语种识别方法的步骤，和/或，所述计算机程序被处理器执行时实现如上述任一种所述语种识别模型训练方法的步骤。

本发明提供的语种识别、语种识别模型训练方法及装置，在语种特征提取层完成第一训练后，固定语种特征提取层的参数，从而在语种分类层进行第二训练时，语种特征提取层可以准确提取均衡样本集中的语种特征，使得语种分类层对均衡样本集中的语种特征进行识别。此外，由于均衡样本集中各语种的样本语音的数量规模一致，从而可以避免语种分类层进行语种识别时得到的识别结果偏向于多数类语种，而无法准确地对少数类语种进行识别的问题，即本发明在语种分布不均衡的场景下，能够通过可以通过语种识别模型准确进行语种识别。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语种识别方法的流程示意图；

图2是本发明提供的语种识别方法中第一训练方法的流程示意图；

图3是本发明提供的语种识别方法中第二训练方法的流程示意图；

图4是本发明提供的语种识别方法中步骤122的实施方式的流程示意图；

图5是本发明提供的均衡样本集获取方法的流程示意图；

图6是本发明提供的语种识别模型训练方法的流程示意图；

图7是本发明提供的又一语种识别模型训练方法的流程示意图；

图8是本发明提供的语种识别装置的结构示意图；

图9是本发明提供的语种识别模型训练装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在进行语种识别时，通常采用基于因子分析的TV语种识别系统实现。在应用语音识别系统进行语音识别之前，需要对应用的模型进行训练，训练时需要采用适当的训练样本才能使得到的模型可以准确地对语种进行识别。

然而，对于某些特殊的场景下，例如不同语种的使用人数严重失调，此时只能得到各个语种的数据分布比例差别较大的训练样本，例如训练样本中的少数类语种的数据分布比例与多数类语种的数据分布比例差异较大时，在进行语种识别时得到的识别结果更偏向于多数类语种，无法准确地对少数类语种进行识别导致应用效果急剧下降。特别是，少数类语种往往是较为关注的目标语种，其识别准确性的下降会严重影响语音识别系统的可用性，导致语音识别系统的识别性能无法达到实用水平。

此外，由于部分少数类语种数据占比较小，从而在实际应用环境中较难收集到足量的少数类语种数据进行标注和训练，也即无法通过增加少数类语种数据，使得各类语种数据的分布比例达到平衡。

对此，本发明提供一种语种识别方法。图1是本发明提供的语种识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定待识别语音数据；

步骤120、将待识别语音数据输入至语种识别模型，得到语种识别模型输出的语种识别结果；

其中，语种识别模型包括语种特征提取层和语种分类层，语种识别模型是基于如下过程训练得到的：

对语种特征提取层进行第一训练；

固定第一训练完成后语种特征提取层的参数，基于均衡样本集对语种分类层进行第二训练，得到训练完成的语种识别模型，均衡样本集中各语种的样本语音的数量规模一致。

此处，待识别语音数据指待进行语种识别的语音数据，语种识别模型用于识别语音数据对应的语种，语种识别模型可以包括语种特征提取层和语种分类层。语种特征提取层用于提取语音数据的语种特征，即提取得到语音数据中与语种相关的信息；语种分类层用于基于语种特征，确定语音数据的语种类别。

在对语种识别模型进行训练时，首先采用训练样本对语种特征提取层进行第一训练，第一训练用于使语种特征提取层具备准确提取语音数据中语种特征的能力。

其中，用于第一训练的训练样本可以为均衡样本集，也可以为非均衡样本集。均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例基本一致，即少数类语种样本语音与多数类语种样本语音的数量规模一致。非均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例存在差异，即少数类语种样本语音与多数类语种样本语音的数量规模不一致。多数类语种具体可以是数据量较大的语种，例如汉语、英语等。少数类语种具体可以是数据量较少的语种，例如毛利语、尼泊尔语等。

语种特征提取层的训练，需要大量的样本作为支撑，且在进行第一训练时，训练样本中的各语种的分布比例是否均衡，并不会对于语种特征提取层的语种特征提取能力产生影响，因此可以直接应用随机的训练样本(如均衡样本或非均衡样本)对语种识别模型进行整体训练，保留训练所得的语种特征提取层的参数，或者可以在语种特征提取层之后外接分类器，对语种特征提取层和外接分类器进行训练，并保留训练所得的语种特征提取层的参数。

在语种特征提取层完成第一训练后，此时的语种特征提取层可以准确提取语音数据中的语种特征。在固定第一训练完成后语种特征提取层的参数后，基于均衡样本集对语种分类层进行第二训练，第二训练用于使语种分类层具备准确识别语种特征对应的语种类别的能力。

可选地，在基于均衡样本集对语种分类层进行第二训练时，可以基于第一训练完成后的语种特征提取层对均衡样本集进行特征提取，得到均衡样本集的语种特征，然后语种分类层对均衡样本集的语种特征进行语种识别，得到语种识别预测结果。基于语种识别预测结果与均衡样本集的语种标签之间的差异，对语种分类层进行参数迭代，直至达到收敛条件。

由于语种特征提取层的参数是固定的，从而在第二训练时不需要再对语种特征提取层进行训练，即在进行第二训练时语种特征提取层已具备可以准确从语音数据中提取语种特征的能力，而第二训练是针对语种分类进行训练，从而在进行第二训练时，所需要的训练样本规模可以远小于第一训练所需训练样本的规模，即第二训练不需要足量的少数类语种样本语音以及多数类语种样本语音来训练语种特征提取层提取语种特征。

此外，在进行第二训练时，采用均衡样本集对语种分类层进行训练，由于均衡样本集中各语种的样本语音的数量规模一致，即均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例基本一致，从而避免在语种分类层进行语种识别时得到的识别结果偏向于多数类语种，而无法准确地对少数类语种进行识别的问题。

可选地，语种分类层包括注意力层以及语种预测层，则将待识别语音数据输入至语种识别模型，得到语种识别模型输出的语种识别结果，具体包括：

将待识别语音数据输入至语种特征提取层，由语种特征提取层对待识别语音数据进行特征提取，得到待识别语音数据的语种特征；

将待识别语音数据的语种特征输入至注意力层，由注意力层对待识别语音数据的语种特征进行注意力变换，关注待识别语音数据的语种特征中语种预测的重要信息，得到注意力特征；

将注意力特征输入至语种预测层，由语种预测层基于注意力特征进行语种识别，得到语种识别结果。

本发明实施例提供的语种识别方法，在语种特征提取层完成第一训练后，固定语种特征提取层的参数，从而在语种分类层进行第二训练时，语种特征提取层可以准确提取均衡样本集中的语种特征，使得语种分类层对均衡样本集中的语种特征进行识别。此外，由于均衡样本集中各语种的样本语音的数量规模一致，从而可以避免语种分类层进行语种识别时得到的识别结果偏向于多数类语种，而无法准确地对少数类语种进行识别的问题，即本发明实施例在语种分布不均衡的场景下，能够通过语种识别模型准确进行语种识别。

基于上述实施例，第一训练以最大化不同语种的样本语音的语种特征之间的差异，和/或，最小化相同语种的样本语音的语种特征之间的差异为目标。

具体地，不同语种的样本语音的语种特征之间的差异即不同语种的样本语音的语种特征之间的距离，距离越大，则提取得到的样本语音的语种特征越能表征不同语种之间的差异性特征。相同语种的样本语音的语种特征之间的差异即相同语种的样本语音的语种特征之间的距离，距离越小，则提取得到的样本语音的语种特征越能表征相同语种之间的共性特征。

可选地，本发明实施例可以基于不同语种的样本语音的语种特征之间的差异构建第一训练的损失函数，用于实现不同语种的样本语音的语种特征之间的差异最大化，使得语种特征提取层在第一训练过程中能够尽量多地学习不同语种之间的差异性特征，从而训练得到的语种特征提取层所提取的语种特征能够充分反映不同语种之间的差异信息。

可选地，本发明实施例可以基于相同语种的样本语音的语种特征之间的差异构建第一训练的损失函数，用于实现相同语种的样本语音的语种特征之间的差异最小化，使得语种特征提取层在第一训练过程中能够尽量多地学习相同语种之间的共性特征，从而训练得到的语种特征提取层所提取的语种特征能够充分反映相同语种之间的共性信息。

可选地，本发明实施例可以基于不同语种的样本语音的语种特征之间的差异，以及相同语种的样本语音的语种特征之间的差异构建第一训练的损失函数，用于实现不同语种的样本语音的语种特征之间的差异最大化，以及相同语种的样本语音的语种特征之间的差异最小化，使得语种特征提取层在第一训练过程中能够尽量多地学习不同语种之间的差异性特征和相同语种之间的共性特征，从而训练得到的语种特征提取层所提取的语种特征能够充分反映不同语种之间的差异信息以及相同语种之间的共性信息。可以理解的是，在基于不同语种的样本语音的语种特征之间的差异，以及相同语种的样本语音的语种特征之间的差异构建第一训练的损失函数时，第一训练时所采用的训练样本中各语种对应的样本语音至少为2个。

基于上述任一实施例，图2是本发明提供的语种识别方法中第一训练方法的流程示意图，如图2所示，对语种特征提取层进行第一训练，包括：

步骤111、基于语种特征提取层和特征识别层，构建初始网络；

步骤112、将样本语音输入至初始网络，得到初始网络中语种特征提取层输出的样本语音的语种特征，以及特征识别层基于样本语音的语种特征识别并输出的预测语种；

步骤113、基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，以及预测语种与样本语音的语种标签之间的差异，对初始网络进行参数迭代。

具体地，初始网络包括语种特征提取层和特征识别层，语种特征提取层用于提取样本语音的语种特征，特征识别层用于基于样本语音的语种特征，识别得到样本语音对应的预测语种。其中，初始网络可以是基于Resnet网络、CNN网络、RNN网络等构建得到的。

需要说明的是，初始网络是基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异进行参数迭代的，从而初始网络在第一训练过程中能够尽量多地学习不同语种之间的差异性特征和相同语种之间的共性特征，从而训练得到的语种特征提取层所提取的语种特征能够充分反映不同语种之间的差异信息以及相同语种之间的共性信息。此外，初始网络还基于预测语种与样本语音的语种标签之间的差异进行参数迭代，从而初始网络在第一训练过程中能够尽量多地学习样本语音的语种特征对应的语种分类信息。

在对初始网络进行参数迭代的过程中，若初始网络达到收敛条件，则参数迭代结束，即初始网络训练完成。例如，当初始网络的参数迭代次数达到阈值或初始网络的损失稳定，则参数迭代结束。

其中，样本语音可以是从均衡样本集中选取的语音数据，也可以是从非均衡样本集中选取的语音数据。均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例基本一致，即少数类语种样本语音与多数类语种样本语音的数量规模一致。例如，均衡样本集中包括多数类语种汉语和英语，以及少数类语种毛利语和尼泊尔语，且汉语、英语、毛利语和尼泊尔语在均衡样本集中所占比例均为25％。

非均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例存在差异，即少数类语种样本语音与多数类语种样本语音的数量规模不一致。例如，均衡样本集中包括多数类语种汉语和英语，以及少数类语种毛利语和尼泊尔语，且汉语、英语、毛利语和尼泊尔语在均衡样本集中所占比例分别为40％，30％，20％，10％。

此外，在将样本语音输入至初始网络之前，还可以对样本语音进行降噪处理，以滤除样本语音中的噪声数据，从而避免噪声数据影响语种特征提取层提取样本语音的语种特征的精度。再有，为了保证初始网络训练达到较佳的效果，采集的样本语音时长不低于预设时长，如样本语音时长不低于1小时、0.5小时、10分钟等。

可以理解的是，在进行第一训练的过程中，可以基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，以及预测语种与样本语音的语种标签之间的差异构建第一训练的损失函数。例如，可以基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异构建特征提取损失函数，基于预测语种与样本语音的语种标签之间的差异构建语种分类损失函数，特征提取损失函数以及语种分类损失函数共同构成第一训练的损失函数。其中，特征提取损失函数的损失值可以采用三元组损失(Triplet Loss)来表征，语种分类损失函数的损失值可以采用交叉熵损失(CE Loss)来表征，即Triplet Loss用于表征不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，CE Loss用于表征预测语种与样本语音的语种标签之间的差异。

可选地，第一训练的损失函数Loss1可通过式(1)进行计算，如式(1)所示，CE用于表征预测语种与样本语音的语种标签之间的差异，Triplet Loss用于表征不同语种的样本语音的语种特征之间的差异。

其中，

为相同语种的样本语音中的第n个语种特征，且该语种特征对应第i个语种类别，

为

对应的语种标签，σ()为softmax函数，g₁()为特征识别层函数，f()为语种特征提取层的特征提取函数，d₊()表示

与其它相同语种的样本语音的语种特征之间距离之和的平均值，d_-()表示

与其它不同语种的样本语音的语种特征之间距离之和的平均值，α是一个边距参数值，用于控制相同语种的样本语音的语种特征与不同语种的样本语音的语种特征之间的离散程度，α可以为0.2。其中，任意两个样本语音的语种特征之间的距离可以采用式(2)计算得到。

基于上述任一实施例，图3是本发明提供的语种识别方法中第二训练方法的流程示意图，如图3所示，基于均衡样本集对语种分类层进行第二训练，包括：

步骤121、将均衡样本集输入至第一训练完成后语种特征提取层，得到第一训练完成后语种特征提取层输出的均衡样本的语种特征；

步骤122、将均衡样本的语种特征输入至语种分类层，得到语种分类层输出的语种预测结果；

步骤123、基于语种预测结果与均衡样本的语种标签之间的差异，对语种分类层进行参数迭代。

此处，均衡样本集中少数类语种样本语音的分布比例与多数类语种样本语音的分布比例基本一致，即少数类语种样本语音与多数类语种样本语音的数量规模一致。例如，均衡样本集中包括多数类语种汉语和英语，以及少数类语种毛利语和尼泊尔语，且汉语、英语、毛利语和尼泊尔语在均衡样本集中所占比例均为25％。

由于在第二训练时语种特征提取层的参数是固定的，从而在第二训练时不需要再对语种特征提取层进行训练，即在进行第二训练时语种特征提取层可以准确从均衡样本集中提取得到均衡样本的语种特征。

在得到均衡样本的语种特征之后，将其输入至语种分类层，由语种分类层进行语种分类，得到语种分类层输出的语种预测结果。其中，该语种预测结果可以为均衡样本对应的语种类别，也可以为均衡样本为各语种的概率。例如，语种预测结果可以为汉语，也可以为汉语70％，日语20％，俄语10％。

基于上述任一实施例，图4是本发明提供的语种识别方法中步骤122的实施方式的流程示意图，如图4所示，将均衡样本的语种特征输入至语种分类层，得到语种分类层输出的语种预测结果，包括：

步骤1221、将均衡样本的语种特征输入至语种分类层的注意力层，得到注意力层输出的注意力特征；

步骤1222、将注意力特征输入至语种分类层的语种预测层，得到语种预测层输出的语种预测结果。

具体地，由于均衡样本的语种特征可以看作是由多个向量拼接得到的，而各向量对语种预测的重要性不同，即某些向量对语种预测的重要性较高，而某些向量对语种预测的重要性较低，也就是各向量所占权重是不同的。由于均衡样本的语种特征是由多个向量拼接得到的，并没有考虑各向量的权重，因此若直接基于均衡样本的语种特征进行语种预测，则可能会影响语种预测的精度。

对此，本发明实施例将均衡样本的语种特征输入至语种分类层，由语种分类层基于注意力机制对均衡样本的语种特征进行注意力变换，关注均衡样本的语种特征中各向量对语种预测的重要性，得到各向量的权重，然后对各向量进行权重相加，得到注意力特征。由于注意力特征中考虑了各向量对语种预测的重要性，从而语种分类层能够准确基于注意力特征进行语种预测，得到语种预测结果。

可选地，注意力特征f(x)_final可以基于如下公式计算得到：

a_t＝tanh(Wf(x)_t)

其中，f(x)表示均衡样本集的语种特征，f(x)_t表示均衡样本集的语种特征的向量，f(x)＝(f(x)₁,…,f(x)_t,…,f(x)_T)，w_t表示各向量的权重。

可选地，第二训练的损失函数Loss2可通过如下公式计算得到：

其中，

为均衡样本集中的第n个语种特征对应的注意力特征，

为

对应的语种标签，σ()为softmax函数，g₂()为语种分类层函数。

基于上述任一实施例，图5是本发明提供的均衡样本集获取方法的流程示意图，如图5所示，均衡样本集是基于如下步骤获取的：

步骤510、获取多个语种的样本语音；

步骤520、分别对各语种的样本语音进行均衡采样，将均衡采样所得的样本语音添加至均衡样本集。

具体地，随机获取多个语种的样本语音，在样本语音中少数类语种样本语音与多数类语种样本语音的数量规模可能不一致，即少数类语种样本语音的分布比例与多数类语种样本语音的分布比例存在差异。

分别对各语种对应的样本语音进行均衡采样，将均衡采样所得的样本语音添加至均衡样本集，使得均衡样本集中少数类语种样本语音与多数类语种样本语音的数量规模一致，从而避免在语种分类层进行语种识别时得到的识别结果偏向于多数类语种，而无法准确地对少数类语种进行识别的问题。

例如，均衡样本集中需要采集的样本语音数量为100条，则可以从汉语(多数类语种)、英语(多数类语种)、毛利语(少数类语种)以及尼泊尔语(少数类语种)对应的样本语音中分别采集25条语音，并将采集的样本语音添加至均衡样本集，从而使得均衡样本集中汉语、英语、毛利语以及尼泊尔语对应的样本语音的数量比例均为25/100＝25％，即均衡样本集中少数类语种样本语音与多数类语种样本语音的数量规模一致。

可以理解的是，在获取均衡样本集时，可以采用类均衡采样器对各语种的样本语音进行均衡采样，保证每个语种对应的样本语音比例基本一致，以此避免在语种分类层进行语种识别时得到的识别结果偏向于多数类语种。

基于上述任一实施例，本发明还提供一种语种识别模型训练方法，图6是本发明提供的又一语种识别模型训练方法的流程示意图，如图6所示，该方法包括：

基于语种特征提取层和特征识别层，构建初始网络，并将样本语音输入至初始网络，得到初始网络中语种特征提取层输出的样本语音的语种特征，以及特征识别层基于样本语音的语种特征识别并输出的预测语种。其中，样本语音是从多个语种对应的样本语音中随机抽取得到的；

基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，以及预测语种与样本语音的语种标签之间的差异，对初始网络进行参数迭代，直至达到收敛条件后完成对初始网络的第一训练，并固定第一训练完成后语种特征提取层的参数。

采用类均衡采样器对样本语音进行均衡采样，得到各语种的样本语音的数量规模一致的均衡样本集，并基于均衡样本集对语种分类层进行第二训练，具体为：将均衡样本集输入至语种特征提取层，得到均衡样本集的语种特征，然后将均衡样本集的语种特征输入至语种分类层的注意力层，由注意力层对均衡样本集的语种特征进行注意力变换，得到注意力层输出的注意力特征，并由语种分类层的语种预测层对注意力特征进行语种预测，得到语种预测结果。基于语种预测结果与均衡样本的语种标签之间的差异，对语种分类层进行参数迭代，直至达到收敛条件。

可以理解的是，在第二训练完成后，可以将语种特征提取层与语种分类层串接后得到语种识别模型，用于对语音数据进行语种识别。

基于上述任一实施例，本发明还提供一种语种识别方法，图7是本发明提供的又一语种识别模型训练方法的流程示意图，语种识别模型包括语种特征提取层和语种分类层，如图7所示，该方法包括：

步骤710、对语种特征提取层进行第一训练；

步骤720、固定第一训练完成后语种特征提取层的参数，基于均衡样本集对语种分类层进行第二训练，得到训练完成的语种识别模型，均衡样本集中各语种的样本语音的数量规模一致。

具体地，语种识别模型中的语种特征提取层完成第一训练后，固定语种特征提取层的参数，从而在语种分类层进行第二训练时，语种特征提取层可以准确提取均衡样本集中的语种特征，使得语种分类层对均衡样本集中的语种特征进行识别。此外，语种识别模型中的语种分类层是基于均衡样本集进行训练的，由于均衡样本集中各语种的样本语音的数量规模一致，从而可以避免语种分类层进行语种识别时得到的识别结果偏向于多数类语种，而无法准确地对少数类语种进行识别的问题，即本发明实施例采用的语种识别模型能够在语种分布不均衡的场景下，准确进行语种识别。

可选地，语种识别模型包括语种特征提取层、注意力层以及语种预测层，则将待识别语音数据输入至语种识别模型，得到语种识别模型输出的语种识别结果，具体包括：

下面对本发明提供的语种识别装置进行描述，下文描述的语种识别装置与上文描述的语种识别方法可相互对应参照。

基于上述任一实施例，本发明提供一种语种识别装置，如图8所示，该装置包括：

语音确定单元810，用于确定待识别语音数据；

语种识别单元820，用于将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；

对所述语种特征提取层进行第一训练；

基于上述任一实施例，所述第一训练以最大化不同语种的样本语音的语种特征之间的差异，和/或，最小化相同语种的样本语音的语种特征之间的差异为目标。

基于上述任一实施例，还包括：

构建单元，用于基于所述语种特征提取层和特征识别层，构建初始网络；

子训练单元，用于将样本语音输入至所述初始网络，得到所述初始网络中所述语种特征提取层输出的样本语音的语种特征，以及所述特征识别层基于所述样本语音的语种特征识别并输出的预测语种；

第一迭代单元，用于基于不同语种的样本语音的语种特征之间的差异，相同语种的样本语音的语种特征之间的差异，以及所述预测语种与所述样本语音的语种标签之间的差异，对所述初始网络进行参数迭代。

基于上述任一实施例，还包括：

特征提取单元，用于将所述均衡样本集输入至所述第一训练完成后所述语种特征提取层，得到所述第一训练完成后所述语种特征提取层输出的均衡样本的语种特征；

语种预测单元，用于将所述均衡样本的语种特征输入至所述语种分类层，得到所述语种分类层输出的语种预测结果；

第二迭代单元，用于基于所述语种预测结果与所述均衡样本的语种标签之间的差异，对所述语种分类层进行参数迭代。

基于上述任一实施例，所述语种预测单元，包括：

注意力单元，用于将所述均衡样本的语种特征输入至所述语种分类层的注意力层，得到所述注意力层输出的注意力特征；

语种预测子单元，用于将所述注意力特征输入至所述语种分类层的语种预测层，得到所述语种预测层输出的所述语种预测结果。

基于上述任一实施例，还包括：

获取单元，用于获取多个语种的样本语音；

采样单元，用于分别对各语种的样本语音进行均衡采样，将所述均衡采样所得的样本语音添加至所述均衡样本集。

基于上述任一实施例，本发明提供一种语种识别模型训练装置，图9是本发明提供的语种识别模型训练装置的结构示意图，所述语种识别模型包括语种特征提取层和语种分类层，如图9所示，该装置包括：

第一训练单元910，用于对语种识别模型中的语种特征提取层进行第一训练；

第二训练单元920，用于固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种识别模型中的语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

图10是本发明提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、存储器(memory)1020、通信接口(Communications Interface)1030和通信总线1040，其中，处理器1010，存储器1020，通信接口1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令，以执行语种识别方法，该方法包括：确定待识别语音数据；将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；其中，所述语种识别模型包括语种特征提取层和语种分类层，所述语种识别模型是基于如下过程训练得到的：对所述语种特征提取层进行第一训练；固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

和/或，以执行语种识别模型训练方法，该方法包括：对语种识别模型中的语种特征提取层进行第一训练；固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种识别模型中的语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

此外，上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语种识别方法，该方法包括：确定待识别语音数据；将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；其中，所述语种识别模型包括语种特征提取层和语种分类层，所述语种识别模型是基于如下过程训练得到的：对所述语种特征提取层进行第一训练；固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语种识别方法，该方法包括：确定待识别语音数据；将所述待识别语音数据输入至语种识别模型，得到所述语种识别模型输出的语种识别结果；其中，所述语种识别模型包括语种特征提取层和语种分类层，所述语种识别模型是基于如下过程训练得到的：对所述语种特征提取层进行第一训练；固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语种识别方法，其特征在于，包括：

确定待识别语音数据；

对所述语种特征提取层进行第一训练；

固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致；

所述对所述语种特征提取层进行第一训练，包括：

基于所述语种特征提取层和特征识别层，构建初始网络；

2.根据权利要求1所述的语种识别方法，其特征在于，所述第一训练以最大化不同语种的样本语音的语种特征之间的差异和最小化相同语种的样本语音的语种特征之间的差异为目标。

3.根据权利要求1所述的语种识别方法，其特征在于，所述基于均衡样本集对所述语种分类层进行第二训练，包括：

4.根据权利要求3所述的语种识别方法，其特征在于，所述将所述均衡样本的语种特征输入至所述语种分类层，得到所述语种分类层输出的语种预测结果，包括：

5.根据权利要求1至4中任一项所述的语种识别方法，其特征在于，所述均衡样本集是基于如下步骤获取的：

获取多个语种的样本语音；

6.一种语种识别模型训练方法，所述语种识别模型包括语种特征提取层和语种分类层，其特征在于，包括：

对所述语种特征提取层进行第一训练；

所述对所述语种特征提取层进行第一训练，包括：

基于所述语种特征提取层和特征识别层，构建初始网络；

7.一种语种识别装置，其特征在于，包括：

语音确定单元，用于确定待识别语音数据；

对所述语种特征提取层进行第一训练；

所述对所述语种特征提取层进行第一训练，包括：

基于所述语种特征提取层和特征识别层，构建初始网络；

8.一种语种识别模型训练装置，所述语种识别模型包括语种特征提取层和语种分类层，其特征在于，包括：

第一训练单元，用于对所述语种特征提取层进行第一训练；

第二训练单元，用于固定所述第一训练完成后所述语种特征提取层的参数，基于均衡样本集对所述语种分类层进行第二训练，得到训练完成的语种识别模型，所述均衡样本集中各语种的样本语音的数量规模一致；

所述对所述语种特征提取层进行第一训练，包括：

基于所述语种特征提取层和特征识别层，构建初始网络；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述语种识别方法的步骤，和/或，所述处理器执行所述程序时实现如权利要求6所述语种识别模型训练方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语种识别方法的步骤，和/或，所述计算机程序被处理器执行时实现如权利要求6所述语种识别模型训练方法的步骤。