CN112599117B

CN112599117B - 模型训练、语音识别方法及装置、电子设备及存储介质

Info

Publication number: CN112599117B
Application number: CN202110235852.9A
Authority: CN
Inventors: 徐高鹏; 李成飞; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-05-07
Anticipated expiration: 2041-03-03
Also published as: CN112599117A

Abstract

本申请实施例提供了一种模型训练、语音识别方法及装置、电子设备及存储介质，涉及语音识别技术领域，模型训练方法包括：获取第一对象和第二对象分别对应的多个样本语音数据，以及样本语音数据对应的文本信息和身份信息；对样本语音数据进行编码处理，得到声学特征信息；对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息；对声学特征信息和身份特征信息进行解码处理，得到第一预测文本信息；基于预测身份信息和身份信息确定身份损失值；以及基于第一预测文本信息和文本信息确定文本损失值；根据身份损失值和文本损失值确定目标损失值，并基于目标损失值对语音识别模型进行训练。本申请可以提高语音识别的准确性。

Description

模型训练、语音识别方法及装置、电子设备及存储介质

技术领域

本申请实施例涉及语音识别技术领域，尤其涉及一种模型训练、语音识别方法及装置、电子设备及存储介质。

背景技术

近年来，随着机器学习、深度学习的发展，语音识别技术中声学模型也逐渐由传统的高斯混合模型转变为深度神经网络模型，深度神经网络模型显著提升了语音识别的准确率，使得语音识别能够更好的应用于我们的日常生活。

教育场景下的语音识别，主要是对教学场景中老师及学生的说话内容进行识别。相关技术中，可以将老师和学生数据混合训练，但是由于成人和儿童的发音在生理特征上存在较大的差异，无法保证训练得到的模型在老师端和学生端同时得到理想效果。或者，还可以将老师和学生数据独立训练，由于学生数据相比老师数据较少，因此，语音识别的准确性较低，并且需要训练两个模型，成本较高。

发明内容

有鉴于此，本申请实施例提供一种模型训练、语音识别方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音识别模型训练方法，包括：

获取第一对象和第二对象分别对应的多个样本语音数据，以及所述样本语音数据对应的文本信息和身份信息；

通过语音识别模型中的编码网络部分对所述样本语音数据进行编码处理，得到声学特征信息；

通过所述语音识别模型中的身份预测网络部分对所述声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息；

通过所述语音识别模型中的语音解码网络部分对所述声学特征信息和所述身份特征信息进行解码处理，得到第一预测文本信息；

基于所述预测身份信息和所述身份信息确定身份损失值；以及基于所述第一预测文本信息和所述文本信息确定文本损失值；

根据所述身份损失值和所述文本损失值确定目标损失值，并基于所述目标损失值对所述语音识别模型进行训练。

根据本申请实施例的第二方面，提供了一种语音识别方法，包括：

获取待识别的语音数据；

通过语音识别模型对所述语音数据进行识别，得到文本信息和身份信息；

其中，所述语音识别模型基于第一方面所述的方法训练得到。

根据本申请实施例的第三方面，提供了一种语音识别模型训练装置，包括：

样本数据获取模块，用于获取第一对象和第二对象分别对应的多个样本语音数据，以及所述样本语音数据对应的文本信息和身份信息；

编码模块，用于通过语音识别模型中的编码网络部分对所述样本语音数据进行编码处理，得到声学特征信息；

身份预测模块，用于通过所述语音识别模型中的身份预测网络部分对所述声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息；

第一文本预测模块，用于通过所述语音识别模型中的语音解码网络部分对所述声学特征信息和所述身份特征信息进行解码处理，得到第一预测文本信息；

损失值确定模块，用于基于所述预测身份信息和所述身份信息确定身份损失值；以及基于所述第一预测文本信息和所述文本信息确定文本损失值；

模型训练模块，用于根据所述身份损失值和所述文本损失值确定目标损失值，并基于所述目标损失值对所述语音识别模型进行训练。

根据本申请实施例的第四方面，提供了一种语音识别装置，包括：

语音数据获取模块，用于获取待识别的语音数据；

语音识别模块，用于通过语音识别模型对所述语音数据进行识别，得到文本信息和身份信息；

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法。

根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本申请实施例提供的语音识别模型训练方案，在基于第一对象和第二对象的语音数据混合训练过程中，增加了第一对象和第二对象的身份特征信息。通过在语音识别模型中嵌入身份特征信息来预测文本信息，并将身份预测作为一个单独的任务，利用语音识别和身份预测两个任务联合训练的方法，来保证语音识别模型在训练过程中可以学习到第一对象和第二对象的差异，从而可以避免由于第一对象和第二对象的发音在生理特征上存在较大的差异而造成语音识别准确性较低的问题。例如，成人和儿童的发音在生理特征上存在较大的差异，那么，在第一对象和第二对象分别为老师和学生的情况下，可以识别到老师和学生的差异，从而可以提高语音识别的准确性。同时，本申请实施例的语音识别模型还可以输出语音数据对应的说话者的身份信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中实现语音识别模型训练方法的一种示意图；

图2为本申请实施例中语音识别模型训练方法的一种流程图；

图3为本申请实施例中语音识别模型训练方法的又一种流程图；

图4为本申请实施例中语音识别方法的一种流程图；

图5为本申请实施例中语音识别模型训练装置的一种结构示意图；

图6为本申请实施例中语音识别装置的一种结构示意图；

图7为本申请实施例中电子设备的一种结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

目前，语音识别技术在各个领域有着非常广泛的应用。例如，针对教育领域，在教研阶段，语音识别技术可以帮助教研老师进行内容的自动生产；在教学过程中，语音识别技术可以识别老师/学生的说话内容，帮助进行课堂情况的反馈；课后，语音识别技术还能辅助对学生的口头作业进行批改等。

随着教学场景的不断智能化，教育领域的语音识别场景也越来越丰富，传统的老师和学生数据混合训练、老师和学生数据独立训练已经制约了语音识别系统识别性能的提升，具体如下：

1）老师和学生数据混合训练

基于老师和学生数据混合训练构建教育场景语音识别系统的优点在于，构建步骤简洁，且可以同时利用老师和学生数据，保证有足够丰富的数据来构建语音识别系统，但是由于成人和儿童的发音在生理特征上存在较大的差异，直接利用老师和学生数据混合构建语音识别系统，无法保证识别系统在老师端和学生端同时得到理想效果。

2）老师和学生数据独立训练

基于老师和学生数据单独训练构建教育场景语音识别系统的优点在于，避免了老师学生在生理特征上的差异导致影响语音识别系统的性能，缺点在于，一方面学生在教学场景下的语音内容和老师相比很少，学生主要是回答老师的问题，因此单独构建学生的语音识别系统，如果使用的数据较少，那么系统对应学生数据的识别性能就很差，如果想达到较好的识别性能就必须花费很大的时间和经济成本来采集学生数据。另一方面，单独构建老师和学生语音识别系统，就需要搭建两套系统，无论是在开发层面还是使用层面，都较单个系统更为繁琐，往往导致开发周期延长、且调用步骤复杂。

为了解决传统方法构建教育场景语音识别系统无法通过单个系统同时保证老师和学生的性能均达到理想效果的问题，以及采用老师和学生独立训练的方法需要花费很大的时间和经济成本，且需要分别部署老师学生独立的语音识别系统的问题，本申请实施例提供了一种语音识别模型训练方法及装置、语音识别方法及装置、电子设备及存储介质，可以实现利用一个语音识别系统同时满足在老师端和学生端都得到较好的识别效果。

参见图1，图1为本申请实施例中实现语音识别模型训练方法的一种示意图。其中，第一对象和第二对象分别对应的样本语音数据为输入数据，样本语音数据对应的身份信息和文本信息为标签数据。

训练语音识别模型的过程为：通过语音解码网络部分对样本语音数据进行特征提取，得到对应的声学特征信息。一方面，将声学特征信息输入身份预测网络部分，用来提取身份特征信息，并得到预测身份信息；另一方面，将声学特征信息和身份特征信息混合输入语音解码网络部分得到第一预测文本信息。在训练的过程中，根据语音识别的文本损失值和身份识别的身份损失值得到目标损失值，基于目标损失值进行多任务联合训练，来提升语音识别系统的鲁棒性，最终训练完成后，语音解码网络部分和身份预测网络部分可以分别输出文本信息及身份信息。

以下对本申请实施例提供的语音识别模型训练方法进行详细介绍。

参见图2，图2为本申请实施例中语音识别模型训练方法的一种流程图，可以包括以下步骤：

步骤S210，获取第一对象和第二对象分别对应的多个样本语音数据，以及样本语音数据对应的文本信息和身份信息。

本申请实施例中，第一对象和第二对象可以是发音存在较大差异的两类对象，例如，可以是成人和儿童等、老人和成人等。第一对象和第二对象分别可以包含多个不同的人物，例如，第一对象为成人，第二对象为儿童，那么第一对象对应的多个样本语音数据可以是多个成人的语音数据，第二对象对应的多个样本语音数据可以多个儿童的语音数据。

其中，样本语音数据对应的文本信息，即为将样本语音数据转换成的文字信息。样本语音数据对应的身份信息也就是说话者的身份信息，例如，如果第一对象为成人，第二对象为儿童，第一对象和第二对象的身份信息分别可以是老师和学生。

步骤S220，通过语音识别模型中的编码网络部分对样本语音数据进行编码处理，得到声学特征信息。

本申请实施例中，由于每个人说话时的基频高低、说话音量高低等声学特征均不同，因此，可以通过编码网络部分，对样本语音数据进行编码处理，也就是，可以提取第一对象或第二对象在声学层面的特征，得到声学特征信息。其中，声学特征信息具体可以是声学特征向量等。

步骤S230，通过语音识别模型中的身份预测网络部分对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息。

由于身份预测网络的目的是为了预测样本语音数据对应的身份信息，因此，可以通过身份预测网络部分对声学特征信息进行特征提取，得到用于预测身份信息的身份特征信息。例如，可以将声学特征信息抽象到另一个维度空间，得到对应的身份特征信息，通过分类器对该身份特征信息进行分类处理，得到预测身份信息。

步骤S240，通过语音识别模型中的语音解码网络部分对声学特征信息和身份特征信息进行解码处理，得到第一预测文本信息。

需要说明的是，在预测文本信息的过程中，除了输入声学特征信息之外，还可以输入身份特征信息，这样，通过嵌入身份特征信息，来保证模型在训练过程中可以学习到第一对象和第二对象的差异，以提高文本信息预测的准确性。本申请实施例中，语音解码网络部分的结构和编码网络部分的结构可以相同。

步骤S250，基于预测身份信息和身份信息确定身份损失值；以及基于第一预测文本信息和文本信息确定文本损失值。

本申请实施例中，由于可以进行多任务（身份信息识别任务和文本信息识别任务）联合训练，因此，语音识别模型的损失值包括两个任务的损失值。可以基于预测身份信息和样本语音数据对应的身份信息（即实际的身份信息）确定身份损失值，并基于第一预测文本信息和样本语音数据对应的文本信息（即实际的文本信息）确定文本损失值，以根据身份损失值和文本损失值确定最终的损失值。

步骤S260，根据身份损失值和文本损失值确定目标损失值，并基于目标损失值对语音识别模型进行训练。

本申请实施例中，可以直接将身份损失值和文本损失值之和作为目标损失值，并基于目标损失值对语音识别模型进行训练。或者，也可以对身份损失值和文本损失值进行加权求和，得到目标损失值，并基于目标损失值对语音识别模型进行训练。

在训练的过程中，目标损失值可以用来估量预测值与真实值的不一致程度，目标损失值越小，表示预测值和真实值越接近。在训练完成之后，目标损失值符合预设要求，例如，小于预设阈值等，从而得到语音识别模型。其中，预设阈值可以根据实际应用进行设置，在此不做限定。需要说明的是，语音识别模型可以训练预设数量（例如300、400等）个epochs。其中，当一个完整的数据集通过了语音识别模型一次并且返回了一次，该过程称为一个 epoch，batchsize表示每次通过语音识别模型的数据集的数量。

根据本申请实施例提供的语音识别模型训练方法，在基于第一对象和第二对象的语音数据混合训练过程中，增加了第一对象和第二对象的身份特征信息。通过在语音识别模型中嵌入身份特征信息来预测文本信息，并将身份预测作为一个单独的任务，利用语音识别和身份预测两个任务联合训练的方法，来保证语音识别模型在训练过程中可以学习到第一对象和第二对象的差异，从而可以避免由于第一对象和第二对象的发音在生理特征上存在较大的差异而造成语音识别准确性较低的问题。例如，成人和儿童的发音在生理特征上存在较大的差异，那么，在第一对象和第二对象分别为老师和学生的情况下，可以识别到老师和学生的差异，从而可以提高语音识别的准确性。同时，本申请实施例的语音识别模型还可以输出语音数据对应的说话者的身份信息。

参见图3，图3为本申请实施例中语音识别模型训练方法的又一种流程图，可以包括以下步骤：

步骤S302，获取第一对象和第二对象分别对应的多个样本语音数据，以及样本语音数据对应的文本信息和身份信息。

本步骤与图2实施例中的步骤S210相同，具体参见图2实施例中的描述即可，在此不再赘述。

步骤S304，对样本语音数据进行特征提取，得到对应的第一声学特征向量。

本申请实施例中，可以先基于语音特征提取算法（例如mfcc和fbank等）对样本语音数据进行特征提取，得到第一声学特征向量，之后再对第一声学特征向量进行编码处理。与mfcc相比，基于fbank算法所提取的特征包含的信息量较多，因此，本申请可以使用fbank算法进行语音特征提取。

步骤S306，通过语音识别模型中的编码网络部分对第一声学特征向量进行编码处理，得到第二声学特征向量，将第二声学特征向量作为声学特征信息。

本申请实施例中，基于fbank算法提取到的第一声学特征向量是基本的声学特征信息，因此，通过编码网络部分对第一声学特征向量进行编码处理，以获得第一对象和第二对象在声学层面的高级表示，即第二声学特征向量。

由于深度学习中的注意力机制可以从众多信息中选择出对当前任务目标更关键的信息，因此可以通过注意力网络部分进一步进行特征提取，以得到更多关键信息。在一种可选的实施方式中，编码网络部分可以包括一个或多个第一注意力网络部分。通过第一注意力网络部分可以选择对当前任务目标更关键的信息，如果编码网络部分包括一个第一注意力网络部分，直接根据该第一注意力网络部分对第一声学特征向量进行编码处理。如果编码网络部分包括多个第一注意力网络部分，则可以通过多个级联的第一注意力网络部分对第一声学特征向量进行编码处理。

具体的，如果编码网络部分表示为E，第一声学特征向量表示为X，那么，第二声学特征向量S可表示为：S=E(X)。编码网络部分E由多个第一注意力网络部分[A1,…An]级联而成，n表示第一注意力网络部分的总数量。对于任一An，其编码过程可表示如下：

其中，

表示X的转置，d₁表示缩放系数，与

的维度相关。例如，可以等于

的维度。缩放系数d₁可以防止声学特征矩阵乘积过大而导致softmax函数的梯度太小。

需要说明的是，由于编码网络部分E由多个第一注意力网络部分[A1,…An]级联而成，因此，第一注意力网络部分A1的输出即为第一注意力网络部分A2的输入，第一注意力网络部分A2的输出即为第一注意力网络部分A3的输入。依次类推，最终第一注意力网络部分An的输出即为第二声学特征向量。

步骤S308，通过语音识别模型中的身份预测网络部分对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息。

本申请实施例中，身份预测网络部分用于进一步提取身份特征信息，并预测样本语音数据对应的身份信息。在一种可选的实施方式中，身份预测网络部分可以包括：一个或多个隐藏层和输出层。相应地，可以通过一个或多个隐藏层对声学特征信息进行特征提取处理，得到对应的身份特征信息。

需要说明的是，隐藏层的数量越多，所提取的身份特征信息越准确，然而，隐藏层的数量越多也将导致网络的复杂度增加，在此可以选取两个隐藏层，一方面可以提取到准确的身份特征信息，另一方面，不会增加网络的复杂度。具体处理过程可以表示如下：

假设身份预测网络部分表示为P，第二声学特征向量S经过身份预测网络部分P之后，得到身份特征信息。身份预测网络部分P的第一隐藏层的输出G1可以表示为：

其中，W₁是身份预测网络部分第一隐藏层的权重矩阵，b₁第一隐藏层的偏置向量。可以对权重矩阵和偏置向量预先设置一个初始值（可以是随机的），后续在训练的过程中进行调整。

身份预测网络部分P的第二隐藏层的输出G2可以表示为：

其中，W₂是身份预测网络部分第二隐藏层的权重矩阵，b₂第二隐藏层的偏置向量。也可以对该权重矩阵和偏置向量预先设置一个初始值（可以是随机的），后续在训练的过程中进行调整。

之后，再通过输出层对身份特征信息G2进行预测处理，得到预测身份信息R1。身份预测网络部分的预测身份信息R1可表示为：

其中，f可以是softmax函数，其计算过程如下：

假设

m表示身份信息的总数量，如果身份信息包括老师和学生，那么，m的值即为2。

则

；

根据上述softmax函数进行分类处理，即可得到预测身份信息R1。

步骤S310，根据声学特征信息和身份特征信息，确定融合特征信息。

本申请实施例中，语音解码网络部分的输入包括：声学特征信息和身份特征信息，可以分别将声学特征信息和身份特征信息作为输入，输入到语音解码网络部分进行处理。也可以先对声学特征信息和身份特征信息进行融合处理，得到融合特征信息，再通过语音解码网络部分对融合特征信息进行处理。

类似地，可以通过第二注意力网络部分对声学特征信息和身份特征信息进行融合处理，确定融合特征信息。其中，第二注意力网络部分与第一注意力网络部分的处理过程类似，不同之处在于，在进行数据处理时，引入了身份特征信息G2，融合特征信息S1可以表示如下：

；

其中，

表示S的转置，d₂表示缩放系数。

步骤S312，通过语音识别模型中的语音解码网络部分对融合特征信息进行解码处理，得到第一预测文本信息。

具体的，将融合特征信息S1输入语音解码网络部分D，输出的第一预测文本信息Y可表示为Y=D(S1)。其中，语音解码网络部分D的结构与编码网络部分E一致，也可以由多个注意力模块级联而成。具体可参见编码网络部分E中的描述，在此不再赘述。

步骤S314，基于预测身份信息和身份信息确定身份损失值；以及基于第一预测文本信息和文本信息确定文本损失值。

本申请实施例中，身份损失值表示预测身份信息和真实的身份信息的不一致程度，在一种可选的实施方式中，身份损失值L1可表示如下：

R2表示真实的身份信息，即样本语音数据对应的身份信息，N表示训练数据中batchsize的大小。

具体可以是R2和R1对应的两个身份特征向量之间的距离。

假设身份信息包括：老师和学生。对于任一样本语音数据，如果对应的真实的身份信息为老师，可以表示为（1,0），R1对应的向量为（0.8,0.2），可以计算该两个向量之间的距离，将该距离指作为损失值。将一个batchsize中所有样本语音数据对应的损失值的平均值作为身份损失值L1。

而文本损失值表示预测文本信息和真实的文本信息的不一致程度，在一种可选的实施方式中，文本损失值L2可表示如下：

其中，y表示预测文本信息Y和真实的文本信息T之间的相似度，也可以通过身份特征向量的方式进行计算。y=1，表示预测文本信息和真实的文本信息完全相同，文本识别的准确率为100%。Other表示y不等于1，即0<y<1。

本申请实施例中，可以直接根据上述L1和L2得到目标损失值，也可以执行下述步骤S316，对L2进行更新之后，再基于L1和L2得到目标损失值。

步骤S316，通过分类器对融合特征信息进行处理，得到第二预测文本信息。

本申请实施例中，由于基于上述L2进行训练时网络不容易收敛，因此，除了可以通过语音解码网络部分预测文本信息之外，也可以直接通过分类器对融合特征信息进行处理，得到第二预测文本信息。这样，基于第二预测文本信息可以计算得到辅助损失值，用于辅助网络收敛。例如，可以直接通过softmax函数进行预测，得到第二预测文本信息。

步骤S318，基于第二预测文本信息和文本信息，确定辅助损失值；将文本损失值更新为文本损失值与辅助损失值的加权和。

在一种可选的实施方式中，辅助损失值

的计算方法可以表示如下：

其中，Z表示对S1进行预测之后得到的第二预测文本信息，

表示在给定S1的情况下，输出第二预测文本信息Z的概率。

在得到辅助损失值之后，可以对文本损失值L2进行更新。可选的，更新方式可以表示如下：

其中，

表示辅助损失值在训练过程中的权重，可以根据实际情况进行调节。

步骤S320，根据身份损失值和文本损失值确定目标损失值，并基于目标损失值对语音识别模型进行训练。

如前所述，可以直接将身份损失值和文本损失值之和作为目标损失值，也可以对身份损失值和文本损失值进行加权求和，得到目标损失值。即，将身份损失值与对应的权重的乘积，与文本损失值对应的权重的乘积之和，作为目标损失值。目标损失值L3可以通过公式表示如下：

其中，∂为L2对应的权重，

为L1对应的权重。

根据目标损失值L3对语音识别模型中的参数进行调整，最终可以在目标损失值L3小于预设的损失阈值的情况下，结束训练过程，得到训练完成的语音识别模型。

本申请实施例的语音识别模型训练方法中，利用语音识别和身份预测两个任务联合训练的方法，来保证语音识别模型在训练过程中可以学习到第一对象和第二对象的差异，从而可以避免由于第一对象和第二对象的发音在生理特征上存在较大的差异而造成语音识别准确性较低的问题。同时，本申请实施例的语音识别模型还可以输出语音数据对应的说话者的身份信息。其中，在编码网络部分和语音解码网络部分通过分别构建级联的注意力网络部分来提取更多关键信息，从而可以进一步提高语音识别的准确性。并且，通过计算辅助损失值，并基于辅助损失值对文本损失值进行更新，可以加速网络收敛，提高语音识别模型训练的速度。

基于上述图2或图3实施例所示的方法训练完成语音识别模型之后，可以直接根据该语音识别模型进行身份识别和语音识别，并输出对应的文本信息和身份信息。参见图4，图4为本申请实施例中语音识别方法的一种流程图，可以包括以下步骤：

步骤S410，获取待识别的语音数据。

本申请实施例中，待识别的语音数据可以是单个人物（例如，可以是前述的第一对象或第二对象）的语音数据。针对多个人物的混合的语音数据，可以先分离出的单个人物的语音数据，然后再对单个人物的语音数据进行处理。

步骤S420，通过语音识别模型对语音数据进行识别，得到文本信息和身份信息。其中，语音识别模型基于图2实施例或图3实施例所述的语音识别模型训练方法训练得到。

基于训练完成的语音识别模型，首先可以通过编码网络部分对语音数据进行特征提取，得到声学特征信息；之后再通过身份预测网络部分对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和身份信息。最后，通过语音识别模型中的语音解码网络部分对声学特征信息和身份特征信息进行解码处理，得到文本信息。

可见，本申请在识别文本信息时，由于利用了身份特征信息，因此可以结合不同身份的人物发音的差异，提高文本识别的准确性。本申请实施例的语音识别方法同时还可以输出身份信息。

本实施例的方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。

相应于上述方法实施例，本申请实施例还提供了一种语音识别模型训练装置，参见图5，语音识别模型训练装置包括：

样本数据获取模块510，用于获取第一对象和第二对象分别对应的多个样本语音数据，以及样本语音数据对应的文本信息和身份信息；

编码模块520，用于通过语音识别模型中的编码网络部分对样本语音数据进行编码处理，得到声学特征信息；

身份预测模块530，用于通过语音识别模型中的身份预测网络部分对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息；

第一文本预测模块540，用于通过语音识别模型中的语音解码网络部分对声学特征信息和身份特征信息进行解码处理，得到第一预测文本信息；

损失值确定模块550，用于基于预测身份信息和身份信息确定身份损失值；以及基于第一预测文本信息和文本信息确定文本损失值；

模型训练模块560，用于根据身份损失值和文本损失值确定目标损失值，并基于目标损失值对语音识别模型进行训练。

在一种可选的实施方式中，编码模块520具体用于对样本语音数据进行特征提取，得到对应的第一声学特征向量；通过语音识别模型中的编码网络部分对第一声学特征向量进行编码处理，得到第二声学特征向量，将第二声学特征向量作为声学特征信息。

在一种可选的实施方式中，编码网络部分包括一个或多个第一注意力网络部分；

如果编码网络部分包括多个第一注意力网络部分，编码模块520通过下述步骤实现通过语音识别模型中的编码网络部分对第一声学特征向量进行编码处理：

通过多个级联的第一注意力网络部分对第一声学特征向量进行编码处理。

在一种可选的实施方式中，第一文本预测模块540具体用于根据声学特征信息和身份特征信息，确定融合特征信息；通过语音识别模型中的语音解码网络部分对融合特征信息进行解码处理。

在一种可选的实施方式中，第一文本预测模块540通过下述步骤实现根据声学特征信息和身份特征信息，确定融合特征信息：

通过第二注意力网络部分对声学特征信息和身份特征信息进行融合处理，确定融合特征信息。

在一种可选的实施方式中，上述语音识别模型训练装置还包括：

第二文本预测模块，用于通过分类器对融合特征信息进行处理，得到第二预测文本信息；

辅助损失值确定模块，用于基于第二预测文本信息和文本信息，确定辅助损失值；

文本损失值更新模块，用于将文本损失值更新为文本损失值与辅助损失值的加权和。

在一种可选的实施方式中，模型训练模块560，具体用于将身份损失值与对应的权重的乘积，与文本损失值对应的权重的乘积之和，作为目标损失值，并基于目标损失值对语音识别模型进行训练。

在一种可选的实施方式中，身份预测网络部分包括：一个或多个隐藏层和输出层；

身份预测模块530，具体用于通过一个或多个隐藏层对声学特征信息进行特征提取处理，得到对应的身份特征信息；通过输出层对身份特征信息进行处理，得到预测身份信息。

参见图6，图6为本申请实施例中语音识别装置的一种结构示意图，包括：

语音数据获取模块610，用于获取待识别的语音数据；

语音识别模块620，用于通过语音识别模型对语音数据进行识别，得到文本信息和身份信息；

其中，语音识别模型基于图2实施例或图3实施例所述的语音识别模型训练方法训练得到。

本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

参照图7，图7为本申请实施例中电子设备的一种结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行上述方法实施例中的相关操作。

程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过语音识别模型中的编码网络部分对所述样本语音数据进行编码处理，得到声学特征信息，包括：

对所述样本语音数据进行特征提取，得到对应的第一声学特征向量；

通过语音识别模型中的编码网络部分对所述第一声学特征向量进行编码处理，得到第二声学特征向量，将所述第二声学特征向量作为声学特征信息。

3.根据权利要求2所述的方法，其特征在于，所述编码网络部分包括一个或多个第一注意力网络部分；

如果所述编码网络部分包括多个第一注意力网络部分，所述通过语音识别模型中的编码网络部分对所述第一声学特征向量进行编码处理，包括：

通过多个级联的第一注意力网络部分对所述第一声学特征向量进行编码处理。

4.根据权利要求1所述的方法，其特征在于，所述通过所述语音识别模型中的语音解码网络部分对所述声学特征信息和所述身份特征信息进行解码处理，包括：

根据所述声学特征信息和所述身份特征信息，确定融合特征信息；

通过所述语音识别模型中的语音解码网络部分对所述融合特征信息进行解码处理。

5.根据权利要求4所述的方法，其特征在于，所述根据所述声学特征信息和所述身份特征信息，确定融合特征信息，包括：

通过第二注意力网络部分对所述声学特征信息和所述身份特征信息进行融合处理，确定融合特征信息。

6.根据权利要求4所述的方法，其特征在于，在所述根据所述身份损失值和所述文本损失值确定目标损失值之前，所述方法还包括：

通过分类器对所述融合特征信息进行处理，得到第二预测文本信息；

基于所述第二预测文本信息和所述文本信息，确定辅助损失值；

将所述文本损失值更新为所述文本损失值与所述辅助损失值的加权和。

7.根据权利要求1所述的方法，其特征在于，根据所述身份损失值和所述文本损失值确定目标损失值，包括：

将所述身份损失值与对应的权重的乘积，与所述文本损失值对应的权重的乘积之和，作为目标损失值。

8.根据权利要求1所述的方法，其特征在于，所述身份预测网络部分包括：一个或多个隐藏层和输出层；

所述通过所述语音识别模型中的身份预测网络部分对所述声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息，包括：

通过所述一个或多个隐藏层对所述声学特征信息进行特征提取处理，得到对应的身份特征信息；

通过所述输出层对所述身份特征信息进行预测处理，得到预测身份信息。

9.一种语音识别方法，其特征在于，包括：

获取待识别的语音数据；

其中，所述语音识别模型基于如权利要求1至8任一项所述的方法训练得到。

10.一种语音识别模型训练装置，其特征在于，包括：

11.一种语音识别装置，其特征在于，包括：

语音数据获取模块，用于获取待识别的语音数据；

12.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的方法，或权利要求9所述的方法。

13.一种计算机存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中任一所述的方法，或权利要求9所述的方法。