CN116129937A

CN116129937A - 发音评测方法及装置、电子设备及可读存储介质

Info

Publication number: CN116129937A
Application number: CN202310028916.7A
Authority: CN
Inventors: 王冰珏
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-16

Abstract

本公开披露一种发音评测方法及装置、电子设备及可读存储介质，涉及语音处理领域。该发音评测方法包括：确定待评测音频数据和所述待测评音频数据对应的文本数据；基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。本公开实施例的发音评测方法通过发音评测模型，对待评测音频数据进行评测，结合错误类型进行评分，使得获得的评分结果更加精确，提高了发音评测模型的准确性。

Description

发音评测方法及装置、电子设备及可读存储介质

技术领域

本公开涉及语音处理技术领域，具体涉及发音评测方法及装置、电子设备及可读存储介质。

背景技术

发音评测是计算机辅助语言学习(Computer Aided Language Learning，CALL)领域的一项重要任务，对音频数据进行评测，是许多口语考试和学习场景中必不可少的环节。传统的发音评测模型会对待评测音频数据的正确发音程度进行评测，再根据发音程度的得分计算获得整个待评测音频数据的评分。目前，传统的发音评测模型对待评测音频数据的评测准确性较低。

发明内容

有鉴于此，本公开提供一种发音评测方法及装置、电子设备及可读存储介质，通过发音评测模型获得待评测音频数据的错误类型和分数，发音评测模型能够结合错误类型进行评分，解决了传统的发音评测模型对待评测音频数据的评测准确性较低的问题。

第一方面，本公开一实施例提供的一种发音评测方法，包括：确定待评测音频数据和所述待测评音频数据对应的文本数据；基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

结合第一方面，在第一方面的某些实现方式中，在基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数之前，该方法还包括：生成训练样本，其中，训练样本包括多个音频数据、多个音频数据各自对应的文本数据和多个音频数据各自对应的标签，标签包括错误类型标签和分数标签；将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型和预测分数；利用第一损失函数，基于多个音频数据各自对应的预测错误类型和错误类型标签，得到错误类型损失；利用第二损失函数，基于多个音频数据各自对应的预测分数和分数标签，得到分数损失；基于错误类型损失和所述分数损失，调整学习模型，得到发音评测模型。

结合第一方面，在第一方面的某些实现方式中，标签还包括错误概率标签，多个音频数据包括至少一个非标准音频数据；将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型和预测分数，包括：将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率；发音评方法还包括：利用第三损失函数，基于多个音频数据各自对应的错误概率标签，得到错误概率损失；基于错误类型损失和分数损失，调整深度学习模型，得到所述发音评测模型，包括：基于错误类型损失、分数损失和错误概率损失，调整深度学习模型，得到发音评测模型，其中，发音评测模型用于预测待评测音频数据的错误类型、错误概率和分数。

结合第一方面，在第一方面的某些实现方式中，深度学习模型包括编码器和解码器，解码器包括文本数据处理层和三个并联的全连接层；将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率，包括：利用编码器，基于多个音频数据，生成第一隐层向量；利用文本数据处理层，基于多个音频数据各自对应的文本数据和第一隐层向量，生成第二隐层向量；利用三个并联的全连接层，基于第二隐层向量，生成预测错误类型、预测错误概率和预测分数，其中，三个并联的全连接层分别输出预测错误类型、预测错误概率和预测分数；基于预测错误类型、预测错误概率和预测分数，以及错误类型标签、错误概率标签和分数标签，调整深度学习模型的参数，得到发音评测模型，发音评测模型用于预测待评测音频数据的错误类型、错误概率和分数。

结合第一方面，在第一方面的某些实现方式中，编码器包括卷积神经网络层和编码层；利用编码器，基于多个音频数据，生成第一隐层向量，包括：利用卷积神经网络层，对多个音频数据进行特征提取，得到多个音频数据的局部关系特征；利用编码层，对局部关系特征进行编码，生成第一隐层向量。

结合第一方面，在第一方面的某些实现方式中，生成训练样本，包括：基于多个音频数据，确定多个音频数据各自对应的文本数据；基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签和分数标签。

结合第一方面，在第一方面的某些实现方式中，在基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签和分数标签之前，该方法还包括：基于标签音频数据样本和标签音频数据样本对应的文本数据，利用训练好的教师模型，确定标签音频数据样本对应的初始错误类型标签；利用标签音频数据样本、标签音频数据样本对应的文本数据、初始错误类型标签和初始分数标签，训练学生模型，生成训练好的标签生成模型。

第二方面，本公开一实施例提供的一种发音评测装置，包括：确定模块，用于确定待评测音频数据和待测评音频数据对应的文本数据；评测模块，用于基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

第三方面，本公开一实施例提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器用于执行上述第一方面所提及的发音评测方法。

第四方面，本公开一实施例提供一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序用于执行上述第一方面所提及的发音评测方法。

本公开实施例的发音评测方法，通过发音评测模型对待评测音频数据进行处理，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数。发音评测模型可以结合错误类型进行评分，评分结果更加精确，提高了待评测音频数据的评测结果准确性，解决了传统的发音评测模型对待评测音频数据的评测准确性较低的问题。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。

图1所示为本公开一实施例提供的应用场景示意图。

图2所示为本公开一实施例提供的发音评测方法的流程示意图

图3所示为本公开另一实施例提供的发音评测方法的流程示意图。

图4所示为本公开一实施例提供的将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率的流程示意图。

图5所示为本公开一实施例提供的生成训练样本的流程示意图。

图6所示为本公开另一实施例提供的另一发音评测方法的流程示意图。

图7所示为本公开一实施例提供的发音评测装置的结构示意图。

图8所示为本公开提供的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。

发音评测是计算机辅助语言学习领域的一项重要任务，对音频数据进行评测，是很多口语考试和学习应用软件中必不可少的环节，例如，普通话水平测试、英语口语考试、语言学习应用软件。

传统的发音评测模型需要对待评测音频数据的标准的发音程度进行评测，再根据发音程度的得分计算获得整个待评测音频数据的评分结果。传统的发音评测方法使用神经网络建立的标准发音声学模型对语音和朗读文本做强制对齐(Forced Alignment，FA)，然后基于对齐后的切分边界计算每个音素的发音正确程度(GOP，Goodness ofPronunciation)，最后使用神经网络由每个音素的GOP计算出整段语音的得分。由于传统评测的方法不对不在标准发音空间的错误发音进行建模，因此当音频数据是非标准发音时，例如说话人的母语发音习惯与标准发音相差较远(如母语为维吾尔语的人说普通话存在的语调偏误)时，GOP无法准确地反映其真实发音水平。此外，传统发音评测模型依赖FA的结果，FA的细微变化会给评测结果带来较大的波动，这样与人工评分效果差异较大，人工不会因为音素边界的差异，造成评测结果的大幅度变化，因此，传统的发音评测模型对待评测音频数据的评测准确性较低。

基于上述提及的技术问题，本公开提出一种发音评测方法及装置、电子设备及可读存储介质。

本公开实施例的发音评测方法通过发音评测模型，对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数。发音评测模型是基于错误类型进行评分，因此评分结果更加精确，提高了待评测音频数据的评测结果准确性，解决了传统的发音评测模型对待评测音频数据的评测准确性较低的问题。

在介绍了本公开的基本原理后，下面结合参考附图具体介绍本公开的各种非限制性实施例。

下面结合图1对本公开实施例的应用场景进行简单的介绍。

图1所示为本公开一实施例提供的应用场景示意图。如图1所示，本公开实施例所适应的场景中包括服务器110和数据收集设备120。服务器110与数据收集设备120之间存在通信连接，服务器110用于执行本公开实施例提及的发音评测方法。

示例性地，在实际应用过程中，数据收集设备120用于收集待评测音频数据，并将待评测音频数据发送给服务器110，服务器110用于根据数据收集设备120收集的待评测音频数据，确定待评测音频数据对应的文本数据。服务器110基于基于待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

示例性地，待评测音频数据可以是口语考试的音频数据，也可以是通过语言学习应用软件接收的音频数据。应当理解，本公开实施例提供的发音评测方法，不局限于上述提及口语考试或语言学习的应用场景，只要涉及到需要进行发音评测的应用场景，均属于本公开实施例的使用范围。

下面结合图2至图6对本公开的发音评测方法进行简单的介绍。

图2所示为本公开一实施例提供的发音评测方法的流程示意图。如图2所示，本公开实施例提供的发音评测方法包括如下步骤。

步骤S210，确定待评测音频数据和待测评音频数据对应的文本数据。

示例性地，根据需求，确定待评测音频数据和待测评音频数据对应的文本数据。待评测音频数据可以是存储后进行获取，也可以是在用户进行发音训练或发音学习时，获得的音频数据，并对音频数据直接进行处理。待测评音频数据对应的文本数据根据实际的应用场景，可以是预设内容。

在一些实施例中，在音频数据对应为预设文本数据时，能够直接获取音频数据对应的文本数据。在另外一些实施例中，步骤S210的具体实施方法还可以包括：利用自动语音识别技术，对待评测音频进行识别，得到待评测音频对应的文本数据。也就是说，音频数据没有对应的预设文本数据，利用自动语音识别技术，对待评测音频进行识别，得到待评测音频对应的文本数据。示例性地，如果语音过长，可以使用语音活动检测(Voice ActivityDetection，VAD)或FA确定句级别边界，将音频数据和对应的文本数据进行切分，分成单句后再进行后续的评测。

步骤S220，基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数。

发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

示例性地，发音评测模型可以包括多层具有自注意力机制和交叉注意力机制功能的编码层，例如，Transformer层，从而使发音评测模型可以利用多层具有自注意力机制和交叉注意力机制功能的编码层对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

示例性地，将上述获得的待评测音频数据和待测评音频数据对应的文本数据，分别输入到发音评测模型的多层具有自注意力机制和交叉注意力机制功能的编码层中，得到评测音频数据的错误类型和分数。

本公开实施例的发音评测方法通过发音评测模型，对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数。发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，得到待评测音频数据的错误类型和分数，结合了错误类型对待评测模型进行评分，提高了待评测音频数据的评测结果准确性，解决了传统的发音评测模型对待评测音频数据的评测准确性较低的问题。

图3所示为本公开另一实施例提供的发音评测方法的流程示意图。在图2所示实施例基础上延伸出图3所示实施例，下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图3所示，本公开实施例提供的发音评测方法在基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数之前，该方法还包括如下步骤。

步骤S310，生成训练样本。

训练样本包括多个音频数据、多个音频数据各自对应的文本数据和多个音频数据各自对应的标签，标签包括错误类型标签和分数标签。

示例性地，根据获取的多个音频数据、多个音频数据各自对应的文本数据和多个音频数据各自对应的标签，生成训练样本。

示例性地，错误类型标签能够表示音频数据中某一音素(或音调)犯的哪种错误，例如，音素发音混淆，音素未发音，音素的音调错误，错误概率标签能够表示音频数据中同一音素(或音调)产生的某类型错误的概率。

在一些实施例中，步骤S310的具体实现方式如图5所示，详见图5部分描述，此处不再赘述。

步骤S320，将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型和预测分数。

步骤S330，利用第一损失函数，基于多个音频数据各自对应的预测错误类型和错误类型标签，得到错误类型损失。

步骤S340，利用第二损失函数，基于多个音频数据各自对应的预测分数和分数标签，得到分数损失。

示例性地，第一损失函数和第二损失函数可以根据实际需求选取，本公开实施例不对第一损失函数和第二损失函数作具体限定。

步骤S350，基于错误类型损失和分数损失，调整深度学习模型，得到发音评测模型。

示例性地，深度学习模型可以是包括主体结构为编码器-解码器结构的模型，应当理解深度学习模型也可以根据需求进行选取。

示例性地，将多个音频数据、多个音频数据各自对应的文本数据输入深度学习模型，输出多个音频数据各自对应的错误类型和分数，利用损失函数计算输出的错误类型和分数与错误类型标签和分数标签之间各自的损失，根据错误类型和分数各自的损失，调整深度学习模型，直到错误类型和分数各自的损失满足阈值，得到训练好的发音评测模型。

在一些实施例中标签还包括错误概率标签，多个音频数据包括至少一个非标准音频数据；将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型和预测分数，包括：将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率；发音评测方法还包括：利用第三损失函数，基于多个音频数据各自对应的错误概率标签，得到错误概率损失；基于错误类型损失和分数损失，调整深度学习模型，得到发音评测模型，包括：基于错误类型损失、分数损失和错误概率损失，调整深度学习模型，得到发音评测模型。

在一些实施例中，步骤S350的具体实施方式如图4所述，详见图4部分描述，此处不再赘述。

本公开实施例通过包含错误类型标签和错误概率标签的训练样本，训练深度学习模型，得到发音评测模型。由于训练过程引入错误类型标签，深度学习模型的参数是基于错误类型损失和错误分数损失调整的，从而使得训练好的发音评测模型结果不仅能对发音的正确程度进行评测，还能基于错误类型进行评分，增加了发音评测模型对错误的分辨能力提高了发音评测结果的准确性，从而解决了传统发音评测模型存在的评测结果不精确的问题。此外，本公开实施例在训练过程中还采用了错误概率标签，以及非标准发音的语音文本，深度学习模型的参数还根据错误概率标签和非标准发音文本进行调整，增加了对非标准发音的检测能力，进一步提高了发音评测模型的评测结果的准确性。

图4所示为本公开一实施例提供的将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率的流程示意图。如图4所示，本公开实施例提供的将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率包括如下步骤。

步骤S410，利用编码器，基于多个音频数据，生成第一隐层向量。

深度学习模型包括编码器和解码器，解码器包括文本数据处理层和三个并联的全连接层。

示例性地，将多个音频数据输入深度学习模型，对输入的多个音频数据进行特征提取，获得音频特征数据。将音频特征数据进行下采样，生成第一隐层向量。

在一些实施例中，编码器包括卷积神经网络层和编码层，步骤S310的具体实施步骤包括：利用卷积神经网络层，对多个音频数据进行特征提取，得到多个音频数据的局部关系特征；利用编码层，对局部关系特征进行编码，生成第一隐层向量。示例性地编码层为含注意力机制的多层transformer网络层，transformer网络层在卷积神经网络层后，获取音频数据的全局特征。示例性地，卷积神经网络层获取局部关系特征，音频数据进行音频向量化处理，音频特征向量进入编码器前进行下采样操作，减少相关的计算量。

步骤S420，利用文本数据处理层，基于多个音频数据各自对应的文本数据和第一隐层向量，生成第二隐层向量。

示例性地，文本数据处理层包括音素(音调)序列嵌入层和多层Transformer，文本数据经过序列化处理，生成音素序列。当评测语言为汉语类的声调语言，对文本数据进行序列化处理，除了需要生成音素序列，还需要生成声调序列。音素(音调)序列嵌入层能够将输入的文本序列进行向量化处理，输出维度为(L，d)的音素(音调)隐层向量，d为模型的音素(音调)隐层向量的维度，L为音素(音调)序列的数量，音素(音调)隐层向量存储了文本信息。多层Transformer的注意力机制为自注意力机制和交叉注意力机制，Transformer通过第一隐层向量和音素(音调)隐层向量，通过交互，生成第二隐层向量，第二隐层向量包含音频和文本信息，以及权重信息。

步骤S430，利用三个并联的全连接层，基于第二隐层向量，生成预测错误类型、预测错误概率和预测分数。

三个并联的全连接层分别输出预测错误类型、预测错误概率和预测分数。

示例性地，将第二隐层向量输入三个并联的全连接层，三个全连接层分别对输入的第二隐层向量预测每个音素的分数、错误类型和错误概率。

示例性地，全连接层输出的分数可以通过下式(1-1)获得。

score＝(S₁，...，S_L)＝FFN_score(h)

S_i∈R，i＝1，...，L (1-1)

在式1-1中，score表示分数，h表示第二隐层向量，FNN_score(h)表示发音评测模型预测分数结果，分数结果是每个音素的得分平均得到的，S_i表示第i个音素的得分，L为文本数据包含的所有音素的总数。R表示实数。

示例性地，全连接层输出的错误概率可以通过下式(1-2)获得。

在式1-2中，erroe_pro表示错误概率，h表示第二隐层向量，FNNpro(h)表示发音评测模型预测的错误概率结果，P_i表示第i个音素发音错误的概率，L为文本数据包含的所有音素的总数。

示例性地，错误类型的预测能够辅助预测分数的主任务，即，训练过程中，能够辅助模型学习人工测评的规则与标准，对增加非标准标准发音或方言音的检测能力，同时增加得分结果的可解释性。

示例性地，全连接层输出的错误类型结果可以通过下式(1-3)获得。

在式1-3中，c_i,m表示第i个音素犯第m种错误的概率，M表示错误类型总数，FNNcls表示模型预测的错误类型结果。

错误类型的预测与错误概率的预测作用一样，用来辅助预测分数的主任务，辅助模型学习人工评测的规则与标准，在实际的语言学习场景中，错误类型无法全部枚举的情况下，可以对语言学习者常犯的高频错误进行归纳总结，并将其纳入该模型的学习中，以提高模型对非标准发音常见易混淆错误类型的分辨能力。

步骤S440，基于预测错误类型、预测错误概率和预测分数，以及错误类型标签、错误概率标签和分数标签，调整深度学习模型的参数，得到发音评测模型。

发音评测模型用于预测待评测音频数据的错误类型、错误概率和分数。

示例性地，根据预测错误类型、预测错误概率和预测分数，与错误类型标签、错误概率标签和分数标签之前的损失，调整深度学习模型参数，得到发音评测模型。

本公开实施例通过错误类型与错误概率的预测，辅助了预测分数，在面对非标准发音时，预测分数结果更加准确。本公开实施例还通过语言学习者常犯的高频错误作为错误类型，能够提高模型对非标准发音常见的易混淆的错误的辨别能力，进一步提高了发音评测模型输出结果的准确性。此外，本公开实施例的编码器包括卷积神经网络层和编码层，使得发音评测模型能够捕捉待评测音频数据的微小特征和全局特征，进一步使得待评测音频数据的评测结果更加准确。

图5所示为本公开一实施例提供的生成训练样本的流程示意图。如图5所示，本公开实施例提供的生成训练样本包括如下步骤。

步骤S510，基于多个音频数据，确定多个音频数据各自对应的文本数据。

示例性地，在一些应用场景中，音频数据是根据预设的内容确定的，文本数据可以的预设好的内容，文本数据能够直接根据预设好的内容获得，如普通话水平测试、英语口语测试，有指定的朗读文本，将指定的朗读文本直接确定为文本数据。在一些应用场景中，音频数据没有对应的文本数据，例如没有指定朗读文本的场景，文本数据是根据音频数据直接确定的，通过音频数据进行识别，实现确定音频数据对应的文本数据。例如，语言学习应用软件，通过用户随机的音频数据，确定用户的发音水平。

步骤S520，基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签和分数标签。

示例性地，根据多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成大量的用于训练的错误类型标签和分数标签。

在一些实施例中，根据多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型还可以生成大量的用于训练的错误概率标签。

本公开实施例通过训练好的标签生成模型，能够生成大量的错误类型标签、错误概率标签及分数标签，从而能够批量获得错误类型标签、错误概率标签及分数标签，使得训练样本更加丰富，通过丰富的训练样本，训练完成的发音评测模型能够更准确的输出待评测语音的结果，使得发音评测模型面对非标准发音时，更稳定地输出评测结果。此外，本公开实施例的标签不需要人工标注，能够摆脱人工标注标签的弊端，对于低资源的语言或方言来说，能够直接大批量产生标签，增加了模型的泛用性。

图6所示为本公开另一实施例提供的另一发音评测方法的流程示意图。在图5所示实施例基础上延伸出图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图6所示为本公开另一实施例提供的发音评测方法，在基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签、错误概率标签及分数标签之前，发音评测方法还包括如下步骤。

步骤S610，基于标签音频数据样本和标签音频数据样本对应的文本数据，利用训练好的教师模型，确定标签音频数据样本对应的初始错误类型标签。

示例性地，训练好的教师模型能够预测签音频数据样本对应的初始错误类型标签和初始错误概率标签。教师模型通常是单个复杂网络或者是若干网络的集合。

步骤S620，利用标签音频数据样本、标签音频数据样本对应的文本数据、初始错误类型标签和初始分数标签，训练学生模型，生成训练好的标签生成模型。

标签生成模型能够输出错误类型标签、错误概率标签和分数标签。

示例性地，根据初始错误标签和初始分数标签分别对应的检验标签，确定错误标签和分数标签的损失函数。训练学生模型时，采用的损失函数为错误标签和分数标签的损失函数之和。学生模型是相较于教师模型网络规模较小的模型。

在一些实施例中，利用标签音频数据样本、标签音频数据样本对应的文本数据、初始错误类型标签、初始错误概率标签和初始分数标签，训练学生模型，生成训练好的标签生成模型，标签生成模型能够输出错误类型标签、错误概率标签和分数标签。

示例性地，将标签音频数据样本、标签音频数据样本对应的文本数据输入学生模型，输出错误类型标签、错误概率标签和分数标签，确定初始错误类型标签、初始错误概率标签和初始分数标签与错误类型标签、错误概率标签和分数标签的之间各自的损失，利用错误类型标签、错误概率标签和分数标签各自的损失之和，调整学生模型，直至损失之和满足预设阈值，得到训练好的发音评测模型。

本公开实施例通过训练好的教师模型，获得初始错误标签、初始错误概率标签和初始分数标签，再通过标签音频数据样本、标签音频数据样本对应的文本数据、初始错误类型标签、初始错误概率标签和初始分数标签，训练学生模型，生成训练好的标签生成模型，能够简化标签生成模型的结构，使得复杂的标签生成的计算过程变得简单，提高了标签输出结果的稳定性。

图7所示为本公开一实施例提供的发音评测装置的结构示意图。如图7所示，本公开实施例提供的发音评测装置700包括：确定模块701，评测模块702。具体地，确定模块701，用于确定待评测音频数据和待测评音频数据对应的文本数据；评测模块702，用于基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。

在一些实施例中，在基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数之前，确定模块701还用于，生成训练样本，其中，训练样本包括多个音频数据、多个音频数据各自对应的文本数据和多个音频数据各自对应的标签，标签包括错误类型标签和分数标签；将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型和预测分数；利用第一损失函数，基于多个音频数据各自对应的预测错误类型和错误类型标签，得到错误类型损失；利用第二损失函数，基于多个音频数据各自对应的预测分数和分数标签，得到分数损失；基于错误类型损失和所述分数损失，调整学习模型，得到发音评测模型。

在一些实施例中，标签还包括错误概率标签，多个音频数据包括至少一个非标准音频数据。确定模块701还用于，将多个音频数据、多个音频数据各自对应的文本数据，输入深度学习模型，得到多个音频数据各自对应的预测错误类型、预测分数和预测错误概率。确定模块701还用于，利用第三损失函数，基于多个音频数据各自对应的错误概率标签，得到错误概率损失。模型调整模块704还用于，基于错误类型损失、分数损失和错误概率损失，调整深度学习模型，得到发音评测模型，其中，发音评测模型用于预测所述待评测音频数据的错误类型、错误概率和分数

在一些实施例中，深度学习模型包括编码器和解码器，解码器包括文本数据处理层和三个并联的全连接层。确定模块701还用于，利用编码器，基于多个音频数据，生成第一隐层向量；利用文本数据处理层，基于多个音频数据各自对应的文本数据和第一隐层向量，生成第二隐层向量；利用三个并联的全连接层，基于第二隐层向量，生成预测错误类型、预测错误概率和预测分数，其中，三个并联的全连接层分别输出预测错误类型、预测错误概率和预测分数；基于预测错误类型、预测错误概率和预测分数，以及错误类型标签、错误概率标签和分数标签，调整深度学习模型的参数，得到发音评测模型。

在一些实施例中，编码器包括卷积神经网络层和编码层。确定模块701还用于，利用卷积神经网络层，对多个音频数据进行特征提取，得到多个音频数据的局部关系特征；利用编码层，对局部关系特征进行编码，生成第一隐层向量。

在一些实施例中，确定模块701还用于，基于多个音频数据，确定多个音频数据各自对应的文本数据；基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签、错误概率标签及分数标签。

在一些实施例中，确定模块701还用于，在基于多个音频数据和多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成错误类型标签、错误概率标签及分数标签之前，基于标签音频数据样本和标签音频数据样本对应的文本数据，利用训练好的教师模型，确定标签音频数据样本对应的初始错误类型标签和初始错误概率标签；利用标签音频数据样本、标签音频数据样本对应的文本数据、初始错误类型标签、初始错误概率标签和初始分数标签，训练学生模型，生成训练好的标签生成模型。

下面，参考图8来描述根据本公开实施例的电子设备。图8所示为本公开一示例性实施例提供的电子设备的结构示意图。图8所示为本公开的一实施例提供的电子设备的结构示意图。

图8所示为本公开一实施例提供的电子设备的结构示意图。图8所示的电子设备800(该电子设备800具体可以是一种计算机设备)包括存储器801、处理器802、通信接口803以及总线804。其中，存储器801、处理器802、通信接口903通过总线804实现彼此之间的通信连接。

存储器801可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器801可以存储程序，当存储器801中存储的程序被处理器902执行时，处理器802和通信接口803用于执行本公开实施例的发音评测方法中的各个步骤。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(Graphics Processing Unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本公开实施例的发音评测装置中的各个单元所需执行的功能。

处理器802还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本公开的发音评测方法的各个步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成本公开实施例的发音评测装置包括的单元所需执行的功能，或者执行本公开实施例的发音评测方法。

通信接口803使用例如但不限于收发器一类的收发装置，来实现电子设备800与其他设备或通信网络之间的通信。例如，可以通过通信接口803获取待评测音频数据。

总线804可包括在电子设备800各个部件(例如，存储器801、处理器802、通信接口803)之间传送信息的通路。

应注意，尽管图8所示的电子设备800仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，电子设备800还包括实现正常运行所必需的其他器件。同时，根据具体需要，本领域的技术人员应当理解，电子设备800还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，电子设备800也可仅仅包括实现本公开实施例所必需的器件，而不必包括图8中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种发音评测方法，其特征在于，包括：

确定待评测音频数据和所述待测评音频数据对应的文本数据；

基于所述待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对所述待评测音频数据进行评测，获得所述待评测音频数据的错误类型和分数，其中，所述发音评测模型利用自注意力机制和交叉注意力机制对所述待评测音频数据和所述待测评音频数据对应的文本数据进行评测，以得到所述待评测音频数据的错误类型和分数。

2.根据权利要求1所述的发音评测方法，其特征在于，在所述基于所述待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对所述待评测音频数据进行评测，获得所述待评测音频数据的错误类型和分数之前，还包括：

生成训练样本，其中，所述训练样本包括多个音频数据、所述多个音频数据各自对应的文本数据和所述多个音频数据各自对应的标签，所述标签包括错误类型标签和分数标签；

将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型和预测分数；

利用第一损失函数，基于所述多个音频数据各自对应的预测错误类型和错误类型标签，得到错误类型损失；

利用第二损失函数，基于所述多个音频数据各自对应的预测分数和分数标签，得到分数损失；

基于所述错误类型损失和所述分数损失，调整深度学习模型，得到所述发音评测模型。

3.根据权利要求2所述的发音评测方法，其特征在于，所述标签还包括错误概率标签，所述多个音频数据包括至少一个非标准音频数据；

所述将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型和预测分数，包括：将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型、预测分数和预测错误概率；

所述发音评测方法还包括：利用第三损失函数，基于所述多个音频数据各自对应的错误概率标签，得到错误概率损失；

所述基于所述错误类型损失和所述分数损失，调整深度学习模型，得到所述发音评测模型，包括：基于所述错误类型损失、所述分数损失和错误概率损失，调整深度学习模型，得到所述发音评测模型，其中，所述发音评测模型用于预测所述待评测音频数据的错误类型、错误概率和分数。

4.根据权利要求3所述的发音评测方法，其特征在于，所述深度学习模型包括编码器和解码器，所述解码器包括文本数据处理层和三个并联的全连接层；所述将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型、预测分数和预测错误概率，包括：

利用所述编码器，基于所述多个音频数据，生成第一隐层向量；

利用所述文本数据处理层，基于所述多个音频数据各自对应的文本数据和所述第一隐层向量，生成第二隐层向量；

利用所述三个并联的全连接层，基于所述第二隐层向量，生成预测错误类型、预测错误概率和预测分数，其中，所述三个并联的全连接层分别输出所述预测错误类型、所述预测错误概率和所述预测分数。

5.根据权利要求4所述的发音评测方法，其特征在于，所述编码器包括卷积神经网络层和编码层；所述利用所述编码器，基于所述多个音频数据，生成第一隐层向量，包括：

利用所述卷积神经网络层，对所述多个音频数据进行特征提取，得到所述多个音频数据的局部关系特征；

利用所述编码层，对所述局部关系特征进行编码，生成所述第一隐层向量。

6.根据权利要求1至5任一所述的发音评测方法，其特征在于，所述生成训练样本，包括：

基于所述多个音频数据，确定所述多个音频数据各自对应的文本数据；

基于所述多个音频数据和所述多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成所述错误类型标签和所述分数标签。

7.根据权利要求6所述的发音评测方法，其特征在于，在所述基于所述多个音频数据和所述多个音频数据各自对应的文本数据，通过训练好的标签生成模型，生成所述错误类型标签和所述分数标签之前，还包括：

基于标签音频数据样本和所述标签音频数据样本对应的文本数据，利用训练好的教师模型，确定所述标签音频数据样本对应的初始错误类型标签；

利用所述标签音频数据样本、所述标签音频数据样本对应的文本数据、所述初始错误类型标签和初始分数标签，训练学生模型，生成所述训练好的标签生成模型。

8.一种发音评测装置，其特征在于，包括：

确定模块，用于确定待评测音频数据和所述待测评音频数据对应的文本数据；

评测模块，用于基于所述待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对所述待评测音频数据进行评测，获得所述待评测音频数据的错误类型和分数，其中，所述发音评测模型利用自注意力机制和交叉注意力机制对所述待评测音频数据和所述待测评音频数据对应的文本数据进行评测，以得到所述待评测音频数据的错误类型和分数。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器用于执行上述权利要求1至7任一项所述的发音评测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至7任一项所述的发音评测方法。