CN111199750A

CN111199750A - 一种发音评测方法、装置、电子设备及存储介质

Info

Publication number: CN111199750A
Application number: CN201911316317.5A
Authority: CN
Inventors: 贺宇; 佟子健; 茹立云
Original assignee: Beijing Putao Zhixue Technology Co ltd
Current assignee: Beijing Putao Zhixue Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-26
Anticipated expiration: 2039-12-18
Also published as: CN111199750B

Abstract

本申请是关于一种发音评测方法、装置、电子设备及存储介质，该方法包括：基于获取到的待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果。直接对待评测的发音音频与待评测的发音音频对应的文本的相似度进行度量，得到发音评测结果。避免了由于多个中间结果中的任意一个中间结果不准确导致的发音评测结果不准确的问题，提升发音评测结果的准确性。无需针对每一个可能出现的发音单元各自对应的分类器进行训练，大幅度节省训练成本。对于每一个训练样本，仅需对相关人员朗读训练样本中的用于训练的发音音频对应的文本的发音准确性进行标注，大幅度减少训练样本的标注难度，大幅度节省训练成本。

Description

一种发音评测方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域，具体涉及发音评测方法、装置、电子设备及存储介质。

背景技术

在诸如外语的语言的在线学习中，对用户的发音进行评测是进行在线学习的用户最常用的功能。

目前，常用的对用户的发音进行评测的方式为：通过强制对齐算法将用户的待评测的发音音频中的发音音频段与待评测的发音音频对应的文本中的发音单元(例如音节、音素)进行强制对齐，以确定每一个发音单元各自对应的发音音频段。然后，将每一个发音单元各自对应的发音音频段分别输入到发音单元对应的分类器，得到每一个发音单元各自对应的发音音频段的得分。发音单元对应的发音音频段的得分指示用户读该发音单元的发音是否准确。最后，根据每一个发音单元各自对应的发音音频段的得分，得到待评测的发音音频的最终得分即发音评测结果。待评测的发音音频的最终得分指示用户读待评测的发音音频对应的文本的发音是否准确。

当采用上述方式对用户的发音进行评测时，一方面，每一个发音单元各自对应的发音音频段是通过强制对齐算法确定的，强制对齐算法存在误差，对于每一个发音单元，除了将用户读该发音单元的实际的发音音频段与该发音单元进行对齐之外，还可能将用户读该发音单元的发音音频段附近的停顿音频段、静音音频段与该发音单元进行对齐，使得该发音单元对应的发音音频段除了包括用户读该发音单元的实际的发音音频段，还包括诸如停顿音频段、静音音频段的与用户读该发音单元的发音音频段无关的音频段。

在分别计算每一个发音单元各自对应的发音音频段的得分时，均有可能与用户读发音单元的实际发音音频段无关的音频段也参与计算，导致每一个发音单元各自对应的发音音频段的得分均有可能不准确，每一个发音单元各自对应的发音音频段的得分中的任意一个得分不准确均会导致待评测的发音音频的最终得分即最终的发音评测结果不准确。

另一方面，每一个发音单元各自对应的发音音频段的得分的准确性依赖于发音单元对应的分类器。对于每一个可能发音单元，均需要预先利用大量的训练样本对发音单元对应的分类器进行训练，训练每一个发音单元各自对应的分类器的成本巨大。对于每一个训练样本中的用于训练的发音音频对应的文本，均需要以人工方式对用于训练的发音音频对应的文本中的每一个发音单元的发音准确性进行标注，导致标注成本巨大。

发明内容

为克服相关技术中存在的问题，本申请提供一种发音评测方法、装置、电子设备及存储介质。

根据本申请实施例的第一方面，提供一种发音评测方法，包括：

获取待评测的发音音频和待评测的发音音频对应的文本；

执行发音评测操作，发音评测操作包括：生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

在一些实施例中，执行发音评测操作包括：利用发音评测模型执行发音评测操作，得到待评测的发音音频的发音评测结果，其中，发音评测模型被预先利用训练样本和训练样本的标注数据进行训练，训练样本包括：用于训练的发音音频、用于训练的发音音频对应的文本。

在一些实施例中，对于每一个训练样本，训练样本的标注数据为以下之一：指示朗读用于训练的发音音频对应的文本的发音准确的数值、指示朗读用于训练的发音音频对应的文本的发音不准确的数值。

在一些实施例中，将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量包括：

利用第一深度神经网络将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及利用第二深度神经网络将所述文本特征向量编码为经过编码的文本特征向量。

在一些实施例中，所述生成所述待评测的发音音频的发音音频特征向量包括：

提取所述待评测的发音音频中的每一帧的声学特征；

利用卷积神经网络对所述每一帧的声学特征进行编码，得到所述待评测的发音音频的发音音频特征向量。

在一些实施例中，所述声学特征为FBank特征。

在一些实施例中，所述卷积神经网络为VGG19网络。

在一些实施例中，所述生成待评测的发音音频对应的文本的文本特征向量包括：

生成待评测的发音音频对应的文本中的每一个词的词向量；

利用双向长短期记忆网络对每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

在一些实施例中，计算经过编码的发音音频特征向量与经过编码的文本特征向量的相似度包括：

计算经过编码的发音音频特征向量与经过编码的文本特征向量的余弦距离；

将所述余弦距离作为所述相似度。

在一些实施例中，基于所述相似度，生成待评测的发音音频的发音评测结果包括：

当相似度大于或等于相似度阈值时，生成指示发音准确的发音评测结果；

当相似度小于相似度阈值时，生成指示发音不准确的发音评测结果。

根据本申请实施例的第二方面，提供一种发音评测装置，包括：

获取单元，被配置为获取待评测的发音音频和待评测的发音音频对应的文本；

评测单元，被配置为执行发音评测操作，发音评测操作包括：生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

在一些实施例中，所述生成所述待评测的发音音频的发音音频特征向量包括：提取所述待评测的发音音频中的每一帧的声学特征；利用卷积神经网络对所述每一帧的声学特征进行编码，得到所述待评测的发音音频的发音音频特征向量。

在一些实施例中，所述声学特征为FBank特征。

在一些实施例中，所述卷积神经网络为VGG19网络。

在一些实施例中，所述生成待评测的发音音频对应的文本的文本特征向量包括：生成待评测的发音音频对应的文本中的每一个词的词向量；利用双向长短期记忆网络对每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

将所述余弦距离作为所述相似度。

在一些实施例中，基于所述相似度，生成待评测的发音音频的发音评测结果包括：当相似度大于或等于相似度阈值时，生成指示发音准确的发音评测结果；当相似度小于相似度阈值时，生成指示发音不准确的发音评测结果。

本申请的实施例提供的技术方案可以包括以下有益效果：

一方面，直接利用属于同一语义空间的经过编码的发音音频特征向量、经过编码的文本特征向量分别表示待评测的发音音频、待评测的发音音频对应的文本，直接对待评测的发音音频与待评测的发音音频对应的文本的相似度进行度量，得到发音评测结果。由于在进行发音评测时，不存在多个中间结果即每一个发音单元各自对应的发音音频段，避免了由于每一个发音单元各自对应的发音音频段的得分中的任意一个得分不准确均会导致待评测的发音音频的最终得分即发音评测结果不准确的问题，提升发音评测结果的准确性。

另一方面，无需预先针对每一个可能出现的发音单元各自对应的分类器进行训练，大幅度节省训练成本。对于每一个训练样本，仅需对用于训练的发音音频对应的文本的发音准确性进行标注，用于训练的发音音频对应的文本的发音准确性为相关人员朗读用于训练的发音音频对应的文本的发音的准确性，而无需对用于训练的发音音频对应的文本中的每一个发音单元的发音准确性分别进行标注，大幅度减少训练样本的标注难度和标注成本，进一步大幅度节省训练成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请实施例提供的发音评测方法的一个的流程图；

图2示出了生成待评测的发音音频的发音音频特征向量的流程示意图；

图3示出了生成待评测的发音音频对应的文本的文本特征向量的流程示意图；

图4示出了利用发音评测模型得到发音评测结果流程示意图；

图5示出了本申请实施例提供的发音评测装置的一个结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是本申请实施例提供的发音评测方法的一个的流程图。该方法包括以下步骤：

步骤101，获取待评测的发音音频和待评测的发音音频对应的文本。

在本申请中，在每一次得到待评测的发音音频的发音评测结果时，首先获取待评测的发音音频和待评测的发音音频对应的文本。待评测的发音音频为用户读待评测的发音音频对应的文本的音频。待评测的发音音频的发音评测结果指示用户朗读待评测的发音音频对应的文本的发音的准确性。

步骤102，执行发音评测操作，得到待评测的发音音频的发音评测结果。

在本申请中，发音评测操作包括：生成待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；将该发音音频特征向量编码为经过编码的发音音频特征向量，以及将该文本特征向量编码为经过编码的文本特征向量，其中，该经过编码的发音音频特征向量与该经过编码的文本特征向量属于同一语义空间；计算该经过编码的发音音频特征向量与该经过编码的文本特征向量的相似度；基于该相似度，生成该待评测的发音音频的发音评测结果，以及输出该待评测的发音音频的发音评测结果。

在本申请中，可以预先确定一个可以同时表示发音音频和发音音频对应的文本的目标向量形式，以及预先确定目标向量形式的向量与发音音频的特征向量的对应关系、目标向量形式的向量与发音音频对应的文本的对应关系。

当执行发音评测操作时，可以基于目标向量形式的向量与发音音频的特征向量的对应关系，将待评测的发音音频的发音音频特征向量编码为经过编码的发音音频特征向量，同时，可以基于目标向量形式的向量与发音音频对应的文本的对应关系，将待评测的发音音频的发音音频对应的文本的文本特征向量编码为经过编码的文本特征向量。

经过编码的发音音频特征向量的向量形式和经过编码的文本特征向量的向量形式均为目标向量形式，因此，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一个语义空间，因此，可以计算属于一个语义空间的经过编码的发音音频特征向量与经过编码的文本特征向量的相似度。

在一些实施例中，将发音音频特征向量编码为经过编码的发音音频特征向量，以及将文本特征向量编码为经过编码的文本特征向量包括：利用第一深度神经网络(DeepNeuralNetworks，DNN)将待评测的发音音频的发音音频特征向量编码为经过编码的发音音频特征向量，以及利用第二深度神经网络将待评测的发音音频对应的文本的文本特征向量编码为经过编码的文本特征向量。

在一些实施例中，利用发音评测模型执行发音评测操作，得到待评测的发音音频的发音评测结果，其中，发音评测模型被预先利用训练样本和训练样本的标注数据进行训练，训练样本包括：用于训练的发音音频、用于训练的发音音频对应的文本。

在本申请中，发音评测模型可以被配置为：生成待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；利用第一深度神经网络将该发音音频特征向量编码为经过编码的发音音频特征向量，以及利用第二深度神经网络将该文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；计算经过编码的发音音频特征向量与经过编码的文本特征向量的相似度；基于该相似度，生成待评测的发音音频的发音评测结果，以及输出待评测的发音音频的发音评测结果。

在本申请中，发音评测模型被预先利用训练样本和训练样本的标注数据进行训练。在利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果之前，可以利用大量的训练样本和训练样本的标注数据对发音评测模型进行迭代地训练。

发音评测模型包括第一深度神经网络、第二深度神经网络。通过利用大量的训练样本和训练样本的标注数据对发音评测模型进行迭代地训练包括对第一深度神经网络和第二深度神经网络进行训练。在对第一深度神经网络和第二深度神经网络进行训练之后，第一深度神经网络可以将发音音频特征向量编码为经过编码的发音音频特征向量，第二深度神经网络可以将文本特征向量编码为经过编码的文本特征向量，经过编码的发音音频特征向量和经过编码的文本特征向量属于同一语义空间。

在每一次对发音评测模型进行训练的过程中，利用一个训练样本和训练样本的标注信息对发音评测模型进行训练。

对于发音评测模型的每一个训练样本，该训练样本包括一个用于训练的发音音频、一个用于训练的发音音频对应的文本。该用于训练的发音音频为相关人员朗读用于训练的发音音频对应的文本的发音音频。

在本申请中，无需预先针对每一个可能出现的发音单元各自对应的分类器进行训练，大幅度节省训练成本。对于发音评测模型的每一个训练样本，仅需对用于训练的发音音频对应的文本的发音准确性进行标注，用于训练的发音音频对应的文本的发音准确性为相关人员朗读用于训练的发音音频对应的文本的发音的准确性，而无需对用于训练的发音音频对应的文本中的每一个发音单元的发音准确性分别进行标注，大幅度减少训练样本的标注难度和标注成本，进一步大幅度节省训练成本。

在本申请中，对于每一个训练样本，训练样本的标注数据指示用于训练的发音音频对应的文本的发音准确性，用于训练的发音音频对应的文本的发音准确性为相关人员朗读用于训练的发音音频对应的文本的发音的准确性。

对于每一个训练样本，训练样本的标注数据可以为指示用于训练的发音音频对应的文本的发音准确性的数值，指示用于训练的发音音频对应的文本的发音准确性的数值的取值范围为【0,1】。

对于一个训练样本，可以将相关人员朗读训练样本中的用于训练的发音音频对应的文本时，该文本中的发音准确的词语的数量与该文本的中的词语的总数量的比值作为指示用于训练的发音音频对应的文本的发音准确性的数值。

在一些实施例中，发音评测模型的每一个训练样本的标注数据为以下之一：指示相关人员朗读用于训练的发音音频对应的文本的发音准确的数值、指示相关人员朗读用于训练的发音音频对应的文本的发音不准确的数值。

当相关人员朗读训练样本中的用于训练的发音音频对应的文本，该文本中的每一个词的发音均准确时，将该训练样本标注为发音标准，该训练样本的标注数据为指示相关人员朗读用于训练的发音音频对应的文本的发音准确的数值例如1。

当相关人员朗读用于训练的发音音频对应的文本，文本中的至少一个词的发音不准确或错误时，将该训练样本标注为发音不标准，该训练样本的标注数据为指示相关人员朗读用于训练的发音音频对应的文本的发音不准确的数值例如0。

在本申请中，每一次对发音评测模型进行训练时，可以生成用于训练的发音音频的发音音频特征向量，以及生成用于训练的发音音频对应的文本的文本特征向量。

每一次对发音评测模型进行训练时，利用第一深度神经网络将用于训练的发音音频的发音音频特征向量编码为属于一个语义空间的发音音频特征向量，同时，利用第二深度神经网络将用于训练的发音音频对应的文本的文本特征向量编码为属于该语义空间的文本特征向量。

通过利用大量的训练样本和训练样本的标注数据对发音评测模型进行迭代地训练，可以不断地更新第一深度神经网络的参数和第二深度神经网络的参数，不断地提升第一深度神经网络的编码精度和第二深度神经网络的编码精度，从而，利用第一深度神经网络得到的属于一个语义空间的发音音频特征向量可以精确地表示用于训练的发音音频，利用第二深度神经网络得到的属于该语义空间的文本特征向量可以精确地表示用于训练的发音音频对应的文本。

在每一次对发音评测模型进行训练时，在利用第一深度神经网络得到的属于一个语义空间的发音音频特征向量，利用第二深度神经网络得到的属于该语义空间的文本特征向量之后，由于利用第一深度神经网络得到的属于一个语义空间的发音音频特征向量和第二深度神经网络得到的属于该语义空间的文本特征向量属于同一个语义空间，因此，可以计算属于一个语义空间的发音音频特征向量和属于该语义空间的文本特征向量的相似度。

每一次对发音评测模型进行训练时，可以利用预设损失函数基于计算出的相似度与训练样本数据的标注数据，计算出损失函数值。

在本申请中，预设损失函数可以表示为：

Loss＝∑(y-cosine(V′_text，V′_speech))²

其中，Loss为损失函数值，y为训练样本的标注数据，y的取值为1或0，1指示相关人员朗读用于训练的发音音频对应的文本的发音准确，0指示相关人员朗读用于训练的发音音频对应的文本的发音不准确。

V’_speech为利用第一深度神经网络得到的属于一个语义空间的发音音频特征向量，V’_text为利用第二深度神经网络得到的属于该语义空间的文本特征向量，consine(V’_text，V’_speech)为属于同一语义空间的该发音音频特征向量和该文本特征向量的余弦距离。

每一次对发音评测模型进行训练时，可以基于计算出的损失函数值，更新发音评测模型的参数的参数值。更新发音评测模型的参数的参数值包括：更新发音评测模型中的第一深度神经网络的参数和更新发音评测模型中的第二深度神经网络的参数。

当基于计算出的损失函数值，更新发音评测模型的参数的参数值时，可以利用随机梯度下降、误差反传等算法，更新发音评测模型的参数的参数值。

在利用大量的训练样本和训练样本的标注数据对发音评测模型进行迭代地训练之后，可以利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果。

在每一次利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果时，可以首先生成待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量。

在本申请中，在生成待评测的发音音频的发音音频特征向量时，可以提取待评测的发音音频中的每一帧的声学特征，例如，提取待评测的发音音频中的每一帧的梅尔倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)。然后，基于待评测的发音音频中的每一帧的声学特征，生成待评测的发音音频的发音音频特征向量。

在一些实施例中，生成待评测的发音音频的发音音频特征向量包括：提取待评测的发音音频中的每一帧的声学特征；利用卷积神经网络(Convolutional NeuralNetworks,CNN)对待评测的发音音频中的每一帧的声学特征进行编码，得到待评测的发音音频的发音音频特征向量。

在一些实施例中，卷积神经网络为VGG19网络。

发音评测模型包括卷积神经网络，当生成待评测的发音音频的发音音频特征向量时，可以利用发音评测模型中的卷积神经网络例如VGG-19对待评测的发音音频中的每一帧的声学特征进行编码，得到待评测的发音音频的发音音频特征向量。

在一些实施例中，提取出的待评测的发音音频中的每一帧的声学特征为待评测的发音音频中的每一帧的FBank(Filter bank)特征。与MFCC相比，FBank特征保留了更多的原始发音音频信息，并且没有破坏频谱的局部相关性。

请参考图2，其示出了生成待评测的发音音频的发音音频特征向量的流程示意图。

当生成待评测的发音音频的发音音频特征向量时，首先对待评测的发音音频进行分帧，以确定待评测的发音音频中的第1帧-第N帧。提取每一帧的FBank特征，基于每一帧的FBank特征，生成待评测的发音音频的发音音频特征向量。

在本申请中，在生成待评测的发音音频对应的文本的文本特征向量时，可以采用词嵌入(word embedding)技术，通过预先训练的词向量模型，将待评测的发音音频对应的文本转换为词向量矩阵。然后，可以通过对词向量矩阵进行编码的网络例如卷积神经网络、长短期记忆网络将词向量矩阵编码为待评测的发音音频对应的文本的文本特征向量。

在一些实施例中，生成待评测的发音音频对应的文本的文本特征向量包括：生成待评测的发音音频对应的文本中的每一个词的词向量；利用双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)对每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

在本申请中，发音评测模型包括双向长短期记忆网络。当生成待评测的发音音频对应的文本的文本特征向量时，可以生成待评测的发音音频对应的文本中的每一个词的词向量。然后，可以利用发音评测模型中的双向长短期记忆网络对每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

请参考图3，其示出了生成待评测的发音音频对应的文本的文本特征向量的流程示意图。

对于待评测的发音音频对应的文本“Do you like milk”，包括“Do”、“you”、“like”、“milk”等词。可以生成待评测的发音音频对应的文本中的每一个词的词向量。然后，可以基于每一个词的词向量，得到待评测的发音音频对应的文本“Do you like milk”的文本特征向量。例如，利用Bi-LSTM对每一个词的词向量进行编码，得到待评测的发音音频对应的文本“Do you like milk”的文本特征向量。

在本申请中，在每一次利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果时，在生成待评测的发音音频的发音音频特征向量和待评测的发音音频对应的文本的文本特征向量之后，可以利用第一深度神经网络将待评测的发音音频的发音音频特征向量编码为经过编码的发音音频特征向量，利用第二深度神经网络将待评测的发音音频对应的文本的文本特征向量编码为经过编码的文本特征向量。经过编码的文本特征向量与经过编码的发音音频特征向量属于同一语义空间。

待评测的发音音频对应的文本的文本特征向量编码利用V_text表示，待评测的发音音频的发音音频特征向量利用V_speech表示，V_text和V_speech分别属于不同的语义空间。利用第二深度神经网络得到经过编码的文本特征向量V’_text，利用第一深度神经网络将发音音频特征向量编码为经过编码的发音音频特征向量V’_speech。由于经过编码的文本特征向量V’_text和经过编码的发音音频特征向量V’_speech属于同一语义空间，可以直接计算经过编码的文本特征向量V’_text和经过编码的发音音频特征向量V’_speech的相似度。

在一些实施例中，经过编码的文本特征向量与经过编码的发音音频特征向量的相似度为经过编码的文本特征向量与经过编码的发音音频特征向量的余弦距离。

在本申请中，在每一次利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果时，在计算出经过编码的文本特征向量与经过编码的发音音频特征向量的相似度之后，可以基于经过编码的文本特征向量与经过编码的发音音频特征向量的相似度，生成待评测的发音音频的发音评测结果，以及输出待评测的发音音频的发音评测结果。

当基于经过编码的文本特征向量与经过编码的发音音频特征向量的相似度，生成待评测的发音音频的发音评测结果时，可以直接将经过编码的文本特征向量与经过编码的发音音频特征向量的相似度作为发音评测结果。

在一些实施例中，基于相似度，生成待评测的发音音频的发音评测结果包括：当相似度大于或等于相似度阈值时，生成指示发音准确的发音评测结果；当相似度小于相似度阈值时，生成指示发音不准确的发音评测结果。

当基于经过编码的文本特征向量与经过编码的发音音频特征向量的相似度，生成待评测的发音音频的发音评测结果时，也可以将经过编码的文本特征向量与经过编码的发音音频特征向量的相似度与相似度阈值进行比较，当经过编码的发音音频特征向量的相似度大于或等于相似度阈值时，得到指示发音标准即发音准确的发音评测结果，当经过编码的发音音频特征向量的相似度小于相似度阈值时，得到指示发音不标准即发音不准确的发音评测结果。

请参考图4，其示出了利用发音评测模型得到发音评测结果流程示意图。

在每一次利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果时，首先获取待评测的发音音频和待评测的发音音频对应的文本。待评测的发音音频为用户朗读待评测的发音音频对应的文本的发音音频。

在每一次利用发音评测模型基于待评测的发音音频和待评测的发音音频对应的文本，得到待评测的发音音频的发音评测结果时，将待评测的发音音频和待评测的发音音频对应的文本输入到发音评测模型。

在发音评测模型中，对于待评测的发音音频，提取待评测的发音音频中的每一帧的声学特征。然后，利用卷积神经网络VGG-19对待评测的发音音频中的每一帧的声学特征进行编码，得到待评测的发音音频的发音音频特征向量。

在发音评测模型中，对于待评测的发音音频对应的文本，生成待评测的发音音频对应的文本中的每一个词的词向量。利用Bi-LSTM对每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

在发音评测模型中，对于待评测的发音音频的发音音频特征向量，利用第一深度神经网络将待评测的发音音频的发音音频特征向量编码为经过编码的发音音频特征向量。

在发音评测模型中，对于待评测的发音音频对应的文本的文本特征向量，利用第二深度神经网络将待评测的发音音频对应的文本的文本特征向量编码为经过编码的文本特征向量。

由于经过编码的文本特征向量和经过编码的发音音频特征向量属于同一语义空间，在发音评测模型中，可以直接计算经过编码的文本特征向量和经过编码的发音音频特征向量的相似度。

在发音评测模型中，基于经过编码的文本特征向量与经过编码的发音音频特征向量的相似度，生成待评测的发音音频的发音评测结果。

发音评测模型输出待评测的发音音频的发音评测结果，从而，得到待评测的发音音频的发音评测结果。

请参考图5，其示出本申请实施例提供的发音评测装置的一个结构示意图。本申请实施例提供的发音评测装置中的各个单元被配置为完成的操作的具体实现方式可以参考方法实施例中描述的相应的操作的具体实现方式。

如图5所示，发音评测装置包括：获取单元501，评测单元502。

获取单元501被配置为获取待评测的发音音频和待评测的发音音频对应的文本；

评测单元502被配置为执行发音评测操作，发音评测操作包括：生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

在一些实施例中，所述声学特征为FBank特征。

在一些实施例中，所述卷积神经网络为VGG19网络。

将所述余弦距离作为所述相似度。

本申请还提供了一种电子设备，该电子设备可以配置有一个或多个处理器；存储器，用于存储一个或多个程序，一个或多个程序中可以包括用以执行上述实施例中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述实施例中描述的操作的指令。

本申请还提供了一种计算机可读介质，该计算机可读介质可以是电子设备中所包括的；也可以是单独存在，未装配入电子设备中。上述计算机可读介质承载有一个或者多个程序，当一个或者多个程序被电子设备执行时，使得电子设备执行上述实施例中描述的操作。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包括或存储程序的有形介质，该程序可以被消息执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多方面形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由消息执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行消息。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机消息的组合来实现。

以上描述仅为本请求的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术实施例，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术实施例。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术实施例。

Claims

1.一种发音评测方法，其特征在于，所述方法包括：

获取待评测的发音音频和待评测的发音音频对应的文本；

执行发音评测操作，得到待评测的发音音频的发音评测结果，发音评测操作包括：

生成所述待评测的发音音频的发音音频特征向量，以及生成待评测的发音音频对应的文本的文本特征向量；

将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量，其中，经过编码的发音音频特征向量与经过编码的文本特征向量属于同一语义空间；

计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度；

基于所述相似度，生成待评测的发音音频的发音评测结果，以及输出所述待评测的发音音频的发音评测结果。

2.根据权利要求1所述的方法，其特征在于，执行发音评测操作，得到待评测的发音音频的发音评测结果包括：

利用发音评测模型执行发音评测操作，得到待评测的发音音频的发音评测结果，其中，发音评测模型被预先利用训练样本和训练样本的标注数据进行训练，训练样本包括：用于训练的发音音频、用于训练的发音音频对应的文本。

3.根据权利要求2所述的方法，其特征在于，对于每一个训练样本，训练样本的标注数据为以下之一：指示朗读用于训练的发音音频对应的文本的发音准确的数值、指示朗读用于训练的发音音频对应的文本的发音不准确的数值。

4.根据权利要求1-3之一所述的方法，其特征在于，将所述发音音频特征向量编码为经过编码的发音音频特征向量，以及将所述文本特征向量编码为经过编码的文本特征向量包括：

5.根据权利要求1所述的方法，其特征在于，所述生成所述待评测的发音音频的发音音频特征向量包括：

提取所述待评测的发音音频中的每一帧的声学特征；

6.根据权利要求5所述的方法，其特征在于，所述声学特征为FBank特征。

7.根据权利要求6所述的方法，其特征在于，所述卷积神经网络为VGG19网络。

8.根据权利要求1所述的方法，其特征在于，所述生成待评测的发音音频对应的文本的文本特征向量包括：

生成待评测的发音音频对应的文本中的每一个词的词向量；

利用双向长短期记忆网络对所述每一个词的词向量进行编码，得到待评测的发音音频对应的文本的文本特征向量。

9.根据权利要求1所述的方法，其特征在于，所述计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的相似度包括：

计算所述经过编码的发音音频特征向量与所述经过编码的文本特征向量的余弦距离；

将所述余弦距离作为所述相似度。

10.根据权利要求1所述的方法，其特征在于，基于所述相似度，生成待评测的发音音频的发音评测结果包括：

当所述相似度大于或等于相似度阈值时，生成指示发音准确的发音评测结果；

当所述相似度小于相似度阈值时，生成指示发音不准确的发音评测结果。

11.一种发音评测装置，其特征在于，所述装置包括：