CN111833859B

CN111833859B - 发音检错方法、装置、电子设备及存储介质

Info

Publication number: CN111833859B
Application number: CN202010713116.5A
Authority: CN
Inventors: 吴奎; 吴子扬; 竺博
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2024-02-13
Anticipated expiration: 2040-07-22
Also published as: CN111833859A

Abstract

本发明实施例提供一种发音检错方法、装置、电子设备及存储介质，所述方法包括：基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段；将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；发音检错模型用于基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征对该音素进行发音检错。本发明实施例提供的方法、装置、电子设备及存储介质，提高了发音检错方法的准确性和稳定性。

Description

发音检错方法、装置、电子设备及存储介质

技术领域

本发明涉及智能语音技术领域，尤其涉及一种发音检错方法、装置、电子设备及存储介质。

背景技术

随着计算机技术和语音识别技术的发展，计算机辅助发音学习(ComputerAssited Pronunciation Training，CAPT)成为智能语音技术领域的一个研究热点。CAPT系统可以实现对学习者发音水平的自动评估，并对发音错误进行反馈和指导。

发音检错即检测出用户发音过程中的错误，是CAPT系统中的重要环节。现有的发音检错方法仅利用单一的音频信息，发音检错的准确性不稳定，特别是在噪声及远场环境中，由于受到噪声和失真的影响，发音检错的准确性大幅度下降。

发明内容

本发明实施例提供一种发音检错方法、装置、电子设备及存储介质，用以解决现有技术中在噪声及远场环境中发音检错的准确率较低的缺陷，实现发音检错的稳定性和准确性的提高。

本发明实施例提供一种发音检错方法，包括：

基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到所述朗读文本包含的任一音素对应的语音片段和发音视频片段；

将所述任一音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到所述发音检错模型输出的所述任一音素的发音检错结果；

所述发音检错模型用于基于所述语音片段的噪声水平，对所述语音片段和所述发音视频片段进行特征融合，并基于融合后的特征对所述任一音素进行发音检错。

根据本发明一个实施例的发音检错方法，所述将所述任一音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到所述发音检错模型输出的所述任一音素的发音检错结果，具体包括：

将所述任一音素对应的语音片段和发音视频片段输入至所述发音检错模型的特征提取层，得到所述特征提取层输出的所述语音片段的语音表示向量和所述发音视频片段的发音动作表示向量；

将所述语音片段输入至所述发音检错模型的噪声水平评估层，得到所述噪声水平评估层输出的所述语音片段的噪声水平表示向量；

将所述语音表示向量和所述发音动作表示向量，以及所述噪声水平表示向量输入至所述发音检错模型的特征融合层，得到所述特征融合层输出的融合特征向量；

将所述任一音素的音素向量和所述融合特征向量输入至所述发音检错模型的发音检错层，得到所述发音检错层输出的所述任一音素的发音检错结果。

根据本发明一个实施例的发音检错方法，所述将所述语音表示向量和所述发音动作表示向量，以及所述噪声水平表示向量输入至所述发音检错模型的特征融合层，得到所述特征融合层输出的融合特征向量，具体包括：

将所述发音动作表示向量和所述噪声水平表示向量输入至所述特征融合层的权重注意力层，得到所述权重注意力层输出的所述发音动作表示向量的融合权重；

将所述发音动作表示向量及其融合权重，以及所述语音表示向量输入至所述特征融合层的加权融合层，得到所述加权融合层输出的所述融合特征向量。

根据本发明一个实施例的发音检错方法，所述将所述语音片段输入至所述发音检错模型的噪声水平评估层，得到所述噪声水平评估层输出的所述语音片段的噪声水平表示向量，具体包括：

将所述语音片段中每一语音帧的声学特征输入至所述噪声水平评估层的上下文编码层，得到所述上下文编码层输出的每一语音帧的隐层特征；

将每一语音帧的隐层特征输入至所述噪声水平评估层的噪声水平注意力层，得到所述噪声水平注意力层输出的所述语音片段的噪声水平表示向量。

根据本发明一个实施例的发音检错方法，所述噪声水平评估层和噪声水平输出层构成噪声水平评估模型，其中所述噪声水平输出层用于基于所述语音片段的噪声水平表示向量输出所述语音片段的噪声水平；

所述噪声水平评估模型是基于样本带噪语音片段及其样本噪声水平训练得到的。

根据本发明一个实施例的发音检错方法，所述将所述任一音素的音素向量和所述融合特征向量输入至所述发音检错模型的发音检错层，得到所述发音检错层输出的所述任一音素的发音检错结果，具体包括：

将所述任一音素的音素向量和所述融合特征向量输入至所述发音检错层的特征输出层，得到所述特征输出层输出的所述任一音素的发音向量；

将所述任一音素的发音向量输入至所述发音检错层的偏差计算层，得到所述偏差计算层输出的发音偏差程度；

将所述发音偏差程度输入至所述发音检错层的结果判定层，得到所述结果判定层输出的所述任一音素的发音检错结果。

根据本发明一个实施例的发音检错方法，所述将所述任一音素的发音向量输入至所述发音检错层的偏差计算层，得到所述偏差计算层输出的发音偏差程度，具体包括：

将所述任一音素的发音向量输入至所述偏差计算层，由所述偏差计算层计算所述任一音素的发音向量与所述任一音素的标准发音向量之间的差距，得到所述偏差计算层输出的所述差距作为所述发音偏差程度。

根据本发明一个实施例的发音检错方法，所述任一音素对应的语音片段和发音视频片段是基于所述任一音素在所述朗读文本中的上下文信息确定的。

本发明实施例还提供一种发音检错装置，包括：

数据预处理单元，用于基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到所述朗读文本包含的任一音素对应的语音片段和发音视频片段；

发音检错单元，用于将所述任一音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到所述发音检错模型输出的所述任一音素的发音检错结果；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述发音检错方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述发音检错方法的步骤。

本发明实施例提供的一种发音检错方法、装置、电子设备及存储介质，基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征进行发音检错，保证了在不同的噪声环境下，用于检错的语音信息尽可能接近说话者的真实发音信息，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。通过端到端的发音检错模型的应用，能够实现发音检错的全局决策，进一步提高了发音检错的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的发音检错方法的流程示意图；

图2为本发明实施例提供的发音检错结果确定方法的流程示意图；

图3为本发明实施例提供的融合特征向量确定方法的流程示意图；

图4为本发明实施例提供的噪声水平表示向量确定方法的流程示意图；

图5为本发明另一实施例提供的发音检错结果的确定方法的流程示意图；

图6为本发明另一实施例提供的发音检错方法的流程示意图；

图7为本发明实施例提供的发音检错装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发音检错即检测出用户发音过程中的错误，是CAPT系统中的重要环节。现有的发音检错方法是通过标准发音声学模型对待检错的语音文件进行发音检错，由于仅利用单一的音频信息，发音检错的结果容易受到语音文件的质量的影响，导致发音检错的准确性不稳定。在噪声和远场环境中，待检错的语音文件中混杂了一定的环境噪声，环境噪声会严重干扰用于检错的语音信号，使得待检测的语音文件的质量显著下降，进而导致发音检错的准确性大幅度下降。

对此，本发明实施例提供了一种发音检错方法。图1为本发明实施例提供的发音检错方法的流程示意图，如图1所示，该方法包括：

步骤110，基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段。

具体地，音素是根据语音的自然属性划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素，例如，英语中音素[m]的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。相同的发音动作发出的音对应同一音素，不同发音动作发出的音对应不同音素。例如，[mi:]和中，两个[m]的发音动作相同，是相同音素，[i:]和/>的发音动作不同，是不同音素。

基于发音动作和音素的对应关系，本发明实施例提供的发音检错方法将反映发音动作的发音视频文件作为语音文件的补充信息，获取待检错的语音文件及其对应的朗读文本和发音视频文件。其中，发音视频文件可以为包含说话者唇部动作的视频文件，例如发音视频文件可以为说话者面部的视频文件，或者为说话者唇部的视频文件。待检错的语音文件可以通过拾音设备获取，此处拾音设备可以为智能手机、平板电脑或话筒，本发明实施例对比不作具体限定。

基于朗读文本，确定朗读文本包含的各个音素，其中，朗读文本为待检错的语音文件对应的文本内容。例如，朗读文本为“goshopping”，朗读文本包含的各个音素为：[g]、[∫]、/>[p]、/>

基于朗读文本包含的各个音素和待检错的语音文件，可以采用强制对齐(ForceAlignment)算法得到任一音素对应的时间边界。基于任一音素对应的时间边界，对待检错的语音文件及其对应的发音视频文件进行切分，得到该音素对应的语音片段和发音视频片段。其中，任一音素对应的时间边界可以是基于该音素直接确定的，也可以是基于该音素及其在朗读文本中的上下文信息确定的，本发明实施例对此不作具体限定。

需要说明的是，本发明实施例提供的发音检错方法适用于不同语种的发音检错，本发明实施例以及后续实施例以应用在英语中作为示例进行说明，本发明实施例对语音文件的语种不作具体限定。

步骤120，将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；

发音检错模型用于基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征对该音素进行发音检错。

具体地，在得到任一音素对应的语音片段和发音视频片段之后，可以将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，由发音检错模型基于该音素对应的语音片段和发音视频片段，以及语音片段的噪声水平，对语音片段和发音视频片段进行特征融合。其中，语音片段的噪声水平用于反映语音片段中包含的环境噪声的大小，语音片段的噪声水平越高，表明环境噪声对语音信号的干扰越大，该语音片段的质量越低，例如，噪声水平具体可以表示为信噪比。

随即，发音检错模型可以基于该音素以及融合后的特征，得到该音素的发音检错结果，发音检错结果用于表征该音素对应的语音片段是否发音正确，发音检错结果可以是发音正确或发音错误。

考虑到不同的噪声环境下，环境噪声对待检错的语音文件的影响程度不同，环境噪声对语音片段的干扰越严重，基于语音片段获取的说话者的语音信息失真程度越高，凭借语音信息进行发音检错的可靠性越低。而相应地，基于发音视频片段得到的发音动作信息一定程度上能够代表说话者的实际发音，且不同于语音信息，发音动作信息本身不受环境噪声的影响。需要说明的是，考虑到说话者在通过唇部动作发音时，唇部动作会牵动说话者面部的相关肌肉运动，此处基于发音视频得到的发音动作信息可以包含说话者的唇部动作信息，还可以既包含说话者的唇部动作信息，也包含说话者的面部肌肉或者其余面部器官的运动信息。

因此，本发明实施例中的发音检错模型不仅应用了发音视频片段进行发音检错，而且基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合。在语音片段的噪声水平越高时，语音片段的可信度越低，语音片段对发音检错结果的确定的贡献越小，发音视频片段对发音检错结果的确定的贡献越大；在语音片段的噪声水平越低时，语音片段的可信度越高，语音片段对发音检错结果的确定的贡献越大，发音视频片段对发音检错结果的确定的贡献相对减小。

基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，保证了在不同的噪声环境下，用于检错的融合后的特征尽可能接近说话者的实际发音情况，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。

此处，语音片段的噪声水平可以通过发音检错模型基于语音片段内部计算得到，也可以通过预先训练的外部模型基于语音片段计算得到，并输入至发音检错模型。本发明实施例对语音片段的噪声水平的获取方式不作具体限定。

在执行步骤120之前，还可以预先训练得到发音检错模型，具体可通过如下方式训练得到发音检错模型：首先，收集大量样本音素，以及样本音素对应的样本语音片段和样本发音视频片段，其中，样本语音片段和样本发音视频片段均为与其对应的样本音素的标准发音下的语音和视频。

随即，将样本音素及其对应的样本语音片段和样本发音视频片段输入至发音检错初始模型进行训练，使得发音检错初始模型能够学习标准发音的语音特征和发音动作特征，从而得到发音检错模型，以供后续可以从待检错音素对应的语音片段和发音视频片段中提取特征，并与训练得到的标准发音的语音特征和发音动作特征进行比对，从而得到发音检错结果。

此外，还可以通过如下方式训练得到发音检错模型：首先，收集大量样本音素，以及样本音素对应的样本语音片段和样本发音视频片段，并通过人工标注样本语音片段的检错标签，检错标签可以是发音正确，也可以是发音错误。随即，基于样本音素，及其对应的样本语音片段、样本发音视频片段和检错标签，对发音检错初始模型进行训练，进而得到发音检错模型。

进一步地，当发音检错模型应用于口语考试时，样本音素可以为口语考试文本中包含的所有音素；当发音检错模型应用于口语学习时，样本音素可以为学习的语种包含的所有音素，本发明实施例对样本音素的确定方式不作具体限定。

本发明实施例提供的发音检错方法，基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征进行发音检错，保证了在不同的噪声环境下，用于检错的语音信息尽可能接近说话者的真实发音信息，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。此外，通过端到端的发音检错模型的应用，能够实现发音检错的全局决策，进一步提高了发音检错的鲁棒性。

基于上述实施例，发音视频文件的获取方式可以为：对同步拍摄的说话者的视频进行人脸检测，获取说话者的人脸特征点，并根据人脸特征点，将视频的若干图像帧中说话者人脸缩放到同一尺寸。随后从每一图像帧中提取固定大小的包含唇部区域的图像，组成发音视频文件。

可选地，以人脸特征点中的唇部中心点为中心，从每一图像帧中提取固定大小的唇部区域图像，将所有图像帧的唇部区域图像组成的图像序列作为发音视频文件。

可选地，以所有人脸特征点的中心特征点为中心，从每一图像帧中提取固定大小的面部区域的图像，将所有图像帧的面部区域图像组成的图像序列作为发音视频文件。

基于上述任一实施例，图2为本发明实施例提供的发音检错结果确定方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，将该音素对应的语音片段和发音视频片段输入至发音检错模型的特征提取层，得到特征提取层输出的语音片段的语音表示向量和发音视频片段的发音动作表示向量。

具体地，特征提取层用于提取语音片段的语音表示向量和发音视频片段的发音动作表示向量。其中，语音表示向量可以为描述语音片段中语音信息的向量，发音动作表示向量可以为描述发音视频片段中发音动作信息的向量。

可选地，特征提取层可以包括语音特征提取层和发音动作特征提取层。语音特征提取层用于基于语音片段中每一语音帧的声学特征，确定每一语音帧的隐层特征，并基于每一语音帧的隐层特征进行注意力变换，得到语音片段的语音表示向量。

此处，每一语音帧的声学特征可以为MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)特征、PLP(Perceptual Linear Predictive，感知线性预测)特征或FBank(FilterBank)特征等，本发明实施例对此不作具体限定。

进一步地，语音特征提取层可以采用BILSTM(Bidirectional Long Short-TermMemory，双向长短时记忆网络)提取每一语音帧的隐层特征，本发明实施例对语音特征提取层的网络结构不作具体限定。

发音动作特征提取层用于基于发音视频片段中每一图像帧的图像特征，确定每一图像帧的隐层特征，并基于每一图像帧的隐层特征进行注意力变换，得到发音视频片段的发音动作表示向量。

进一步地，发音动作特征提取层可以采用CNN(Convolution Neural Network，卷积神经网络)提取每一图像帧的图像特征，可以采用BILSTM模型提取每一图像帧的隐层特征，本发明实施例对发音动作特征提取层的网络结构不作具体限定。

步骤122，将语音片段输入至发音检错模型的噪声水平评估层，得到噪声水平评估层输出的语音片段的噪声水平表示向量。

具体地，噪声水平评估层用于评估语音片段的噪声水平，并输出噪声水平的表示向量。其中，噪声水平表示向量用于表征语音片段中语音信号和噪声信号的强弱关系。噪声水平评估层的网络结构参数可以是在对发音检错模型进行训练之前设置好的，也可以是通过发音检错模型的训练确定的。

此处，步骤121和步骤122可以同时执行，也可以依次执行，本发明实施例对步骤121和步骤122的执行顺序不作具体限定。

步骤123，将语音表示向量和发音动作表示向量，以及噪声水平表示向量输入至发音检错模型的特征融合层，得到特征融合层输出的融合特征向量。

具体地，特征融合层用于基于噪声水平表示向量，对语音表示向量和发音动作表示向量进行特征融合。其中，融合特征向量是基于噪声水平表示向量、语音表示向量和发音动作表示向量共同确定的，在不同噪声水平下，通过噪声水平表示向量，可以自适应地调整发音动作表示向量在特征融合过程中的权重，使得融合特征向量尽可能接近说话者的实际发音情况，进而提高发音检错的准确性。

步骤124，将该音素的音素向量和融合特征向量输入至发音检错模型的发音检错层，得到发音检错层输出的该音素的发音检错结果。

具体地，发音检错层用于基于任一音素的音素向量及其对应的融合特征向量进行发音检错，得到该音素的发音检错结果。

基于上述任一实施例，图3为本发明实施例提供的融合特征向量确定方法的流程示意图，如图3所示，步骤123具体包括：

步骤1231，将发音动作表示向量和噪声水平表示向量输入至特征融合层的权重注意力层，得到权重注意力层输出的发音动作表示向量的融合权重；

步骤1232，将发音动作表示向量及其融合权重，以及语音表示向量输入至特征融合层的加权融合层，得到加权融合层输出的融合特征向量。

具体地，权重注意力层用于基于发音动作表示向量和噪声水平表示向量进行注意力变换，从而确定发音动作表示向量的融合权重。

具体可以通过如下公式，计算发音动作表示向量的融合权重α_v：

α_v＝σ(c_SNR ^TW_mc_v+b)

式中，c_SNR为噪声水平表示向量，c_v为发音动作表示向量，σ为sigmoid函数，W_m和b均为模型参数。

加权融合层用于基于融合权重，对发音动作表示向量和语音表示向量进行加权融合，得到融合特征向量。

具体可以通过如下公式，计算融合特征向量c_sv：

c_sv＝c_s+α_vc_v

式中，c_s为语音特征表示向量。

此处，融合权重可以为发音动作表示向量在特征融合中对应的权重，融合权重用于表征不同噪声水平下发音动作信息对发音检错结果的确定的贡献程度。语音片段的噪声水平越高，语音片段的质量越低，基于语音片段的语音表示向量所表征的语音信息失真程度越高，发音动作信息相对更可靠，发音动作表示向量的融合权重越高；语音片段的噪声水平越低，语音片段的质量越高，语音片段的语音表示向量可以描述说话者的实际发音，发音动作表示向量的融合权重越低。

本发明实施例提供的方法，基于融合权重，对语音特征表示向量和发音动作表示向量进行特征融合，得到融合特征向量，使得在不同噪声水平下，融合特征向量尽可能接近说话者的实际发音情况，保证了不同噪声水平下发音表征的准确性，降低了环境噪声对发音检错结果的影响，提高了发音检错结果的准确性。

基于上述任一实施例，图4为本发明实施例提供的噪声水平表示向量确定方法的流程示意图，如图4所示，步骤122具体包括：

步骤1221，将语音片段中每一语音帧的声学特征输入至噪声水平评估层的上下文编码层，得到上下文编码层输出的每一语音帧的隐层特征。

具体地，上下文编码层用于基于每一语音帧的声学特征及其在语音片段中的上下文信息，提取每一语音帧的隐层特征，其中，任一语音帧的隐层特征可以为结合了该语音帧在语音片段中的上下文信息的特征表示。此处，上下文编码层可以为BILSTM模型。

在执行步骤1221之前，可以提取语音片段中每一语音帧的声学特征，每一语音帧的声学特征可以为MFCC特征、PLP特征或FBank特征等，本发明实施例对比不作具体限定。

步骤1222，将每一语音帧的隐层特征输入至噪声水平评估层的噪声水平注意力层，得到噪声水平注意力层输出的语音片段的噪声水平表示向量。

具体地，噪声水平注意力层用于基于每一语音帧的隐层特征进行注意力变换，得到语音片段的噪声水平表示向量。噪声水平注意力层基于任一语音帧的隐层特征，确定任一语音帧的隐层特征的注意力值，并基于任一语音帧的隐层特征的注意力值，确定任一语音帧的隐层特征的重要度权重。然后基于每一语音帧的隐层特征的重要度权重，对每一语音帧的隐层特征进行加权求和，得到语音片段的噪声水平表示向量。

具体可以通过如下公式，计算任一语音帧的隐层特征的注意力值e_t：

e_t＝tanh(w^Th_t+b)

式中，h_t为任一语音帧的隐层特征，w和b均为模型参数。

具体可以通过如下公式，计算任一语音帧的隐层特征的重要度权重α_t：

式中，T为语音片段的帧数。

具体可以通过如下公式，计算噪声水平表示向量c_SNR：

基于上述任一实施例，该方法中，噪声水平评估层和噪声水平输出层构成噪声水平评估模型，噪声水平输出层用于基于语音片段的噪声水平表示向量输出语音片段的噪声水平；噪声水平评估模型是基于样本带噪语音片段及其样本噪声水平训练得到的。

具体地，噪声水平输出层用于整合语音片段的噪声水平表示向量，得到语音片段的噪声水平。此处，噪声水平输出层可以为一个全连接层，噪声水平表示向量可以为一个Embedding矩阵。

噪声水平评估层和噪声水平输出层构成噪声水平评估模型，噪声水平评估模型可以是在发音检错模型训练之前单独训练的，具体通过如下方式训练得到噪声水平评估模型：首先，收集大量样本带噪语音片段，并得到样本带噪语音片段的样本噪声水平。此处，可以通过人工加噪的方式获取覆盖不同噪声水平的样本带噪语音片段。随即，将样本带噪语音片段及其样本噪声水平输入至噪声水平评估初始模型进行训练，从而得到噪声水平评估模型。

噪声水平评估模型的训练数据可以与发音检错模型的训练数据无关，通过预先训练噪声水平评估模型，可以获取发音检错模型的噪声水平评估层的网络结构参数，提高了发音检错模型的训练效率。

基于上述任一实施例，图5为本发明实施例提供的发音检错结果的确定方法的流程示意图，如图5所示，步骤124具体包括：

步骤1241，将该音素的音素向量和融合特征向量输入至发音检错层的特征输出层，得到特征输出层输出的该音素的发音向量。

具体地，将任一音素的音素向量和融合特征向量输入至特征输出层，特征输出层对该音素的音素向量和融合特征向量进行拼接融合，得到发音向量。此处，任一音素的音素向量可以为一个Embedding矩阵，例如，可以为一个50×P的Embedding矩阵，其中50为Embedding矩阵的维数，P为音素的个数。

进一步地，特征输出层可以对音素向量和融合特征向量进行拼接，并将拼接后的向量输入至一个全连接的前向神经网络，得到全连接拼接特征。随即，特征输出层对全连接拼接特征进行特征映射，得到该音素的发音向量。此处，发音向量的特征映射具体可以通过OC-SVDD(One Class Support Vector Domain Description)实现。

步骤1242，将该音素的发音向量输入至发音检错层的偏差计算层，得到偏差计算层输出的发音偏差程度。

具体地，偏差计算层用于基于任一音素的发音向量，计算该音素的发音偏差程度，其中，发音偏差程度用于表征该音素的实际发音偏离标准发音的程度，发音偏差程度越大，表明该音素的实际发音与标准发音差距越大，发音偏差程度越小，表明该音素的实际发音与标准发音差距越小。

步骤1243，将发音偏差程度输入至发音检错层的结果判定层，得到结果判定层输出的该音素的发音检错结果。

具体地，结果判定层用于对发音偏差程度和预设门限阈值进行比较，得到发音检错结果。若发音偏差程度大于预设门限阈值，表明该音素的实际发音与标准发音差距过大，则确定该音素的发音检错结果为发音错误；若发音偏差程度小于预设门限阈值，表明该音素的实际发音与标准发音差距较小，则确定该音素的发音检错结果为发音正确。其中，预设门限阈值可以根据实际的应用场景进行设置。

现有的发音检错方法是通过比较GOP(Goodness of Pronunciation，音素发音质量)和预设门限阈值来判断任一音素的发音是否正确，GOP是通过声学模型输出任一音素对应的语音片段的概率确定的。由于声学模型是基于任一音素及其标准发音训练得到的，声学模型的训练数据中不包括任一音素的错误发音。因此对于发音错误的语音片段，GOP的计算不准确，导致现有的发音检错方法对于发音错误的语音片段，检错结果的准确性较低。

对此，基于上述任一实施例，该方法中，步骤1242具体包括：

将该音素的发音向量输入至偏差计算层，由偏差计算层计算该音素的发音向量与该音素的标准发音向量之间的差距，得到偏差计算层输出的差距作为发音偏差程度。

具体地，偏差计算层用于计算该音素的发音向量与该音素的标准发音向量之间的差距，得到发音偏差程度，其中，该音素的标准发音向量可以是基于该音素的标准发音确定的。

进一步地，可以基于OC-SVDD映射任一音素的发音向量并计算其发音偏差程度。OC-SVDD是基本思想是通过在映射到高维的特征空间中找出一个包围目标样本点的超球体，并通过最小化该超球体所包围的体积让目标样本点尽可能地被包围在超球体中，而非目标样本点尽可能地排除在超球体中，从而达到两类之间划分的目的。

具体可以通过如下公式，计算任一音素的发音偏差程度dev(s_i)：

式中，为特征映射函数，p_i为第i个音素，s_i和v_i分别为第i个音素的语音片段和发音视频片段，W^*为发音检错模型的模型参数，/>为该音素的发音向量，c为该音素的标准发音向量，即为超球体球心的坐标。

本发明实施例提供的发音检错方法是通过计算任一音素的发音向量与该音素的标准发音向量之间的差距，得到发音偏差程度。发音偏差程度的计算与声学模型的输出结果无关，避免了现有的发音检错方法因输入数据与训练数据不一致，导致对于发音错误的语音片段检错结果的准确性较低的问题。本发明实施例提供的发音检错方法，对于发音正确和发音错误的语音片段，均可以得到准确的发音检错结果，方法的稳定性较高。

本发明实施例提供的发音检错方法，通过偏差计算层计算音素的发音向量与该音素的标准发音向量之间的差距，得到发音偏差程度，以供结果判定层确定发音检错结果，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。

基于上述任一实施例，发音检错初始模型的优化目标函数具体如下式：

式中，n为样本音素的数目，W为发音检错初始模型的模型参数。需要说明的是，此处样本音素对应的样本语音片段和样本发音视频片段均是在正确发音下截取的。因此，通过实现样本音素对应的发音向量和标准发音向量之间差值的最小化，使得标准发音向量无限接近于正确发音下的发音向量，从而确保标准发音向量的准确性。

具体地，发音检错初始模型的输出结果为任一样本音素的样本发音向量，此处，可以将部分样本音素输入至发音检错初始模型得到的样本发音向量的平均值作为球心坐标c，并在后续训练过程中保持球心坐标c不变。在发音检错初始模型的训练过程中，通过不断调整发音检错初始模型的模型参数，以满足优化目标函数的条件，并将满足优化目标函数条件的发音检错初始模型作为发音检错模型。

现有的发音检错方法中，任一音素的GOP的计算对该音素的时间边界的切分比较敏感，时间边界切分的微弱变化会导致该音素的GOP较大变化，导致现有的发音检错方法的稳定性差。同时，GOP的计算仅考虑单一音素自身的信息，对于差别较小的相似发音，例如in和ing的前半部分发声原理相近，两者在音素层面的平均GOP区分性降低，导致GOP无法区分相似发音之间的微弱差别。

对此，基于上述任一实施例，该方法中，任一音素对应的语音片段和发音视频片段是基于该音素在朗读文本中的上下文信息确定的。

具体地，从发声机理上，人的发声器官是通过渐变实现从一个音转为另一个音，因此任一音素的发音是受到前后相邻音素的影响，基于此，本发明实施例中，基于任一音素在朗读文本中的上下文信息确定该音素对应的语音片段和发音视频片段。其中，任一音素的上下文信息可以为朗读文本包含的该音素及其前后相邻的两个音素组成的三音素(tri-phone)，例如，朗读文本为“go shopping”，的三音素为/>。

在得到任一音素的上下文信息之后，将朗读文本展开为各个音素的上下文信息组成的序列，采用强制对齐算法得到任一音素的上下文信息对应的时间边界。基于任一音素的上下文信息对应的时间边界，对待检错的语音文件和发音视频文件进行切分，得到该音素对应的语音片段和发音视频片段。

例如，基于待检错的语音文件，提取该语音文件的每一语音帧的FBank特征，此处，FBank的特征维度可以为(L+1+R)×40，其中，L和R分别为上下文的扩展帧数，并对FBank特征进行加窗分帧，其中，特征窗长可以为20ms，帧移可以为10ms。

随即，将提取到的每一语音帧的FBank特征输入至DNN(Deep Neural Network，深度神经网络)模型，输出得到S维的tri-phone状态得分向量，其中，S为状态聚类后的状态类别数。

将每一语音帧的状态得分和朗读文本展开的tri-phone序列输入至HMM(HiddenMarkov Model，隐马尔可夫)模型，得到每一音素的tri-phone的时间边界。基于任一音素的tri-phone的时间边界，对待检错的语音文件和发音视频文件进行切分，得到该音素对应的语音片段和发音视频片段。

相比于现有的发音检错方法中是基于单个音素进行切分，本发明实施例中基于任一音素的上下文信息进行切分，只需要该音素的上下文信息包含该音素即可，对切分的时间边界的微弱变化不敏感，同时充分考虑了该音素在朗读文本中的上下文信息，能够对相似发音进行有效区分，进一步增强了发音检错方法的稳定性。

本发明实施例提供的发音检错方法，基于任一音素在朗读文本中的上下文信息确定该音素对应的语音片段和发音视频片段，充分考虑了音素在朗读文本中的上下文信息，进一步增强了发音检错方法的稳定性。

基于上述任一实施例，图6为本发明另一实施例提供的发音检错方法的流程示意图，如图6所示，该方法包括以下步骤：

首先，获取待检错的语音文件及其对应的朗读文本和发音视频文件。

基于朗读文本，确定任一音素的上下文信息，在得到任一音素的上下文信息之后，将朗读文本展开为各个音素的上下文信息组成的序列，采用强制对齐算法得到任一音素的上下文信息对应的时间边界。基于任一音素的上下文信息对应的时间边界，对待检错的语音文件和发音视频文件进行切分，得到该音素对应的语音片段和发音视频片段。

基于任一音素对应的语音片段，提取语音片段中每一语音帧的声学特征，此处，每一语音帧的声学特征可以为MFCC特征、PLP特征或FBank特征。将每一语音帧的声学特征输入至发音检错模型的语音特征提取层，语音特征提取层用于基于语音片段中每一语音帧的声学特征，确定每一语音帧的隐层特征，并基于每一语音帧的隐层特征进行注意力变换，得到语音片段的语音表示向量。

基于任一音素对应的发音视频片段，提取发音视频片段中每一图像帧的图像特征，此处，可以采用CNN提取每一图像帧的图像特征。将每一图像帧的图像特征输入至发音检错模型的发音动作特征提取层，发音动作特征提取层用于基于发音视频片段中每一图像帧的图像特征，确定每一图像帧的隐层特征，并基于每一图像帧的隐层特征进行注意力变换，得到发音视频片段的发音动作表示向量。

将语音片段的每一语音帧的声学特征输入至发音检错模型的噪声水平评估层，噪声水平评估层用于基于每一语音帧的声学特征，确定每一语音帧的隐层特征，并基于每一语音帧进行注意力变换，得到噪声水平表示向量。

将语音表示向量和发音动作表示向量，以及噪声水平表示向量输入至发音检错模型的特征融合层，特征融合层用于基于噪声水平表示向量和发音动作表示向量，确定发音动作表示向量的融合权重，并基于融合权重，对语音表示向量和发音动作表示向量进行加权融合，得到融合特征向量。

将该音素的音素向量和融合特征向量输入至发音检错模型的特征输出层，特征输出层用于基于融合特征向量，计算该音素的发音向量。

将该音素的发音向量输入至发音检错模型的偏差计算层，偏差计算层用于计算该音素的发音向量偏离该音素的标准发音向量的程度，得到发音偏差程度。

将发音偏差程度输入至发音检错模型的结果判定层，结果判定层用于比较发音偏差程度与预设的门限阈值的大小关系，得到发音检错结果。

本发明实施例提供的发音检错方法，基于任一音素的上下文信息，确定该音素对应的语音片段和发音视频片段。通过特征融合层基于噪声水平表示向量，对语音表示向量和发音动作表示向量进行特征融合。通过偏差计算层，得到发音偏差程度，并通过结果判定层比较发音偏差程度与预设的门限阈值的大小关系，确定发音检错结果。增强了发音检错方法的稳定性，提高了发音检错结果的准确性。此外，通过端到端的发音检错模型的应用，能够实现发音检错的全局决策，进一步提高了发音检错的鲁棒性。

基于上述任一实施例，图7为本发明实施例提供的发音检错装置的结构示意图，如图7所示，该装置包括：

数据预处理单元710，用于基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段；

发音检错单元720，用于将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；

本发明实施例提供的发音检错装置，基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征进行发音检错，保证了在不同的噪声环境下，用于检错的语音信息尽可能接近说话者的真实发音信息，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。通过端到端的发音检错模型的应用，能够实现发音检错的全局决策，进一步提高了发音检错的鲁棒性。

基于上述任一实施例，该装置中，发音检错单元720具体包括：

特征提取子单元，用于将该音素对应的语音片段和发音视频片段输入至发音检错模型的特征提取层，得到特征提取层输出的语音片段的语音表示向量和发音视频片段的发音动作表示向量；

噪声水平评估子单元，用于将语音片段输入至发音检错模型的噪声水平评估层，得到噪声水平评估层输出的语音片段的噪声水平表示向量；

特征融合子单元，用于将语音表示向量和发音动作表示向量，以及噪声水平表示向量输入至发音检错模型的特征融合层，得到特征融合层输出的融合特征向量；

发音检错子单元，用于将该音素的音素向量和融合特征向量输入至发音检错模型的发音检错层，得到发音检错层输出的该音素的发音检错结果。

基于上述任一实施例，该装置中，特征融合子单元具体包括：

权重注意力模块，用于将发音动作表示向量和噪声水平表示向量输入至特征融合层的权重注意力层，得到权重注意力层输出的发音动作表示向量的融合权重；

加权融合模块，用于将发音动作表示向量及其融合权重，以及语音表示向量输入至特征融合层的加权融合层，得到加权融合层输出的融合特征向量。

基于上述任一实施例，该装置中，噪声水平评估子单元具体包括：

上下文编码模块，用于将语音片段中每一语音帧的声学特征输入至噪声水平评估层的上下文编码层，得到上下文编码层输出的每一语音帧的隐层特征；

噪声水平注意力模块，用于将每一语音帧的隐层特征输入至噪声水平评估层的噪声水平注意力层，得到噪声水平注意力层输出的语音片段的噪声水平表示向量。

基于上述任一实施例，该装置中，噪声水平评估层和噪声水平输出层构成噪声水平评估模型，其中噪声水平输出层用于基于语音片段的噪声水平表示向量输出语音片段的噪声水平；

噪声水平评估模型是基于样本带噪语音片段及其样本噪声水平训练得到的。

基于上述任一实施例，该装置中，发音检错子单元具体包括：

特征输出模块，用于将该音素的音素向量和融合特征向量输入至发音检错层的特征输出层，得到特征输出层输出的该音素的发音向量；

偏差计算模块，用于将该音素的发音向量输入至发音检错层的偏差计算层，得到偏差计算层输出的发音偏差程度；

结果判定模块，用于将发音偏差程度输入至发音检错层的结果判定层，得到结果判定层输出的该音素的发音检错结果。

基于上述任一实施例，该装置中，偏差计算模块具体用于：

本发明实施例提供的发音检错装置，通过偏差计算层计算音素的发音向量与该音素的标准发音向量之间的差距，得到发音偏差程度，以供结果判定层确定发音检错结果，增强了发音检错方法的稳定性，提高了发音检错结果的准确性。

基于上述任一实施例，该装置中，该音素对应的语音片段和发音视频片段是基于该音素在朗读文本中的上下文信息确定的。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行发音检错方法，该方法包括：基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段；将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；发音检错模型用于基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征对该音素进行发音检错。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的发音检错方法，该方法包括：基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段；将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；发音检错模型用于基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征对该音素进行发音检错。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的发音检错方法，该方法包括：基于朗读文本，对待检错的语音文件及其对应的发音视频文件进行切分，得到朗读文本包含的任一音素对应的语音片段和发音视频片段；将该音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到发音检错模型输出的该音素的发音检错结果；发音检错模型用于基于语音片段的噪声水平，对语音片段和发音视频片段进行特征融合，并基于融合后的特征对该音素进行发音检错。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种发音检错方法，其特征在于，包括：

所述发音检错模型用于基于所述语音片段的噪声水平，对所述语音片段和所述发音视频片段进行特征融合，并基于融合后的特征对所述任一音素进行发音检错；

所述将所述任一音素及其对应的语音片段和发音视频片段输入至发音检错模型，得到所述发音检错模型输出的所述任一音素的发音检错结果，具体包括：

将所述语音表示向量和所述发音动作表示向量，以及所述噪声水平表示向量输入至所述发音检错模型的特征融合层，得到所述特征融合层输出的融合特征向量；所述噪声水平表示向量用于调整所述发音动作表示向量在特征融合过程中的权重；

2.根据权利要求1所述的发音检错方法，其特征在于，所述将所述语音表示向量和所述发音动作表示向量，以及所述噪声水平表示向量输入至所述发音检错模型的特征融合层，得到所述特征融合层输出的融合特征向量，具体包括：

3.根据权利要求1所述的发音检错方法，其特征在于，所述将所述语音片段输入至所述发音检错模型的噪声水平评估层，得到所述噪声水平评估层输出的所述语音片段的噪声水平表示向量，具体包括：

4.根据权利要求1所述的发音检错方法，其特征在于，所述噪声水平评估层和噪声水平输出层构成噪声水平评估模型，其中所述噪声水平输出层用于基于所述语音片段的噪声水平表示向量输出所述语音片段的噪声水平；

5.根据权利要求1所述的发音检错方法，其特征在于，所述将所述任一音素的音素向量和所述融合特征向量输入至所述发音检错模型的发音检错层，得到所述发音检错层输出的所述任一音素的发音检错结果，具体包括：

6.根据权利要求5所述的发音检错方法，其特征在于，所述将所述任一音素的发音向量输入至所述发音检错层的偏差计算层，得到所述偏差计算层输出的发音偏差程度，具体包括：

7.根据权利要求1-6任一项所述的发音检错方法，其特征在于，所述任一音素对应的语音片段和发音视频片段是基于所述任一音素在所述朗读文本中的上下文信息确定的。

8.一种发音检错装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的发音检错方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的发音检错方法的步骤。