CN114333770A

CN114333770A - 自动发音评估方法、装置、设备及存储介质

Info

Publication number: CN114333770A
Application number: CN202111406894.0A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-12

Abstract

本申请公开了一种自动发音评估方法、装置、设备及存储介质，所述方法包括：提取口语音频的音频特征；基于所述口语音频的音频特征计算得到音素级的GOP特征，以及基于所述口语音频的音频特征计算得到音素级的深度特征表示；基于门控机制对所述音素级的GOP特征和所述音素级的深度特征表示进行融合，得到融合特征表示；基于所述融合特征表示进行打分，得到所述口语音频的评测得分。本申请采用融合特征表示进行口语音频的评测，能够得到更加鲁棒的发音特征表示，以得到更好的口语评测结果。

Description

自动发音评估方法、装置、设备及存储介质

技术领域

本申请实施例涉及移动通信领域，特别涉及一种自动发音评估方法、装置、设备及存储介质。

背景技术

自动发音评估是计算机辅助发音训练(Computer-Assisted PronunciationTeaching，CAPT)的重要组成部分。它的目标是为第二语言学习者提供一个对发音的全面评估，并帮助他们在没有太多人类教师帮助的情况下，提供第二语言水平。

相关技术中，采用自动语音识别(Automatic Speech Recognition，ASR)模型提取口语音频数据中的发音特征，基于发音特征对用户的口语发音进行打分。该发音特征采用发音置信度(Goodness Of Pronunciation，GOP)特征来表示。

上述方法的打分准确度与ASR模型提取的GOP特征的丰富度有关，在训练样本有限的情况下，打分准确度较差。

发明内容

本申请提供了一种自动发音评估方法、装置、设备及存储介质。所述技术方案如下：

根据本申请的一个方面，提供了一种自动发音评估方法，所述方法包括：

提取口语音频的音频特征；

基于所述口语音频的音频特征计算得到音素级的GOP特征表示，以及基于所述口语音频的音频特征计算得到音素级的深度特征表示；

基于门控机制对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示；

基于所述融合特征表示进行打分，得到所述口语音频的评测得分。

根据本申请的一个方面，提供了一种自动发音评估装置，所述装置包括：

声学模型模块，用于提取口语音频的音频特征；

特征学习模块，用于基于所述口语音频的音频特征计算得到音素级的GOP特征表示，以及基于所述口语音频的音频特征计算得到音素级的深度特征表示；

特征融合模块，用于基于门控机制对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示；

打分模块，用于基于所述融合特征表示进行打分，得到所述口语音频的评测得分。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器运行以使得所述计算机设备以实现如上所述的自动发音评估方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序由处理器运行以实现如上所述的自动发音评估方法。

根据本申请的另一方面，提供了一种计算机程序产品，所述计算机程序产品存储有计算机程序，所述计算机程序由处理器运行以实现如上所述的自动发音评估方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

由于GOP特征的特征表示比较单一，深度特征表示受限于训练数据较少而容易过拟合，在本实施例提供的方法，通过基于门控机制对音素级的GOP特征和音素级的深度特征表示进行融合得到融合特征表示，采用融合特征表示进行口语音频的评测，能够得到更加鲁棒的发音特征表示，以得到更好的口语评测结果。

附图说明

图1示出了本申请一个示例性实施例提供的计算机系统的结构框图；

图2示出了本申请一个示例性实施例提供的自动发音评估方法的流程图；

图3示出了本申请一个示例性实施例提供的口语评测模型的结构示意图；

图4示出了本申请一个示例性实施例提供的自动发音评估方法的流程图；

图5示出了本申请一个示例性实施例提供的门控融合过程的流程示意图；

图6示出了本申请一个示例性实施例提供的口语评测模型的数据流向图；

图7示出了本申请一个示例性实施例提供的声学模型的训练方法图；

图8示出了本申请一个示例性实施例提供的口语评测模型的训练方法图；

图9示出了本申请一个示例性实施例提供的口语评测模型的技术效果对比图；

图10示出了本申请一个示例性实施例提供的口语评测模型的应用场景图；

图11示出了本申请一个示例性实施例提供的口语评测模型的应用界面图；

图12示出了本申请一个示例性实施例提供的自动发音评估装置的框图；

图13示出了本申请一个示例性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括：终端120和服务器140。

终端120安装和运行有应用程序(也称客户端)。该应用程序可以是外语学习程序、词典程序、浏览器程序、翻译程序、即时通讯程序、电子商务程序、社交程序、录音程序等等中的任意一种。示意性的，终端120是第一用户使用的终端，终端120登录有第一用户帐号。终端120通过第一用户帐号使用服务器140提供的服务。该终端120包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

终端120通过无线网络或有线网络与服务器140相连。

服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的，服务器140包括处理器144和存储器142，存储器142又包括接收模块1421、控制模块1422和发送模块1423，接收模块1421用于接收客户端发送的请求，比如口语音频；口语评测模块1422用于基于机器学习模型对口语音频进行评测打分；发送模块1423用于向客户端发送响应，如向客户端发送口语音频的评测得分。服务器140用于为客户端提供后台服务。可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120之间采用分布式计算架构进行协同计算。

本申请实施例以终端包括智能手机来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

图2示出了本申请一个示例性实施例提供的自动发音评估方法的流程图。该方法可以应用在终端或服务器中，该方法包括：

步骤202：提取口语音频的音频特征；

口语音频是对用户的口语发音进行录制或采集后得到的音频数据。口语音频中包括一个个音频帧。示意性的，口语音频的音频特征包括音频帧级别的传统特征表示和深度特征表示。

其中，传统特征表示包括：音频帧的后验概率和似然概率中的至少一种。

步骤204：基于口语音频的音频特征计算得到音素级的GOP特征；

音素是根据语音的自然属性划分出来的最小语音单位。每个音素对应一个或多个音频帧。

对于同一个音素，基于该音素对应的各个音频帧的传统特征表示，计算得到音素级的GOP特征。比如，对于同一个音素，基于该音素对应的各个音频帧的后验概率，计算得到音素级的GOP特征；又比如，对于同一个音素，基于该音素对应的各个音频帧的似然概率，计算得到音素级的GOP特征；再比如，对于同一个音素，基于该音素对应的各个音频帧的后验概率和似然概率，计算得到音素级的GOP特征。

步骤206：基于口语音频的音频特征计算得到音素级的深度特征表示；

对于同一个音素，基于该音素对应的各个音频帧的深度特征表示，计算得到音素级的GOP特征。

步骤208：基于门控机制对音素级的GOP特征和音素级的深度特征表示进行融合，得到融合特征表示；

门控机制是机器学习中的一种记忆机制。门控机制可以用来控制记忆单元中的信息有多少需要保留，有多少需要丢弃，新的状态信息又有多少需要保存到记忆单元中。

基于门控机制对音素级的GOP特征和音素级的深度特征表示进行融合，得到音素级的融合特征表示，保留两种特征中的重要信息，丢弃不重要信息。该特征融合过程，能够在音素水平上学习更好的特征组合。

步骤210：基于融合特征表示进行打分，得到口语音频的评测得分。

图3示出了本申请一个示例性实施例提供的口语评测模型300的结构示意图。该口语评测模型300包括：声学模型320、特征学习网络340、特征融合网络360和打分网络380。其中：

声学模型320用于提取口语音频的音频特征。声学模型320可以是ASR模型。声学模型320包括多层非线性网络。声学模型320的输入是口语音频，输出是：帧级的似然概率/后验概率+帧级的深度特征表示。示意性的，声学模型320包括并列的两组非线性网络。第一组非线性网络用于预测每个音频帧的似然概率和/或后验概率，第二组非线性网络用于预测每个音频帧的深度特征表示。

特征学习网络340用于基于口语音频的音频特征，计算音素级的GOP特征表示和深度特征表示。示意性的，特征学习网络340包括GOP计算模块和深度计算模块。其中，GOP计算模块用于基于口语音频的音频特征计算音素级的GOP特征表示；深度特征表示模块用于基于口语音频的音频特征计算音素级的深度特征表示。特征学习网络340还需要使用音素对齐模块(图中未示出)提供的音素对齐信息。音素对齐模块用于识别每个音素的开始时间帧和结束时间帧。位于开始时间帧和结束时间帧之间的音频帧是该音素对应的一个或多个音频帧。

特征融合网络360用于基于门控机制对音素级的GOP特征和音素级的深度特征表示进行融合，得到融合特征表示。可选地，特征融合网络360和特征学习网络340之间还包括维度变换层(图中未示出)，该维度变换层有将GOP特征表示和深度特征表示变换成相同维度的特征表示。在一个示例中，该维度变换层包括两个线性变换层，第一线性变换层用于对GOP特征表示进行维度变换，第二线性变换层用于对深度特征表示进行维度变换。

打分网络380用于基于融合特征表示进行打分得到口语音频的评测得分。

结合图3所示出的口语评测模型，下文分为评测阶段和训练阶段进行详细阐述。

口语评测模型的评测阶段：

图4示出了本申请一个示例性实施例提供的自动发音评估方法的流程图。该方法可以应用于电子设备中，该电子设备可以是终端或服务器，该方法包括：

步骤402：提取口语音频的音频特征；

在该方法应用于终端的情况下，终端采用麦克风采集口语音频，将口语音频输入至声学模型。声学模型提取口语音频的音频特征。在该方法应用于服务器的情况下，服务器接收终端发送的口语音频，将口语音频输入至声学模型。

示意性的，先采集口语音频中的每一个音频帧的滤波器组(Filter Banks，Fbank)特征，将每一个音频帧的Fbank特征输入声学模型。声学模型输出每个音频帧的似然概率/后验概率，以及每个音频帧的深度特征表示。

其中，每个音频帧的似然概率可表示为P(o_t|s_t)，每个音频帧的后验概率可表示为P(s_t|o_t)，每个音频帧的深度特征表示为X。

示意性的，以声学模型采用深度网络-隐马尔科夫模型(DNN-HMM)模型为例，该后验概率的公式如下：

其中，P代表概率，k是所有维度的索引。S_t是t时刻的状态，O_t是t时刻的观测向量，h_j是深度特征表示X在输入归一化层之前的第j个维度的输出，j是第j个维度，k是第k个维度。

步骤403：获取音素对齐信息，音素对齐信息包括音素和音频帧之间的对应关系；

音素是根据语音的自然属性划分出来的最小语音单位。

对于一个音素，t_e为该音素的结束时间帧，t_s为该音素的开始时间帧。从音素对齐模块能够获取到音素对齐信息，音素对齐信息包括口语音频中的每个音素和各个音频帧之间的对应关系。每个音素对应一个或多个音频帧。

步骤404：基于音素对齐信息，对属于同一音素的各个音频帧的后验概率/似然概率进行平均，得到音素级的GOP特征；

电子设备调用GOP计算模块，基于音素对齐信息对属于同一音素的各个音频帧的后验概率进行平均，得到音素级的GOP特征。和/或，基于音素对齐信息，对属于同一音素的各个音频帧的似然概率进行平均，得到音素级的GOP特征。

针对似然概率的GOP特征计算公式如下：

针对后验概率的GOP特征计算公式如下：

通过上述计算，得到二维的GOP特征。该二维的GOP特征可表示为f(gop)。

步骤406：基于音素对齐信息，对属于同一音素的各个音频帧的深度特征表示进行平均，得到音素级的深度特征表示；

电子设备调用深度计算模块，基于音素对齐信息对属于同一音素的各个音频帧的深度特征表示进行平均，得到音素级的深度特征表示。该音素级的深度特征表示可表示为f(deep)。该深度特征表示f(deep)的维度大于2维。

步骤407：将音素级的GOP特征表示和音素级的深度特征表示，变换为相等维度的特征表示；

结合参考图5，电子设备调用第一线性变换层对音素级的GOP特征表示f(gop)进行变换得到h(gop)，调用第一线性变换层对音素级的深度特征表示f(deep)进行变换得到h(deep)，得到相同维度的两组特征表示。其中，m为口语音频中的音素个数。

步骤408a：基于音素级的GOP特征和音素级的深度特征表示，计算门控融合权重；

步骤408b：基于门控融合权重对音素级的GOP特征和音素级的深度特征表示进行融合，得到融合特征表示；

门控融合的方式包括：相加融合方式和点乘融合方式。

针对相加融合方式：

电子设备调用特征融合网络，基于音素级的GOP特征和音素级的深度特征表示，计算第一门控融合权重；基于第一门控融合权重对音素级的GOP特征和音素级的深度特征表示进行相加，得到融合特征表示。

示意性的，第一门控融合权重的计算公式如下：

其中，i的取值范围为0到m，m为口语音频中的音素个数。sigmoid是S型激活函数，可以将变量映射到0,1之间。W_a是对特征进行线性变换的网络参数权重，b_a是线性变化的偏移量。

示意性的，相加融合的计算公式如下：

h_i＝f_i*h(GOP)_i+h(deep)_i

此时，f_i为第一门控融合权重。

针对点乘融合方式：

电子设备调用特征融合网络，基于音素级的GOP特征和音素级的深度特征表示，计算第二门控融合权重；基于第二门控融合权重对音素级的GOP特征和音素级的深度特征表示进行点乘，得到融合特征表示。

示意性的，第二门控融合权重的计算公式如下：

其中，每个音素级别的GOP特征表示和深度特征表示都是d维向量。

示意性的，点乘融合的计算公式如下：

h_i＝[f_i*h(GOP)_i，h(deep)_i]

此时，f_i为第二门控融合权重。

步骤410：基于融合特征表示进行打分，得到口语音频的评测得分。

基于得到的融合特征表示h，将该融合特征表示h输入到打分网络，输出口语音频的评测得分。其中，打分网络可以是任意的神经网络。

示意性的，口语音频的评测得分如下：

其中，n为样本数量，p是打分模块预测的分数，y是人工标定的真实打分标签。

结合参考图6，图6示出了一个融合特征标识的数据流图。基于声学模型提取GOP特征表示和深度(deep)特征表示，经过线性变化后，得到相同维度的特征表示。基于这些相同维度的特征表示，进行门控权重(Fusion weight)计算。基于得到的权重，进行加权相加得到最终的融合特征表示。其中，W代表W音素，IH代表IH音素。

综上所述，本实施例提供的方法，通过基于门控机制对音素级的GOP特征和音素级的深度特征表示进行融合得到融合特征表示，采用融合特征表示进行口语音频的评测，能够得到更加鲁棒的发音特征表示，以得到更好的口语评测结果。

口语评测模型的训练阶段：

模型训练分为两个阶段：声学模型训练阶段和融合训练阶段。在声学模型训练阶段，只对声学模型进行训练。在融合训练阶段，对口语评测模型中除声学模型之外的部分进行训练。

声学模型训练阶段，如图7所示：

步骤702：获取样本口语音频和样本转写数据；

样本口语音频和样本转写数据是成对出现的。样本转写数据是由人工或机器标注的音频特征。

步骤704：将样本口语音频输入声学模型，得到样本口语音频的预测音频特征；

示意性的，声学模型采用DNN-HMM模型，得到样本口语音频的预测音频特征。该预测音频特征包括：音频帧级的后验概率/似然概率，音频帧级的深度特征表示。

步骤706：基于第一误差损失对声学模型进行训练，第一误差损失是预测音频特征和样本转写数据之间的误差损失。

融合训练阶段，如图8所示：

步骤802：获取样本口语音频、音素对齐信息和真实打分标签；

样本口语音频、音素对齐信息和真实打分标签是成对出现的。

步骤804：将样本口语音频输入预训练的声学模型中，得到样本口语音频的预测音频特征；

步骤806：将预测音频特征输入到特征学习网络，计算得到音素级的GOP特征表示和深度特征表示；

步骤808：将音素级的GOP特征表示和深度特征表示输入到特征融合网络，计算得到预测融合特征表示；

步骤810：将预测融合特征输入打分网络，得到样本口语音频的样本评测得分；

步骤812：基于第二误差损失对特征学习网络、特征融合网络和打分网络进行训练，第二误差损失是样本评测得分和真实打分标签之间的误差损失。

本申请采用两个测试集，一个数据集是中国二语者录制的11000条数据，并由三人专家打分，其中1000条被划分为测试集。另一个测试集为公开的发音评测测试集，由海云天和小米联合发布，分为2500条训练集和2500条测试集。基模型为采用传统的GOP特征，输入到传统的打分模型，如GBT树模型，或者输入到神经网络构建的打分模型，BLSTM模型，或者最近提出的多粒度模型，以及基于深度特征迁移的模型，将这些方法在两个打分任务上进行效果的对比，指标为皮尔逊相关系数，即人工打分和机器打分的相关度。最终结果如下表所示。从结果可以看到，本申请在不同打分任务中表现较传统方案优势明显。

基于门控机制的传统特征与深度特征融合的口语评测模型的业务整体流程图如图10所示，步骤如下：

1)用户打开app，屏幕显示跟读文本；

结合参考图11，屏幕上显示跟读文本“I know the fact，do you know”以及开始朗读按钮111。

2)用户点击app中的开始朗读，进行句子跟读；

用户点击开始朗读按钮111，开始句子跟读。App会将用户的口语发音录制为口语音频。

3)App将口语音频和朗读文本发送给服务器端；

在用户点击结束朗读按钮112后，App将口语音频和朗读文本发送给服务器端。

4)服务器端将口语音频和朗读文本发送给基于门控机制的多种特征融合的口语评测模型；

5)口语评测模型将评测得分返回给服务器；

6)服务器返回最终的评测得分给app端，用户在app端查看最终的评测得分。

该最终的评测得分可以采用5颗星打分制来表示。比如，0-20分为1星，21-40分为2星，41-60分为3星，61-80分为4星，81-100分为5星。图中以最终分数为4星113来举例说明。

图12示出了本申请一个示例性实施例提供的自动发音评估装置的框图。该自动发音评估装置包括：

声学模型模块1220，用于提取口语音频的音频特征；

特征学习模块1240，用于基于所述口语音频的音频特征计算得到音素级的GOP特征表示，以及基于所述口语音频的音频特征计算得到音素级的深度特征表示；

特征融合模块1260，用于基于门控机制对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示；

打分模块1280，用于基于所述融合特征表示进行打分，得到所述口语音频的评测得分。

在一个实施例中，所述特征融合模块1260，用于基于所述音素级的GOP特征表示和所述音素级的深度特征表示，计算门控融合权重；基于所述门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示。

在一个实施例中，所述特征融合模块1260，用于基于所述音素级的GOP特征和所述音素级的深度特征表示，计算第一门控融合权重；基于所述第一门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行相加，得到所述融合特征表示。

在一个实施例中，所述特征融合模块1260，用于基于所述音素级的GOP特征和所述音素级的深度特征表示，计算第二门控融合权重；基于所述第二门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行点乘，得到所述融合特征表示。

在一个实施例中，所述音频特征包括：音频帧的后验概率；所述特征学习模块1240包括GOP计算模块1442，GOP计算模块1442用于获取音素对齐信息，所述音素对齐信息包括音素和所述音频帧之间的对应关系；基于所述音素对齐信息，对属于同一音素的各个音频帧的后验概率进行平均，得到所述音素级的GOP特征表示。

在一个实施例中，所述音频特征包括：音频帧的似然概率；所述GOP计算模块1442，用于获取音素对齐信息，所述音素对齐信息包括音素和所述音频帧之间的对应关系；基于所述音素对齐信息，对属于同一音素的各个音频帧的似然概率进行平均，得到所述音素级的GOP特征表示。

在一个实施例中，所述音频特征包括：音频帧的深度特征表示；所述特征学习模块1240包括深度计算模块1244，深度计算模块1244用于获取音素对齐信息，所述音素对齐信息包括音素和所述音频帧之间的对应关系；基于所述音素对齐信息，对属于同一音素的各个音频帧的深度特征表示进行平均，得到音素级的深度特征表示。

在一个实施例中，所述装置还包括：

维度转换模块1250，用于将所述音素级的GOP特征和所述音素级的深度特征表示，变换为相等维度的特征表示。

在一个实施例中，所述音频特征是由声学模型提取的，所述装置还包括训练模块；

所述训练模块，用于获取样本口语音频和样本转写数据；将所述样本口语音频输入所述声学模型，得到所述样本口语音频的预测音频特征；基于第一误差损失对所述声学模型进行训练，所述第一误差损失是所述预测音频特征和所述样本转写数据之间的误差损失。

在一个实施例中，所述GOP特征表示和所述深度特征表示是特征学习网络提取的，所述融合特征表示是特征融合模块融合的，所述评测得分是打分网络预测的，所述装置还包括训练模块；

所述训练模块，用于获取样本口语音频、音素对齐信息和真实打分标签；将所述样本口语音频输入预训练的声学模型中，得到所述样本口语音频的预测音频特征；将所述预测音频特征输入到所述特征学习网络，计算得到预测GOP特征表示和预测深度特征表示；将所述预测GOP特征表示和所述预测深度特征表示输入到所述特征融合网络，计算得到预测融合特征表示；将所述预测融合特征表示输入所述打分网络，得到所述样本口语音频的样本评测得分；基于第二误差损失对所述特征学习网络、所述特征融合网络和所述打分网络进行训练，第二误差损失是所述样本评测得分和所述真实打分标签之间的误差损失。

图13是本申请实施例提供的一种计算机设备的结构示意图。通常，计算机设备1300包括有：处理器1320和存储器1340。

处理器1320可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1320可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1320也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1320可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1320还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1340可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1340还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1340中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1320所执行以实现本申请中方法实施例提供的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的由第三方业务实体或核心网实体执行的自动发音评估方法。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的自动发音评估方法。

可选地，本申请还提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述各方面所述的自动发音评估方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自动发音评估方法，其特征在于，所述方法包括：

提取口语音频的音频特征；

基于所述口语音频的音频特征计算得到音素级的发音置信度GOP特征表示，以及基于所述口语音频的音频特征计算得到音素级的深度特征表示；

2.根据权利要求1所述的方法，其特征在于，所述基于门控机制对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示，包括：

基于所述音素级的GOP特征表示和所述音素级的深度特征表示，计算门控融合权重；

基于所述门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示。

3.根据权利要求2所述的方法，其特征在于，所述基于所述音素级的GOP特征表示和所述音素级的深度特征表示，计算门控融合权重，包括：

基于所述音素级的GOP特征和所述音素级的深度特征表示，计算第一门控融合权重；

所述基于所述门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行融合，得到融合特征表示，包括：

基于所述第一门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行相加，得到所述融合特征表示。

4.根据权利要求2所述的方法，其特征在于，所述基于所述音素级的GOP特征表示和所述音素级的深度特征表示，计算门控融合权重，包括：

基于所述音素级的GOP特征和所述音素级的深度特征表示，计算第二门控融合权重；

基于所述第二门控融合权重对所述音素级的GOP特征表示和所述音素级的深度特征表示进行点乘，得到所述融合特征表示。

5.根据权利要求1所述的方法，其特征在于，所述音频特征包括：音频帧的后验概率；

所述基于所述口语音频的音频特征计算得到音素级的GOP特征表示，包括：

获取音素对齐信息，所述音素对齐信息包括音素和所述音频帧之间的对应关系；

基于所述音素对齐信息，对属于同一音素的各个音频帧的后验概率进行平均，得到所述音素级的GOP特征表示。

6.根据权利要求1所述的方法，其特征在于，所述音频特征包括：音频帧的似然概率；

基于所述音素对齐信息，对属于同一音素的各个音频帧的似然概率进行平均，得到所述音素级的GOP特征表示。

7.根据权利要求1所述的方法，其特征在于，所述音频特征包括：音频帧的深度特征表示；所述基于所述口语音频的音频特征计算得到音素级的深度特征表示，包括：

基于所述音素对齐信息，对属于同一音素的各个音频帧的深度特征表示进行平均，得到音素级的深度特征表示。

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

将所述音素级的GOP特征和所述音素级的深度特征表示，变换为相等维度的特征表示。

9.根据权利要求1至7任一所述的方法，其特征在于，所述音频特征是由声学模型提取的，所述声学模型是采用如下步骤训练得到的：

获取样本口语音频和样本转写数据；

将所述样本口语音频输入所述声学模型，得到所述样本口语音频的预测音频特征；

基于第一误差损失对所述声学模型进行训练，所述第一误差损失是所述预测音频特征和所述样本转写数据之间的误差损失。

10.根据权利要求1至7任一所述的方法，其特征在于，所述GOP特征表示和所述深度特征表示是特征学习网络提取的，所述融合特征表示是特征融合模块融合的，所述评测得分是打分网络预测的，所述特征学习网络、所述特征融合模块和所述打分网络是采用如下步骤训练得到的：

获取样本口语音频、音素对齐信息和真实打分标签；

将所述样本口语音频输入预训练的声学模型中，得到所述样本口语音频的预测音频特征；

将所述预测音频特征输入到所述特征学习网络，计算得到预测GOP特征表示和预测深度特征表示；

将所述预测GOP特征表示和所述预测深度特征表示输入到所述特征融合网络，计算得到预测融合特征表示；

将所述预测融合特征表示输入所述打分网络，得到所述样本口语音频的样本评测得分；

基于第二误差损失对所述特征学习网络、所述特征融合网络和所述打分网络进行训练，第二误差损失是所述样本评测得分和所述真实打分标签之间的误差损失。

11.一种自动发音评估装置，其特征在于，所述装置包括：

声学模型模块，用于提取口语音频的音频特征；

12.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器运行以使得所述计算机设备以实现如权利要求1至10任一所述的自动发音评估方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器运行以使得具有所述处理器的设备以实现如权利要求1至10任一所述的自动发音评估方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品存储有计算机程序，所述计算机程序由处理器运行以使得具有所述处理器的设备以实现如权利要求1至10任一所述的自动发音评估方法。