CN112331180A

CN112331180A - 一种口语评测方法及装置

Info

Publication number: CN112331180A
Application number: CN202011208497.8A
Authority: CN
Inventors: 卓邦声; 吴凡; 夏龙; 高强; 王宏伟; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-05

Abstract

本申请提供一种口语评测方法及装置，所述口语评测方法包括：获取待评测音频和所述待评测音频对应的评测文本；基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果，本申请提供的口语评测方法，引入了每个音素对应的发音特征值，可以准确发掘当前发音的潜在错误，为口语评测模型提供了多维度的特征信息，提高了声母韵母和声调的判断准确率。

Description

一种口语评测方法及装置

技术领域

本申请涉及语言识别技术领域，特别涉及一种口语评测方法及装置、计算设备和计算机可读存储介质。

背景技术

口语测评是指给定文本和音频，利用语音识别技术从不同维度对一个人的口语水平进行整体评价，在口语测评领域中，通常根据文本-语音后的音素信息，计算文本中每个字、每个音素的发音良好度值(Goodness of Pronunciation)等特征，根据这些特征去判断说话人的口语水平。

随着自然语言处理(Natural Language Processing，NLP)的发展，深度神经网络模型(Deep Neural Network，DNN)可以将音频转换为帧级别的音素发音后验概率，基于此，基于神经网络的发音良好度(Neural Network-Goodness of Pronunciation，GOP-NN)定义为标准音素和后验概率最高的音素之间的对数音素后验概率比，二者的比值越接近与1，则GOP越接近于0，表示发音越好，但是现有技术的口语评测时，只利用了音素的对齐信息和发音良好度，并没有利用整字的信息，同时汉语拼音会涉及到的声调间区分度不大、声母韵母的先天差异不适用同一个标准进行评判的问题，会导致现有的口语评测系统对不同音素的判断会有差异、声母韵母评分差距大和声调判别准确率低的问题。

基于此，亟需一种新的口语评测方法来解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种口语评测方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种口语评测方法，包括：

获取待评测音频和所述待评测音频对应的评测文本；

基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；

基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；

根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；

将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果。

可选的，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率，包括：

基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的发音良好度值、发音时长和后验概率。

可选的，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的发音良好度值、发音时长和后验概率，包括：

基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的初始发音良好度值、初始发音时长和后验概率；

对所述每个音素的初始发音良好度值和初始发音时长做归一化处理，获得所述每个音素的发音良好度值和发音时长。

可选的，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的初始发音良好度值、初始发音时长和后验概率，包括：

将所述待评测音频输入至预先训练好的声学模型进行处理，获得所述声学模型输出的每个音素的后验概率；

获取所述评测文本中每个音素对应的发音起始时间和发音结束时间；

基于每个音素的后验概率、发音起始时间和发音结束时间确定每个音素的初始发音良好度值和初始发音时长。

可选的，基于每个音素的后验概率、发音起始时间和发音结束时间确定每个音素的初始发音良好度值和初始发音时长，包括：

基于每个音素的后验概率确定每个音素的初始发音良好度值；

基于每个音素的发音起始时间和发音结束时间确定每个音素的发音时长。

可选的，对所述每个音素的初始发音良好度值和初始发音时长做归一化处理，获得所述每个音素的发音良好度值和发音时长，包括：

在预设的音素标准属性信息表中确定所述每个音素对应的发音良好度标准属性值和发音时长标准属性值；

根据所述每个音素的初始发音良好度值和对应的发音良好度标准属性值确定所述每个音素的发音良好度值；

根据所述每个音素的初始发音时长和对应的发音时长标准属性值确定所述每个音素的发音时长。

可选的，基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值，包括：

基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本中每个音素对应的韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值。

可选的，根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量，包括：

根据所述每个音素的发音良好度值、发音时长、韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值确定每个音素对应的特征向量。

可选的，将所述每个音素对应的特征向量输入到口语评测模型，包括：

将所述每个音素对应的特征向量输入到通过梯度提升策略训练得到的口语评测模型。

根据本申请实施例的第二方面，提供了一种口语评测装置，包括：

获取模块，被配置为获取待评测音频和所述待评测音频对应的评测文本；

确定模块，被配置为基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；

提取模块，被配置为基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；

生成模块，被配置为根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；

评测模块，被配置为将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述口语评测方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述口语评测方法的步骤。

本申请实施例中提供的口语评测方法，通过获取待评测音频和所述待评测音频对应的评测文本；基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果，本申请提供的口语评测方法，引入了每个音素对应的发音特征值，可以准确发掘当前发音的潜在错误，为口语评测模型提供了多维度的特征信息，提高了声母韵母和声调的判断准确率。

其次，确定每个音素的属性特征值时，将不同音素的属性特征值归一到同一个尺度和分布上，减少了因为神经网络的发音良好度输出的分布差异导致的不同音素判断效果差别大的影响，进一步提高了口语评测的准确率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的口语评测方法的流程图；

图3是本申请实施例提供的口语评测方法的框架示意图；

图4是本申请另一实施例提供的口语评测方法的流程示意图；

图5是本申请实施例提供的口语评测装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

音素：是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节ā(啊)只有一个音素，pài(派)有两个音素。

发音良好度：(Goodness of Pronunciation，GOP)是语言识别模型后验概率的一种扩展，适用于音素级别的发音评分，基于神经网络的发音良好度(Neural Network-Goodness of Pronunciation，GOP-NN)定义为标准音素和后验概率最高的音素之间的对数音素后验概率比，如下公式1所示：

其中，Q是整个音素集，p为标准音素，o为输入的音频片段，t_s和t_e分别为当前音素的开始时间和结束时间，p(p|o；t_s,t_e)为标准音素的后验概率，可由DNN输出的帧级别的音素发音后验概率计算而得。max_{q∈Q}p(q|o；t_s,t_e)为音素集Q中后验概率最高的音素q所对应的后验概率，标准音素的后验概率越高，二者的比值越接近与1，则GOP越接近于0，表示发音越好。

梯度提升决策树(Gradient Boost Decision Tree，GBDT)是使用梯度提升策略训练得到的决策树模型，模型的结果是一组回归分类树的组合，所有决策树的结论累加起来得到最终的结果。该模型在训练时每一轮迭代都会产生一棵新的决策树，每一轮迭代得到的决策树组合得到最终的模型，而当前迭代轮次的决策树是通过优化前一轮迭代得到的决策树的预测结果与真实结果的残差而产生的。

GOP-NN：神经网络的发音良好度(Neural Network-Goodness of Pronunciation)使用一个声学模型将音频转化为帧级别的音素发音后验概率，然后根据给定的文本，使用强制对齐的方式获取文本中每一个音素的发音的起始时间和结束时间，根据这些信息计算每一个音素的发音良好度。神经网络的下游会有两种方法做发音好坏的评价，一种是基于GOP的方法，一种是基于分类器的方法。基于GOP的方法会预设一个阈值，音素的GOP高于阈值的则认为发音正确，反之则错误。基于分类器的方法会将GOP和音素级别的特征送入一个训练好的二分类模型中做判别。

在本申请中，提供了一种口语评测方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示口语评测方法中的步骤。图2示出了根据本申请一实施例的口语评测方法的流程图，包括步骤202至步骤210。

步骤202：获取待评测音频和所述待评测音频对应的评测文本。

口语评测是指给定文本和音频，利用语音识别技术从不同维度对一个人的口语水平进行整体评价，在实际应用中，口语评测的应用已经越来越普及，如在普通话考试中通过口语评测考察一个人的普通话水平，在口语教学中通过口语评测检查并纠正学生的发音等，相应的，待评测音频就是用户说话的内容，待评测音频对应的评测文本就是用户用来评测口语的文本，比如，待评测音频内容为“桌子”，评测文本为“桌子”，用户阅读评测文本上的内容，生成待评测音频。

在本申请提供的一实施例中，以评测文本为“苹果”为例，获得用户的待评测音频为“pingguo”的录音。

步骤204：基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率。

后验概率是信息理论的基本概念之一，在一个通信系统中，在收到某个消息后，接收端所了解到的该消息发送到概率为后验概率。

具体的，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率，包括：

音素的属性特征值包括音素的发音良好度值(GOP)和发音时长，在实际应用中，根据待评测音频和评测文本可以确定待评测文本中每个音素的GOP、发音时长和后验概率分布。

在实际应用中，由于每个人的发音习惯、语言习惯各不相同，因此即便是相同的音素由不同的人读出来的时候，同一个音素对应的GOP和发音时长也是各不相同的，为了更好的进行口语评测，需要将每个人的发音同一到一个标准框架下进行评测，对应的，初始发音良好度值(初始GOP)就是获取的每个人根据评测文本中每个音素的发音良好度值，初始发音时长为每个人对每个音素的实际的发音时长，将每个音素的初始GOP和初始发音时长做归一化处理，获得经过归一化处理后的每个音素的GOP和发音时长。

具体的，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的初始发音良好度值、初始发音时长和后验概率，包括：

在实际应用中，可以先将待评测音频输入至预先训练好的声学模型中进行处理，获得所述声学模型输出的每个音素的后验概率。然后根据待评测文本，使用强制对齐的方式获取文本中每一个音素的发音起始时间和发音结束时间，再根据每个音素的后验概率、发音启示时间和发音结束时间就可以确定每个音素的初始GOP和初始发音时长。

在实际应用中，在获的每个音素的后验概率后，通过对每个音素的后验概率取对数，来确定每个音素的初始发音良好度值。由于概率值都是小于1的，因此每个音素的初始发音良好度值的都是小于0的。

另外，在获取每个音素的发音起始时间和发音结束时间后，通过两者之间的差值，即可获得每个音素的初始发音时长，需要注意的是，发音时长的长度可以为毫秒，也可以是秒，在本申请中对发音时长的单位不做限制，只需要保证单位一致。

在实际应用中，会预先通过大量的训练数据收集每个音素的GOP均值、GOP标准差分、发音时长均值和发音时长标准差分，并将其存储在预设的音素标准属性信息表中，在实际应用中，可以直接根据音素标准属性信息表确定每个音素对应的发音良好度标准属性值和发音时长标准属性值。

根据每个音素的初始GOP和对应的发音良好度标准属性值确定每个音素的GOP，具体的，参见下述公式2：

其中，ph为当前音素，Gop_ph为当前音素的初始GOP，

为当前音素的GOP均值，

为当前音素的GOP标准差分。

根据所述每个音素的初始发音时长和对应的发音时长标准属性值确定所述每个音素的发音时长，具体的，参见下述公式3：

其中，ph为当前音素，Dur_ph为当前音素的初始发音时长，

为当前音素的发音时长均值，

为当前音素的发音时长标准差分。

在本申请提供的一具体实施例中，沿用上例，评测文本“苹果”对应的拼音为“ping2 guo3”，其中，2和3分别代表每个拼音的音调，对应的音素为“p、ing2、g、uo3”，将待评测音频为“pingguo”输入到预先训练好的声学模型进行处理，获得所述声学模型输出的每个音素的后验概率为“P_p、P_ing2、P_g、P_uo3”，对每个音素的后验概率进行对数运算，确定每个音素的初始GOP，再对每个音素的初始GOP做归一化处理，获得每个音素的GOP为“G_p、G_ing2、G_g、G_uo3”，使用强制对齐的方式获取文本中每一个音素的发音起始时间和发音结束时间，并确定每个音素对应的初始发音时长，再对每个音素的初始发音时长做归一化处理，获得每个音素的发音时长为“T_p、T_ing2、T_g、T_uo3”。

步骤206：基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值。

在本申请中提供的口语评测方法，会考虑拼音的声母、韵母区别和声调的区别，使用了声母、韵母和声调的特征，相应的发音特征值即与拼音的声母、韵母和声调相关的特征值。

根据上述步骤可以获得每个音素在当前音素发音片段中的后验概率，对后验概率进行排序，再结合预设的错误类型，可以确定当前发音是否有错，如果有错属于哪种类型，将错误类型作为特征值。

具体的，基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本中每个音素对应的韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值。

下面对韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值一一进行解释说明，当前音素为ph，当前音素所对应的发音片段中，所有音素的集合为Θ_phones，所有音素的后验概率分布为P^post，

为音素i在当前发音片段的后验概率。

韵母声调值：Tone_ph，例如文本“饼”，对应的拼音为“bing3”，对应的韵母声调为3，则Tone_ph＝3，拼音“bing3”对应的音素为“b、ing3”，则音素“b”对应的韵母声调Tone_b可以不提供或设为-1，音素“ing3”对应的韵母声调Tone_ing3为3。

声母发音错误值：Error_SM-ph，当前音素ph为声母时，该声母在当前发音片段的后验概率为

将

由高到低进行排序，如果

在当前排序中位于预设位置之前，则Error_SM-ph＝0，反之则Error_SM-ph＝1。比如，若预设位置为前两位，则如果

在

由高到低的排序中排名在前两位，则Error_SM-ph＝0，反之则Error_SM-ph＝1，如果对于韵母，则可以规定Error_SM-ph＝-1。

韵母发音错误值：Error_YM-ph，当前音素ph为韵母时，该韵母在当前发音片段的后验概率为

将

由高到低进行排序，如果

在当前排序中位于预设位置之前，则Error_YM-ph＝0，反之则Error_YM-ph＝1。比如，若预设位置为前两位，则如果

在

由高到低的排序中排名在前两位，则Error_YM-ph＝0，反之则Error_YM-ph＝1，如果对于声母，则可以规定Error_YM-ph＝-1。

韵母声调错误值：Tone Error_YM-ph，当前音素ph为韵母时，令当前韵母的声调为Tone_ph，Θ_tone-j为声调为j的韵母的集合，不同声调的伪声调后验概率和为

对

由高到低进行排序，在当前排序中位于预设位置之前则Tone Error_YM-ph＝0，反之Tone Error_YM-ph＝1，如果对于声母，则可以规定Tone Error_YM-ph＝-1。

伪音调比值：在韵母的声调判别上，将所有发同样声调的韵母的后验概率和加起来，即可得到当前发音片段每一种声调的伪发音概率，将当前音素的声调伪发音概率和其他声调的伪发音概率和的最大值做比值，得到伪声调比值，这个特征可用于辅助判别韵母的声调是否发对，伪音调比值用PseudoToneRatio表示，当前韵母的伪声调后验概率为

则

在本申请提供的实施例中，基于所述评测文本“苹果”和每个音素“p、ing2、g、uo3”对应的后验概率提取每个音素对应的发音特征值为：音素p对应的发音特征值为“Tone_p、Error_SM-p、Error_YM-p、Tone Error_YM-p、PseudoToneRatio_p”，音素ing2对应的发音特征值为“Tone_ing2、Error_SM-ing2、Error_YM-ing2、Tone Error_YM-ing2、PseudoToneRatio _ing2”，音素g对应的发音特征值为“Tone_g、Error_SM-g、Error_YM-g、Tone Error_YM-g、PseudoToneRatio_g”，音素uo3对应的发音特征值为“Tone_uo3、Error_SM-uo3、Error_YM-uo3、Tone Error_YM-uo3、PseudoToneRatio_uo3”。

步骤208：根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量。

可选的，根据所述每个音素的发音良好度值、发音时长、韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值确定每个音素对应的特征向量。

具体的，根据上述步骤中获得的每个音素的GOP、发音时长、韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值生成每个音素对应的特征向量。

在本申请提供的实施例中，沿用上例，评测文本“苹果”每个音素的GOP为“G_p、G_ing2、G_g、G_uo3”，每个音素的发音时长为“T_p、T_ing2、T_g、T_uo3”，音素p对应的发音特征值为“Tone_p、Error_SM-p、Error_YM-p、Tone Error_YM-p、PseudoToneRatio_p”，音素ing2对应的发音特征值为“Tone_ing2、Error_SM-ing2、Error_YM-ing2、Tone Error_YM-ing2、PseudoToneRatio _ing2”，音素g对应的发音特征值为“Tone_g、Error_SM-g、Error_YM-g、Tone Error_YM-g、PseudoToneRatio_g”，音素uo3对应的发音特征值为“Tone_uo3、Error_SM-uo3、Error_YM-uo3、Tone Error_YM-uo3、PseudoToneRatio_uo3”，相应的，音素p对应的特征向量E_p＝(G_p、T_p、Tone_p、Error_SM-p、Error_YM-p、Tone Error_YM-p、PseudoToneRatio_p)，音素ing2对应的特征向量E_ing2＝(G_ing2、T_ing2、Tone_ing2、Error_SM-ing2、Error_YM-ing2、Tone Error_YM-ing2、PseudoToneRatio _ing2)，音素g对应的特征向量E_g＝(G_g、T_g、Tone_g、Error_SM-g、Error_YM-g、Tone Error_YM-g、PseudoToneRatio _g)，音素uo3对应的特征向量E_uo3＝(G _uo3、T _uo3、Tone _uo3、Error_SM-uo3、Error_YM-uo3、Tone Error_YM-uo3、PseudoToneRatio_uo3)。

步骤210：将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果。

口语评测模型为根据每个音素对应的特征向量进行评测的神经网络模型，所述口语评测模型是预先训练好的，事先收集一批标注数据，所述标注数据中标注了每一个字的发音是否正确，通过有监督的方式训练所述神经网络模型。所述口语评测模型响应于输入的每个音素的特征向量，获得所述口语评测模型输出的所述待评测音频的评测结果。

可选的，将所述每个音素对应的特征向量输入到通过梯度提升策略训练得到的口语评测模型。

在实际应用中，所述口语评测模型是通过梯度提升策略训练获得的，梯度提升决策树(Gradient Boost Decision Tree，GBDT)是使用梯度提升策略训练得到的决策树模型，模型的结果是一组回归分类树的组合，所有决策树的结论累加起来得到最终的结果。该模型在训练时每一轮迭代都会产生一棵新的决策树，每一轮迭代得到的决策树组合得到最终的模型，而当前迭代轮次的决策树是通过优化前一轮迭代得到的决策树的预测结果与真实结果的残差而产生的。

在本申请提供的实施例中，沿用上例，将待评测音频的每个音素对应的特征向量输入到预先训练好的口语评测模型中，所述口语评测模型根据每个音素的特征向量判断所述待评测音频发音是否正确，若正确则输出“正确”，反之则输出“错误”。

下面结合图3和图4对本申请提供的口语测评方法做进一步解释说明，图3示出了本申请一实施例的口语评测方法的框架示意图，如图3所示，将评测文本和待评测音频输入到发音良好度声学模型，获得初始发音时长和每个音素的后验概率，根据每个音素的后验概率计算每个音素的初始GOP，对初始GOP和初始发音时长做归一化处理得到每个音素的GOP和发音时长，根据所述评测文本和每个音素的后验概率提取每个音素的发音特征值，由每个音素的GOP、发音时长和发音特征值构建特征向量，输入到口语评测模型进行处理。

图4示出了本申请实施例提供的口语评测方法的流程图，该口语评测方法包括步骤402至步骤414。

步骤402：获取待评测音频和所述待评测音频对应的评测文本。

在本申请提供的实施例中，以获取待评测音频“dalou”和评测文本“大楼”为例对本申请提到的口语评测方法做进一步解释说明。

步骤404：将所述待评测音频和所述评测文本输入到发音良好度声学模型中处理，获得每个音素的初始发音时长和后验概率。

在本申请提供的实施例中，沿用上例，将所述待评测音频“dalou”和评测文本“大楼”输入到发音良好度声学模型中进行处理，大楼对应的音素为“d、a4、l、ou2”，获得音素“d”对应的初始发音时长为CT_d、后验概率为P_d，音素“a4”对应的初始发音时长为CT_a4、后验概率为P_a4，音素“l”对应的初始发音时长为CT_l、后验概率为P_l，音素“ou2”对应的初始发音时长为CT_ou2、后验概率为P_ou2。

步骤406：将每个音素的后验概率计算每个音素的初始发音良好度值。

在本申请提供的实施例中，沿用上例，根据音素“d”对应的后验概率为P_d计算音素“d”的初始GOP为G_d，根据音素“a4”对应的后验概率为P_a4算音素“a4”的初始GOP为G_a4，根据音素“l”对应的后验概率为P_l计算音素“l”的初始GOP为G_l，根据音素“ou2”对应的后验概率为P_ou2计算音素“ou2”的初始GOP为G_ou2。

步骤408：将每个音素的初始发音良好度值和初始发音时长做归一化处理，获得发音良好度值和发音时长。

在本申请提供的实施例中，沿用上例，对音素“d”对应的初始发音良好度值CT_d做归一化处理，获得音素“d”的GOP为-1.3，对音素“a4”对应的初始发音良好度值CT_a4做归一化处理，获得音素“d4”的GOP为-0.8，对音素“l”对应的初始发音良好度值CT_l做归一化处理，获得音素“l”的GOP为-1.5，对音素“ou2”对应的初始发音良好度值CT_ou2做归一化处理，获得音素“ou2”的GOP为-3.1。

对音素“d”的初始发音时长做归一化处理，获得音素“d”的发音时长为150ms，对音素“a4”的初始发音时长做归一化处理，获得音素“a4”的发音时长为200ms，对音素“l”的初始发音时长做归一化处理，获得音素“l”的发音时长为170ms，对音素“ou2”的初始发音时长做归一化处理，获得音素“ou2”的发音时长为180ms，

步骤410：根据所述评测文本和所述后验概率提取所述评测文本对应的韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值。

在本申请提供的实施例中，沿用上例，根据评测文本“大楼”和每个音素的后验概率，提取每个音素的韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值，对于音素“d”提取对应的值为“-1、0、-1、-1、0.8”，对于音素“a4”提取对应的值为“4、-1、0、0、0.7”，对于音素“l”提取对应的值为“-1、-1、0、0、0.9”，对于音素“ou2”提取对应的值为“2、-1、0、0、0.6”。

步骤412：根据每个音素对应的发音良好度值、发音时长、韵母声调值、声母发音错误值、韵母发音错误值、韵母声调错误值、伪音调比值确定每个音素对应的特征向量。

在本申请提供的实施例中，沿用上例，音素“d”对应的特征向量E_d＝(-1.3，150，-1，0，-1，-1，0.8)，音素“a4”对应的特征向量为E_a4＝(-0.8，200，4，-1，0，0，0.7)，音素“l”对应的特征向量为E_l＝(-1.5，170，-1，-1，0，0，0.9)，音素“ou2”对应的特征向量为E_ou2＝(-2.1，180，2，-1，0，0，0.6)。

步骤414：将每个音素对应的特征向量输入到通过梯度提升策略训练得到的口语评测模型中处理，获得评测结果。

在本申请提供的实施例中，沿用上例，将特征向量E_d、E_a4、E_l、E_ou2输入到通过梯度提升策略训练得到的口语评测模型中进行处理，获得最终的评测结果为“正确”。

与上述方法实施例相对应，本申请还提供了口语评测装置实施例，图5示出了本申请一个实施例的口语评测装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取待评测音频和所述待评测音频对应的评测文本；

确定模块504，被配置为基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；

提取模块506，被配置为基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；

生成模块508，被配置为根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；

评测模块510，被配置为将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果。

可选的，所述确定模块504，被配置为：

可选的，所述提取模块506，被配置为：

可选的，所述生成模块508，被配置为：

可选的，所述评测模块510，被配置为：

本申请实施例中提供的口语评测装置，通过获取待评测音频和所述待评测音频对应的评测文本；基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率；基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值；根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量；将所述每个音素对应的特征向量输入到口语评测模型，获得所述口语评测模型输出的评测结果，本申请提供的口语评测装置，引入了每个音素对应的发音特征值，可以准确发掘当前发音的潜在错误，为口语评测模型提供了多维度的特征信息，提高了声母韵母和声调的判断准确率。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的口语评测方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的口语评测方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述口语评测方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述口语评测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的口语评测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述口语评测方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种口语评测方法，其特征在于，包括：

获取待评测音频和所述待评测音频对应的评测文本；

2.如权利要求1所述的口语评测方法，其特征在于，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的属性特征值和每个音素对应的后验概率，包括：

3.如权利要求2所述的口语评测方法，其特征在于，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的发音良好度值、发音时长和后验概率，包括：

4.如权利要求3所述的口语评测方法，其特征在于，基于所述待评测音频和所述评测文本确定所述评测文本中每个音素的初始发音良好度值、初始发音时长和后验概率，包括：

5.如权利要求4所述的口语评测方法，其特征在于，基于每个音素的后验概率、发音起始时间和发音结束时间确定每个音素的初始发音良好度值和初始发音时长，包括：

6.如权利要求3所述的口语评测方法，其特征在于，对所述每个音素的初始发音良好度值和初始发音时长做归一化处理，获得所述每个音素的发音良好度值和发音时长，包括：

7.如权利要求2所述的口语评测方法，其特征在于，基于所述评测文本和所述每个音素对应的后验概率提取所述评测文本对应的发音特征值，包括：

8.如权利要求7所述的口语评测方法，其特征在于，根据所述每个音素的属性特征值和发音特征值生成每个音素对应的特征向量，包括：

9.如权利要求1所述的口语评测方法，其特征在于，将所述每个音素对应的特征向量输入到口语评测模型，包括：

10.一种口语评测装置，其特征在于，包括：

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。