CN112863486B

CN112863486B - 一种基于音素的口语评测方法、装置及电子设备

Info

Publication number: CN112863486B
Application number: CN202110441338.0A
Authority: CN
Inventors: 庞永强; 袁佳艺; 王丹; 汪巍; 丁文雪; 莫贵明; 杨熙; 饶丰
Original assignee: Beijing Yiyi Education Technology Co ltd
Current assignee: Beijing Yiyi Education Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23
Anticipated expiration: 2041-04-23
Also published as: CN112863486A

Abstract

本发明提供了一种基于音素的口语评测方法、装置及电子设备，其中，该方法包括：设置评测模型；对编码子模型和对齐输出子模型进行训练，之后，在保持编码子模型不变的情况下，对识别输出子模型进行训练；将目标语音数据输入至评测模型，确定目标语音数据的特征向量和音素对齐信息，并基于识别输出子模型确定目标语音数据中每个音素的识别结果；根据标准答案和目标语音数据中每个音素的识别结果确定目标语音数据的评测结果。通过本发明实施例提供的基于音素的口语评测方法、装置及电子设备，可以学习到海量数据的特征，音素对齐效果较好；并且不需要大量的优质数据，有效解决了训练过程中优质数据量不够的问题。

Description

一种基于音素的口语评测方法、装置及电子设备

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种基于音素的口语评测方法、装置、电子设备及计算机可读存储介质。

背景技术

语音评测是K12（kindergarten through twelfth grade，指的是学前教育至高中教育）在线教育场景中的重要场景，通过在线进行语音评测，可以有效的提升学生的口语水平。而音素发音评价作为发音的重要评价细节，对口语打分的准确性起着至关重要的作用。因此，音素颗粒打分的准确度不仅对总分的评估起着重要的作用，还在教学中学生发音细节的纠正发挥着重要作用。

目前常见的口语评测中，音素发音的评估大多以声学模型的音素似然概率作为音素评估的基本特征进行打分。比如使用语音特征强制对齐后的每个音素的似然概率，根据音素的似然概率和专家打分训练一个基于SVM（Support Vector Machine，支持向量机）的评分模型，以保证机器评分与专家评分的差异。或者，基于LSTM（Long Short-Term Memory，长短期记忆网络）进行声学模型建模，LSTM产生的似然概率和专家打分，使用人工神经网络训练一个打分模型。或者，将音素作为语言学习的一种发音颗粒度检测，以帮助提升用户的口语水平。

当前的口语评测方法对音素的区分或对齐表现欠佳，评测效果一般。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种基于音素的口语评测方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种基于音素的口语评测方法，包括：

设置评测模型，所述评测模型包括编码子模型、对齐输出子模型和识别输出子模型；所述编码子模型用于将输入数据编码为特征向量，所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息，所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果；

对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，确定训练后的评测模型；

获取待识别的目标语音数据以及与所述目标语音数据对应的跟读文本，将所述目标语音数据输入至所述评测模型，确定所述目标语音数据的特征向量和音素对齐信息，并基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果；

根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果。

第二方面，本发明实施例还提供了一种基于音素的口语评测装置，包括：

模型设置模块，用于设置评测模型，所述评测模型包括编码子模型、对齐输出子模型和识别输出子模型；所述编码子模型用于将输入数据编码为特征向量，所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息，所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果；

训练模块，用于对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，确定训练后的评测模型；

处理模块，用于获取待识别的目标语音数据以及与所述目标语音数据对应的跟读文本，将所述目标语音数据输入至所述评测模型，确定所述目标语音数据的特征向量和音素对齐信息，并基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果；

评测模块，用于根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的基于音素的口语评测方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于音素的口语评测方法中的步骤。

本发明实施例提供的基于音素的口语评测方法、装置、电子设备及计算机可读存储介质，评测模型中的对齐输出子模型和识别输出子模型共享同一个编码子模型，在训练时先训练编码子模型和对齐输出子模型，之后在保持编码子模型不变的情况下训练识别输出子模型；基于该评测模型可以对目标语音数据进行音素级识别，且识别结果比较准确，能够更加精准的完成音素评测任务。并且，该方式可以学习到海量数据的特征，音素对齐效果较好；并且，基于少量的优质数据可以事先对识别输出子模型的训练，不会过多增加引擎计算复杂度，且不需要大量的优质数据，有效解决了训练过程中优质数据量不够的问题。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种基于音素的口语评测方法的流程图；

图2示出了本发明实施例所提供的基于音素的口语评测方法中，评测模型的一种结构示意图；

图3示出了本发明实施例所提供的基于音素的口语评测方法中，评测模型的另一种结构示意图；

图4示出了本发明实施例所提供的另一种基于音素的口语评测方法的流程图；

图5示出了本发明实施例所提供的一种基于音素的口语评测装置的结构示意图；

图6示出了本发明实施例所提供的一种用于执行基于音素的口语评测方法的电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种基于音素的口语评测方法的流程图。如图1所示，该方法包括：

步骤101：设置评测模型，评测模型包括编码子模型、对齐输出子模型和识别输出子模型；编码子模型用于将输入数据编码为特征向量，对齐输出子模型用于根据特征向量确定相应的音素对齐信息，识别输出子模型用于根据特征向量和音素对齐信息确定输入数据中每个音素的识别结果。

本发明实施例中，该评测模型主要包含三部分，即编码子模型、对齐输出子模型和识别输出子模型，具体可参见图2所示。其中，编码子模型用于将输入数据编码为特征向量，该输入数据具体可以为语音数据，通过提取语音数据的特征可以生成相应的特征向量；其中，该特征向量可以为一维的向量，也可以为二维的矩阵等，本实施例对此不做限定。编码子模型生成特征向量之后，对齐输出子模型、识别输出子模型共用该特征向量分别进行相应的处理，即对齐输出子模型根据该特征向量可以确定相应的音素对齐信息，该音素对齐信息用于表示输入数据中每个音素的位置，例如每个音素的起始时间帧和结束时间帧。识别输出子模型根据该特征向量和音素对齐信息确定输入数据中每个音素的识别结果，该识别结果具体可以为输入数据中的音素被识别为每一种音素的概率；例如，英语音素共有50种，若输入数据为英语的语音数据，则该识别结果可以表示输入数据中每个音素被识别50种任一种音素的概率。或者，该识别结果也可以为将输入数据中的音素识别为了哪一种音素，例如将输入数据中第一个音素识别为音素

。

步骤102：对编码子模型和对齐输出子模型进行训练，之后，在保持编码子模型不变的情况下，对识别输出子模型进行训练，确定训练后的评测模型。

传统的GMM-HMM（Gaussian Mixture Model，混合高斯模型；Hidden MarkovModel，隐马尔科夫模型）、或DNN-HMM（Deep Neural Network，深度神经网络）虽然可以实现语音识别，但传统模型不能很好地区分优质和次优质的音素，区分能力较差。本发明实施例中，采用两遍解码的方式对评测模型进行训练，可以实现音素的精准对齐，并能够提高音素区分度。具体地，在第一遍训练过程中，对编码子模型和对齐输出子模型进行训练；此时，可以将编码子模型和对齐输出子模型作为一种对齐声学模型，利用深度学习可以学习到海量数据的特征，该对齐声学模型有较强的发音容忍度，能够学习到更多的发音可能，如英语中式发音的可能，音素的对齐效果较好。而优秀的音素发音数据比较少，难以训练出具有较高的因素识别功能的模型（训练过程中容易出现过拟合的现象）。

本发明实施例中，还将编码子模型和识别输出子模型作为一种音素识别模型进行第二遍训练，由于在第一遍训练过程中已经对编码子模型进行了训练，即已经确定了编码子模型的权重值等参数，因此，在第二遍训练过程中，可以保持编码子模型不变，即保持编码子模型的权重值不变，对齐输出子模型和识别输出子模型共享该编码子模型的权重值，使得在第二遍训练过程中，可以在增加少量计算量的基础上（一个原因是，第二遍训练可以只使用少量的优质训练数据，另一个原因是，原有的编码子模型不变，只是新增加的识别输出子模型需要训练调整，所增加的计算量较少），不仅可以避免因增加识别输出子模型而造成引擎计算复杂度的增加，还能够有效解决训练过程中优质数据量不够的问题。

步骤103：获取待识别的目标语音数据以及与目标语音数据对应的跟读文本，将目标语音数据输入至评测模型，确定目标语音数据的特征向量和音素对齐信息，并基于识别输出子模型确定目标语音数据中每个音素的识别结果。

本发明实施例中，在对评测模型训练结束后，即可基于该评测模型对用户提供的语音数据进行评测。本实施例中，将待识别的语音数据称为目标语音数据，将该目标语音数据输入到训练好的评测模型后，基于对齐输出子模型可以确定该目标语音数据的音素对齐信息，即目标语音数据中每个音素对应的位置；一般情况下，语音数据按照时间分为多帧，例如25ms一帧，相邻两帧之间间隔10ms；并且，每个音素一般会对应多帧语音，该音素对齐信息可以表示目标语音数据中每个音素对应哪些帧的数据。此外，识别输出子模型可以确定目标语音数据中每个音素的识别结果，例如，目标语音数据中的音素被识别为每一种音素对应的概率。需要说明的是，识别输出子模型需要基于对齐输出子模型所确定的音素对齐信息来确定目标语音数据中的哪一部分对应一个音素，进而确定每个音素的识别结果。

步骤104：根据跟读文本和目标语音数据中每个音素的识别结果确定目标语音数据的评测结果。

本发明实施例中，在口语评测领域，一般是向用户提供口语文本（或口语语音等），之后由用户发出相应的声音，并采集该声音对应的语音数据，从而实现口语评测；其中，提供给用户的口语文本等即为跟读文本。基于该跟读文本与音素的识别结果即可确定该目标语音数据的评测结果，该评测结果用于表示目标语音数据与跟读文本之间的相符程度。例如，音素的识别结果为该因素被识别为是哪种因素，则若所识别出的音素与跟读文本相同，则评测结果越好，分值越高。

本发明实施例提供的一种基于音素的口语评测方法，评测模型中的对齐输出子模型和识别输出子模型共享同一个编码子模型，在训练时先训练编码子模型和对齐输出子模型，之后在保持编码子模型不变的情况下训练识别输出子模型；基于该评测模型可以对目标语音数据进行音素级识别，且识别结果比较准确，能够更加精准的完成音素评测任务。并且，该方式可以学习到海量数据的特征，音素对齐效果较好；并且，基于少量的优质数据可以事先对识别输出子模型的训练，不会过多增加引擎计算复杂度，且不需要大量的优质数据，有效解决了训练过程中优质数据量不够的问题。

在上述实施例的基础上，上述步骤102“对编码子模型和对齐输出子模型进行训练，之后，在保持编码子模型不变的情况下，对识别输出子模型进行训练”包括：

步骤A1：获取第一数据集，对第一数据集中的第一语音数据进行音素对齐，确定第一语音数据中每帧数据的标签。

步骤A2：将第一数据集作为训练集，将第一语音数据作为编码子模型的输入、将第一语音数据中每帧数据的标签作为对齐输出子模型的输出，对编码子模型和对齐输出子模型进行训练。

本发明实施例中，基于第一数据集对评测模型中的编码子模型、对齐输出子模型进行第一遍训练；其中，该第一数据集可以为传统的数据集，其中包含大量的语音数据，即大量的第一语音数据；例如，该第一数据集可以是在口语评测中用于儿童语音识别的数据集。基于大量的第一语音数据进行第一遍训练，可以学习到语音数据的特征。

可选地，可以采用经典的DNN-HMM模型对第一语音数据进行音素对齐。本实施例中，可以将第一语音数据作为基础信号，提取第一语音数据的MFCC（Mel-scale FrequencyCepstral Coefficients，梅尔倒谱系数）特征作为DNN-HMM模型的输入特征；之后，采用三音素（Tri-phoneme）作为GMM 建模的最小单元，利用HMM-GMM模型的输出作为每一帧语音信号的标签，从而可以解决连续的语音数据无法通过人工进行标签的问题。该DNN-HMM模型即可用于第一语音数据的音素对齐。相比传统的GMM-HMM模型，DNN的模型在字错率和系统鲁棒性上均要优于GMM的方法。在确定第一语音数据中每帧数据的标签后，即可将该第一数据集作为训练集进行训练。

此外，传统的方式一般采用RNN（循环神经网络）为代表的循环卷积网络，以获取更好的语音识别性能；而在本发明实施例中，该评测模型的对齐输出子模型不是为了获取更好的语音识别性能，而是为了更好地获取每一帧语音更精确的音素分布，因此，本实施例中的编码子模型和对齐输出子模型具体可以采用TDNN（Time-Delay Neural Network，时延神经网络）模型。

步骤A3：获取第二数据集，对第二数据集的第二语音数据进行音素对齐，并确定第二语音数据对应的文本；该第二语音数据为发音正确的数据，且第二语音数据的数量小于第一语音数据的数量。

步骤A4：将第二数据集作为训练集，在保持编码子模型不变的情况下，将第二语音数据作为编码子模型的输入、将第二语音数据对应的文本作为识别输出子模型的输出，对识别输出子模型进行训练。

本发明实施例中，在第一遍训练之后，可以得到训练后的对齐输出子模型，但编码子模型和对齐输出子模型本质上是用于语音识别的声学模型，其能够实现音素对齐功能，并也可以计算音素的似然概率，但此时的模型对于次优和优质音素数据的区分度欠佳，即难以区分优质和次优的音素。因此，本实施例基于第二数据集对评测模型进行第二遍训练，该第二遍训练的过程主要是对识别输出子模型进行训练，基于训练后的识别输出子模型可以更加准确地区分相似的音素数据。其中，该第二数据集中的第二语音数据的数量较少，但是，第二语音数据均是发音正确的数据（如经过专家筛选的语料），与第一语音数据相比，第二语音数据更优质；在第二遍训练过程中，保持编码子模型不变，在原有音素对齐信息的基础上进行更为精准的训练，从而即能够获得第一遍训练时学习到的音素分类的权重信息，又能使识别输出子模型训练更为精准的音素识别任务。

其中，第二语音数据对应相应的文本，该文本可以表示该第二语音数据中每个音素的含义（标签）；通过对齐输出子模型可以确定该第二语音数据的音素对齐信息，进而基于该文本可以确定第二语音数据中每个对齐区间所对应的音素标签。例如，第二语音数据为正确发音的“good”，其对应文本“good”，基于该文本“good”可以确定其具有三个音素：g、ʊ、d；基于对齐输出子模型可以确定该第二语音数据的三个对齐区间，则三个对齐区间依次对应三个音素g、ʊ、d。

可选地，上述步骤103“基于识别输出子模型确定目标语音数据中每个音素的识别结果”包括：

步骤B1：将目标语音数据的特征向量输入至识别输出子模型进行前向计算，确定识别输出子模型的输出矩阵Y_rec，输出矩阵Y_rec为帧数m×音素总维数n的矩阵。

本发明实施例中，编码子模型对目标语音数据等输入数据进行编码处理，可以生成相应的特征向量，例如生成矩阵Y_share，该矩阵Y_share即为识别输出子模型和对齐输出子模型共用的特征向量。之后将该特征向量输入至识别输出子模型，即可得到该识别输出子模型的输出结果，即矩阵Y_rec。本实施例中，该矩阵Y_rec为帧数m×音素总维数n的矩阵（可以是m行n列，也可以是n行m列），矩阵Y_rec中的元素

表示t_i帧、音素j对应的元素，该元素

可以表示t_i帧被识别为是音素k的可能性。其中，帧数m为目标语音数据所包含的帧数，音素总维数n为音素的总数量，例如，英语包含50种音素，故对英语口语进行评测时，n=50。

步骤B2：根据目标语音数据的音素对齐信息确定目标语音数据中的每个音素，并确定音素i对齐区间内对于任意音素j的似然概率

：

其中，

表示音素i对齐区间的起始帧，

表示音素i对齐区间的结束帧，

表示输出矩阵Y_rec中t_i帧、音素j对应的元素，j∈[1,n]。

本发明实施例中，音素i为目标语音数据中的第i个音素；其中，每个音素会对应包含多帧语音的对齐区间，对于第i个音素，本实施例以

、

表示该音素i对齐区间的起始帧和结束帧，将在该起始帧与结束帧之间的所有t_i帧

的均值作为相应音素的似然概率。本实施例中给出该音素i被识别为每种音素j的似然概率，即

。相应的，j的取值范围可以为[1,n]。

在上述实施例的基础上，第二数据集训练后的识别输出子模型可以确定较为准确地似然概率，从而可以对目标语音数据中的音素进行精准打分。为了更加精准的音素打分性能，使用该音素部分的似然概率向量和逻辑回归子模型得出该音素的置信度，置信度范围为（0,1），基于该置信度实现更为精准的评测。具体地，上述步骤104“根据跟读文本和目标语音数据中每个音素的识别结果确定目标语音数据的评测结果”包括：

步骤C1：为评测模型设置逻辑回归子模型，基于逻辑回归子模型对目标语音数据中每个音素的识别结果进行逻辑回归处理，确定每个音素与跟读文本相匹配的置信度。

步骤C2：根据每个音素的置信度确定目标语音数据的评测结果。

本发明实施例中，参见图3所示，该评测模型还设有逻辑回归子模型，该逻辑回归子模型可以对识别输出子模型的输出结果（如似然概率等）进行逻辑回归处理，从而可以确定每个音素与标注答案中相应位置的音素之间的置信度。其中，可以基于第三数据集对该逻辑回归子模型进行训练。具体地，在上述步骤102“对识别输出子模型进行训练”之后，该方法还包括：

步骤C3：获取包含多个第三语音数据的第三数据集，第三语音数据的每个音素标注有相应的正误情况。

步骤C4：将第三数据集作为训练集，在保持编码子模型和识别输出子模型不变的情况下，将第三语音数据作为编码子模型的输入、将第三语音数据中每个音素的正误情况作为逻辑回归子模型的输出，对逻辑回归子模型进行训练。

本发明实施例中，在识别输出子模型、编码子模型均训练完毕后，进行第三遍训练，即基于第三数据集再次进行训练。其中，该第三数据集也可只包含少量的第三语音数据，第三遍训练时编码子模型、识别输出子模型的权重等参数也保持不变，只是对逻辑回归子模型进行训练。其中，第三语音数据中的音素设有相应的正误情况，即若该音素发音正确，则其标注为“正确”，否则标注为“错误”；即与完全正确的第二语音数据不同，该第三语音数据中需要带有发音错误的音素。

可选地，上述步骤C1“基于逻辑回归子模型对目标语音数据中每个音素的识别结果进行逻辑回归处理，确定每个音素与跟读文本相匹配的置信度”包括：

步骤C11：将目标语音数据中每个音素的识别结果输入至逻辑回归子模型，确定每个音素与跟读文本相匹配的置信度：

其中，

表示目标语音数据中音素i的置信度，

表示音素i的似然概率向量，且

，音素k为跟读文本中与音素i所对应的音素，

和

为所述逻辑回归子模型中与音素k相对应的权重系数；

为逻辑回归函数。

本发明实施例中，该逻辑回归子模型可以通过逻辑回归处理将识别输出子模型所确定的识别结果进行进一步处理，将该识别结果限定为0到1之间的置信度，从而方便后续基于该置信度确定目标语音数据的评测结果；一般情况下，置信度越高，评测结果越好。其中，逻辑回归子模型将每个音素的识别结果转换为相应的置信度。具体地，对于目标语音数据中的音素i，其识别结果可以用似然概率

表示；相应地，该音素i是跟读文本对应的音素k的似然概率即为

。为提高评测效果，本实施例基于音素i的似然概率向量

进行逻辑回归处理。此外，逻辑回归子模型确定每种音素对应的权重系数，对于音素k，其权重系数为

和

。在确定似然概率向量

之后，即可基于上式确定该音素i与跟读文本对应的音素k相匹配的置信度

。其中，权重系数

也为n维的向量，逻辑回归函数

具体可以是softmax函数。

下面以目标语音数据为“family”为例，详细介绍该基于音素的口语评测方法的流程。参见图4所示，若当前需要用户输入语音“family”，则通过采集用户发出的声音即可得到目标语音数据，该目标语音数据中可以包含用户发出的“family”以及部分噪声；并且，相应的跟读文本即为“family”。

将该目标语音数据输入到编码子模型，之后基于对齐输出子模型可以确定相应的音素对齐信息；如图4所示，该目标语音数据中包含6个音素，基于跟读文本可知，每个音素与跟读文本对应的音素依次为f、æ、m、ə、l、ɪ，其中的“sil”表示噪音。并且，识别输出子模型与对齐输出子模型共享相同的特征向量，并基于该音素对齐信息可以确定每个音素的似然概率；由于后续评测过程中主要使用到目标语音数据中音素被识别为跟读文本中音素的概率，故本实施例中识别输出子模型输出的似然概率可以为

。以目标语音数据中第一个音素（i=1）为例，基于跟读文本可知，该音素应该为音素f，故第一个音素是音素f的似然概率可以表示为

。

之后，将每个音素的似然概率输入至逻辑回归子模型，可以确定每个音素的置信度。仍然以第一个音素为例，该音素与跟读文本对应的音素f相匹配的置信度为

。同理，可以确定每个音素是相应跟读文本中音素的置信度，如图4所示，六个音素的置信度依次为0.9、0.2、0.95、0.88、0.92、0.97，其中第二个置信度0.2较低，说明用户没有比较准确地发出æ这个音素，此时基于所有置信度的结果可以生成相应的评测结果。

在学生发音音素打分任务中，音素是一个较小的颗粒维度，在模型训练时，传统的基于语音识别的训练方法很容易将发音大致正确的语料作为正确的发音，缺乏对优质发音与次优的发音的区分能力，然而音素级的标注成本较高且数量很难达到语音识别语料的级别，所以本实施例使用的第一数据集保有模型的精准对齐的前提下，使用少量数据的第二数据集和第三数据集进行了模型的再次训练和优化。具体地，在构建音素打分引擎时，首先使用包含大量语音识别语料的第一数据集完成了用于语音识别的声学模型（包括逻辑子模型和对齐输出子模型），该声学模型对语音有着较高的模糊度，能够很好地完成音素级的对齐工作。然后，使用了少量的优质发音数据，即第二数据集，在对齐模型的基础上，另外引入识别输出子模型，用于音素发音数据的似然概率计算，该似然概率能够提供相对于对传统模型更好的区分度。最后，基于识别输出子模型的似然概率向量，给予更少的音素正误标注，从而可以确定音素的置信度，实现更为精准的音素评测模型。该评测模型在较少的音素级标注下，既提升了音素打分的区分度，又能够保持原有量级的计算复杂度，有效解决了训练过程中优质数据量不够的问题。

上文详细描述了本发明实施例提供的基于音素的口语评测方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的基于音素的口语评测装置。

图5示出了本发明实施例所提供的一种基于音素的口语评测装置的结构示意图。如图5所示，该基于音素的口语评测装置包括：

模型设置模块51，用于设置评测模型，所述评测模型包括编码子模型、对齐输出子模型和识别输出子模型；所述编码子模型用于将输入数据编码为特征向量，所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息，所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果；

训练模块52，用于对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，确定训练后的评测模型；

处理模块53，用于获取待识别的目标语音数据以及与所述目标语音数据对应的跟读文本，将所述目标语音数据输入至所述评测模型，确定所述目标语音数据的特征向量和音素对齐信息，并基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果；

评测模块54，用于根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果。

在上述实施例的基础上，所述训练模块52对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，包括：

获取第一数据集，对所述第一数据集中的第一语音数据进行音素对齐，确定所述第一语音数据中每帧数据的标签；

将所述第一数据集作为训练集，将所述第一语音数据作为所述编码子模型的输入、将所述第一语音数据中每帧数据的标签作为所述对齐输出子模型的输出，对所述编码子模型和所述对齐输出子模型进行训练；

获取第二数据集，对所述第二数据集的第二语音数据进行音素对齐，并确定所述第二语音数据对应的文本；所述第二语音数据为发音正确的数据，且所述第二语音数据的数量小于所述第一语音数据的数量；

将所述第二数据集作为训练集，在保持所述编码子模型不变的情况下，将所述第二语音数据作为所述编码子模型的输入、将所述第二语音数据对应的文本作为所述识别输出子模型的输出，对所述识别输出子模型进行训练。

在上述实施例的基础上，所述处理模块53基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果，包括：

将所述目标语音数据的特征向量输入至所述识别输出子模型进行前向计算，确定所述识别输出子模型的输出矩阵Y_rec，所述输出矩阵Y_rec为帧数m×音素总维数n的矩阵；

根据目标语音数据的音素对齐信息确定所述目标语音数据中的每个音素，并确定音素i对齐区间内对于任意音素j的似然概率

：

其中，

表示音素i对齐区间的起始帧，

表示音素i对齐区间的结束帧，

表示输出矩阵Y_rec中t_i帧、音素j对应的元素，j∈[1,n]。

在上述实施例的基础上，所述评测模块54根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果，包括：

为所述评测模型设置逻辑回归子模型，基于所述逻辑回归子模型对所述目标语音数据中每个音素的识别结果进行逻辑回归处理，确定每个音素与所述跟读文本相匹配的置信度；

根据每个音素的置信度确定所述目标语音数据的评测结果。

在上述实施例的基础上，所述评测模块54基于所述逻辑回归子模型对所述目标语音数据中每个音素的识别结果进行逻辑回归处理，确定每个音素与所述跟读文本相匹配的置信度，包括：

将所述目标语音数据中每个音素的识别结果输入至所述逻辑回归子模型，确定每个音素与所述跟读文本相匹配的置信度：

其中，

表示目标语音数据中音素i的置信度，

表示音素i的似然概率向量，且

，音素k为跟读文本中与音素i所对应的音素，

和

为所述逻辑回归子模型中与音素k相对应的权重系数；

为逻辑回归函数。

在上述实施例的基础上，在对所述识别输出子模型进行训练之后，所述训练模块52还用于：

获取包含多个第三语音数据的第三数据集，所述第三语音数据的每个音素标注有相应的正误情况；

将所述第三数据集作为训练集，在保持所述编码子模型和所述识别输出子模型不变的情况下，将所述第三语音数据作为所述编码子模型的输入、将所述第三语音数据中每个音素的正误情况作为所述逻辑回归子模型的输出，对所述逻辑回归子模型进行训练。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述基于音素的口语评测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图6所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述基于音素的口语评测方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构（用总线1110来代表），总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口（Accelerate Graphical Port，AGP）、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构（Industry Standard Architecture，ISA）总线、微通道体系结构（Micro Channel Architecture，MCA）总线、扩展ISA（Enhanced ISA，EISA）总线、视频电子标准协会（Video Electronics Standards Association，VESA）、外围部件互连（Peripheral Component Interconnect，PCI）总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列（Programmable Logic Array，PLA）、微控制单元（Microcontroller Unit，MCU）或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器（Random Access Memory，RAM）、闪存（FlashMemory）、只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络（ad hoc network）、内联网（intranet）、外联网（extranet）、虚拟专用网（VPN）、局域网（LAN）、无线局域网（WLAN）、广域网（WAN）、无线广域网（WWAN）、城域网（MAN）、互联网（Internet）、公共交换电话网（PSTN）、普通老式电话业务网（POTS）、蜂窝电话网、无线网络、无线保真（Wi-Fi）网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信（GSM）系统、码分多址（CDMA）系统、全球微波互联接入（WiMAX）系统、通用分组无线业务（GPRS）系统、宽带码分多址（WCDMA）系统、长期演进（LTE）系统、LTE频分双工（FDD）系统、LTE时分双工（TDD）系统、先进长期演进（LTE-A）系统、通用移动通信（UMTS）系统、增强移动宽带（Enhance Mobile Broadband，eMBB）系统、海量机器类通信（massive Machine Type of Communication，mMTC）系统、超可靠低时延通信（UltraReliable Low Latency Communications，uRLLC）系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存（Flash Memory）。

易失性存储器包括：随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data RateSDRAM，DDRSDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（Synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（DirectRambus RAM，DRRAM）。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器（Media Player）、浏览器（Browser），用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于音素的口语评测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、非易失性随机存取存储器（NVRAM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置（例如在其上记录有指令的凹槽中的穿孔卡或凸起结构）或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波（例如穿过光纤电缆的光脉冲）或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（包括：个人计算机、服务器、数据中心或其他网络设备）执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件（包括固件、驻留软件、微代码等）、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM）、闪存（Flash Memory）、光纤、光盘只读存储器（CD-ROM）、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频（Radio Frequency，RF）或者以上任意合适的组合。

可以以汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网（LAN）或广域网（WAN），可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于音素的口语评测方法，其特征在于，包括：

对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型的参数不变的情况下，所述识别输出子模型与所述对齐输出子模型共享所述编码子模型的参数，对所述识别输出子模型进行训练，确定训练后的评测模型；

根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果；

其中，所述对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果，包括：

：

其中，

表示音素i对齐区间的起始帧，

表示音素i对齐区间的结束帧，

表示输出矩阵Y_rec中t_i帧、音素j对应的元素，j∈[1,n]。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果，包括：

根据每个音素的置信度确定所述目标语音数据的评测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述逻辑回归子模型对所述目标语音数据中每个音素的识别结果进行逻辑回归处理，确定每个音素与所述跟读文本相匹配的置信度，包括：

其中，

表示目标语音数据中音素i的置信度，

表示音素i的似然概率向量，且

，n为音素总维数；音素k为跟读文本中与音素i所对应的音素，

和

为所述逻辑回归子模型中与音素k相对应的权重系数；

为逻辑回归函数。

5.根据权利要求3所述的方法，其特征在于，在对所述识别输出子模型进行训练之后，还包括：

6.一种基于音素的口语评测装置，其特征在于，包括：

训练模块，用于对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型的参数不变的情况下，所述识别输出子模型与所述对齐输出子模型共享所述编码子模型的参数，对所述识别输出子模型进行训练，确定训练后的评测模型；

评测模块，用于根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果；

其中，所述训练模块对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，包括：

获取第二数据集，对所述第二数据集的第二语音数据进行音素对齐，并标注所述第二语音数据中每帧数据的标签；所述第二语音数据的数量小于所述第一语音数据的数量；

将所述第一数据集作为训练集，在保持所述编码子模型不变的情况下，将所述第二语音数据作为所述编码子模型的输入、将所述第二语音数据中每帧数据的标签作为所述识别输出子模型的输出，对所述识别输出子模型进行训练。

7.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于音素的口语评测方法中的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于音素的口语评测方法中的步骤。