CN111915940A

CN111915940A - 一种口语发音评测和教学方法、系统、终端及存储介质

Info

Publication number: CN111915940A
Application number: CN202010601290.0A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-11-10

Abstract

本发明提出了一种口语发音评测和教学方法、系统、终端及存储介质，所述方法包括：获取用户年龄信息和待评测发音音频；将待评测发音音频切分为整数份音频帧；提取每份音频帧的语音特征；将语音特征输入预设的语音评测模型进行对齐处理，并计算待评测发音音频的发音准度值；将发音准度值输入预设的评分映射模型中转换成打分值，并设定打分值的合格阈值；当打分值未达到合格阈值时，将打分值和用户年龄信息输入预设的发音教学模型中，向用户推送符合打分值和用户年龄的口语练习方案；实现了口语发音评测打分，提高发音质量评价的准确性和可信性，并根据用户年龄和发音水平综合分析推荐相符的口语训练方案，提高了口语训练效率和合理性。

Description

一种口语发音评测和教学方法、系统、终端及存储介质

技术领域

本发明涉及语音识别控制技术领域，尤其涉及一种口语发音评测和教学方法、系统、终端及存储介质。

背景技术

英语口语教学是应用语言学科的重要研究领域，当前的英语教学中日益注重英语听说等交际能力的培养。

现有的语言学习应用中，用户通过用户端的录音设备录制语音，系统根据与该语音相对应的标准语料库，将用户录制的语音和现有声学模型进行比较，从而向用户提供整句录音的发音评分，以及每个单词的发音是否正确的反馈；然而往往只提供了用户发音评分结果以供用户了解自身发音水平，然后直接根据评分结果推送口语发音训练方案给用户，但不同年龄大小的用户无法统一和适应相同的口语训发音练方案，例如幼儿只能适应仿读训练方案，无法适应为中小学生推荐的情景对话训练方案。

发明内容

鉴于上述状况，实有必要提供一种口语发音评测和教学方法、系统、终端及存储介质，以解决上述问题。

本发明提供了一种口语发音评测和教学方法，所述方法包括：

获取用户年龄信息和待评测发音音频；

将所述待评测发音音频切分为整数份音频帧；

提取每份所述音频帧的语音特征；

将所述语音特征输入预设的语音评测模型进行对齐处理，并计算所述待评测发音音频的发音准度值；

将所述发音准度值输入预设的评分映射模型中转换成打分值，并设定打分值的合格阈值；

当所述打分值未达到合格阈值时，将所述打分值和用户年龄信息输入预设的发音教学模型中，向用户推送符合所述打分值和用户年龄的口语练习方案。

进一步地，将所述打分值和用户年龄信息输入预设的发音教学模型中，向用户推荐符合当前打分值和用户年龄的口语练习方案的过程包括：

采用回归方法将所述口语练习方案映射到所述用户年龄信息和打分值，并将回归参数保存，作为所述发音教学模型；

根据所述打分值和用户年龄信息，所述发音教学模型寻找匹配对应的口语练习方案，并推送给对应的用户；

获取用户学习后的发音音频，计算得到学习后的发音音频的打分值并输入所述发音教学模型，重新为用户推送口语练习方案，直至所述打分值达到合格阈值为止。

进一步地，所述口语练习方案包括：仿读、朗读、复述和情景对话。

进一步地，所述语音评测模型对语音特征进行对齐处理，并计算所述待评测发音音频的发音准度值的过程包括：

将所述语音特征输入语音评测模型，得到条件概率矩阵，所述条件概率矩阵表示为音频帧被识别为标准语料库中任一音素的条件概率；

将所述条件概率矩阵输入解码器进行路径搜索，得到标准语料库对应的音素串中每个音素对应的音频帧；

根据所述条件概率矩阵，确定标准语料库中音素与对应的音频帧的匹配概率；

根据所述匹配概率和对应的音频帧，计算每个音素的发音准度值；

根据每个音素的发音准度值和预先为每个音素确定的权重值，得到所述待评测发音音频的发音准度值。

进一步地，将所述条件概率矩阵输入解码器进行路径搜索时，可以根据用户年龄信息，调整所述语音评测模型的搜索范围。

进一步地，所述语音特征可以为Fbank特征或MFCC特征或语谱图特征。

进一步地，所述评分映射模型的建立过程包括：

获取大量口语发音音频，经过所述语音评测模型处理计算后得到每个口语发音音频的发音准度值；

专家对每个所述口语发音音频进行发音准度打分和发音错误标注；

基于每个所述口语发音音频的发音准度值和专家打分值，采用回归方法将所述发音准度值映射到专家打分值，并将回归参数保存，作为所述评分映射模型。

本发明还提供了一种口语发音评测和教学系统，所述系统包括：

年龄采集模块，用于采集用户年龄信息；

音频采集模块，用于采集待评测发音音频；

特征提取模块，用于将待评测发音音频切分为整数份音频帧，并提取每份所述音频帧的语音特征；

语音评测模块，所述语音评测模块中预设有语音评测模型，用于将输入的所述语音特征进行对齐处理，并计算所述待评测发音音频的发音准度值；

评分映射模块，所述评分映射模块中预设有评分映射模型，用于将输入的所述发音准度值转换成打分值；

评分判断模块，用于设定打分值的合格阈值，判断所述待测发音音频是否符合发音标准；

发音教学模块，所述发音教学模块中预设有发音教学模型，用于当所述打分值未达到合格阈值时，根据输入的所述打分值和用户年龄信息，寻找匹配对应的口语练习方案，并推送给对应的用户。

本发明还提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述一种口语发音评测和教学方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如所述一种口语发音评测和教学方法中的步骤。

与现有技术相比，本发明提供的一种口语发音评测和教学方法、系统、终端及存储介质具有如下有益效果：

1、本发明首先获取用户年龄信息和待评测发音音频，然后将所述待评测发音音频切分为整数份音频帧并提取每份所述音频帧的语音特征，接着将所述语音特征输入语音评测模型进行对齐处理，并计算出发音准度值，最后将所述发音准度值输入评分映射模型转换得到专家打分值，实现了口语发音评测打分，提高发音质量评价的准确性和可信性。

2、本发明通过将所述打分值和用户年龄信息输入发音教学模型，向用户推送符合所述打分值和用户年龄的口语练习方案，实现了根据用户年龄和发音水平综合分析推荐相符的口语训练方案，提高了口语训练效率和合理性。

附图说明

图1是本发明的一个实施例中的一种口语发音评测和教学方法的流程图。

图2是本发明的一个实施例中的一种口语发音评测和教学方法中步骤S40中计算发音准度值的流程图。

图3是本发明的一个实施例中的一种口语发音评测和教学系统的模块示意图。

主要元件符号说明

100 系统

110 年龄采集设备

120 音频采集模块

130 特征提取模块

140 语音评测模块

150 评分映射模块

160 评分判断模块

170 发音教学模块

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1，本发明提供了一种口语发音评测和教学方法，所述方法包括：

步骤S10、获取用户年龄信息和待评测发音音频。

在本实施例中，用户可以通过电子设备使用客户端进行语言学习，所述客户端利用所述电子设备的麦克风采集该用户的待评测发音音频，所述客户端也可以提供年龄填写界面以供用户提供年龄信息，例如：用户通过手机使用学习软件进行英语学习，该学习软件利用手机的麦克风采集用户的音频信号，利用显示界面上的年龄填写栏目以供用户填写年龄信息。

步骤S20、将所述待评测发音音频切分为整数份音频帧。

在本实施例中，所述待评测发音音频的切分方法是使用移动窗口函数实现分帧，一般取10-30ms为一帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。

步骤S30、提取每份所述音频帧的语音特征。

在本实施例中，将所述待评测发音音频切分为整数份音频帧后，提取各个音频帧的语音特征为声学特征向量，所述声学特征向量为一个多维特征向量，每一帧音频用一个多维特征向量表示，以将所述待评测发音音频转化为多个音频帧组成的音频帧序列。

进一步地，提取的语音特征可以Fbank特征、MFCC(Mel Frequency CepstralCoefficents，梅尔频率倒谱系数)特征或语谱图特征等。

步骤S40、将所述语音特征输入预设的语音评测模型进行对齐处理，并计算所述待评测发音音频的发音准度值。

在本实施例中，如图2所示，将将所述语音特征输入预设的语音评测模型进行对齐处理，并计算所述待评测发音音频的发音准度值的过程具体包括：

步骤S41、将所述语音特征输入语音评测模型，得到条件概率矩阵，所述条件概率矩阵表示为音频帧被识别为标准语料库中任一音素的条件概率。

在本实施例中，针对一个音频帧，所述条件概率矩阵给出了该音频帧与多个音素之间的条件概率，例如，可包括一个音频帧被识别为[u]的条件概率和一个音频帧被识别为

的条件概率。所述标准语料库是通过录取发音标准人士大规模的标准发音数据。所述音素(phone)是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类，例如，元音有a、e、ai等，辅音有p、t、h等。

步骤S42、将所述条件概率矩阵输入解码器进行路径搜索，得到标准语料库对应的音素串中每个音素对应的音频帧。

在本实施例中，标准语料库对应的音素串作为路径搜索时的限制条件，一般一个音素对应待评测发音音频中的多个连续的音频帧，该解码器已经预先对所有音素进行构图。

进一步地，将所述条件概率矩阵输入解码器进行路径搜索时，可以根据用户年龄信息，调整所述语音评测模型的搜索范围。例如，利用1000个小时的语音样本数据训练神经网络模型得到所述语音评测模型，所述语音评测模型的搜索范围为1000个小时的语音样本数据。所述语音评测模型的搜索范围可根据用户的年龄段和实际需求进行合适的调整。

当用户使用所述客户端进行语言学习时，所述客户端可通过咨询该用户的年龄和实际需求，再根据该用户的年龄和实际需求调整所述语音评测模型的搜索范围，例如：对于婴幼儿学习英语而言，婴幼儿涉及到的英语词汇量少且低级，需缩小所述语音评测模型的搜索范围，从而提高所述语音评测模型的运算速度。具体调整搜索范围的方式为：通过mkgraph重新构建所述语音评测模型的新解码图，将所述语音评测模型的搜索范围调整在适合婴幼儿的单词范围内。

步骤S43、根据所述条件概率矩阵，确定标准语料库中音素与对应的音频帧的匹配概率。

在本实施例中，由于已经确定了所述标准语料库对应的每个音素与音频帧之间的对应关系，因此，针对所述标准语料库对应的每个音素，可从条件概率矩阵中获取该音素与该音素对应的音频帧之间的条件概率，从而确定该音素与对应的音频帧的匹配概率，例如，音素[u]对应10个音频帧，从条件概率矩阵中获取这10个音频帧与音素[u]之间的条件概率，取这10个条件概率的平均值或最大值或中值，作为音素[u]与音素[u]对应的音频帧的匹配概率。

步骤S44、根据所述匹配概率和对应的音频帧，计算每个音素的发音准度值。

在本实施例中，可将GOP(Goodness of Pronunciation，发音准确度)值作为发音准度值。具体地，可通过以下公式计算音素的GOP值：

其中，p为标准语料库中的音素，P(p|o)为音素p对应的匹配概率，NF(p)为音素p对应的音频帧的数量，o为音素p对应的音频帧。

步骤S45、根据每个音素的发音准度值和预先为每个音素确定的权重值，得到所述待评测发音音频的发音准度值。

在本实施例中，可根据预先为每个音素确定的权重值，对每个音素对应的发音准度值进行加权，得到所述待评测发音音频的发音准度值。例如，单词book对应的音素包括[b]、[u]、[k]，假设[b]和[k]对应的权重值均为0.15，[u]对应的权重值0.7。发音较好的用户甲输入语音book后，得到[b]对应的GOP值为0.9，[u]对应的GOP值为0.8，[k]对应的GOP值为0.8，加权后得到语音book的发音准度值为0.815。发音较差的用户乙输入语音book后，得到[b]对应的GOP值为0.85，[u]对应的GOP值为0.6，[k]对应的GOP值为0.8，加权平均后得到语音book的发音准度值为0.6675。如果不设置权重值的话，用户甲得到语音book的发音准度值为0.83，用户已得到语音book的发音准度值为0.75，用户甲和用户乙得到的发音准度值较为接近，无法很好地区分较好的发音和较差的发音。

显然，在基于音素的发音准度计算单词或句子发音的发音准度值时，增加了音素的权重后，扩大发音较好的语音和发音较差的语音之间的发音准度值的差异度，提高发音质量评价的准确性和可信度。

步骤S50、将所述发音准度值输入预设的评分映射模型中转换成打分值，并设定打分值的合格阈值。

在本实施例中，所述评分映射模型的建立过程包括：获取大量口语发音音频，经过所述语音评测模型处理计算后得到每个口语发音音频的发音准度值；专家对每个所述口语发音音频进行发音准度打分和发音错误标注；基于每个所述口语发音音频的发音准度值和专家打分值，采用回归方法将所述发音准度值映射到专家打分值，并将回归参数保存，作为所述评分映射模型。

进一步地，设定打分值的合格阈值可以为划分不同数量的分数区间，例如90分-100分为优秀，70分-89分为良好，60分-69分为一般，0-59为差。

步骤S60、当所述打分值未达到合格阈值时，将所述打分值和用户年龄信息输入预设的发音教学模型中，向用户推送符合所述打分值和用户年龄的口语练习方案。

在本实施例中，所述口语练习方案包括：仿读、朗读、复述和情景对话。所述发音教学模型根据当前打分值和用户年龄推送口语练习方案的过程包括：采用回归方法将所述口语练习方案映射到所述用户年龄信息和打分值，并将回归参数保存，作为所述发音教学模型；根据所述打分值和用户年龄信息，所述发音教学模型寻找匹配对应的口语练习方案，并推送给对应的用户；获取用户学习后的发音音频，计算得到学习后的发音音频的打分值并输入所述发音教学模型，重新为用户推送口语练习方案，直至所述打分值达到合格阈值为止。例如，当幼儿对英文字母的发音打分值位于差的区间内，所述发音教学模型推送相应字母标准读音给幼儿进行仿读口语训练；当中学生对整段英文文本的发音打分值位于一般的区间内，所述发音教学模型推送标准读音的仿读口语训练和复述整段文本的口语训练方案。

本发明提供了一种口语发音评测和教学方法，通过获取用户年龄信息和待评测发音音频，然后将所述待评测发音音频切分为整数份音频帧并提取每份所述音频帧的语音特征，接着将所述语音特征输入语音评测模型进行对齐处理，并计算出发音准度值，最后将所述发音准度值输入评分映射模型转换得到专家打分值，实现了口语发音评测打分，提高发音质量评价的准确性和可信性；另外，通过将所述打分值和用户年龄信息输入发音教学模型，向用户推送符合所述打分值和用户年龄的口语练习方案，实现了根据用户年龄和发音水平综合分析推荐相符的口语训练方案，提高了口语训练效率和合理性。

请参阅图3，作为对上述各图示所示的方法的实现，本发明提供一种口语发音评测和教学系统，所述系统100包括年龄采集模块110、音频采集模块120、特征提取模块130、语音评测模块140、评分映射模块150、评分判断模块160和发音教学模块170。图3仅示出了所述系统的部分模块，但是应理解的是，并不要求实施所有示出的模块，可以替代的实施更多或者更少的模块。

所述年龄采集模块110，用于采集用户年龄信息。

所述音频采集模块120，用于采集待评测发音音频。

所述特征提取模块130，用于将待评测发音音频切分为整数份音频帧，并提取每份所述音频帧的语音特征。

在本实施例中，所述特征提取模块130通过使用移动窗口函数实现分帧，一般取10-30ms为一帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。将所述待评测发音音频切分为整数份音频帧后，提取各个音频帧的语音特征为声学特征向量，所述声学特征向量为一个多维特征向量，每一帧音频用一个多维特征向量表示，以将所述待评测发音音频转化为多个音频帧组成的音频帧序列。

所述语音评测模块140，所述语音评测模块140中预设有语音评测模型，用于将输入的所述语音特征进行对齐处理，并计算所述待评测发音音频的发音准度值。

在本实施例中，将所述语音特征输入语音评测模型，得到条件概率矩阵，所述条件概率矩阵表示为音频帧被识别为标准语料库中任一音素的条件概率；将所述条件概率矩阵输入解码器进行路径搜索，得到标准语料库对应的音素串中每个音素对应的音频帧；根据所述条件概率矩阵，确定标准语料库中音素与对应的音频帧的匹配概率；根据所述匹配概率和对应的音频帧，计算每个音素的发音准度值；根据每个音素的发音准度值和预先为每个音素确定的权重值，得到所述待评测发音音频的发音准度值。

所述评分映射模块150，所述评分映射模块150中预设有评分映射模型，用于将输入的所述发音准度值转换成打分值。

在本实施例中，所述评分映射模型的建立过程包括：获取大量口语发音音频，经过所述语音评测模型处理计算后得到每个口语发音音频的发音准度值；专家对每个所述口语发音音频进行发音准度打分和发音错误标注；基于每个所述口语发音音频的发音准度值和专家打分值，采用回归方法将所述发音准度值映射到专家打分值，并将回归参数保存，作为所述评分映射模型；然后将输入的所述发音准度值转换成打分值。

所述评分判断模块160，用于设定打分值的合格阈值，判断所述待测发音音频是否符合发音标准。

在本实施例中，所述评分判断模块160设定打分值的合格阈值可以为划分不同数量的分数区间，例如90分-100分为优秀，70分-89分为良好，60分-69分为一般，0-59为差；然后匹配发音打分值处于哪一个打分区间。

所述发音教学模块170，所述发音教学模块170中预设有发音教学模型，用于当所述打分值未达到合格阈值时，根据输入的所述打分值和用户年龄信息，寻找匹配对应的口语练习方案，并推送给对应的用户。

在本实施例中，所述发音教学模型根据当前打分值和用户年龄推送口语练习方案的过程包括：采用回归方法将所述口语练习方案映射到所述用户年龄信息和打分值，并将回归参数保存，作为所述发音教学模型；根据所述打分值和用户年龄信息，所述发音教学模型寻找匹配对应的口语练习方案，并推送给对应的用户；获取用户学习后的发音音频，计算得到学习后的发音音频的打分值并输入所述发音教学模型，重新为用户推送口语练习方案，直至所述打分值达到合格阈值为止。

进一步地，所述口语练习方案包括：仿读、朗读、复述和情景对话。例如，当幼儿对英文字母的发音打分值位于差的区间内，所述发音教学模型推送相应字母标准读音给幼儿进行仿读口语训练；当中学生对整段英文文本的发音打分值位于一般的区间内，所述发音教学模型推送标准读音的仿读口语训练和复述整段文本的口语训练方案。

本发明提供了一种口语发音评测和教学系统，通过获取用户年龄信息和待评测发音音频，然后将所述待评测发音音频切分为整数份音频帧并提取每份所述音频帧的语音特征，接着将所述语音特征输入语音评测模型进行对齐处理，并计算出发音准度值，最后将所述发音准度值输入评分映射模型转换得到专家打分值，实现了口语发音评测打分，提高发音质量评价的准确性和可信性；另外，通过将所述打分值和用户年龄信息输入发音教学模型，向用户推送符合所述打分值和用户年龄的口语练习方案，实现了根据用户年龄和发音水平综合分析推荐相符的口语训练方案，提高了口语训练效率和合理性。

本发明还提供一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述一种口语发音评测和教学方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述一种口语发音评测和教学方法中的步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神。

Claims

1.一种口语发音评测和教学方法，其特征在于，所述方法包括：

获取用户年龄信息和待评测发音音频；

将所述待评测发音音频切分为整数份音频帧；

提取每份所述音频帧的语音特征；

2.如权利要求1所述的一种口语发音评测和教学方法，其特征在于，将所述打分值和用户年龄信息输入预设的发音教学模型中，向用户推荐符合当前打分值和用户年龄的口语练习方案的过程包括：

3.如权利要求2所述的一种口语发音评测和教学方法，其特征在于，所述口语练习方案包括：仿读、朗读、复述和情景对话。

4.如权利要求1所述的一种口语发音评测和教学方法，其特征在于，所述语音评测模型对语音特征进行对齐处理，并计算所述待评测发音音频的发音准度值的过程包括：

5.如权利要求4所述的一种口语发音评测和教学方法，其特征在于，将所述条件概率矩阵输入解码器进行路径搜索时，可以根据用户年龄信息，调整所述语音评测模型的搜索范围。

6.如权利要求4或5所述的一种口语发音评测和教学方法，其特征在于，所述语音特征可以为Fbank特征或MFCC特征或语谱图特征。

7.如权利要求1所述的一种口语发音评测和教学方法，其特征在于，所述评分映射模型的建立过程包括：

8.一种口语发音评测和教学系统，其特征在于，所述系统包括：

年龄采集模块，用于采集用户年龄信息；

音频采集模块，用于采集待评测发音音频；

9.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。