CN112967711A

CN112967711A - 一种针对小语种口语发音评价方法、系统及存储介质

Info

Publication number: CN112967711A
Application number: CN202110144633.XA
Authority: CN
Inventors: 杨海斌; 徐敏
Original assignee: Zaodao Dalian Education Technology Co ltd
Current assignee: Zaodao Dalian Education Technology Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-06-15
Anticipated expiration: 2041-02-02
Also published as: CN112967711B

Abstract

本发明提供一种针对小语种口语发音评价方法、系统及存储介质。方法包括：获取目标文本、发音词典以及用户依据目标文本做出的朗读音频；利用语音识别模型，生成音素解码结果和音素的对齐结果；对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；对目标语音数据进行音高分析，得到音高分析结果；获取朗读音频的准确度得分、语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；对所述准确度得分、语调得分和声调得分进行融合处理，得到句子发音总得分。本发明针对小语种发音特点，从准确度、完整度、流利度、断句、声调、语调等多个不同维度对语音进行计算和分析，获得评价结果。

Description

一种针对小语种口语发音评价方法、系统及存储介质

技术领域

本发明涉及语音识别及评价技术领域，具体而言，尤其涉及一种针对小语种口语发音评价方法、系统及存储介质。

背景技术

常见的口语发音测评系统多数针对应用较为广泛的英语设计，对于发音准确性的判断。通过对测试语音的特征参数和标准语音的特征参数做比较来获得口语语音的质量评价结果。上述方式无法在小发音单元的粒度上进行质量评价。评价结果也会受到发音人的个人发音特点的影响，比如：如果发音人和标准读音的朗读者的性别年龄一致，则评分会更高。此外，由于上述系统针对印欧语系的发音特点设计，应用于小语种(如日语)口语评价时，由于响应的评测维度区别，造成评价结果不准。

发明内容

根据上述提出现有语音评价系统不能适应小语种评价需求的技术问题，而提供一种针对小语种口语发音评价方法、系统及存储介质。本发明充分考虑了小语种的特点，设计了针对小语种语音的评测维度。通过将采集的朗读音频按所属语种的音拍对齐，计算各个音拍的声调高低，对单词的声调进行准确的评测。

本发明采用的技术手段如下：

一种针对小语种口语发音评价方法，包括：

获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；

利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；

对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；

对目标语音数据进行音高分析，得到音高分析结果；

基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；

对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。

进一步地，所述基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分，包括根据以下公式计算音素准确度得分：

cost_per_frame_align＝-log(P(f|q_i))

其中，S_i为音素发音准确度得分，NF(o)为口语朗读音频包含的语音帧数量，f_is为起始帧号，f_ie为终止帧号，

P(f|q_i)的含义是给定音素q_i，在该帧发音为f的对数似然函数值，

的含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。

进一步地，所述基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分，包括：

根据音素的对齐结果得到各个音拍在音频中的起止时间；

计算每个音拍的音高，获取音高特征曲线；

根据各个音拍在音频中的起止时间和所述音高特征曲线，算出各个音拍起止时间内的平均音高；

通过分析句尾的若干个音拍的平均音高来判断句子是平调或者是升调，并与预先配置的语调信息相比较，根据比较结果给出朗读音频的语调得分。

进一步地，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的声调得分，包括：

获取朗读音频中每个单词内所有音拍的音高信息，和预先配置的单词声调相比较，根据比较结果给出朗读音频的声调得分。

进一步地，对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到发音评价结果，包括：

对所述第一评价结果和第三评价结果进行加权处理，获得单词发音得分；

计算句子中所有单词发音得分的平均值作为句子发音得分；

将句子发音得分与第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。

进一步地，还包括：根据音素对齐结果获取朗读音频的完整度得分作为发音第四评价结果；

相应的，对所述第一评价结果、第二评价结果、第三评价结果和第四评价结果进行融合处理，得到句子发音总得分。

进一步地，还包括：根据音素对齐结果获取朗读音频的流利度得分作为发音第五评价结果；

相应的，对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果和第五评价结果进行融合处理，得到句子发音总得分。

进一步地，还包括：根据音素对齐结果获取朗读音频的断句得分作为发音第六评价结果；

相应的，对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果、第五评价结果和第六评价结果进行融合处理，得到句子发音总得分。

本发明还提供了一种针对小语种口语发音评价装置，包括：

获取单元，用于获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；

第一处理单元，用于利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；

第二处理单元，用于对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；

第二处理单元，用于对目标语音数据进行音高分析，得到音高分析结果；

评价单元，用于基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；

融合单元，对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。

本发明还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序，所述处理器通过所述计算机程序运行执行上述任一项所述的针对小语种口语发音评价方法。

较现有技术相比，本发明具有以下优点：

本发明对朗读语音进行从准确度、完整度、流利度、断句、声调、语调等多个不同维度的评分计算和分析，获得评价结果，且涉及多种不同发音粒度，能够满足小语种发音的特点，得到较为准确的小语种发音评价结果。

基于上述理由本发明可在语言学习特别是小语种学习领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明针对小语种口语发音评价方法流程图。

图2为实施例中评价方法执行流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种针对小语种口语发音评价方法，包括：

S1、获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；

S2、利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；

S3、对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；

S4、对目标语音数据进行音高分析，得到音高分析结果；

S5、基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。

下面通过一个具体的应用实例，对本发明方案做进一步说明。

本实施例本实施例以日语母语者的读音为蓝本，针对日语口语评分而设计。本实施例使用一个DNN-HMM混合语音识别系统作为语音识别模型，获得音素级别的解码结果以及单词和音素级别的强制对齐结果。该模型训练时采集的训练样本包括日语母语者的读音，以及母语为汉语的朗读者朗读日语时常见的错误读音。这样可以帮助本发明有效分析出用户的发音错误，精准定位缺陷，反馈指导意见。如图2所示：

首先进行预处理步骤，本实施例通过网络接收由移动客户端采集的，用户的朗读语音之后，对声音进行剪切，去除声音前后的静音段。这里使用的特征是音强。从声音采样数组的开头依次查看每一个采样，如果音强小于某个可配置的阈值，就认为用户没有说话，是可以被去除的静音段音频。如果音强大于该阈值，则认为用户开始说话了，停止查看音强。同样从声音采样数组的尾部往前一次查看每一个采样，如果音强小于阈值，去除该段音频。音强大于阈值时停止检查。该预处理步骤可以减少需要对齐的音频数据长度，减小计算复杂程度，提高对齐的精准度。

除了根据音强对声音进行剪切之外，本预处理模块还可以根据需要，执行其他需要的预处理步骤，如归一化和降噪等。

然后基于DNN-HMM(深度神经网络-隐马尔可夫模型)混合语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。

本实施例中“解码”指语音识别任务。对于给定的一段语音，其声学特征为O＝(o₁，o₂，...，o_T)，对应的句子是W＝(w₁，w₂，...，w_N)，需要求概率P(W|O)最大时对应的文字序列W^*，

W^*＝argmax_W∈LP(W|O)

本实施例中的“强制对齐”是使用维特比对齐算法，将一段语音按照其对应的文本，分割为计算发音质量测度所需要的小单元，并给出是各个音素和词在音频中的起止时间。首先结合输入的文本序列和发音词典，得到一个目标音素序列。举例说明，比如我们要进行打分的文本序列为“またね”。这个文本序列包含两个词，“また”和“ね”。在发音词典中，标注了这两个词的发音分别为：“また:M A T A”和“ね:N E”。就可以得到对应的音素序列为“M A T A N E”。然后基于这个音素序列，参考声学模型定义的所有状态集合，生成可能的音素状态转移图。根据音素状态转移图，直接设定转移概率，调用维特比算法进行解码，得到文本对应的各个音素和词在音频中的起止时间。

对一个音素q_i，若其相对应的语音段为o，那么该段语音段的发音质量，和o被识别为q_i的概率有关，我们将这个概率记作：P(q_i|o)。如果o包含NF(o)个语音帧，起始帧号为f_is，终止帧号为f_ie，我们有：

两边取对数及绝对值，并且除以语音段包含的帧数，得：

根据贝叶斯公式，有：

上式的分母中，对概率的求和，可以近似简化为对概率求最大值。这是一个常见的简化操作。并且，为了进一步简化算法，我们假设所有音素出现的机会都均等，即P(q_i)＝P(q_j)，则上式可简化为：

将上式代入前面的公式，得到：

上式中，log(P(f|q_i))的含义是给定音素q_i在该帧发音为f的对数似然函数值。这里我们将-log(P(f|q_i))记作cost_per_frame_align。我们可以使用维特比对齐算法得到一段语音中每帧的cost_per_frame_align的值。可以看到，P(f|q_i)的值越大，log(P(f|q_i))越接近0，cost_per_frame_align的值就越小。

同时，

含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。这个值，我们使用语音解码算法得到的最优路径上，每帧对应到解码结果的对数似然函数来近似，并将其相反数记作cost_per_frame_asr。

那么上面的式子就可以写成以下形式：

上式的计算结果即可作为本实施例中用来评价一个音素的发音是否正确的参考公式。下面将其记作S_i。这是一个大于0的正数，和0越接近，表示发音越准确。实验证明该得分能够有效识别错误发音，符合人的主观感受。

在一个更佳的实施方式中，将发音准确度评分S_i映射为[0，100]区间范围内的整数，优选采用以下分段函数来计算这个百分制得分：

其中，(x_i，y_i)为预先定义好的一系列分数映射关系，这里，y₁＝100，y_n＝0。

这个线性映射函数的各个参数可以根据各个音素的统计信息分别配置。其中各个音素的统计信息是指从大量母语朗读者朗读的音频语料分析获得的，各个音素被正确朗读时，计算得到的原始发音分(即前述的S_i)的均值、方差、最大值、最小值、各百分位数等统计信息。

此外，如果得到一定数量的教师对给定语音给出的主观评分，可以使用参数优化算法，调整这些配置参数，使算法能最好地拟合人给出的百分制评分。此时可以将口语评分看作一个有监督的回归问题。可以采用任意一种有监督回归问题的机器学习解决方案，来优化评分系统的参数。例如，将对应的音频样本通过前述的特征提取、解码、对齐等过程，计算出所有音素的原始发音分，即前述的S_i，作为样本的值。将教师给出的主观评分Y_i作为对应的样本标签。将假设函数设为前述的y＝f(x)。代价函数使用均方误差代价函数，即，

其中，m为样本的总数量，θ为参数向量。最后，使用梯度下降等优化方法迭代优化参数向量θ。

进一步地，对日语单词，仅仅像英语一样对发音进行评测是不够的，单词的声调也是很重要的评测方面，声调错误也意味着这次朗读是错误的。本实施例将采集的朗读音频按日语的音拍对齐，计算各个音拍的声调高低，对单词的声调进行准确的评测。这里的声调高低的判断，使用的特征是音高。计算音频声调高低的公开算法有很多，如YIN算法等。

本发明可使用任一种公开算法计算出整个输入音频的声调高低，然后基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分。具体来说在每个音拍的起止时间范围内，对音频的声调高低值取均值，作为该音拍的声调计算结果。

音拍分析算法根据日语的特点，将音素以音拍为单位分组：拨音、促音各占一个音拍；辅音+短元音为一个音拍；辅音+拗音占一个音拍；辅音+长元音占两个音拍。分好组之后，根据前述的音素对齐结果得到各个音拍在音频中的起止时间。根据这些起止时间和前述的音高特征曲线，可以算出各个音拍起止时间内的平均音高。

进一步地，本实施例还要对发音语调进行评价。我们通过分析句尾的若干个音拍的音高信息来判断，句子是平调或者是升调。然后和预先配置的语调信息相比较，根据比较结果给出评分。

对于单词的声调得分，日语的声调有平板◎型、①型、②型、③型、④型、⑤型、⑥型等。每种声调对应不同的音拍音高序列。比如：◎型，单词不论是几个音节(最少是1个音节)，从低音入手，第二拍升高，一直到读到最后拍节也不下降。①型，单词不论是几个音节(最少是1个音节)，从高音入手，第二拍下降，一直到读到最后拍节也不上升。等等。本发明分析一个单词内所有音拍的音高信息，和预先配置的单词声调相比较，根据比较结果给出单词的声调得分。单词的发音分，由单词的准确度得分和单词的声调得分加权获得。句子的发音得分，是句子中所有单词的发音得分的平均分。

进一步地，对所述准确度评分、声调评分和语调评分进行融合处理，得到发音评价结果。具体的：对准确度评分和声调得分进行加权处理，获得单词发音得分；

计算句子中所有单词发音得分的平均值作为句子发音得分；

将句子发音得分、第语调得分和声调得分进行融合处理，得到句子发音总得分。

作为本实施例进一步的优选方案，本发明对日语句子及段落的总得分，是由几个维度的得分加权求和而得的：

其中，S_i为各个维度的得分，w_i为各个维度的权重，

另外，前述实例以句子打分为例，对于其他打分粒度，如单词、假名、段落等，评分维度会根据具体需求而调整。比如假名打分只看发音准确度；单词打分只看单词的发音准确度和声调得分；段落打分只看发音得分，完整度得分，和流利度得分。

基于上述实施方式，优选的，方法还包括：根据音素对齐结果获取朗读音频的完整度得分作为发音第四评价结果；相应的，对所述第一评价结果、第二评价结果、第三评价结果和第四评价结果进行融合处理，得到句子发音总得分。

具体来说，在获得语音到对应文本的强制对齐结果之后，我们可以通过对齐后各个元音音素的边界判断是否有元音音素缺失。如果一个元音音素经过的总时长duration短于某个配置的阈值，则认为这里有音节缺失。本发明中的完整度评价步骤，根据音节缺失的数量决定语音的完整度评分，每缺失一个音节扣一定的分数。

基于上述实施方式，优选的，方法还包括：根据音素对齐结果获取朗读音频的流利度得分作为发音第五评价结果；相应的，对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果和第五评价结果进行融合处理，得到句子发音总得分。

具体来说，语音到对应文本的强制对齐结果中，也包含了一些停顿的信息。本发明使用这些包含了停顿信息的强制对齐结果，对句子/段落的流利度和断句是否正确给出评分。对于文本中标记好的断句位置，如果没有识别出停顿，或停顿时间不够长，则判断为断句错误。对其他位置，不应出现时间过长的停顿。如果判断出时长超过某个阈值的停顿，则会在流利度上扣除一定的分数。

基于上述实施方式，优选的，方法还包括：根据音素对齐结果获取朗读音频的断句得分作为发音第六评价结果；相应的，对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果、第五评价结果和第六评价结果进行融合处理，得到句子发音总得分。

本发明实施例的另一方面还提供了一种针对小语种口语发音评价装置，其用于执行上述方法，包括：

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

本发明实施例的另一方面还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序，所述处理器通过所述计算机程序运行执行上述任一项所述的针对小语种口语发音评价方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。