CN112908360B

CN112908360B - 一种在线口语发音评价方法、装置及存储介质

Info

Publication number: CN112908360B
Application number: CN202110144617.0A
Authority: CN
Inventors: 杨海斌; 徐敏
Original assignee: Zaodao Dalian Education Technology Co ltd
Current assignee: Zaodao Dalian Education Technology Co ltd
Filing date: 2021-02-02
Publication date: 2024-06-07
Anticipated expiration: 2041-02-02

Abstract

本发明提供一种在线口语发音评价方法、装置及存储介质。方法包括：获取目标文本、发音词典以及用户依据目标文本做出的朗读音频；利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果；根据音素解码结果、单词及音素的对齐结果获取朗读音频的在不同语音粒度下的发音准确度得分，所述语音粒度包括音素级别、单词级别和句子级别。本发明利用语音评测技术给语言学习者的口语进行实时打分、反馈，帮助语言学习者在不断试错的闭环学习环境中完成高质量的学习，提高用户的口语能力。

Description

一种在线口语发音评价方法、装置及存储介质

技术领域

本发明涉及语音识别及评价技术领域，具体而言，尤其涉及一种在线口语发音评价方法、装置及存储介质。

背景技术

语音评测是通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的软件系统。

现有的口语语音质量评价一般通过对测试语音的特征参数和标准语音的特征参数做比较来实现，无法在小发音单元的粒度上进行质量评价。评价结果也会受到发音人的个人发音特点的影响，比如：如果发音人和标准读音的朗读者的性别年龄一致，则评分会更高。还有一种方法是通过提取语音特征进行模式比对实现发音评价结果，但得到的评价结果也不能排除发音人的个人发音特点的影响。另外，该方法采用语音识别技术来获取语音的识别文本结果，再将识别文本和目标文本做比较，同样不能在小发音单元的粒度上进行质量评价。

发明内容

根据上述提出的不能在小发音粒度层面进行语音评价的技术问题，而提供一种在线口语发音评价方法。本发明主要通过获取口语发音音素级别的解码结果以及单词和音素级别的强制对齐结果，对用户的朗读进行从句子、单词、段落、假名、音素等多个级别的测评。

本发明采用的技术手段如下：

本发明提供了一种在线口语发音评价方法，包括：

获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；

利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果，其中所述目标文本的分词及音标标注结果已知；

根据音素解码结果、单词及音素的对齐结果获取朗读音频的在不同语音粒度下的发音准确度得分，所述语音粒度包括音素级别、单词级别和句子级别。

进一步地，所述利用预先训练的语音识别模型对所述目标语音数据进行解码处理，生成音素解码结果，包括：

按帧提取所述目标语音数据的声音特征序列；

通过维特比算法将声音特征序列识别为若干音素状态；

将每三个音素状态组合成一个音素，得到音素解码结果。

进一步地，对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果，包括：

将所述目标文本与发音词典对照，生成与所述目标文本想对应的音素序列；

将所述音素序列中的每个音素分解为三个音素状态，从而构建目标语音数据的状态转移图；

通过维特比算法对所述状态转移图进行处理从而得到与所述目标文本对应的各个音素在音频文件中的起止位置。

进一步地，所述方法还包括：

根据单词及音素的对齐结果中各个元音音素的边界判断是否有元音音素缺失，并根据判断结果获取完整度得分；相应地，

以发音准确度得分以及完整度得分的加权结果作为发音评价得分。

进一步地，所述方法还包括：

根据单词及音素的对齐结果，判断在目标文本标记的断句位置是否能够识别到停顿，并根据判断结果获取断句得分；

根据单词及音素的对齐结果，判断在目标文本未标记断句的位置是否存在停顿，并根据判断结果获取流利度得分；相应地，

以发音准确度得分、断句得分以及流利度得分的加权结果作为发音评价得分。

进一步地，所述方法还包括：

根据目标文本进行音拍分析，结合单词及音素的对齐结果，基于朗读音频的音高特征进行声调判断，从而获得声调得分；

根据各音拍音高信息来判断朗读音频的语调，并与标准读音的语调对比，根据对比结果过于语调得分；相应地，

以发音准确度得分、声调得分以及语调得分的加权结果作为发音评价得分。

进一步地，对所述朗读语音进行预处理，包括：

按照设定的采样周期对所述朗读音频进行采样，从而生成声音采样数组；

由所述声音采样数组的起始端依次判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之前的音频数据进行剪切处理；

同时由所述声音采样数组的末端依次向前判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之后的音频数据进行剪切处理。

进一步地，所述发音准确度得分与目标语音数据被识别为目标文本的概率正相关。

本发明还提供了一种在线口语发音评价装置，其用于执行上述在线口语发音评价方法，包括：

获取单元，其用于获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；

语音识别单元，其用于利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果，其中所述目标文本的分词及音标标注结果已知；

评价单元，其用于根据音素解码结果、单词及音素的对齐结果获取朗读音频的在不同语音粒度下的发音准确度得分，所述语音粒度包括音素级别、单词级别和句子级别。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令集；所述计算机指令集被处理器执行时实现如上述任一项所述的在线口语发音评价方法。

较现有技术相比，本发明具有以下优点：

本发明通过网络接收由移动客户端采集用户根据给定的口语文本的朗读语音，对接收到的朗读语音进行预处理，对预处理后的朗读语音进行基于准确度、完整度、流利度、断句、声调、语调等多个不同维度的计算和分析，获得评价结果。评价结果涉及从音素、假名、单词、句子，到段落等多种不同粒度。本发明能够将评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。

基于上述理由本发明可在语言学习领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明在线口语发音评价方法。

图2为本发明强制对齐原理示意图。

图3为实施例中口语评价方法执行流通图。

图4为实施例中语音识别框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种在线口语发音评价方法，包括：

S1、获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据。

具体来说，预处理步骤主要包括：

S110、按照设定的采样周期对所述朗读音频进行采样，从而生成声音采样数组；

S120、由所述声音采样数组的起始端依次判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之前的音频数据进行剪切处理；

S130、同时由所述声音采样数组的末端依次向前判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之后的音频数据进行剪切处理。

除了上述提及的音频剪切处理之外，预处理步骤还可以包括音量归一化、降噪等。其中，音量归一化即将音频的音量等比例调整至某个预配置的最大音量范围。而能实现音频降噪的算法较多，可以采用其中任意一种公开方式对朗读音频进行预处理，在实际使用中，降噪处理对评分效果的影响并不全是正面的，因此在保证朗读音频质量的基础上，该功能被配置为可选功能。

S2、利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果，其中所述目标文本的分词及音标标注结果已知。

其中，预先训练的语音识别模型本身为大量的参数集合，通过系统调用，基于目标语音数据，对上述参数进行请求加载和返回。作为本发明的优选方案，可以采用任意一个基于HMM的公开的语音识别系统。在本实施例中，使用了一个DNN-HMM混合语音识别系统。当我们将模型加载到语音识别系统后，输入目标语音数据和给定的文本序列，即可得到对音频的解码结果(即语音识别结果)，以及音频和文本的音素级对齐结果。

具体来说，利用预先训练的语音识别模型对所述目标语音数据进行解码处理，生成音素解码结果，包括：

S211、按帧提取所述目标语音数据的声音特征序列。

S212、通过维特比算法将声音特征序列识别为若干音素状态。音素状态是比音素更细致的语音单位，本发明中将一个音素划分成3个状态。因为单音素建模没有考虑协同发音效应，也就是上下文音素会对当前的中心音素发音有影响，会产生协同变化，这与该音素的单独发音会有所不同(数据统计也就有所不同)，为了考虑这个影响，所以需要使用三音素建模，使得模型描述更加精准。

S213、将每三个音素状态组合成一个音素，得到音素解码结果。

针对语音识别问题，用隐马尔可夫模型对问题进行建模，主要的工作是把隐马尔可夫模型的几个要素和问题中的元素对应起来。

本发明中将测量得到的音频，或者说通过音频提取到的声音特征序列，作为观测值序列O。将每一帧音频对应到哪个音素的哪个状态作为隐藏的状态，一般每个音素由三个状态组成，将其作为状态序列I。

本发明中提到的单词发音均由音素构成。对英语而言，常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。对汉语而言，一般直接用全部声母和韵母作为音素集。

也就是说，帧识别成状态后，继续把状态组合成音素，把音素组合成单词。一个语音识别的过程就完成了。本发明中通过维特比算法把声音帧识别为状态。

在语音识别问题中，隐含状态序列是一系列音素及其状态，观测状态序列是音频帧，这里将语音识别的解码问题实质上是一个音频状态概率最大化问题，通过维特比算法能够将概率最大化问题转化为求解最短路径的问题。从而找到与给定模型和特定输出序列，相对应的最可能产生这个输出的状态序列，也就是本申请中的因素状态序列。

另外，针对强制对齐处理，除了要输入音频特征序列之外，还预先给定音频对应的文本，并能够输出文本序列对应的各个音素在音频文件中的起止位置。作为本发明的优选方案，这里也通过维特比算法实现强制对齐，通过直接设定转移概率，强制Vertibi解码时通过确定的词，具体来说包括：

S221、将所述目标文本与发音词典对照，生成与所述目标文本想对应的音素序列；

S222、将所述音素序列中的每个音素分解为三个音素状态，从而构建目标语音数据的状态转移图；

S223、通过维特比算法对所述状态转移图进行处理从而得到与所述目标文本对应的各个音素在音频文件中的起止位置。

以图2中给出的强制对齐为例，要对齐的文本序列为“Nine fore oh two two”，这个文本序列包含5个词。和发音词典对照后，可以得到对应的音素序列为“n ay n f ao row t uw t uw”，如果用单音素建模，每个音素三个状态，不考虑静音音素‘SIL’，则状态转移图如左下角所示。基于这个状态转移图，调用上面提到的维特比算法，就能得到给对应的各个音素在音频文件中的起止位置了。

S3、根据音素解码结果、单词及音素的对齐结果获取朗读音频的在不同语音粒度下的发音准确度得分，所述语音粒度包括音素级别、单词级别和句子级别。其中发音准确度得分与目标语音数据被识别为目标文本的概率正相关。

作为本发明的优选，所述方法还可以包括：

作为进一步的优选，所述方法还可以包括：

作为更进一步的优选，所述方法还可以包括：

下面通过具体的应用实例对本发明的方案做进一步说明。

本实施例以日语母语者的读音为蓝本，针对日语口语评分而设计。其音素系统包括日语母语者的读音，以及母语为汉语的朗读者朗读日语时常见的错误读音。该设计能够有效分析出用户的发音错误，精准定位缺陷，反馈指导意见。

本实施例使用一个DNN-HMM混合语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。对用户的朗读，支持从句子、单词、段落、假名、音素等多个级别进行测评。测评维度包括完整度、发音、语调、断句、流利度、单词的声调等多个方面。

在评测维度方面，本发明充分考虑了日语的特点，设计了针对日语语音的评测维度。比如单词的声调。对日语单词，仅仅像英语一样对发音进行评测是不够的，单词的声调也是很重要的评测方面，声调错误也意味着这次朗读是错误的。本发明能够将采集的朗读音频按日语的音拍对齐，计算各个音拍的声调高低，对单词的声调进行准确的评测。

本发明通过网络接收由移动客户端采集的，用户根据给定的日语文本的朗读语音。对接收到的朗读语音进行预处理。对预处理后的朗读语音，从准确度、完整度、流利度、断句、声调、语调等多个不同维度进行计算和分析，获得评价结果。评价结果涉及从音素、假名、单词、句子，到段落等多种不同粒度。最后将所述评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。

图3描述了本日语口语智能评分系统的系统架构其中，语音评测模型是预先使用大量语料离线训练而成的。语音评测接口通过网络接收由移动客户端采集的，用户根据给定的日语文本的朗读语音。这些朗读的文本，分词，音标标注的信息预先经过后台配置系统完成配置。语音评测引擎读取文本和音频，从准确度、完整度、流利度、断句、声调、语调等多个不同维度对语音进行计算和分析，获得评价结果。然后将评价结果通过网络反馈给移动客户端，并通过移动客户端对评价结果进行显示。

在预处理步骤中，本实施例通过网络接收由移动客户端采集的，用户的朗读语音之后，对声音进行剪切，去除声音前后的静音段。这里使用的特征是音强。从声音采样数组的开头依次查看每一个采样，如果音强小于某个可配置的阈值，就认为用户没有说话，是可以被去除的静音段音频。如果音强大于该阈值，则认为用户开始说话了，停止查看音强。同样从声音采样数组的尾部往前一次查看每一个采样，如果音强小于阈值，去除该段音频。音强大于阈值时停止检查。该预处理步骤可以减少需要对齐的音频数据长度，减小计算复杂程度，提高对齐的精准度。

除了根据音强对声音进行剪切之外，本预处理模块还可以根据需要，执行其他需要的预处理步骤，如归一化和降噪等。

在解码和强制对齐步骤，本实施例使用一个DNN-HMM(深度神经网络-隐马尔可夫模型)混合语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。

本实施例中“解码”指语音识别任务。对于给定的一段语音，其声学特征为O＝(o₁,o₂,…,o_T)，对应的句子是W＝(w₁,w₂,…,w_N)，需要求概率P(W|O)最大时对应的文字序列W^*，

W^*＝argmax_W∈LP(W|O)

本实施例中的“强制对齐”是使用维特比对齐算法，将一段语音按照其对应的文本，分割为计算发音质量测度所需要的小单元，并给出是各个音素和词在音频中的起止时间。首先结合输入的文本序列和发音词典，得到一个目标音素序列。举例说明，比如我们要进行打分的文本序列为“またね”。这个文本序列包含两个词，“また”和“ね”。在发音词典中，标注了这两个词的发音分别为：“また:M A T A”和“ね:N E”。就可以得到对应的音素序列为“M A T A N E”。然后基于这个音素序列，参考声学模型定义的所有状态集合，生成可能的音素状态转移图。根据音素状态转移图，直接设定转移概率，调用维特比算法进行解码，得到文本对应的各个音素和词在音频中的起止时间。

图4为本实施例公开的DNN-HMM混合语音识别系统的系统框架。对一个音素q_i，若其相对应的语音段为o，那么该段语音段的发音质量，和o被识别为q_i的概率有关，我们将这个概率记作：P(q_i|o)。如果o包含NF(o)个语音帧，起始帧号为f_is，终止帧号为f_ie，我们有：

两边取对数及绝对值，并且除以语音段包含的帧数，得：

根据贝叶斯公式，有：

上式的分母中，对概率的求和，可以近似简化为对概率求最大值。这是一个常见的简化操作。并且，为了进一步简化算法，我们假设所有音素出现的机会都均等，即P(q_i)＝P(q_j)，则上式可简化为：

将上式代入前面的公式，得到：

上式中，log(P(f|q_i))的含义是给定音素q_i在该帧发音为f的对数似然函数值。这里我们将-log(P(f|q_i))记作cost_per_frame_align。我们可以使用维特比对齐算法得到一段语音中每帧的cost_per_frame_align的值。可以看到，P(f|q_i)的值越大，log(P(f|q_i))越接近0，cost_per_frame_align的值就越小。

同时，含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。这个值，我们使用语音解码算法得到的最优路径上，每帧对应到解码结果的对数似然函数来近似，并将其相反数记作cost_per_frame_asr。

那么上面的式子就可以写成以下形式：

上式的计算结果即可作为本实施例中用来评价一个音素的发音是否正确的参考公式。下面将其记作S_i。这是一个大于0的正数，和0越接近，表示发音越准确。实验证明该得分能够有效识别错误发音，符合人的主观感受。

在一个更佳的实施方式中，将发音准确度评分S_i映射为[0，100]区间范围内的整数，优选采用以下分段函数来计算这个百分制得分：

其中，(x_i,y_i)为预先定义好的一系列分数映射关系，这里，y₁＝100,y_n＝0。

这个线性映射函数的各个参数可以根据各个音素的统计信息分别配置。其中各个音素的统计信息是指从大量母语朗读者朗读的音频语料分析获得的，各个音素被正确朗读时，计算得到的原始发音分(即前述的S_i)的均值、方差、最大值、最小值、各百分位数等统计信息。

此外，如果得到一定数量的教师对给定语音给出的主观评分，可以使用参数优化算法，调整这些配置参数，使算法能最好地拟合人给出的百分制评分。此时可以将口语评分看作一个有监督的回归问题。可以采用任意一种有监督回归问题的机器学习解决方案，来优化评分系统的参数。例如，将对应的音频样本通过前述的特征提取、解码、对齐等过程，计算出所有音素的原始发音分，即前述的S_i，作为样本的值。将教师给出的主观评分Y_i作为对应的样本标签。将假设函数设为前述的y＝f(x)。代价函数使用均方误差代价函数，即，

其中，m为样本的总数量，θ为参数向量。最后，使用梯度下降等优化方法迭代优化参数向量θ。

作为本实施例进一步的优选方案，在获得语音到对应文本的强制对齐结果之后，还可以通过对齐后各个元音音素的边界判断是否有元音音素缺失。如果一个元音音素经过的总时长duration短于某个配置的阈值，则认为这里有音节缺失。本发明中的完整度评分模块，根据音节缺失的数量决定语音的完整度评分，每缺失一个音节扣一定的分数。

作为本实施例进一步的优选方案，语音到对应文本的强制对齐结果中，也包含了一些停顿的信息。本发明使用这些包含了停顿信息的强制对齐结果，对句子/段落的流利度和断句是否正确给出评分。对于文本中标记好的断句位置，如果没有识别出停顿，或停顿时间不够长，则判断为断句错误。对其他位置，不应出现时间过长的停顿。如果判断出时长超过某个阈值的停顿，则会在流利度上扣除一定的分数。

进一步地，对日语单词，仅仅像英语一样对发音进行评测是不够的，单词的声调也是很重要的评测方面，声调错误也意味着这次朗读是错误的。本实施例将采集的朗读音频按日语的音拍对齐，计算各个音拍的声调高低，对单词的声调进行准确的评测。这里的声调高低的判断，使用的特征是音高。计算音频声调高低的公开算法有很多，如YIN算法等。本发明可使用任一种公开算法计算出整个输入音频的声调高低，然后根据上面16条提到的音拍对齐结果，在每个音拍的起止时间范围内，对音频的声调高低值取均值，作为该音拍的声调计算结果。

音拍分析算法根据日语的特点，将音素以音拍为单位分组：拨音、促音各占一个音拍；辅音+短元音为一个音拍；辅音+拗音占一个音拍；辅音+长元音占两个音拍。分好组之后，根据前述的音素对齐结果得到各个音拍在音频中的起止时间。根据这些起止时间和前述的音高特征曲线，可以算出各个音拍起止时间内的平均音高。

作为本实施例进一步的优选方案，还可以对发音语调进行评价。我们通过分析句尾的若干个音拍的音高信息来判断，句子是平调或者是升调。然后和预先配置的语调信息相比较，根据比较结果给出评分。

对于单词的声调得分，日语的声调有平板◎型、①型、②型、③型、④型、⑤型、⑥型等。每种声调对应不同的音拍音高序列。比如：◎型，单词不论是几个音节(最少是1个音节)，从低音入手，第二拍升高，一直到读到最后拍节也不下降。①型，单词不论是几个音节(最少是1个音节)，从高音入手，第二拍下降，一直到读到最后拍节也不上升。等等。本发明分析一个单词内所有音拍的音高信息，和预先配置的单词声调相比较，根据比较结果给出单词的声调得分。单词的发音分，由单词的准确度得分和单词的声调得分加权获得。句子的发音得分，是句子中所有单词的发音得分的平均分。

作为本实施例进一步的优选方案，本发明对日语句子及段落的总得分，是由几个维度的得分加权求和而得的：

其中，S_i为各个维度的得分，w_i为各个维度的权重，

前述实例以句子打分为例，对于其他打分粒度，如单词、假名、段落等，评分维度会根据具体需求而调整。比如假名打分只看发音准确度；单词打分只看单词的发音准确度和声调得分；段落打分只看发音得分，完整度得分，和流利度得分。

本实施例中，除了日语音素系统、音拍分析、声调/语调打分这些和日语语种相关的模块之外，其他模块是可以应用到别的语种的智能口语评价系统中的。

本发明的一个实施例还提供了一种在线口语发音评价装置，其用于执行上述在线口语发音评价方法，包括：

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种在线口语发音评价方法，其特征在于，包括：

根据音素解码结果、单词及音素的对齐结果获取朗读音频的在不同语音粒度下的发音准确度得分，所述语音粒度包括音素级别、单词级别和句子级别，包括根据以下公式计算发音准确度得分：

cost_per_frame_align＝-log(P(f|q_i))

其中，f_is为起始帧号为，f_ie为终止帧号，log(P(f|q_i))为给定音素q_i在该帧发音为f的对数似然函数值，为对所有音素在音频帧f的对数似然函数值中的最大值，NF(o)为语音帧个数；

所述利用预先训练的语音识别模型对所述目标语音数据进行解码处理，生成音素解码结果，包括：

按帧提取所述目标语音数据的声音特征序列；

通过维特比算法将声音特征序列识别为若干音素状态；

将每三个音素状态组合成一个音素，得到音素解码结果。

2.根据权利要求1所述的在线口语发音评价方法，其特征在于，对所述目标语音数据进行基于目标文本的强制对齐处理，获取单词及音素的对齐结果，包括：

3.根据权利要求1所述的在线口语发音评价方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的在线口语发音评价方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的在线口语发音评价方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的在线口语发音评价方法，其特征在于，对所述朗读语音进行预处理，包括：

7.根据权利要求1所述的在线口语发音评价方法，其特征在于，所述发音准确度得分与目标语音数据被识别为目标文本的概率正相关。

8.一种在线口语发音评价装置，其用于执行权利要求1-6中任意一项所述的在线口语发音评价方法其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令集；所述计算机指令集被处理器执行时实现如权利要求1-7任一项所述的在线口语发音评价方法。