CN112908361B

CN112908361B - 一种基于小粒度口语发音评价系统

Info

Publication number: CN112908361B
Application number: CN202110144632.5A
Authority: CN
Inventors: 杨海斌; 徐敏
Original assignee: Zaodao Dalian Education Technology Co ltd
Current assignee: Zaodao Dalian Education Technology Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-12-16
Anticipated expiration: 2041-02-02
Also published as: CN112908361A

Abstract

本发明提供一种基于小粒度口语发音评价系统，包括前端产品和语音测评服务器，二者进行双向通信；所述前端产品搭载于用户的智能终端；所述语音测评服务器包括语音测评引擎和语音评测模型；所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频，并通过后台配置系统获取目标文本的分词及音标标注结果，同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐；所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。本发明主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果，对用户的朗读语音支持从句子、单词、段落、假名、音素等多个级别进行测评。

Description

一种基于小粒度口语发音评价系统

技术领域

本发明涉及语音识别及评价技术领域，具体而言，尤其涉及一种基于小粒度口语发音评价系统和方法。

背景技术

近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中。如语音识别、语音合成和声纹识别等技术应用越来越广泛，而这些技术的大都会使用到音素对齐技术。

在语言教学领域，尤其是现在蓬勃发展的在线口语语音质量评价领域，由于无法在小发音单元的粒度上进行发音质量评价，导致评价系统的评价结果容易受到发音人的个人发音特点的影响，比如：如果发音人性别、年龄以及母语类型等。

现有的语音质量一般通过提取语音特征进行模式比对，从而获取发音评价结果，而如何能够在更小的粒度上获得更加精确的语音特征，进而提高系统评价的准确性，是一个亟待解决的问题。

发明内容

根据上述提出的现有系统缺乏基于小粒度发音单元的语音评价系统的技术问题，而提供一种基于小粒度口语发音评价系统和方法。本发明主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。对用户的朗读，支持从句子、单词、段落、假名、音素等多个级别进行测评。

本发明采用的技术手段如下：

一种基于小粒度口语发音评价系统，包括前端产品和语音测评服务器，二者进行双向通信；

所述前端产品搭载于用户的智能终端，一方面用于采集用户的口语朗读音频，另一方面用于向用户展示发音评价结果；

所述语音测评服务器用于接收和处理所述口语朗读音频，其主要包括语音测评引擎和语音评测模型；

所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频，并通过后台配置系统获取目标文本的分词及音标标注结果，同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐；

所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。

进一步地，所述语音评测模型包括音素准确度评价模块，所述音素准确度评价模块根据以下公式计算音素准确度得分：

cost_per_frame_align＝-log(P(f|q_i))

其中，S_i为音素发音准确度得分，NF(o)为口语朗读音频包含的语音帧数量，f_is为起始帧号，f_ie为终止帧号，

P(f|q_i)的含义是给定音素q_i，在该帧发音为f的对数似然函数值，

的含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。

进一步地，所述音素准确度评价模块根据以下公式将计算得到的音素准确度得分映射为[0，100]区间范围内的整数：

其中，(x_i,y_i)为预先定义好的一系列分数映射关系i＝1,2,…,n，且y₁＝100,y_n＝0。

进一步地，所述语音评测模型还包括音素准确度优化模块，所述音素准确度优化模块根据以下步骤优化音素准确度得分：

获取教师针对朗读音频给出的主观评分；

将计算得到的音素准确度得分作为样本值、将教师给出的主观评分作为标签值，采用有监督回归问题的机器学习方案优化评分系统的参数。

进一步地，所述调用语音识别系统对口语朗读音频进行音素解码，包括：

获取发音词典；

将所述口语朗读音频、目标文本以及发音词典输入语音识别系统；

所述语音识别系统通过维特比算法将口语朗读音频识别为若干音素状态；

将每三个音素状态组合成一个音素，得到音素解码结果。

进一步地，所述调用语音识别系统对口语朗读音频进行音素对齐，包括：

获取发音词典；

将所述目标文本与发音词典对照，生成与所述目标文本想对应的音素序列；

将所述音素序列中的每个音素分解为三个音素状态，从而构建目标语音数据的状态转移图；

通过维特比算法对所述状态转移图进行处理从而得到与所述目标文本对应的各个音素在音频文件中的起止位置。

进一步地，所述语音测评引擎还包括预处理模块，其用于在将口语朗读音频输入语音识别系统之前，对口语朗读音频进行预处理，包括：

按照设定的采样周期对所述朗读音频进行采样，从而生成声音采样数组；

由所述声音采样数组的起始端依次判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之前的音频数据进行剪切处理；

同时由所述声音采样数组的末端依次向前判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之后的音频数据进行剪切处理；

按帧对剪切处理后的声音采样数组进行特征提取，从而得到声音特征序列。

进一步地，所述语音识别系统为DNN-HMM混合语音识别系统。

较现有技术相比，本发明具有以下优点：

本发明通过网络接收由移动客户端采集用户根据给定的口语文本的朗读语音，对朗读语音进行基于音素的小粒度准确度评价，克服了评价结果容易受到发音人的个人发音特点的影响问题。本发明能够将评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。

基于上述理由本发明可在语言学习等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于小粒度口语发音评价系统结构示意图。

图2为本发明语音评测引擎功能流程图。

图3为本发明语音评测引擎进行语音识别的框架图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明提供了一种基于小粒度口语发音评价系统，包括前端产品和语音测评服务器，二者进行双向通信。

所述前端产品搭载于用户的智能终端，一方面用于采集用户的口语朗读音频，另一方面用于向用户展示发音评价结果。

语音测评服务器用于接收和处理所述口语朗读音频，其主要包括语音测评引擎和语音评测模型。

语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频，并通过后台配置系统获取目标文本的分词及音标标注结果，同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐。

具体来说，所述调用语音识别系统对口语朗读音频进行音素解码，包括：

a.获取发音词典；

b.将所述口语朗读音频、目标文本以及发音词典输入语音识别系统；

c.所述语音识别系统通过维特比算法将口语朗读音频识别为若干音素状态；

d.将每三个音素状态组合成一个音素，得到音素解码结果。

音素状态是比音素更细致的语音单位，本实施例中将一个音素划分成3个状态。因为单音素建模没有考虑协同发音效应，也就是上下文音素会对当前的中心音素发音有影响，会产生协同变化，这与该音素的单独发音会有所不同(数据统计也就有所不同)，为了考虑这个影响，所以需要使用三音素建模，使得模型描述更加精准。

进一步地，在进行语音识别的时候，语音的哪一部分对应的是哪个音素或者哪个词是未知的，这就需要一个方法能够自动切分音素和词。这里我们使用了维特比对齐算法，该算法适用于任意的基于HMM的语音识别系统。调用语音识别系统对口语朗读音频进行音素对齐，包括：

a.获取发音词典；

c.将所述目标文本与发音词典对照，生成与所述目标文本想对应的音素序列；

d.将所述音素序列中的每个音素分解为三个音素状态，从而构建目标语音数据的状态转移图；

e.通过维特比算法对所述状态转移图进行处理从而得到与所述目标文本对应的各个音素在音频文件中的起止位置。

在一个示例性的实施方式中，要进行打分的文本序列为“またね”。这个文本序列包含两个词，“また”和“ね”。在发音词典中，标注了这两个词的发音分别为：“また:M A TA”和“ね:N E”。就可以得到对应的音素序列为“M A T A N E”。

基于这个音素序列，参考声学模型定义的所有状态集合，生成可能的音素状态转移图。

根据音素状态转移图，直接设定转移概率，调用维特比算法进行解码，得到文本对应的各个音素和词在音频中的起止时间。

作为本发明的优选实施方式，所述语音识别系统为DNN-HMM混合语音识别系统，其语音识别框架如图3所示。其中声学模型处的入箭头，表示声学模型是由大量音频训练得到的，训练的数据为音频经过特征提取步骤后得到的音频特征序列。语言模型处的入箭头，表示语言模型是由大量的文本数据训练得到的。声学模型和语言模型处的出箭头，表示解码器需要加载这两个模型才能工作。除了声学模型和语言模型之外，解码器还需要一个预先定义好的发音词典。当加载了这两个模型和词典之后，解码器就可以运行，用于执行语音识别任务了。

所述语音测评引擎还包括预处理模块，其用于在将口语朗读音频输入语音识别系统之前，对口语朗读音频进行预处理，包括：

a.按照设定的采样周期对所述朗读音频进行采样，从而生成声音采样数组；

b.由所述声音采样数组的起始端依次判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之前的音频数据进行剪切处理；

c.同时由所述声音采样数组的末端依次向前判断每一个采样的音强特征是否大于预设的采样最低阈值，若是则对该采样值之后的音频数据进行剪切处理；

d.按帧对剪切处理后的声音采样数组进行特征提取，从而得到声音特征序列。

本实施例通过网络接收由移动客户端采集的，用户的朗读语音之后，对声音进行剪切，去除声音前后的静音段。这里使用的特征是音强。从声音采样数组的开头依次查看每一个采样，如果音强小于某个可配置的阈值，就认为用户没有说话，是可以被去除的静音段音频。如果音强大于该阈值，则认为用户开始说话了，停止查看音强。同样从声音采样数组的尾部往前一次查看每一个采样，如果音强小于阈值，去除该段音频。音强大于阈值时停止检查。该预处理步骤可以减少需要对齐的音频数据长度，减小计算复杂程度，提高对齐的精准度。除了上述提及的音频剪切之外，也可以包括其他可选的预处理步骤包括音量归一化、降噪等。音量归一化即将音频的音量等比例调整至某个预配置的最大音量区间。

而音频降噪处理可以应用多种公开算法。在实际使用中，降噪处理对评分效果的影响并不全是正面的，因此该功能被配置为可选功能。

语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。语音评测模型包括音素准确度评价模块，

具体来说，对一个音素q_i，若其相对应的语音段为o，那么该段语音段的发音质量，和o被识别为q_i的概率有关，我们将这个概率记作：P(q_i|o)。如果o包含NF(o)个语音帧，起始帧号为f_is，终止帧号为f_ie，我们有：

两边取对数及绝对值，并且除以语音段包含的帧数，得：

根据贝叶斯公式，有：

上式的分母中，对概率的求和，可以近似简化为对概率求最大值。这是一个常见的简化操作。并且，为了进一步简化算法，我们假设所有音素出现的机会都均等，即P(q_i)＝P(q_j)，则上式可简化为：

将上式代入前面的公式，得到：

上式中，log(P(f|q_i))的含义是给定音素q_i在该帧发音为f的对数似然函数值。这里我们将-log(P(f|q_i))记作cost_per_frame_align。我们可以使用维特比对齐算法得到一段语音中每帧的cost_per_frame_align的值。可以看到，P(f|q_i)的值越大，log(P(f|q_i))越接近0，cost_per_frame_align的值就越小。

同时，

含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。这个值，我们使用语音解码算法得到的最优路径上，每帧对应到解码结果的对数似然函数来近似，并将其相反数记作cost_per_frame_asr。

那么上面的式子就可以写成以下形式：

上式的计算结果即可作为本实施例中用来评价一个音素的发音是否正确的参考公式。下面将其记作S_i。这是一个大于0的正数，和0越接近，表示发音越准确。实验证明该得分能够有效识别错误发音，符合人的主观感受。

进一步地，所述音素准确度评价模块还用于根据以下公式将计算得到的音素准确度得分映射为[0，100]区间范围内的整数：

这个线性映射函数的各个参数可以根据各个音素的统计信息分别配置。其中各个音素的统计信息是指从大量母语朗读者朗读的音频语料分析获得的，各个音素被正确朗读时，计算得到的原始发音分(即前述的S_i)的均值、方差、最大值、最小值、各百分位数等统计信息。

此外，如果得到一定数量的教师对给定语音给出的主观评分，可以使用参数优化算法，调整这些配置参数，使算法能最好地拟合人给出的百分制评分。此时可以将口语评分看作一个有监督的回归问题。可以采用任意一种有监督回归问题的机器学习解决方案，来优化评分系统的参数。例如，将对应的音频样本通过前述的特征提取、解码、对齐等过程，计算出所有音素的原始发音分，即前述的S_i，作为样本的值。将教师给出的主观评分Y_i作为对应的样本标签。将假设函数设为前述的y＝f(x)。代价函数使用均方误差代价函数，即，

其中，m为样本的总数量，θ为参数向量。最后，使用梯度下降等优化方法迭代优化参数向量θ。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。