CN112466335A

CN112466335A - 基于重音突现度的英语发音质量评价方法

Info

Publication number: CN112466335A
Application number: CN202011213272.1A
Authority: CN
Inventors: 艾群
Original assignee: Jilin Institute of Physical Education
Current assignee: Jilin Institute of Physical Education
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-09
Anticipated expiration: 2040-11-04
Also published as: CN112466335B

Abstract

本发明提出基于重音突现度的英语发音质量评价方法，所述方法包括如下步骤：S1：通过第一拾音阵列接收第一语音输入，所述第一语音输入包含至少一个英文序列；S2：通过第二预处理模块对所述第一语音输入进行预处理，得到预处理语音序列，所述预处理语音序列包括多个存在重叠区间的子序列；S3：基于所述多个子序列的分布特征，对所述第一语音输入序列进行发音质量评价。所述预处理包括预加重、分帧以及端点检测等步骤。本发明还公开了执行所述方法的计算机可读存储介质。本发明的技术方案能够在发音质量评价中避免人为主观因素的影响，从语音输入本身的重音韵律的音频特征进行质量评价，并且还能自适应的调节预处理参数。

Description

基于重音突现度的英语发音质量评价方法

技术领域

本发明属于语音识别与评价技术领域，尤其涉及一种基于重音突现度的英语发音质量评价方法及实现该方法的计算机可读存储介质。

背景技术

语音评测是利用计算机对测评者发音的语音信号进行分析，并客观地评价其语言的发音规范程度。它主要应用于语音朗读训练中的跟读语音与参考语音接近程度的自动评测，同时也应用于语音朗读测试中音节发音的自动评分。

发音质量客观评价可以分为两个方面，一个方面是从语音信号学角度进行评价，主要考察音素或单词的发音是否准确；另一个方面是从音韵学角度进行评价，主要从韵律方面进行考察，包括重音、语调、语速、停顿等。其中，重音的特征主要表现为音高的提高，音节段长的延长和音强的增大等，也就是对应基频、段长和能量这三个语音信号基本参数。

当前对计算机辅助语言学习系统进行研究的机构主要有SRI语音，他们主要关注测试语音与标准发音者整体发音水平的相似度情况。他们从几个角度例如音素的后验概率，段时长和语音时间打分作为评测的依据，利用机器打分和人工打分的相关度来评估系统的有效性。此外，荷兰奈梅亨大学提出的VICK系统主要研究了人工打分的合理性，尤其是语音中词的切割，韵律结构，流畅性对人工打分的影响。

在口语评估方面，现在国外已经有很多的产品。其中著名的是Ordinate公司的Versant系统，它可以从语句的简答、复述，文章的朗读、造句和内容的概括等几个方面对说话人进行语言能力的评估。此外，法国的欧佳龙在商业语言学习中成功地利用了语音识别的技术，他们的重量级软件产品“TELL Me More”广泛用于语言学习，它能自动检测语音中的错误发音，并从声调和词级的发音两个方面对语音进行打分。

在专利技术方面，中国发明专利申请CN202010811978.1提出一种语音测评方法、装置、设备及计算机存储介质，包括：获取根据目标文本输入的待测评语音；按照目标文本中的各目标音素在目标文本中的发音顺序，确定各目标音素在待测评语音中的待测评发音时间；根据各目标音素在待测评语音中的待测评发音时间和各目标音素的标准发音时间的匹配程度，确定待测评语音的测评结果；标准发音时间是根据各目标元素在目标文本的标准语音中的发音时间确定的。该方法中根据各目标元素的待测评发音时间和标准发音时间的匹配程度确定待测评语音的测评结果，能够提高确定待测评语音中发音不标准的目标音素的准确度，进而提升语音测评的准确度。

中国发明专利申请第200510114848.8号公开了一种基于HMM的发音质量评价方法，该方法主要依靠声学模型，只是从音素发音是否准确来评价发音质量。中国发明专利申请第200810102076.X号提出了一种以教师的发音作为参考语音的评价方法，该方法从声学、感知、和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别，但是在韵律上只是使用基频和段长，但由于基频和段长只是韵律的低层次参数，还不能很好的反映韵律特性。

基于上述问题，授权专利CN101996635B提出基于重音突显度的英语发音质量评价方法，属于语音信号技术领域，其特征包括：计算音节归一化段长，计算音节最高归一化响度，计算音节最高归一化半音程；利用突显度模型，计算音节段长突显度、音节响度突显度和音节半音程突显度；利用Bayes分类器计算音节归一化重音突显度；计算重音突显度分数，并对分数进行映射。该发明发音质量评价方法稳健性好，能与匹配分数结合使用，以进一步提高其与专家评分的相关性，可以用于交互式的语言学习系统和自动口语评测系统中。

然而，发明人发现，上述现有技术提出语音评价技术均需要提供标准语音(或者说参考语音序列、专家语音序列)，同时还需要结合专家经验进行打分评价，带有强烈的主观性，其评分结果不够客观；此外，上述方法评价过程是一成不变的，不能根据不同的输入进行评分参数的调整。

发明内容

为解决上述技术问题，本发明提出基于重音突现度的英语发音质量评价方法，所述方法包括如下步骤：S1：通过第一拾音阵列接收第一语音输入，所述第一语音输入包含至少一个英文序列；S2：通过第二预处理模块对所述第一语音输入进行预处理，得到预处理语音序列，所述预处理语音序列包括多个存在重叠区间的子序列；S3：基于所述多个子序列的分布特征，对所述第一语音输入序列进行发音质量评价。所述预处理包括预加重、分帧以及端点检测等步骤。本发明还公开了执行所述方法的计算机可读存储介质。本发明的技术方案能够在发音质量评价中避免人为主观因素的影响，从语音输入本身的重音韵律的音频特征进行质量评价，并且还能自适应的调节预处理参数。

具体而言，本发明所述的英语发音质量评价方法是这样实现的：

S1：通过第一拾音阵列接收第一语音输入，所述第一语音输入包含至少一个英文序列；

S2：通过第二预处理模块对所述第一语音输入进行预处理，得到预处理语音序列，所述预处理语音序列包括多个存在重叠区间的子序列；

S3：基于所述多个子序列的分布特征，对所述第一语音输入序列进行发音质量评价。

其中，所述第一拾音阵列包括多个处于不同位置的收音麦克风。

所述多个处于不同位置的收音麦克风同时接收所述第一语音输入。

所述步骤S2所述预处理包括如下步骤：

S21：对所述第一语音输入进行预加重处理；

S22：对所述预加重处理后的第一语音输入信号进行分帧；

S23：通过谱减法对所述分帧后的序列进行去噪；

S24：对所述去噪后的序列进行端点检测，获取每两个相邻端点之间的音频频域特征。

在硬件实现上，所述第一拾音阵列可以包括第一收音麦克风和第二收音麦克风。

所述第一收音麦克风和第二收音麦克风分别连接所述第二预处理模块，

所述第二预处理模块对所述第一收音麦克风接收的第一语音输入和所述第二收音麦克风接收的所述第一语音输入分别进行预处理，分别得到第一预处理语音序列和第二预处理语音序列。

基于所述第一预处理语音序列的所述多个子序列的分布特征，对所述第一预处理语音序列进行发音质量评价，得到第一质量评分；

基于所述第二预处理语音序列的所述多个子序列的分布特征，对所述第二预处理语音序列进行发音质量评价，得到第二质量评分。

基于所述第一质量评分和所述第二质量评分的差值计算结果，调节所述第二预处理模块中所述分帧操作的预处理参数。

本发明的上述方法可以通过计算机设备自动化的程序化实现。因此，在本发明的第二个方面，提供一种非易失性计算机可读存贮介质，其上存储有可执行程序指令；通过包含处理器和存储器的终端设备，执行所述程序指令，用于实现前述的一种基于重音突现度的英语发音质量评价方法的部分或者全部步骤。

显然，不同于现有技术需要引入标准语音(或者说参考语音序列、专家语音序列)的做法，本发明的技术方案在进行评价时完全基于语音本身的属性，评价过程客观，不受到人为主观因素的影响；同时，本发明的技术方案基于双麦克风收音技术，在评分过程中调节评分参数，使得整体上评分方法能够自适应的不断优化和改进。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于重音突现度的英语发音质量评价方法的主体流程图

图2是实现图1所述方法的一种终端的模块架构图

图3是利用图2所述系统实现图1所述方法的一个具体实施例的数据流程图

图4是图1所述方法具体实现时各个步骤的算法公式示意图

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

图1是本发明一个实施例的一种基于重音突现度的英语发音质量评价方法的主体流程图。

图1中，所述方法整体上包括三个步骤S1-S3：

S1：通过第一拾音阵列接收第一语音输入

需要注意的是，本实施例所述的方法是针对英文语音输入的特点开发的，对于英文输入的识别效果最佳。

本领域技术人员知晓的是，英文语音与中文语音发音的特点存在较大差异，因此，适用于英文输入识别的评分方法不能简单应用于中文识别，反之亦然。

因此，在本实施例中，所述第一语音输入包含至少一个英文序列；

所述第一拾音阵列包括多个处于不同位置的收音麦克风；

所述步骤S2所述预处理包括如下步骤：

S21：对所述第一语音输入进行预加重处理；

S22：对所述预加重处理后的第一语音输入信号进行分帧；

S23：通过谱减法对所述分帧后的序列进行去噪；

在图1基础上，参见图2，图2是实现图1所述方法的一种终端的模块架构图。

在各种实施例中，图1所述方法均可以实施于各种终端，包括便携式移动终端与桌面式移动终端，或者其他类型的计算机终端，本发明对此不做限制。

图2将所有可执行图1所述方法的终端统称为评分终端。

在这种评分终端，通常包括语音输入接口、预处理模块、评分模块等。

更具体的，参见图2，语音输入接口包括第一拾音阵列，用于接收英文序列语音输入；

图2中，所述第一拾音阵列包括第一收音麦克风和第二收音麦克风；

需要注意的是，第一收音麦克风和第二收音麦克风处于不同位置，

采用这种设置的目的在于同时利用双麦克风是可以实现初步的收音降噪的效果。

所述第一收音麦克风和第二收音麦克风同时接收所述第一语音输入。

图2中，第二预处理模块包括预加重处理模块、分帧处理模块、去噪处理模块以及端点检测模块。

其中，第三评分模块还连接差值计算模块，通过差值计算模块计算出反馈信号提供给所述第二预处理模块，更具体的，提供给所述第二预处理模块的所述分帧处理模块。

结合图1-图2，图1所述的方法中，所述步骤S2所述预处理包括如下步骤：

S21：对所述第一语音输入进行预加重处理；

S22：对所述预加重处理后的第一语音输入信号进行分帧；

S23：通过谱减法对所述分帧后的序列进行去噪；

在图2所述实施例使用双麦克风的场景中，所述第二预处理模块对所述第一收音麦克风接收的第一语音输入和所述第二收音麦克风接收的所述第一语音输入分别进行预处理，分别得到第一预处理语音序列和第二预处理语音序列。

因此，接下来结合图3，所述方法基于所述第一预处理语音序列的所述多个子序列的分布特征，对所述第一预处理语音序列进行发音质量评价，得到第一质量评分score₁；

基于所述第二预处理语音序列的所述多个子序列的分布特征，对所述第二预处理语音序列进行发音质量评价，得到第二质量评分score₂；

若所述第一质量评分和所述第二质量评分的差值在预设范围内，则增大所述步骤S22中所述分帧操作使用的滑动时间窗口的长度。

若所述第一质量评分和所述第二质量评分的差值在预设范围内，则减少所述步骤S22中所述分帧操作使用的滑动时间窗口的长度。

图1-图3所述的各个步骤的具体操作使用算法公式，则在图4中明确。

结合图4，所述步骤S21具体包括:

通过高通滤波器对所述第一语音输入进行预加重处理，所述高通滤波器的传递函数为：

其中，

z为传递函数变量；n为所述第一拾音阵列包含的所述收音麦克风的数量。

需要指出的是，本实施例所使用规定高通滤波器的传递函数，是与硬件本身相关的，这也体现了本申请的评分算法可以随着实际情况自适应的改变。

所述步骤S22具体包括：

采用滑动时间窗口对所述进行预加重处理后的第一语音输入信号进行分帧；

所述滑动时间窗口函数表达式如下：

N为每一帧的长度；

需要指出的是，在本发明的上述实施例中，滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择存在强烈的关联性(即α)，能够自适应变化，从而使得算法执行速度更快。

此外，采用这种改进的滑动时间窗口函数，能够确保相邻帧序列重叠的序列长度D满足如下条件：

即确保重叠长度大于帧长的一半，从而保证准确率与效率提升。

相比之下，目前语音信号分帧常用的窗函数主要有常规的矩形窗函数和汉明窗函数两种，其重叠长度最多为帧长的一半，并且滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择不存在关联，二者不相关。

所述步骤22对所述预加重处理后的第一语音输入信号进行分帧，得到多个分帧子序列，每个所述分帧子序列包括起始端点和终止端点，

所述步骤S3所述的多个子序列的分布特征，包括相邻的第一分帧子序列和第二分帧子序列的端点分布特征。

所述步骤S3所述基于所述多个子序列的分布特征，对所述第一语音输入序列进行发音质量评价，具体包括：

S31：对于每个相邻的第一分帧子序列F_pre＝{T_pre-s，T_pre-e}和第二分帧子序列F_back＝{T_back-s，T_back-e}，计算其重叠度F_pre-back：

其中，T_pre-s，T_pre-为所述第一分帧子序列的起始端点和终止端点；T_back-s，T_back-e为所述第二分帧子序列的起始端点和终止端点；|*|表示端点距离计算；

S32：基于所述预处理语音序列的所有相邻分帧子序列的重叠度分布，计算所述预处理语音序列的质量评分Score：

其中，∑(F_pre-back＞(1-α))表示对所有大于(1-α)的重叠度求和；∑F_pre-back表示对所有重叠度求和。

需要注意的是，上述求和公式并未给出具体的求和上限和下限或者被求和个数，但是本领域技术人员完全可以理解，实际计算时，可以根据分帧子序列的数量确定求和的上限和下限。

举例来说，如果对第一语音输入信号进行分帧，得到100个分帧子序列，则从第1帧开始，可以计算第1帧和第2帧的重叠度、第2帧和第3帧的重叠度、……第99帧和第100帧的重叠度，可以得到99个重叠度F_pre-back值。

假设α＝0.2，这99个重叠度F_pre-bac值中，有50个大于0.8，则求和∑(F_pre-back＞(1-α)公式针对50个求和，而求和∑F_pre-back针对所有的99个求和。

该实施例中提到的其他方法，例如谱减降噪，可参见相关现有技术，本实施例不再赘述。

总而言之，本发明的上述方法，不需要引入标准语音(或者说参考语音序列、专家语音序列)，在进行评价时完全基于语音本身的属性，评价过程客观，不受到人为主观因素的影响；同时，本发明的技术方案基于双麦克风收音技术，在评分过程中基于硬件本身以及已有结果调节评分参数，使得整体上评分方法能够自适应的不断优化和改进。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。