CN103617799A

CN103617799A - 一种适应于移动设备的英语语句发音质量检测方法

Info

Publication number: CN103617799A
Application number: CN201310631850.7A
Authority: CN
Inventors: 李心广; 李苏梅; 沈东雄; 江立锐; 皮景曦; 林雅婷; 何智明; 陈泽群; 林帆; 张胜斌
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2013-11-28
Filing date: 2013-11-28
Publication date: 2014-03-05
Anticipated expiration: 2033-11-28
Also published as: CN103617799B

Abstract

本发明公开了一种适应于移动设备的英语语句发音质量检测方法，该方法包括以下步骤：对用户发出的语句进行采集；对采集的语音信号进行预处理；对经预处理的语音信号进行语音特征参数提取，得到采集的语音信号的语音特征参数；利用语音特征参数对采集的语音信号与标准语音信号进行比较，进行内容、情感、语速、重音、节奏和语调评分；根据内容分值、情感分值、语速分值、重音分值、节奏分值和语调分值中至少一项得到采集的语音信号的最终分值；根据最终分值评判采集的语音信号是否发音准确。本发明可以提高语句发音检测的准确性，解决用户只能在PC端使用语句发音检测系统的问题。

Description

一种适应于移动设备的英语语句发音质量检测方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种适应于移动设备的英语语句发音质量检测方法。

背景技术

信号处理技术在语言学习中的应用是信息技术与语言学习整合的一个重要内容，其目标是将最新的语音技术与当前的教学和学习方法结合，建立计算机辅助语言学习系统。

语音客观评价方法最早可以追溯到二十世纪四十年代末，由N.R.French和J.C.Steinberg于1947年提出的清晰度指数AI(Articu1ationhidex)方法。T.P.Barnwell和S.R.Quackenbus对八十年代中期以前的语音质量客观评价研究工作作了系统总结，于1988年出版了介绍一本语音质量客观评价的著作。

进入九十年代后，语音质量客观评价方法研究取得了飞跃的发展，S.Wang于1992年提出的巴克谱失真BSD(Bark Spectral Distortion)方法对以后的影响较大，BSD方法是以人的听觉能力和听觉心理特点为基础构造出一种听觉转换模型。

我国语音识别研究工作起步于20世纪50年代，中科院声学所开始进行语音识别研究。中国语音识别的真正的开端应该是1978年，中科院声学所实现的采用带通滤波器组参数为特征的语音识别系统RTSRS(01)的产生。20世纪80年代，针对汉语单音节的特点，清华大学、中国科学院、北方交通大学、东南大学等开发了汉语特定人孤立字全音节语音识别系统。

当前语句发音准确度检测的相关技术，大多是考察语速和重音两个指标。在语速上，采用判断句子读取时间来衡量句子的语速，在重音上，采用语音的短时能量作为重音的判断标准。发音检测最后得分的计算方法则是将语速和重音两个指标的分值进行简单结合，准确度差。此外，现有检测方法大多局限于在PC机上使用，限定了用户只能在PC机旁进行语句发音检测，灵活性小，方便性差。

发明内容

本发明实施例所要解决的技术问题是，提出一种适应于移动设备的英语语句发音质量检测方法，提高语句发音检测的准确性，解决用户只能在PC端使用语句发音检测系统的问题。

为解决上述技术问题，本发明实施例提出一种适应于移动设备的英语语句发音质量检测方法，包括以下步骤：

S1．对用户发出的语句进行采集，获得语音信号；

S2．对所述采集的语音信号进行预处理，得到经预处理的语音信号；

S3．对所述经预处理的语音信号进行语音特征参数提取，得到所述采集的语音信号的语音特征参数，并将所述语音特征参数存储于数据存储器中；

S4．利用所述语音特征参数对所述采集的语音信号与标准语音信号进行比较，进行内容、情感、语速、重音、节奏和语调评分，得到所述采集的语音信号的内容分值、情感分值、语速分值、重音分值、节奏分值和语调分值中的至少一项；

S5.根据所述内容分值、情感分值、语速分值、重音分值、节奏分值和语调分值中至少一项得到所述采集的语音信号的最终分值；根据所述最终分值判断所述采集的语音信号是否发音准确。

进一步的，所述步骤S2包括：

对所述采集的语音信号进行预加重处理、分帧处理、加窗函数和端点检测，得到经预处理的语音信号；

具体的，所述预加重处理为，用高频提升预加重数字滤波器处理所述采集的语音信号，按照6dB/oct的规格对所述采集的语音信号的高频部分进行提升；

所述分帧处理采用半帧交叠分帧的方式进行分帧处理；

所述加窗函数采用汉明窗；

所述端点检测采用双门限比较法，以短时能量E和短时平均过零率Z作为判断语音起始点的特征。

进一步的，所述步骤S3包括：

提取所述经预处理的语音信号的语音特征参数，得到所述采集的语音信号的语音时长参数T_发音时长、语音能量参数T_se和Mel倒谱系数，并将所述采集的语音信号的语音时长参数T_发音时长、语音能量参数T_se和Mel倒谱系数存储于数据存储器中。

进一步的，所述步骤S4包括：

调取所述采集的语音信号的Mel倒谱系数，并利用分段聚类算法进行处理，得到经分段聚类的内容特征参数；

调取与所述采集的语音信号相对应的标准语音信号的概率神经网络语音模型，并将所述经分段聚类的内容特征参数输入所述标准语音信号的概率神经网络语音模型中，得到所述采集的语音信号的内容分类结果；

计算所述采集的语音信号的Mel倒谱系数和与所述采集的语音信号相对应的标准语音信号的Mel倒谱系数之间的相关系数；

根据所述内容分类结果和所述相关系数，对所述采集的语音信号的内容进行评分，得到内容分值。

进一步的，所述步骤S4还包括：

调取所述采集的语音信号的Mel倒谱系数和语音能量参数，并利用分段聚类算法进行处理，得到经分段聚类的情感特征参数；

调取与所述采集的语音信号相对应的标准语音信号的概率神经网络语音模型，并将所述经分段聚类的情感特征参数输入所述标准语音信号的概率神经网络语音模型中，得到所述采集的语音信号的情感分类结果；

根据所述情感分类结果和所述相关系数，对所述采集的语音信号的情感进行评分，得到情感分值。

进一步的，所述步骤S4还包括：

调取与所述采集的语音信号相对应的标准语音信号的语音时长参数S_发音时长，将所述标准语音信号的语音时长参数S_发音时长和所述采集的语音信号的语音时长参数T_发音时长代入英语句子发音的相对语速计算公式，计算相对语速V_相对语速，所述计算公式如下：

将所述相对语速V_相对语速作为语速评分的判断指标，代入语速评分公式计算得出语速分值S_Speed，所述语速评分公式如下：

S_Speed=α-β×V_相对语速

其中，α取值100，β取值80。

进一步的，所述步骤S4还包括：

调取与所述采集的语音信号相对应的标准语音信号的语音时长参数S_发音时长，将所述采集的语音信号的语音时长按比例调整为所述标准语音信号的语音时长参数S_发音时长；

调取所述采集的语音信号的语音能量参数T_se，根据所述采集的语音信号的语音能量参数T_se值，逐个搜索所述采集的语音信号中语音能量大于重音阀值T_u的最大语音信号值S_max；在小于所述最大语音信号值S_max的语音能量参数值范围内，由大到小逐个搜索等于非重音阀值T_l的语音信号值S_l；在大于所述最大语音信号值S_max的语音能量参数值范围内，由小到大逐个搜索等于非重音阀值T_l的语音信号值S_r；将S_l与S_r设置为所述采集的语音信号的重音信号，并将S_l与S_r之间的信号量值置0，计算S_l与S_r之间的语音时长；若所述S_l与S_r之间的语音时长大于重读元音时长，则S_l与S_r之间的语音部分即为重音音节，其中，重读元音时长等于100ms，记录所述重音音节的长度；

统计所述采集的语音信号里的重音个数T_snum，调取与所述采集的语音信号相对应的标准语音信号的重音个数S_snum和重音平均短时能量值S_se；

将所述采集的语音信号里的重音个数T_snum、标准语音信号的重音个数S_snum、标准语音信号的重音平均短时能量值S_se和采集的语音信号的重音平均短时能量值T_se代入重音评分计算公式，得到重音分值S_Stress，所述重音评分计算公式如下：

S_Stress=ω₁×S_Stress1+ω₂×S_Stress2

S_{Stress 1} = 100 - 100 \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

S_{Stress 1} = 100 - b \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

其中，b的值为68，ω₁的值为0.3，ω₂的值为0.7。

进一步的，所述步骤S4还包括：

利用节奏评分公式进行节奏评分，得到节奏分值S_Rhythm，所述节奏评分公式如下：

其中，m=min(T_snum,S_snum)，d1_k为与所述采集的语音信号相对应的标准语音信号的第k个重音段的时长，d1_l为与所述采集的语音信号相对应的标准语音信号的最后一个重音段的时长，d2_k为所述采集的语音信号的第k个重音段的时长，d2_l为所述采集的语音信号的最后一个重音段的时长。

进一步的，所述步骤S4还包括：

利用自相关函数对所述经预处理的语音信号的语音数据帧S(i),i=0～n-1做自相关运算，得到所述经预处理的语音信号的每一语音数据帧的音高；所述经预处理的语音信号的每一语音数据帧的音高构成所述采集的语音信号的语调曲线；

调取与所述采集的语音信号相对应的标准语音信号的语调曲线，利用DTW算法计算所述采集的语音信号的语调曲线与所述标准语音信号的语调曲线的差异参数dist；

将所述差异参数dist映射到[0,100]的分数范围内，得到语调指标的评分结果S_Intonation，映射公式如下：

S_{Intonation} = \frac{b}{1 + a {(dist)}^{2}}

其中，a取0.0005，b取100。

更进一步的，所述步骤S5包括：

由所述内容分值、情感分值、语速分值、重音分值、节奏分值和语调分值得到所述采集的语音信号的最终分值S_Total，所述最终分值S_Total的计算公式为：

S_{Total} = Σ_{i = 1}^{n} w_{i} S_{i}

其中，n=6，S_i为第i个语句发音评价指标的得分，w_i为第i个语句发音评价指标所占的权重；

根据所述最终分值S_Total确定所述采集的语音信号的等级，所述最终分值S_Total落在90～100的分数范围内，则判定所述采集的语音信号的发音准确度为A级；

所述最终分值S_Total落在70～90的分数范围内，则判定所述采集的语音信号的发音准确度为B级；

所述最终分值S_Total落在60～70的分数范围内，则判定所述采集的语音信号的发音准确度为C级；

所述最终分值S_Total落在0～60的分数范围内，则判定所述采集的语音信号的发音准确度为D级。

实施本发明实施例，具有如下有益效果：本发明实施例在检测语句发音质量时不仅考虑语句发音的语速和重音，同时还考虑内容、情感、节奏和语调指标，检测准确度高，可靠性强。同时本发明实施例运用于移动终端操作系统中，解放了用户必须在PC机上进行语句检测的局限性，使用更加灵活。

附图说明

图1是本发明提供的适应于移动设备的英语语句发音质量检测方法的一个实施例的流程示意图；

图2是本发明提供的适应于移动设备的英语语句发音质量检测方法的一个实施例的总框图；

图3是本发明提供的半帧交叠分帧的分帧方式的一个实施例的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的一种适应于移动设备的英语语句发音质量检测方法的一个实施例的流程示意图，该方法包括以下步骤：

S1．对用户发出的语句进行采集，获得语音信号；

下面对本发明提供的适应于移动设备的英语语句发音质量检测方法的一个实施方式进行详细描述。

在一个实施方式中，上述步骤S2包括：

具体的，上述预加重处理为用高频提升预加重数字滤波器处理上述采集的语音信号，按照6dB/oct的规格对所述采集的语音信号的高频部分进行提升；

对原始信号x(n)进行预加重可以用公式表示如下：

y(n)=x(n)-0.9375*x(n-1)

对上述采集的语音信号进行预加重处理，可以使信号频谱变得平坦，以便进行频谱分析。

上述分帧处理采用半帧交叠分帧的方式对采集的语音信号进行处理；如图3中所示，帧与帧之间交叠分段，帧移部分占整个帧长的比例取0～1/2之间，取0时，表示分帧处理方式为连续分段，取1/2时，表示帧移占帧长的三分之一；

采用半帧交叠分帧方式在保证语音信号具有短时平稳性的同时，使得帧与帧之间过渡平滑，保证了其连续性。

上述加窗函数采用汉明窗，分帧后利用窗函数可以减少由截断处理导致的Gibbs效应，经加窗后的语音信号为：

S_ω(n)=y(n)*ω(n)

其中，ω(n)为汉明窗函数定义：

上述端点检测采用双门限比较法，以短时能量E和短时平均过零率Z作为判断语音起始点的特征，第n帧语音信号S_ω(m)的短时能量谱E_n为：

E_{n} = Σ_{m = 0}^{N - 1} S_{ω}^{2} (m)

语音信号S_ω(m)的短时过零率Z_n为：

Z_{n} = \frac{1}{2} Σ_{m = 0}^{N - 1} | sgn [S_{ω} (m)] - sgn [S_{ω} (m - 1)] |

其中，sgn[]是符号函数，即：

sgn [x] = \{\begin{matrix} 1, & (x &GreaterEqual; 0) \\ - 1, & (x < 0) \end{matrix}

理想情况下，无声段的短时能量和过零率为零，如果语音信号中短时能量和过零率一直为零，而在某抽样点变为非零时，该抽样点为语音信号起始点；如果语音信号中短时能量和过零率一直不为零，而在某抽样点变为零时，该抽样点为语音信号结束点。为防止噪声的干扰，设置短时能量和过零率门限值T_E和T_Z，当语音信号短时能量和过零率在某抽样点变大，且大于门限值T_E和T_Z时，判定该抽样点为语音信号起始点，当语音信号短时能量和过零率在某抽样点由非零状态逐渐减小，且小于门限值T_E和T_Z时，判定该抽样点为语音信号结束点。

在一个实施方式中，上述步骤S3包括：

提取上述经预处理的语音信号的语音特征参数，得到所述采集的语音信号的语音时长参数T_发音时长、语音能量参数T_se和Mel倒谱系数，并将所述采集的语音信号的语音时长参数T_发音时长、语音能量参数T_se和Mel倒谱系数存储于数据存储器中。

具体的，根据在上述步骤S2中判断得到的语音信号起始点和语音信号结束点，计算得出语音信号的语音时长参数T_发音时长。而对于语音信号的短时能量参数T_se，采用语音信号的短时能量的定义进行提取：

E_{n} = Σ_{m = 0}^{N - 1} S_{ω}^{2} (m)

Mel倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）的提取需要将加窗后的语音信号进行傅里叶变换、三角滤波、对数处理和离散余弦变换处理。

经三角滤波处理得到一组系数m₁，m₂…，计算m_i的公式如下：

m_i=ln[X(k)*H_i(k)]

其中，

f[i]为三角滤波器的中心频率，f[i]满足：

Mel(f[i+1])-Mel(f[i])=Mel(f[i])-Mel(f[i-1])

对所有滤波器的输出求对数，再利用离散余弦变换求得倒谱系数C_i：

C_{i} = \sqrt{\frac{2}{P} Σ_{j = 1}^{P} \log (m_{i}) \cos [\frac{πi}{P} (j - 0.5)]}

其中，P是三角滤波器的个数，这里MFCC的阶数设为12。

在一个实施方式中，上述步骤S4包括：

S4-1.调取上述采集的语音信号的Mel倒谱系数，并利用分段聚类算法进行处理，得到经分段聚类的内容特征参数；具体的处理过程包括以下步骤：

首先将所述采集的语音信号的Mel倒谱系数平均分为N段，分段公式如下：

M(i)=S(K,J)

J = [\frac{T}{N} (i - 1) + 1], . . ., [\frac{T}{N} i]

其中S(K,J)表示Mel倒谱系数，K是倒谱系数的阶数，J为分段后倒谱系数的帧数，T为原语音帧数，M(i)即为分段后第i段的Mel倒谱系数；

把Mel倒谱系数平均分为N段后，继续将M(i)平均分为M段，子分段计算公式与上述分段公式相同；

然后对每个子分段的各帧参数进行求均值运算，得出各个子分段的均值向量

k=1,2,...,M；在取得各个子分段的均值向量后，将各个子分段的均值合并为一个矩阵，即得到K×M×N大小的矩阵即为分段聚类后的内容特征参数。

需要说明的是，本实施例中上述N和M的取值为3，但N和M的取值不局限于3，其他符合实际需要的取值均在本发明保护范围内。

S4-2.调取与所述采集的语音信号相对应的标准语音信号的概率神经网络语音模型，并将所述经分段聚类的内容特征参数输入所述标准语音信号的概率神经网络语音模型中，得到所述采集的语音信号的内容分类结果；

需要说明的是，所述标准语音信号的概率神经网络语音模型为事先训练得到，存储于数据存储器中，供内容评分时调取；将所述经分段聚类的内容特征参数输入所述标准语音信号的概率神经网络语音模型中，可以判断所述采集的语音信号的类标号与所述标准语音信号的类标号是否相同；所述采集的语音信号的内容分类结果有两类，准确或者不准确，可用于在后续的内容分值评判中进行内容分值评判。

S4-3.计算所述采集的语音信号的和与所述采集的语音信号相对应的标准语音信号的Mel倒谱系数之间的相关系数；

其中，相关系数的计算公式如下：

r = \frac{ΣXY - ΣXΣY / n}{\sqrt{Σ X^{2} - {(ΣX)}^{2} / n} \sqrt{Σ Y^{2} - {(ΣY)}^{2} / n}}

其中，X代表所述采集的语音信号的Mel倒谱系数，Y代表与所述采集的语音信号相对应的标准语音信号的Mel倒谱系数，n代表所述Mel倒谱系数的长度。

S4-4.根据所述内容分类结果和所述相关系数，对所述采集的语音信号的内容进行评分，得到内容分值；内容分值计算过程如下：

第一种情况，所述采集的语音信号的内容类标号与所述标准语音的内容类标号相等，即所述采集的语音信号的内容分类结果为准确：

如果相关系数r>0.5，则句子内容准确度评级为A，句子内容准确度评价结果为：句子发音清晰准确，内容完整，朗读流利，无明显语音错误；句子内容准确度评价得分为S_Content=95；

如果相关系数r>0.15，则句子内容准确度评级为B，句子内容准确度评价结果为：句子发音较为准确，内容较为完整，朗读比较流利，无严重语音错误；句子内容准确度评价得分为S_Content=85；

如果相关系数为其他值，则句子内容准确度评级为C，句子内容准确度评价结果为：句子发音基本准确，内容基本完整，朗读基本流利，有语音错误，但不影响理解；句子内容准确度评价得分为S_Content=65；

第二种情况，所述采集的语音信号的内容类标号与所述标准语音的内容类标号不相等，即所述采集的语音信号的内容分类结果为不准确：

如果相关系数r>0.05，则句子内容准确度评级为C，句子内容准确度评价结果为：句子发音不够准确，部分内容不够完整，存在影响理解的语音错误；句子内容准确度评价得分为S_Content=55；

如果相关系数为其他值，则句子内容准确度评级为D，句子内容准确度评价结果为：句子发音不清晰，不准确，部分内容不够完整，存在影响理解的严重语音错误；句子内容准确度评价得分为S_Content=35。

在一个实施方式中，上述步骤S4还包括：

S4-A.调取所述采集的语音信号的Mel倒谱系数和语音能量参数，并利用分段聚类算法进行处理，得到经分段聚类的情感特征参数；

S4-B.调取与所述采集的语音信号相对应的标准语音信号的概率神经网络语音模型，并将所述经分段聚类的情感特征参数输入所述标准语音信号的概率神经网络语音模型中，得到所述采集的语音信号的情感分类结果；

S4-C.计算所述采集的语音信号的Mel倒谱系数和与所述采集的语音信号相对应的标准语音信号的Mel倒谱系数之间的相关系数；

S4-D.根据所述情感分类结果和所述相关系数，对所述采集的语音信号的情感进行评分，得到情感分值。

需要说明的是，S4-A中利用分段聚类算法处理所述采集的语音信号的语音特征参数的方法与上述S4-1中所述方法类似、S4-B中情感分类结果的判断方法与上述S4-2中所述方法类似、S4-C中计算相关系数的方法与上述S4-3中所述方法类似，此处不再赘述。

S4-D中情感分值的计算方法具体包括：

第一种情况，所述采集的语音信号的情感类标号与所述标准语音的情感类标号相等，即所述采集的语音信号的情感分类结果为准确：

如果相关系数r>0.5，则句子情感准确度评级为A，句子情感准确度评价结果为：句子表达富有情感色彩，句子情感准确度评价得分为S_Emotion=95；

如果相关系数r>0.15，则句子情感准确度评级为B，句子情感准确度评价结果为：句子表达比较具有情感色彩，句子情感准确度评价得分为S_Emotion=85；

如果相关系数为其他值，则句子情感准确度评级为C，句子情感准确度评价结果为：句子表达具有基本情感色彩，句子情感准确度评价得分为S_Emotion=85；

第二种情况，所述采集的语音信号的情感类标号与所述标准语音的情感类标号不相等，即所述采集的语音信号的情感分类结果为不准确：

如果相关系数r>0.05，则句子情感准确度评级为C，句子情感准确度评价结果为：句子表达比较欠缺情感色彩；句子情感准确度评价得分为S_Emotion=85；

如果相关系数为其他值，则句子情感准确度评级为D，句子情感准确度评价结果为：句子表达欠缺基本情感色彩；句子情感准确度评价得分为S_Emotion=85。

在一个实施方式中，上述步骤S4还包括：

调取与上述采集的语音信号相对应的标准语音信号的语音时长参数S_发音时长，将所述标准语音信号的语音时长参数S_发音时长和所述采集的语音信号的语音时长参数T_发音时长代入英语句子发音的相对语速计算公式，计算相对语速V_相对语速，所述计算公式如下：

S_Speed=α-β×V_相对语速

其中，α取值100，β取值80。

在一个实施方式中，上述步骤S4还包括：

1).句子规整：调取与上述采集的语音信号相对应的标准语音信号的语音时长参数S_发音时长，将所述采集的语音信号的语音时长按比例调整为所述标准语音信号的语音时长参数S_发音时长；

2).重音音节划分：调取所述采集的语音信号的语音能量参数T_se，根据所述采集的语音信号的语音能量参数T_se值，逐个搜索所述采集的语音信号中语音能量大于重音阀值T_u的最大语音信号值S_max；在小于所述最大语音信号值S_max的语音能量参数值范围内，由大到小逐个搜索等于非重音阀值T_l的语音信号值S_l；在大于所述最大语音信号值S_max的语音能量参数值范围内，由小到大逐个搜索等于非重音阀值T_l的语音信号值S_r；将S_l与S_r设置为所述采集的语音信号的重音信号，并将S_l与S_r之间的信号量值置0，计算S_l与S_r之间的语音时长；若所述S_l与S_r之间的语音时长大于重读元音时长，则S_l与S_r之间的语音部分即为重音音节，其中，重读元音时长等于100ms。

记录所述重音音节的长度，以便节奏评分时使用；

3).统计所述采集的语音信号里的重音个数T_snum，调取与所述采集的语音信号相对应的标准语音信号的重音个数S_snum和重音平均短时能量值S_se；

S_Stress=ω₁×S_Stress1+ω₂×S_Stress2

S_{Stress 1} = 100 - 100 \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

S_{Stress 1} = 100 - b \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

其中，b的值为68，ω₁的值为0.3，ω₂的值为0.7。

需要说明的是，标准语音信号的一系列语音特征参数是通过事先对标准英语句子进行语音特征参数提取得到的，如发音时长S_发音时长、重音个数S_snum和重音平均短时能量值S_se，它们存储于数据存储器中，供用户进行语句发音检测时调取。

在一个实施方式中，上述步骤S4还包括：

需要说明的是，采集的语音信号的重音段时长在重音音节划分时得到，标准语音信号的重音段时长同标准语音信号的其他语音特征参数一样，存储于数据存储器中，在需要是调取。

在一个实施方式中，上述步骤S4还包括：

利用自相关函数对上述经预处理的语音信号的数据帧S(i),i=0～n-1做自相关运算，得到所述经预处理的语音信号的每一语音数据帧的音高；其中，构建经预处理的语音信号的自相关函数如下：

acf (τ) = Σ_{i = 0}^{n - 1 - τ} s (i) s (i + τ)

其中，n为帧长，τ是时间延迟量；

所述经预处理的语音信号的每一个语音数据帧的音高构成所述采集的语音信号的语调曲线；

调取与所述采集的语音信号相对应的标准语音信号的语调曲线，利用DTW（Dynamic Time Warpping，动态时间归整）算法计算所述采集的语音信号的语调曲线与所述标准语音信号的语调曲线的差异参数dist；

S_{Intonation} = \frac{b}{1 + a {(dist)}^{2}}

其中，a取0.0005，b取100。

在一个实施方式中，上述步骤S5包括：

由上述内容分值S_Content、情感分值S_Emotion、语速分值S_Speed、重音分值S_Stress、节奏分值S_Rhythm和语调分值S_Intonation得到所述采集的语音信号的最终分值S_Total，所述最终分值S_Total的计算公式为：

S_{Total} = Σ_{i = 1}^{n} w_{i} S_{i}

需要说明的是，本发明实施例中所述的各项语音特征指标的权重并非定值，而是根据不同的用户有不同的值。对于小学生的发音进行评价时，我们可能侧重内容准确度，所以会把内容指标的权重设置的偏高，其他指标设置的相对低一些，如设置内容权重2.6，情感1.2，语速1.6，重音2，节奏1，语调1.6；但是对大学生而言，我们要求相对高一些，不仅要求句子要读准，而且要带有正确的情感、好的语调和韵律等，如可设置内容权重1.9，情感1.6，语速1.7，重音1.8，节奏1.6，语调1.4。在实际应用中，可为不同的用户设置不同的语音特征指标权重组合，用户在使用本方法前可以选择符合自己的权重组合。

根据上述最终分值S_Total确定所述采集的语音信号的发音质量等级，所述最终分值S_Total落在90～100的分数范围内，则判定所述采集的语音信号的发音质量为A级；

所述最终分值S_Total落在70～90的分数范围内，则判定所述采集的语音信号的发音质量为B级；

所述最终分值S_Total落在60～70的分数范围内，则判定所述采集的语音信号的发音质量为C级；

所述最终分值S_Total落在0～60的分数范围内，则判定所述采集的语音信号的发音质量为D级。

结合专家知识库意见，确定与发音质量等级相对应的用户发音质量水平提示语，在判断得出所述采集的语音信号的发音质量等级后，结合各指标的得分，提示用户相应的发音质量水平提示语。如判定所述采集的语音信号的发音质量为A级时，提示用户“句子发音准确，内容完整，具有情感色彩，语速适中，重音发音准确，节奏感强，语调把握恰当，总体把握优秀”；判定所述采集的语音信号的发音质量为B级时，提示用户“句子发音较准确，内容较完整，比较具有情感色彩，语速较适中，重音发音较为准确，有一定的节奏感，语调把握相对较好，总体把握良好”；判定所述采集的语音信号的发音质量为C级时，提示用户“句子发音较不准确，部分内容不完整，比较欠缺情感色彩，语速较差，重音发音不准确，节奏感差，语调存在局部错误，总体把握一般”；判定所述采集的语音信号的发音质量为D级时，提示用户“句子发音不准确，内容不完整，欠缺情感色彩，语速差，重音发音错误，毫无节奏感可言，句子语调错误，总体把握不及格”。

在一个可选的实施方式中，在步骤S5之后，还包括：输出用于提示用户的语句发音是否准确的提示信息。例如，在判定所述采集的语音信号的发音质量为A级、B级、C级或D级之后，可以通过显示屏输出发音质量级别信息，或者通过音频方式输出发音质量级别提示音。

本发明实施例提供的适应于移动设备的英语语句发音质量检测方法，可应用于人们日常的英语口语学习中，检测英语口语的发音质量。

需要说明的是，在具体实施当中，可以根据本发明实施例提供的适应于移动设备的英语语句发音质量检测方法，开发出一套英语语句发音评价系统，应用在Android、IOS等操作系统中；除此之外，本发明实施例涉及到的方法还可应用在PC机操作系统中，并且可以检测的语种也不局限于英语，其他如日语、法语都适用于本实施例提及的语句发音检测方法。

本发明实施例提供的适应于移动设备的英语语句发音质量检测方法，首先对用户录入的语音句子进行预处理，提取语音特征参数，然后分别检测内容、情感、语速、重音、节奏和语调等多个语音质量指标，接着利用检测得来的语音指标的分数值，加权求得用户录入的语音句子的最终得分，最后判定用户录入的语音句子的发音质量等级，并结合专家知识库的意见，给出相应的发音质量水平提示语。与其他语音检测技术相比，本发明实施例不仅考虑语句发音的语速和重音，同时还考虑内容、情感、节奏和语调指标，检测准确度更高，可靠性更强。同时本发明实施例运用于Android、IOS等移动终端操作系统中，解放了用户必须在PC上进行语句检测的局限性，使用更加灵活。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种适应于移动设备的英语语句发音质量检测方法，其特征在于，包括：

S1．对用户发出的语句进行采集，获得语音信号；

2.如权利要求1所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S2包括：

其中，所述预加重处理具体为，用高频提升预加重数字滤波器处理所述采集的语音信号，按照6dB/oct的规格对所述采集的语音信号的高频部分进行提升；

所述分帧处理采用半帧交叠分帧的方式进行分帧处理；

所述加窗函数采用汉明窗；

3.如权利要求2所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S3包括：

4.如权利要求3所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4包括：

5.如权利要求4所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4还包括：

6.如权利要求5所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4还包括：

S_Speed=α-β×V_相对语速

其中，α取值100，β取值80。

7.如权利要求6所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4还包括：

S_Stress=ω₁×S_Stress1+ω₂×S_Stress2

S_{Stress 1} = 100 - 100 \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

S_{Stress 1} = 100 - b \times \frac{| S_{snum} - T_{snum} |}{S_{snum} + T_{snum}}

其中，b的值为68，ω₁的值为0.3，ω₂的值为0.7。

8.如权利要求7所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4还包括：

9.如权利要求8所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S4还包括：

S_{Intonation} = \frac{b}{1 + a {(dist)}^{2}}

其中，a取0.0005，b取100。

10.如权利要求9所述的适应于移动设备的英语语句发音质量检测方法，其特征在于，所述步骤S5包括：

S_{Total} = Σ_{i = 1}^{n} w_{i} S_{i}