CN103366759A

CN103366759A - 语音数据的测评方法和装置

Info

Publication number: CN103366759A
Application number: CN2012100890381A
Authority: CN
Inventors: 潘兴德; 谢凌云; 韩卫生; 章斯宇; 孟子厚
Original assignee: BEIJING ZHONGCHUAN TEANA DIGITAL TECHNOLOGY Co Ltd
Current assignee: BEIJING ZHONGCHUAN TEANA DIGITAL TECHNOLOGY Co Ltd
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-23

Abstract

本发明涉及一种语音数据的测评方法和装置，所述方法包括：采集测评汉语语音的测评发音数据；从所述测评发音数据中按照专家知识数据库中的专家知识数据提取特征参数，从所述特征参数中查询典型偏误特征；根据所述特征参数得到客观测评结果数据；将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据。本发明语音数据的测评方法和装置利用语言生态学的方法，实现非汉语母语语音数据的准确的检测和测评，从而有效的指导检测者的发音。

Description

语音数据的测评方法和装置

技术领域

本发明涉及一种语音数据的测评方法和装置，尤其涉及一种基于语言生态学的语音数据的测评方法和装置。

背景技术

近年来，随着语音识别等语音技术的进步，计算机辅助语言学习技术作为一个全新的交叉学科研究课题逐渐受到学术界和教育界的关注。

现有的运用计算机进行普通话水平测试和指导学习的方法采用了以音段为单位建立普通话水平测试评分机制，采用语音识别的方法，计算参加普通话水平考试考生的得分，并指出考生的发音错误。

但是现有技术有如下缺陷：

该技术主要针对我国的普通话水平考试应用，考生的母语基本为汉语，汉语发音水平很高，其方法不适合母语非汉语的汉语学习者的发音水平评价和发音指导；

该技术过多的依赖于隐马尔科夫模型等统计学方法，没有针对汉语普通话学习者的母语(或方言)背景进行语音生态分析和相应的系统设计；

该技术提出了发音错误分析和指导，但没有给出具体的实现方法，导致系统功能并不能实现。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种语音数据的测评方法和装置，可以有效的利用语言生态学来实现非汉语母语语音数据的检测和测评，有效的分类得出不同情况的测评结果，指导发音。

为实现上述目的，本发明提供了一种语音数据的测评方法，所述方法包括：

采集测评汉语语音的测评发音数据；

从所述测评发音数据中按照专家知识数据库中的专家知识数据提取特征参数，从所述特征参数中查询典型偏误特征；

根据所述特征参数得到客观测评结果数据；

将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据。

为实现上述目的，本发明提供了一种语音数据的测评装置，所述装置包括：

采集单元，用于采集测评汉语语音的测评发音数据；

提取单元，用于从所述测评发音数据中按照专家知识数据库中的专家知识数据提取特征参数，从所述特征参数中查询典型偏误特征；

处理单元，用于根据所述特征参数得到客观测评结果数据；

映射单元，用于将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据。

本发明语音数据的测评方法和装置利用语言生态学的方法，实现非汉语母语语音数据的准确的检测和测评，从而有效的指导检测者的发音。

附图说明

图1为本发明语音数据的测评方法的流程图；

图2为本发明语音数据的测评方法的示意图；

图3为本发明语音数据的测评方法中切除清音和静音方法的示意图；

图4为本发明语音数据的测评方法中基音周期估计方法的示意图；

图5为本发明语音数据的测评方法中基音失真度计算方法的示意图；

图6为本发明语音数据的测评方法中共振峰失真度计算方法的示意图；

图7为本发明语音数据的测评方法中发音指导示意图之一；

图8为本发明语音数据的测评方法中发音指导示意图之二；

图9为本发明语音数据的测评装置的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明是一种利用计算机辅助下的汉语学习方法和装置，计算机辅助汉语学习方法分为前期准备和发音教学两个阶段：

第一个阶段是基于语言生态调查的前期准备阶段工作，对非汉语母语的汉语学习者的教学，起决定性的作用，包含了语音数据采集，语音数据分析和特征提取，获取当地人学习汉语发音时的典型偏误特征和专家知识。选取部分当地人汉语普通话语音库语音和标准语音库语音作为评分语音库数据，最后利用评分语音库中的特征向量，建立起特征向量与打分之间的评分映射。

第二个阶段是发音教学阶段，首先对测试者的发音录音进行处理，先进行特征提取、然后通过偏误分析，客观评分，在最后的发音教学单元中结合专家知识对测试者进行有针对性的教学。

本发明就是所谓的第二个阶段的具体过程，图1为本发明语音数据的测评方法的流程图，图2为本发明语音数据的测评方法的示意图，如图所示，本发明具体包括如下步骤：

步骤101，采集测评汉语语音的测评发音数据；

即采集非汉语母语的汉语语音测评发音数据，并且将该测评发音数据按照年龄和性别归类。首先由发音测试者选择属于自己的地区，进而确定适用于测试者的计算机辅助汉语学习系统。然后对测试者的汉语测评发音数据进行采集。

步骤102，从所述测评发音数据中按照专家知识数据库中的专家知识数据提取特征参数，从所述特征参数中查询典型偏误特征；

即据不同年龄和性别按照语音测评标准，从所述测评发音数据中提取特征参数，将所述特征参数进行统计和匹配得到所述典型偏误特征。依据数据分析阶段语音生态分析得到的专家知识进行特征参数选择和权重设置，然后提取测试者语音数据特征参数。从所述测评发音数据中提取-MFCC信息、基音信息和共振峰信息。

由于语音信号是一种典型的非平稳信号，加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征，而要进行前期的预处理。经过预处理的语音数据就可以进行特征参数提取。预处理模块包括预采样和量化、预加重滤波、加窗分帧、端点检测。

预加重滤波器是一个一阶高通滤波器。目的是滤除低频干扰，提升语音信号的高频部分，使信号的频谱变得平坦，便于进行频谱分析或声道参数的分析。

预加重滤波器一般形式如下：

H(z)＝1-uz^-1 (1)

其中，u的值接近于1，在本系统中u的值取为0.97。

语音信号在10-30ms内保持相对平稳，因此帧长一般取10-30ms，帧移通常为帧长的0～1/2。本系统帧长取25ms，帧移取5ms。

加窗可以保持语音信号的短时平稳性，减少截断导致的吉布斯效应。本系统采用汉明窗，窗函数如下

W_{hm} = \{\begin{matrix} 0.5 - 0.46 \cos (\frac{2 nπ}{N - 1}), & 0 \leq n < N - 1 \\ 0, & other \end{matrix} - - - (2)

端点检测的基本参数主要有短时能量及平均幅度和过零率。

设经加窗处理后得到的第n帧语音信号为x_n(m)，则x_n(m)满足下式：

x_n(m)＝w(m)x(n+m)，N＝0，T，2T，L；0≤m≤N-1 (3)

式中w(m)是窗函数，N是窗长；下标n＝0，1，L表示帧号。

那么x_n(m)的短时能量可以表示为：

E_{n} = \frac{1}{N} Σ_{m = 0}^{N - 1} x_{n}^{2} (m) - - - (4)

短时过零率(ZCR)表示一帧语音信号波形穿过零点电平的次数，可通过如下公式计算

ZCR = \frac{1}{2} Σ_{n = 1}^{N} | sgn [x_{i} (n)] - sgn [x_{i} (n - 1)] | - - - (5)

式中sgn[ ]是符号函数，即

sgn [x] = \{\begin{matrix} - 1, & x &GreaterEqual; 0 \\ - 1, & x < 0 \end{matrix}

端点检测算法采用双门限算法，双门限端点检测包括短时能量检测和短时过零率检测，检测之前分别为短时能量和过零率各设置一个较高门限和一个较低门限：E_h，E_l，ZCR_h和ZCR_l，门限值的计算需要根据不同环境进行调整。语音端点检测把语音段分为三类：静音段、过渡段和语音段。能量和过零率均低于低门限的语音认为是处在静音段，只要其中一个超过低门限则认为进入过渡段，能量和过零率有一个都超过高门限才被认为进入语音段。同时为了去除噪声的误判，语音段的长度门限为20-30ms，为了避免字间空隙认为是静音，静音段的长度门限为30-50ms。需要注意的是，为避免短时能量En溢出及配合后边的阈值，本发发明中采用短时平均幅度STAM_n代替E_n，STAM_n可以表示为

{STAM}_{n} = \frac{1}{N} Σ_{m = 0}^{N - 1} (| x_{n} (m) | * 0.0625) - - - (6)

端点检测后即可提取特征参数。

一、MFCC系数提取

人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，基本上是一个对数的关系。MFCC系数是一种能够比较充分利用人耳的这种感知特性的系数。

首先在语音的频谱范围内设置若干个带通滤波器：

Hm(n)，m＝0，1，L，M-1；N＝0，1，L，N/2-1其中M为滤波器的个数，通常取12，与临界带的个数一样；N为一帧语音信号的点数，为了能利用FFT，本系统N取256。MFCC系数的计算过程如下：

1、计算离散功率谱：对预处理的每帧进行离散傅立叶变换FFT得到频谱，再取模的平方得到功率谱S(i)；

2、将功率谱通过滤波器组：计算S(i)通过M个Hm(n)后的功率值，即计算S(n)和Hm(n)在各离散频率点上的乘积之和，得到M个参数P_m，m＝0，1，L，M-1；

3、取对数：计算P_m的自然对数，得到L_m，m＝0，1，L，M-1；

4、离散余弦变换：对L_m计算其离散余弦变换，得到D_m，m＝0，1，L，M-1，舍去代表直流成份的D₀，取D₁，D₂，L，D_k作为MFCC参数。

二、基音信息提取。

人在发浊音时，气流通过声门使声带产生张驰振荡式振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，又称有声语音，它携带着语音中的大部分能量。这种声带振动的频率称为基频，相应的周期就称为基音周期(Pitch)。

提取基音之前要去除静音和清音，清音的短时过零率要大于浊音的短时过零率，而浊音的短时能量则要大于清音。另外，静音部分，无论短时过零率还是短时能量都要小于浊音和清音。考虑到普通话的音节的结构，整个切除清音和静音的过程可以采用基于短时能量和短时过零率的算法，算法的主要思想是通过设置一个较高的短时过零率门限以确定清音的开始，然后向后搜索一个较低的短时过零率门限以确定清音的结束，同时综合考虑短时能量。图3是本发明语音数据的测评方法中切除清音和静音方法的示意图。

定义三个ZCR阈值：HTHZ(22-27)、LTHZ(17-20)和THZ(2-5)。再定义两个短时能量STAM阈值HTHE和LTHE，前者为STAM序列的最大值的四分之一，后者为最大STAM值的1/8和2的较小者。

首先从语音的前端开始同时搜索大于HTHZ或者HTHE的语音帧。当STAM首先大于HTHE时，则认为该语音帧为浊音部分的开端；否则，当ZCR首先大于HTHZ时，则认为该语音真为清音部分的开端。清音部分的始端找到后，就开始通过LTHZ搜索清音部分的终端：当语音帧的ZCR小于LTHZ时，则认为该语音帧为清音部分的终端。在进行清音终端搜索时，利用STAM对浊音始端的搜索也没有停止。因为有些音节前面并没有清音，虽然通过ZCR也能够把浊音和静音区分开来，但是在某些情况下，基于ZCR而确定的浊音始端会发生较严重的错误，被定位得比较靠后，而利用STAM则可以在一定程度上避免这样的情况所带来的影响：当通过ZCR定位的浊音部分太过靠后(设定了浊音的最短时长)，以至于浊音太短时，则以STAM定位的浊音始端为准。同时，浊音部分的终端也是通过THZ和LTHE来确定的。从语音后端开始搜索到ZCR大于THZ或者STAM大于LTHE的语音帧，即认为是浊音部分的终端。

找到浊音段后，就可以进行基音周期估计，图4是本发明语音数据的测评方法中基音周期估计方法的示意图。

其中，累加器是为了更好地突出基频值，因为频率越高，其对应的幅值也越低，同时，由累加器引进的直流分量也被随后的滤波器很好地消除了，所以语音的低频部分相对于其它频率是被突出了，从而增强了基频的提取效果。

滤波器是一个8阶的巴特沃兹带通滤波器，带宽为60Hz到900Hz，滤波器的高端截止频率置为900Hz，既可以除去大部分共振峰的影响，又可以当基音频率为最高450Hz时仍能保留其一二次谐波。低端截频设置为60Hz是为了抑制50Hz的交流电源干扰。

计算得到的基音周期轨迹与真实的基音周期轨迹不可能完全吻合，在一些局部段落或区域中有时会有一个或几个基音周期估值偏离了正常轨迹。所以基音周期估计后，一般要进行平滑。比较常用的平滑方法有中值平滑线性平滑算数平均滤波和消抖滤波等。

三、共振峰信息提取当准周期脉冲激励进入声道时就会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度，它是区分不同韵母的重要参数。共振峰信息包含在谱包络中，因此共振峰参数提取关键是估计自然语音频谱包络。

本发明共振峰的提取方法采用LPC法，就是将语音的声道模型假设为全极点模型，使用线性预测分析法的对谱包络进行匹配。

步骤103，根据所述特征参数得到客观测评结果数据；

对测试者语音进行声调识别，依据前期训练好的评分映射，对发音进行评分。计算所述MFCC信息、基音信息和共振峰信息失真度的匹配分数、基音分数和共振峰分数。

失真度指测试集语音参数与标准模板相应参数间的声学距离，包括语音识别失真度、基音失真度和共振峰失真度，本发明把评分语音库中的标准语音参数作为标准模板，把当地人的汉语发音作为测试集进行各种失真度计算。

第一，语音失真度计算

语音识别失真度基于39维MFCC系数，具体包括12维MFCC系数和归一化的能量及其一阶和二阶差分。本发明采用两种方案实现语音识别失真度的计算。

1.动态时间规划(DTW)算法

因为对同一个词或音节的两次发音是不可能完全相同的，不存在线性对应关系。设参考模板有M帧矢量{R(1)，R(2)，L，R(m)，L，R(M)}，R(m)为第m帧的语音特征矢量，训练数据有N帧矢量{T(1)，T(2)，L，T(n)，L，T(N)}，T(n)是第n帧的语音特征矢量，T中第i_n帧特征与R中i_m帧特征之间的距离d(T(i_n)，R(i_m))等于两矢量间的欧几里德距离。

设规整函数i_m＝φ(i_n)将训练数据矢量的时间轴n非线性地映射到参考模板的时间轴m上，并使该函数满足：

d = \min_{Φ (i_{n})} Σ_{i_{n} = 1}^{N} d (T (i_{n}), R (Φ (i_{n}))) - - - (7)

d就是处于最优时间规整情况下两矢量的距离。

通常规整函数必须满足如下的约束条件：

边界限制：当待比较的语音已经进行精确的端点检测，在这种情况下，规整发生在起点帧和端点帧之间，反映在规整函数上就是：

Φ(1)＝1

Φ(N)＝M

单调性限制：由于语音在时间上的顺序性，规整函数必须保证匹配路径不违背语音信号各部分的时间顺序。即规整函数必须满足单调性限制：

Φ(i_n+1)≥Φ(i_n)

连续性限制：有些特殊的音节有时会对正确的识别起到很大的帮助，某个音节的差异很可能就是区分不同的发声单元的依据，为了保证信息损失最小，规整函数一般规定不允许跳过任何一点。即：

Φ(i_n+1)-Φ(i_n)≤1

2.隐马尔可夫模型(HMM)

HMM的训练过程是本领域技术人员公知技术，这里不做详细说明。设θ_i是第i个音素的HMM模型，O是该音素的在训练数据中的相应的特征矢量，给定HMM模型θ和观察序列O＝(o₁，o₂，L，o_T)，可得到特征矢量O对于HMM模型θ_i的输出对数概率L(i)为

L(i)＝|log(P(o|θ_i))| (8)

则可以计算出标准语音的对数概率为L_S(i)，训练语音的对数概率为L_T(i)定义相对概率因子Ω(i)

Ω (i) = \{\begin{matrix} \frac{| L (i) |}{350}, & 0 \leq | L (i) | \leq 1050 \\ 3 + \min (1, \frac{| L (i) |}{1400}), & | L (i) | &GreaterEqual; 1050 \end{matrix} - - - (9)

可以得到标准语音和训练集语音的相对概率因子Ω_S(i)和Ω_T(i)，最后可以得到失真度d_i，

d_i＝(Ω_S(i)²+Ω_T(i)²)|L_S(i)-L_T(i)| (10)

第二，基音失真度计算

基音失真度体现了测试数据与参考模板间在基音序列上的差异。图5本发明语音数据的测评方法中基音失真度计算方法的示意图。首先对提取的训练语音基音序列和测试语音基音序列进行归一化。归一化的方法是将基音序列除以最大值。由于不同的语音样本，求取的基音序列长度是不同的，在比对前需要将测试基音序列长度规整为参考模板序列长度。规整的方法很多，例如拉格朗日插值、牛顿插值、三次样条插值、分段插值等，本发明主要采用前两种算法进行规整。

记参考模板基音序列长度为n，基音失真度为dist

dist = Σ_{i = 1}^{n} | {\tilde{S}}_{i} - S_{i} | - - - (11)

式中：

指第i帧参考基音序列规整后的值；S_i是测试基音序列规整后第i帧基音序列的值。

第三，共振峰失真度计算

对同一韵母，不同发音者得出的共振峰频率是不同的，但对应它的共振峰轨迹和他们之间相对位置是相似的，因此对共振峰模式进行归一化后，可以作为评估韵母发音的特征。

图6本发明语音数据的测评方法中共振峰失真度计算方法的示意图。首先对提取的训练语音共振峰和测试语音共振峰进行归一化。归一化的方法是将前面得到的三个共振峰除以第三共振峰(F3)的最大值。由于不同的语音样本，求取的共振峰长度是不同的，在进行比对前需要将共振峰规整为同一长度，本发明长度取15。

记规整后的长度为n帧，共振峰失真度dist可表示为：

dist = Σ_{i = 1}^{3} Σ_{j = 1}^{n} | {\tilde{S}}_{ij} - S_{ij} | - - - (12)

式中

指训练语音第i个共振峰第j帧的值；S_ij指测试语音第i个共振峰第j帧的值。

步骤104，将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据。

综合发音评分和声调识别结果，对测试者的发音进行最后评价，根据匹配分数、基音分数和共振峰分数，采用分数融合技术，从而得到主观测评结果数据。

就是利用主客观评分映射方法，建立所述语音识别失真度、-基音失真度及共振峰失真度与评分之间的映射关系模型，具体包括如下步骤：

首先对先前得出的三个失真度进行映射，将测试发音与参考发音之间的差异程度转化为与专家评分相同的区间。映射函数可以是线性函数或非线性函数。

指数函数：

y = \frac{100}{1 + a * x^{b}} - - - (13)

式中y映射后的机器分数，x是失真度，a、b是系数可以通过MATLAB的fminsearch函数获取。

多项式函数：

y＝a₁x³+a₂x²+a₃x+b (14)

通过映射后得到三个机器分数，分别是匹配分数、基音分数和共振峰分数，接下来需要对这个三个分数进行融合。融合方法可以采用线性加权、支持向量机和人工神经网络等。

线性加权法就是利用公式

score＝w₁x₁+w₂x₂+w₃x₃+b (15)

式中score是最后获取的机器分数；x₁、x₂、x₃是三个机器分数，w₁、w₂、w₃是三个机器分数的权值，满足w₁+w₂+w₃＝1，通过最小二乘估计获取。

支持向量机具有一种具有很好泛化能力的回归方法，基于支持向量机的分数融合可以通过软件(如LibSVM等)实现。

步骤105，根据所述主观测评结果数据，依照所述典型偏误特征，得到发音练习数据。

发音练习数据具体包括所述典型偏误特征对应的标准汉语发音练习数据。以及生成所述典型偏误特征对应的标准汉语发音的发音视频和音频指导数据，讲解发音方法，指点缺陷所在，结合前期准备的专家知识对测试者进行针对性教学，采用标准发音示意图，动画，视频等形式显示标准发音方法。最终针对测试者发音特点，安排相应课程和辅导练习。发音教学时可以综合专家知识对测试的发音进行综合指导，用原理图，动画，视频等形式显示标准发音方法，最后生成有针对性的发音练习数据。

(1)舌位发音方法指导

首先从共振峰参数上判断测试者发音时的舌位是否正确

标准普通话共39个韵母，包括23个元音和16个由元音附带鼻辅音韵尾。在声学语音学中，元音音色是由共振峰的分布来体现的。F1与舌位的高低有关，舌位越高，F1就越低。F2与舌位的前后有关，舌位越前，F2就越高；F2也与唇形的圆展有关，唇越圆，F2也越低。F3与-r化音色有关，舌尖上翘越重，-r化音色越重，F3就越低。

针对这些特点，本发明提出以下共振峰舌位模式

首先分别定义Mean₁、Mean₂和Mean₃为当前语音的前三个共振峰平均值，MeanX、MeanY和MeanZ分别是所对应矩形区域的中心值。

如果将同一个元音、不同发音人的共振峰数据绘在同一张图上，那么得到的不是一个确定的点，而是分布在一个较大范围内的点的集合。如果将所有的音位都依照此法绘制出来，那么会出现不同音位互相重叠的现象，为减小数据的分散性，系统首先对数据进行组合滤波，然后进行标准化处理。

Threshold₁、Threshold₂和Threshold₃分别是共振峰F1、F2和F3的阈值，由实验确定。令

dist₁＝Mean₁-MeanX

dist₂＝Mean₂-MeanY

dist₃＝Mean₃-MeanZ

dist₁＞Threshold₁	舌位太低
		dist₁＜-Threshold₁	舌位太高
dist₂＞Threshold₂	舌位太靠前
		dist₂＜-Threshold₂	舌位太靠后
dist₃＞Threshold₃	舌尖位置太低
		dist₃＜-Threshold₃	舌尖位置太高

注：F2也与嘴唇的圆展程度有关，圆唇时F2降低。

通过以上的共振峰舌位模式，可以对测试者的发音进行舌位判别，通过与标准音专家知识进行比较，从而指出测试者发音的舌位缺陷所在。

(2)声调指导

根据测试者录音的声调识别结果，指出测试者录音的声调缺陷。给出标准发音的声调曲线形状并播放标准录音。

2、针对性教学

(1)在声调教学方面采用显示标准发音基音曲线，同时实时显示测试者发音基音轨迹的方法，使测试者可以实时感知自己的声调变化，快速与标准声调进行比对并校正。

(2)采用动画，视频等形式显示标准发音方法，图7和图8为本发明语音数据的测评方法中发音指导示意图，分别显示了汉语拼音中a和u的发音口腔形状示意图。

a/a/(āáǎà)3)u/u/(ūúǔù)

韵母a发音时嘴唇自然张大，舌放平，舌头中间微微隆起，声带颤动。

韵母u发音时嘴唇拢圆，突出呈孔状，舌面后部隆起，声带颤动。

通过这种直观显示，测试者可以很容易理解正确发音的口腔形状、唇形、气流等知识。

(3)针对测试者母语的发音习惯与特点，安排相应的学习课程与设计专门的辅导练习，让测试者强化普通话的薄弱环节。

图9为本发明语音数据的测评装置的示意图，如图所示，本发明语音数据的测评装置具体包括：采集单元11、提取单元12、处理单元13和映射单元14。

采集单元11用于采集测评汉语语音的测评发音数据；提取单元12用于从所述测评发音数据中按照专家知识数据库中的专家知识数据提取特征参数，从所述特征参数中查询典型偏误特征；处理单元13用于根据所述特征参数得到客观测评结果数据；映射单元14用于将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据。

本发明语音数据的测评方法和装置，先由测试者自行确定母语的地区，然后采集发音数据，提取特征参数处理测试者语音数据，分析偏误特征，然后依据评分映射计算测试者的发音质量评分数据。在最后的发音教学单元中结合专家知识对测试者进行有针对性的教学。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据的测评方法，其特征在于，所述方法包括：

采集测评汉语语音的测评发音数据；

根据所述特征参数得到客观测评结果数据；

2.根据权利要求1所述的语音数据的测评方法，其特征在于，所述采集测评汉语语音的测评发音数据具体包括，采集非汉语母语的汉语语音测评发音数据，并且将该测评发音数据按照年龄和性别归类。

3.根据权利要求1所述的语音数据的测评方法，其特征在于，所述从所述测评发音数据中提取特征参数，从所述特征参数中查询典型偏误特征具体包括，根据不同年龄和性别按照语音测评标准，从所述测评发音数据中提取特征参数，将所述特征参数进行统计和匹配得到所述典型偏误特征。

4.根据权利要求3所述的语音数据的测评方法，其特征在于，所述从所述测评发音数据中提取特征参数具体包括，从所述测评发音数据中提取MFCC信息、基音信息和共振峰信息。

5.根据权利要求4所述的语音数据的测评方法，其特征在于，所述根据所述特征参数得到客观测评结果数据具体包括，计算所述MFCC信息、基音信息和共振峰信息失真度的匹配分数、基音分数和共振峰分数。

6.根据权利要求5所述的语音数据的测评方法，其特征在于，所述将所述客观测评结果数据利用评分映射关系进行映射处理得到主观测评结果数据具体包括，根据匹配分数、基音分数和共振峰分数，采用分数融合技术，从而得到主观测评结果数据。

7.根据权利要求1所述的语音数据的测评方法，其特征在于，所述方法还包括，根据所述主观测评结果数据，依照所述典型偏误特征，得到发音练习数据。

8.根据权利要求7所述的语音数据的测评方法，其特征在于，所述发音练习数据具体包括所述典型偏误特征对应的标准汉语发音练习数据。

9.根据权利要求7所述的语音数据的测评方法，其特征在于，所述方法还包括，生成所述典型偏误特征对应的标准汉语发音的发音视频和音频指导数据。

10.一种语音数据的测评装置，其特征在于，所述装置包括：

采集单元，用于采集测评汉语语音的测评发音数据；

处理单元，用于根据所述特征参数得到客观测评结果数据；