CN103366735A

CN103366735A - 语音数据的映射方法和装置

Info

Publication number: CN103366735A
Application number: CN201210089722XA
Authority: CN
Inventors: 谢凌云; 章斯宇; 潘兴德; 韩卫生; 孟子厚
Original assignee: BEIJING ZHONGCHUAN TEANA DIGITAL TECHNOLOGY Co Ltd
Current assignee: BEJING ANGEL VOICE DIGITAL TECH. Co.,Ltd.
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-23
Anticipated expiration: 2032-03-29
Also published as: CN103366735B

Abstract

本发明涉及一种语音数据的映射方法和装置。所述方法包括：采集语音发音数据，建立当地母语语音数据库、当地汉语语音数据库，以及标准汉语语音数据库；建立评分语音数据库；对评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；对当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库；根据专家知识数据库中的专家知识数据选择特征向量，特征向量包括特征参数和特征参数的权重，从评分数据库中进行语音参数提取；将特征向量与评分数据之间建立评分映射关系。本发明可以基于语言生态学的方式，建立起特征向量与评分数据之间的准确的评分映射关系。

Description

语音数据的映射方法和装置

技术领域

本发明涉及一种语音数据的映射方法和装置，尤其涉及一种基于语言生态学的语音数据的映射方法和装置。

背景技术

近年来，随着语音识别等语音技术的进步，计算机辅助语言学习技术作为一个全新的交叉学科研究课题逐渐受到学术界和教育界的关注。

现有的运用计算机进行普通话水平测试和指导学习的方法采用了以音段为单位建立普通话水平测试评分机制，采用语音识别的方法，计算参加普通话水平考试考生的得分，并指出考生的发音错误。

但是现有技术有如下缺陷：

该技术主要针对我国的普通话水平考试应用，考生的母语基本为汉语，汉语发音水平很高，其方法不适合母语非汉语的汉语学习者的发音水平评价和发音指导；

该技术过多的依赖于隐马尔科夫模型等统计学方法，没有针对汉语普通话学习者的母语(或方言)背景进行语音生态分析和相应的系统设计；

该技术提出了发音错误分析和指导，但没有给出具体的实现方法，导致系统功能并不能实现。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种语音数据的映射方法和装置，可以有效的利用语言生态学来实现非汉语母语语音数据的映射，有效改善和提高映射的精确度。

为实现上述目的，本发明提供了一种语音数据的映射方法，所述方法包括：

采集语音发音数据，建立当地母语发音的当地母语语音数据库、当地汉语发音的当地汉语语音数据库，以及标准汉语发音的标准汉语语音数据库；

利用所述当地汉语语音数据库和标准汉语语音数据库建立评分语音数据库；

对所述当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库；并且对所述评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；

根据所述专家知识数据库中的专家知识数据选择特征向量，所述特征向量包括特征参数和所述特征参数的权重，从所述评分数据库中进行语音参数提取；

将特征向量与评分数据之间建立评分映射关系。

本发明还提供了一种语音数据的映射装置，所述装置包括：

采集单元，用于采集语音发音数据，建立当地母语发音的当地母语语音数据库、当地汉语发音的当地汉语语音数据库，以及标准汉语发音的标准汉语语音数据库；

第一建立单元，用于利用所述当地汉语语音数据库和标准汉语语音数据库建立评分语音数据库；

分析单元，用于对所述评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；

第二建立单元，用于对所述当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库；

提取单元，用于根据所述专家知识数据库中的专家知识数据选择特征向量，所述特征向量包括特征参数和所述特征参数的权重，从所述评分数据库中进行语音参数提取；

映射单元，用于将特征向量与评分数据之间建立评分映射关系。

本发明语音数据的映射方法和装置，可以基于语言生态学的方式，将获取到的可以是非汉语母语的当地人学习汉语发音时的典型偏误特征以及专家知识，最后利用评分语音数据库中的特征向量，建立起特征向量与评分数据之间的准确的评分映射关系。

附图说明

图1为本发明语音数据的映射方法的流程图；

图2为本发明语音数据的映射方法中各个语音数据库的建立示意图；

图3为本发明语音数据的映射方法中特征参数的提取和映射的示意图；

图4为本发明语音数据的映射方法中倒谱法基音周期估计的示意图；

图5为本发明语音数据的映射装置的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明是一种利用计算机辅助的汉语学习方法和装置，计算机辅助汉语学习方法分为前期准备和发音教学两个阶段：

第一个阶段是基于语言生态调查的前期准备阶段工作，对母语非汉语的汉语学习者的教学，起决定性的作用，包含了语音数据采集，语音数据分析和特征提取，获取当地人学习汉语发音时的专家知识和典型偏误特征。选取部分当地人汉语普通话语音数据库语音和标准语音数据库语音作为评分语音数据库数据，最后利用评分语音数据库中的特征向量，建立起特征向量与打分之间的评分映射。

第二个阶段是发音教学阶段，首先对测试者的发音录音进行处理，先进行特征提取，然后通过偏误分析，客观评分，在最后的发音教学单元中结合专家知识对测试者进行有针对性的教学。

本发明就是所谓的第一个阶段的具体过程，图1为本发明语音数据的映射方法的流程图，如图所示，本发明具体包括如下步骤：

步骤101，采集语音发音数据，建立当地母语发音的当地母语语音数据库、当地汉语发音的当地汉语语音数据库，以及标准汉语发音的标准汉语语音数据库；

步骤102，利用所述当地汉语语音数据库和标准汉语语音数据库建立评分语音数据库；

图2为本发明语音数据的映射方法中各个语音数据库的建立示意图。就是先在普通话普及地区寻找发音标准的人群，建立标准汉语发音语音数据库；再针对母语为非普通话(可以是外语、少数民族语言、方言)的地区人群，在当地采集两个语音数据库，一个是当地母语语音数据库，一个是会说普通话但又不熟练的当地汉语语音数据库。各个语音数据库的录制人群的年龄遵循正态分布，录音文本按照国家语委公布的字频词频表来设计，尽可能覆盖普通话所有语音现象。

然后按不同性别和年龄段，选取部分具有代表性的当地人汉语普通话语音数据库语音和标准语音数据库语音作为评分语音数据库数据，语音的选取要尽可能覆盖不同性别、年龄的人群，最后由测试员对评分语音数据库数据进行评分和标注；

步骤103，对所述评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；并且对所述当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库。

本步骤就是语音数据的分析和特征提的过程，首先进行听音分析和语音生态研究，总结出当地母语发音的语音学特点，以及当地人说普通话时的常见错误类型，了解母语向普通话迁移的过程中，会出现的一系列不正确的语音现象和典型偏误，从而得到当地语音生态的专家知识。接着，利用这些知识设置一个与特征参数相关联的典型偏误的专家知识数据库。利用这个专家知识指导客观的语音特征参数提取。最后处理母语语音、当地人的汉语发音语音数据库，提取这些特征参数。

步骤104，根据所述专家知识数据库中的专家知识数据选择特征向量，所述特征向量包括特征参数和所述特征参数的权重，从所述评分数据库中进行语音参数提取；

语音生态分析的专家知识数据库中的专家知识能够直接指导语音客观特征参数的提取。这种分析侧重语音的声韵调系统，结合声学元音图、过渡音征、基频曲线以及共振峰模式等语音学参数，把三个语音数据库的分析数据放在一起比较，可以找出当地母语的发音特点，以及当地人群学习普通话时，也就是从母语向普通话迁移时，比较容易产生的典型发音偏误。

本步骤依据语音生态分析得到的专家知识进行特征参数选择和权重设置，而不是千篇一律地对所有发音都使用同一组特征向量，从而可以实施有针对性的个性化的语音客观评分策略。特征向量中的各个特征参数、权重系数设置好就可以递交给客观评分算法进行评分映射。

图3为本发明语音数据的映射方法中特征参数的提取和映射的示意图。评分映射的实施过程是首先对数据库中的标准语音参数进行训练，建立不同性别、年龄的标准模板，把地方汉语发音的参数作为测试集，计算测试集与标准模板间的语音识别失真度、基音失真度和共振峰失真度。在计算基音失真度时，也可以先进行声调识别，按声调的不同把语音分为四类，再进行失真度计算。最后利用多项式回归、支持向量机、高斯混合模型和神经网络等主客观评分映射方法，建立各失真度与人工评分之间的映射机制。语音生态分析的专家知识指导特征参数的选择和权重设置方法具体如下：

一，特征参数选择

特征参数选取原则：对于发音非典型偏误的音节，采用标准的MFCC参数、基音信息及共振峰信息组成特征向量；对于那些出现典型发音偏误的声母、韵母及声调，与标准的特征参数一起组成该音节的个性化特征向量。以山西长治方言区为例，当地普通话与标准普通话相比典型偏误主要体现在以下几个方面。

1.长治普通话声母发音的典型偏误是平翘舌音的混淆，主要是将翘舌音平舌化，也就是把舌尖后音都读作舌尖前音，这主要是受长治话缺乏舌尖后一组声母辅音音位影响的结果。通过测量单音节声母的强频集中区的F2、F3值可实现平翘舌音的辨识。

2.长治普通话的韵母偏误类型主要集中在前、后鼻音韵尾发音相混及韵尾发音不到位介于两者之间，其中主要是前鼻音韵尾变成后鼻音韵尾。从长治普通话的共振峰模式来看，与标准普通话相比，F2的偏离程度明显要高于F1。

3.长治普通话声调的典型偏误集中在上声调形。由于长治人在发上声时，声带由略微紧张到立刻松弛下来后，没有形成后续的再次迅速绷紧，导致长治普通话上声的基音曲线呈现下降趋势，没有标准普通话中的弯曲过程。

以上是山西长治普通话在声、韵母及声调上的典型偏误，对于长治普通话发音非典型偏误的音节，就采用标准的MFCC参数、基音信息及共振峰信息组成特征向量。对于那些声母、韵母及声调出现典型发音偏误的音节，根据典型偏误建立新的训练语音数据库，将提取的典型偏误与标准的特征参数一起组成该音节的个性化特征向量，并设置各向量的权重。

二，权重的设置

权重设置的方法有两种，一是直接的主观设置，即根据语音生态分析的专家知识，直接对各个特征参数设置一个主观感觉合理的权重值。另外一种方法是采取单一特征去除的客观设置方法：对于特征参数集T{T₁，T₂，…，T_i，…}，去掉其中某个特征参数T_i，用剩余的特征参数组成特征向量进行整个测试语音数据库的客观评分，与专家的主观评分进行对比得到一个相关度D_i(0＜D_i＜1)。对所有的特征参数都采取这种方法，得到一组对应的相关度D{D₁，D₂，…，D_i，…}。相关度越大的，说明去掉的这个特征参数在评分中的作用越低。由此可以得到一个特征参数的权重系数λ_i的获得公式：

λ_{i} = \frac{{1 - D}_{i}}{Σ ({1 - D}_{i})} - - - (1)

具体的，语音特征向量提取方式如下：

一，预处理

由于语音信号是一种典型的非平稳信号，加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征，而要进行前期的预处理。经过预处理的语音数据就可以进行特征参数提取。预处理模块包括预采样和量化、预加重滤波、加窗分帧、端点检测。

预加重滤波器是一个一阶高通滤波器。目的是滤除低频干扰，提升语音信号的高频部分，使信号的频谱变得平坦，便于进行频谱分析或声道参数的分析。预加重滤波器一般形式如下：

H(z)＝1-uz^-1 (2)

其中，u的值接近于1，在本系统中u的值取为0.97。

语音信号在10-30ms内保持相对平稳，因此帧长一般取10-30ms，帧移通常为帧长的0～1/2。本系统帧长取25ms，帧移取5ms。

加窗可以保持语音信号的短时平稳性，减少截断导致的吉布斯效应。本系统采用汉明窗，窗函数如下

W_{hm} = \{\begin{matrix} 0.5 - 0.46 \cos (\frac{2 nπ}{N - 1}), & 0 \leq n < N - 1 \\ 0, & other \end{matrix} - - - (3)

端点检测的基本参数主要有短时能量及平均幅度和过零率。

设经加窗处理后得到的第n帧语音信号为x_n(m)，则x_n(m)满足下式：

x_n(m)＝w(m)x(n+m)，N＝0，T，2T，…；0≤m≤N-1 (4)

式中w(m)是窗函数，N是窗长；下标n＝0，1，…表示帧号。

那么x_n(m)的短时能量可以表示为：

E_{n} = \frac{1}{N} Σ_{m = 0}^{N - 1} x_{n}^{2} (m) - - - (5)

短时过零率(ZCR)表示一帧语音信号波形穿过零点电平的次数，可通过如下公式计算

ZCR = \frac{1}{2} Σ_{n = 1}^{N} | sgn [x_{i} (n)] - sgn [x_{i} (n - 1)] | - - - (6)

式中sgn[]是符号函数，即

sgn [x] = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ - 1, & x < 0 \end{matrix}

端点检测算法采用双门限算法，双门限端点检测包括短时能量检测和短时过零率检测，检测之前分别为短时能量和过零率各设置一个较高门限和一个较低门限：E_h，E_l，ZCR_h和ZCR_l，门限值的计算需要根据不同环境进行调整。语音端点检测把语音段分为三类：静音段、过渡段和语音段。能量和过零率均低于低门限的语音认为是处在静音段，只要其中一个超过低门限则认为进入过渡段，能量和过零率有一个都超过高门限才被认为进入语音段。同时为了去除噪声的误判，语音段的长度门限为20-30ms，为了避免字间空隙认为是静音，静音段的长度门限为30-50ms。需要注意的是，为避免短时能量E_n溢出及配合后边的阈值，本发明中采用短时平均幅度STAM_n代替E_n，STAM_n可以表示为

{STAM}_{n} = \frac{1}{N} Σ_{m = 0}^{N - 1} (| x_{n} (m) | * 0.0625) - - - (7)

二，特征参数提取

1、MFCC系数提取

人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，基本上是一个对数的关系。MFCC系数是一种能够比较充分利用人耳的这种感知特性的系数。

首先在语音的频谱范围内设置若干个带通滤波器：

Hm(n)，m＝0，1，…，M-1；N＝0，1，…，N/2-1，其中M为滤波器的个数，通常取12，与临界带的个数一样；N为一帧语音信号的点数，为了能利用FFT，本系统N取256。MFCC系数的计算过程如下：

(1)、计算离散功率谱：对预处理的每帧进行离散傅立叶变换FFT得到频谱，再取模的平方得到功率谱S(i)；

(2)、将功率谱通过滤波器组：计算S(i)通过M个Hm(n)后的功率值，即计算S(n)和Hm(n)在各离散频率点上的乘积之和，得到M个参数P_m，m＝0，1，…，M-1；

(3)、取对数：计算P_m的自然对数，得到L_m，m＝0，1，…，M-1；

(4)、离散余弦变换：对L_m计算其离散余弦变换，得到D_m，m＝0，1，…，M-1，舍去代表直流成份的D₀，取D₁，D₂，…，D_k作为MFCC参数。

2、基音信息提取

人在发浊音时，气流通过声门使声带产生张驰振荡式振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，又称有声语音，它携带着语音中的大部分能量。这种声带振动的频率称为基频，相应的周期就称为基音周期(Pitch)。

提取基音之前要去除静音和清音，清音的短时过零率要大于浊音的短时过零率，而浊音的短时能量则要大于清音。另外，静音部分，无论短时过零率还是短时能量都要小于浊音和清音。考虑到普通话的音节的结构，整个切除清音和静音的过程可以采用基于短时能量和短时过零率的算法，算法的主要思想是通过设置一个较高的短时过零率门限以确定清音的开始，然后向后搜索一个较低的短时过零率门限以确定清音的结束，同时综合考虑短时能量。图3是切除清音和静音方法的示意图。

定义三个短时过零率ZCR阈值：HTHZ(22-27)、LTHZ(17-20)和THZ(2-5)。再定义两个短时能量STAM阈值HTHE和LTHE，前者为STAM序列的最大值的四分之一，后者为最大STAM值的1/8和2的较小者。

首先从语音的前端开始同时搜索大于HTHZ或者HTHE的语音帧。当STAM首先大于HTHE时，则认为该语音帧为浊音部分的开端；否则，当ZCR首先大于HTHZ时，则认为该语音真为清音部分的开端。清音部分的始端找到后，就开始通过LTHZ搜索清音部分的终端：当语音帧的ZCR小于HTHZ时，则认为该语音帧为清音部分的终端。在进行清音终端搜索时，利用STAM对浊音始端的搜索也没有停止。因为有些音节前面并没有清音，虽然通过ZCR也能够把浊音和静音区分开来，但是在某些情况下，基于ZCR而确定的浊音始端会发生较严重的错误，被定位得比较靠后，而利用STAM则可以在一定程度上避免这样的情况所带来的影响：当通过ZCR定位的浊音部分太过靠后(设定了浊音的最短时长)，以至于浊音太短时，则以STAM定位的浊音始端为准。同时，浊音部分的终端也是通过THZ和LTHE来确定的。从语音后端开始搜索到ZCR大于THZ或者STAM大于LTHE的语音帧，即认为是浊音部分的终端。

找到浊音段后，就可以进行基音周期估计，图4为本发明语音数据的映射方法中倒谱法基音周期估计的示意图。

其中，累加器是为了更好地突出基频值，因为频率越高，其对应的幅值也越低，同时，由累加器引进的直流分量也被随后的滤波器很好地消除了，所以语音的低频部分相对于其它频率是被突出了，从而增强了基频的提取效果。

滤波器是一个8阶的巴特沃兹带通滤波器，带宽为60Hz到900Hz，滤波器的高端截止频率置为900Hz，既可以除去大部分共振峰的影响，又可以当基音频率为最高450Hz时仍能保留其一二次谐波。低端截频设置为60Hz是为了抑制50Hz的交流电源干扰。

计算得到的基音周期轨迹与真实的基音周期轨迹不可能完全吻合，在一些局部段落或区域中有时会有一个或几个基音周期估值偏离了正常轨迹。所以基音周期估计后，一般要进行平滑。比较常用的平滑方法有中值平滑、线性平滑、算数平均滤波及消抖滤波等。

3、共振峰信息提取

当准周期脉冲激励进入声道时就会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度，它是区分不同韵母的重要参数。发辅音时，不同的发音部位形成了声腔的不同形状，改变了声腔的调音作用，这个变化影响到辅音发音时湍流噪音产生的能量集中在不同的频率区域，形成不同的强频集中区。从辅音的频谱上的能量分布区域及强频区的频率轴上位置的高低，可以反映出他的调音部位的不同和差异。测量声母辅音的强频集中区的共振峰值可以用于对平翘舌音的判别。

本发明共振峰的提取方法采用LPC法，就是将语音的声道模型假设为全极点模型，使用线性预测分析法的对谱包络进行匹配。

步骤105，将所述标准汉语语音数据库中不同性别和年龄段的语音数据作为标准模板，将当地汉语语音数据库中的当地汉语发音作为测试集；

步骤106，计算所述测试集与标准模板之间的语音识别失真度、基音失真度和共振峰失真度；

即利用主客观评分映射方法，建立所述语音识别失真度、基音失真度及共振峰失真度与评分之间的映射关系模型，具体处理如下：

失真度指测试语音参数与标准模板相应参数间的声学距离，包括语音识别失真度、基音失真度和共振峰失真度，本发明把评分语音数据库中的标准语音参数作为标准模板，把当地人的汉语发音作为测试集进行各种失真度计算。

第一，语音失真度计算

语音识别失真度基于39维MFCC系数，具体包括12维MFCC系数和归一化的能量及其一阶和二阶差分。本发明采用两种方案实现语音识别失真度的计算。

1.动态时间规划(DTW)算法

由于对同一个词或音节的两次发音是不可能完全相同的，不存在线性对应关系。设参考模板有M帧矢量｛R(1)，R(2)，…，R(m)，…，R(M)}，R(m)为第m帧的语音特征矢量，训练数据有N帧矢量{T(1)，T(2)，…，T(n)，…，T(N)}，T(n)是第n帧的语音特征矢量，T中第i_n帧特征与R中i_m帧特征之间的距离d(T(i_n)，R(i_m))等于两矢量间的欧氏距离。

设规整函数i_m＝φ(i_n)将测试数据矢量的时间轴n非线性地映射到参考模板的时间轴m上，并使该函数满足：

d_{rec} = \min_{Φ (i_{n})} Σ_{i_{n} = 1}^{N} d (T (i_{n}), R (Φ (i_{n}))) - - - (8)

d_rec就是处于最优时间规整情况下两矢量的距离。

2.隐马尔可夫模型(HMM)

HMM的训练过程是本领域技术人员公知技术，这里不做详细说明。设θ_i是第i个音素的HMM模型，O是该音素的在训练数据中的相应的特征矢量，给定HMM模型θ和观察序列O＝(o₁，o₂，…，o_T)，可得到特征矢量O对于HMM模型θ_i的输出对数概率L(i)为

L(i)＝|log(P(o|θ_i))| (9)

则可以计算出标准语音的对数概率为L_s(i)，训练语音的对数概率为L_T(i)定义相对概率因子Ω(i)

Ω (i) = \{\begin{matrix} \frac{| L (i) |}{350}, & 0 \leq | L (i) | \leq 1050 \\ 3 + \min (1, \frac{| L (i) |}{1400}), & | L (i) | > 1050 \end{matrix} - - - (10)

可以得到标准语音和训练集语音的相对概率因子Ω_S(i)和Ω_T(i)，最后可以得到失真度d_rec，

d_rec＝(Ω_S(i)²+Ω_T(i)²)|L_S(i)-L_T(i)| (11)

第二，基音失真度计算

基音失真度体现了测试数据与参考模板间在基音序列上的差异。首先对提取的训练语音基音序列和测试语音基音序列进行归一化。归一化的方法是将基音序列除以最大值。由于不同的语音样本，求取的基音序列长度是不同的，在比对前需要将测试基音序列长度规整为参考模板序列长度。规整的方法很多，例如拉格朗日插值、牛顿插值、三次样条插值、分段插值等，本发明主要采用前两种算法进行规整。

记参考模板基音序列长度为n，基音失真度为d_pit

d_{pit} = Σ_{i = 1}^{n} λ | {\tilde{S}}_{i} - S_{i} | - - - (12)

式中：指第i帧参考基音序列规整后的值；S_i是测试基音序列规整后第i帧基音序列的值，λ是典型偏误系数，其值可由单一特征去除法获取，对没有典型偏误的音节λ＝1。

第三，共振峰失真度计算

对同一韵母，不同发音者得出的共振峰频率是不同的，但对应它的共振峰轨迹和他们之间相对位置是相似的，因此对共振峰模式进行归一化后，可以作为评估韵母发音的特征。

首先对提取的训练语音共振峰和测试语音共振峰进行归一化。归一化的方法是将前面得到的三个共振峰除以第三共振峰(F3)的最大值。由于不同的语音样本，求取的共振峰长度是不同的，在进行比对前需要将共振峰规整为同一长度，本发明长度取15。

记规整后的长度为n帧，共振峰失真度d_for可表示为：

d_{for} = Σ_{i = 1}^{3} Σ_{j = 1}^{n} λ_{i} | {\tilde{S}}_{ij} - S_{ij} | - - - (13)

式中

指训练语音第i个共振峰第j帧的值；S_ij指测试语音第i个共振峰第j帧的值；λ_i为典型偏误系数，其值可由单一特征去除法获取，对没有典型偏误的音节λ_i＝1。

步骤107，将特征向量与评分数据之间建立评分映射关系；

就是利用主客观评分映射方法，建立所述语音识别失真度、基音失真度及共振峰失真度与评分之间的映射关系模型，具体包括如下步骤：

首先对先前得出的三个失真度进行映射，将测试发音与参考发音之间的差异程度转化为与专家评分相同的区间。映射函数可以是线性函数或非线性函数。

指数函数：

y = \frac{100}{1 + a * x^{b}} - - - (14)

式中y映射后的机器分数，x是失真度，a、b是系数，可以通过MATLAB的fminsearch函数获取。

多项式函数：

y＝a₁x³+a₂x²+a₃x+b (15)

通过映射后得到三个机器分数，分别是匹配分数、基音分数和共振峰分数，接下来需要对这个三个分数进行融合。例如线性加权、支持向量机和人工神经网络等。线性加权法就是利用公式

Score＝w₁x₁+w₂x₂+w₃x₃+b (16)

式中Score是最后获取的机器分数；x₁、x₂、x₃是三个机器分数，w₁、w₂、w₃是三个机器分数的权值，满足w₁+w₂+w₃＝1，通过最小二乘估计获取。

支持向量机是一种具有很好泛化能力的回归方法，基于支持向量机的分数融合可以通过软件(如LibSVM等)实现。综合以上过程可以将山西长治普通话的处理方法概括如下：

(1).分析得出与标准普通话相比当地发音的典型偏误：声母为平翘舌音时F3降低而接近F2、韵母前后鼻音共振峰的F2偏离严重和发上声时基音曲线没有弯曲；

(2).由于各特征参数的分量对评测的影响不同，如对韵母前后鼻音来说，共振峰F2的影响要比F1和F3大，因此根据单一特征去除的方法获取典型偏误系数；

(3).在典型偏误特征的指导下，分别建立与各典型偏误特征相关联的语音数据库和不包含典型偏误特征的语音数据库，将它们作为新的训练数据库，并通过分数融合技术获取独立的权值。

图5为本发明语音数据的映射装置的示意图，如图所示，本发明语音数据的映射装置具体包括：采集单元11、第一建立单元12、分析单元13、第二建立单元14、提取单元15和映射单元16。

采集单元11用于采集语音发音数据，建立当地母语发音的当地母语语音数据库、当地汉语发音的当地汉语语音数据库，以及标准汉语发音的标准汉语语音数据库；第一建立单元12用于利用所述当地汉语语音数据库和标准汉语语音数据库建立评分语音数据库；分析单元13用于对所述评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；第二建立单元14用于对所述当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库；提取单元15用于根据所述专家知识数据库中的专家知识数据选择特征向量，所述特征向量包括特征参数和所述特征参数的权重，从所述评分数据库中进行语音参数提取；映射单元16用于将特征向量与评分数据之间建立评分映射关系。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据的映射方法，其特征在于，所述方法包括：

对所述评分语音数据库进行分析和统计得到当地汉语发音的典型偏误特征；并且对所述当地母语语音数据库、当地汉语语音数据库和评分语音数据库中的语音数据进行分析得到专家知识数据，建立专家知识数据库；

将特征向量与评分数据之间建立评分映射关系。

2.根据权利要求1所述的语音数据的映射方法，其特征在于，所述采集语音发音数据，建立当地母语发音的当地母语语音数据库、当地汉语发音的当地汉语语音数据库具体包括：采集不同母语地区的不同性别和年龄段的发音数据，利用当地母语发音的数据建立当地母语语音数据库，利用当地汉语发音的数据建立当地汉语语音数据库。

3.根据权利要求1所述的语音数据的映射方法，其特征在于，所述利用所述当地汉语语音数据库和标准汉语语音数据库建立评分语音数据库具体包括：利用所述当地汉语语音数据库中不同性别和年龄段中具有代表性的当地汉语语音，和标准语音数据库中对应的不同性别和年龄段的标准语音建立所述评分语音数据库。

4.根据权利要求1所述的语音数据的映射方法，其特征在于，所述根据所述专家知识数据库中的专家知识数据选择特征向量具体包括，将典型偏误特征与特征参数相关联，针对不同的音节设置不同的特征向量；并采用单一特征去除法设置所述特征参数的权重。

5.根据权利要求4所述的语音数据的映射方法，其特征在于，所述方法还包括，对于非典型发音偏误的音节，采用标准参数组成特征向量，对于典型发音偏误的音节，在与所述特征参数相关联的现行偏误特征中，查询到对应该音节发音偏误的特征参数，与标准参数组成针对该音节的个性化特征向量。

6.根据权利要求1所述的语音数据的映射方法，其特征在于，所述将特征向量与评分数据之间建立评分映射关系之前还包括：

将所述标准汉语语音数据库中不同性别和年龄段的语音数据作为标准模板，将当地汉语语音数据库中的当地汉语发音作为测试集；

计算所述测试集与标准模板之间的语音识别失真度、基音失真度度和共振峰失真度。

7.根据权利要求6所述的语音数据的映射方法，其特征在于，所述将特征向量与评分数据之间建立评分映射关系具体包括，利用主客观评分映射方法，建立所述语音识别失真度、基音失真度和共振峰失真度与评分之间的映射关系模型。

8.根据权利要求7所述的语音数据的映射方法，其特征在于，所述建立所述语音识别失真度、基音失真度和共振峰失真度与评分之间的映射关系模型具体包括：

对所述语音识别失真度、基音失真度和共振峰失真度进行映射，得到客观映射分数，所述客观映射分数包括匹配分数、基音分数和共振峰分数；

将所述匹配分数、基音分数和共振峰分数进行融合得到映射关系模型。

9.根据权利要求8所述的语音数据的映射方法，其特征在于，所述将所述匹配分数、基音分数和共振峰分数进行融合具体包括，利用线性加权法将所述匹配分数、基音分数和共振峰分数进行融合。

10.一种语音数据的映射装置，其特征在于，所述装置包括：