CN101315733B

CN101315733B - 一种针对计算机语言学习系统发音评测的自适应方法

Info

Publication number: CN101315733B
Application number: CN2008101071189A
Authority: CN
Inventors: 王海坤; 魏思; 胡国平; 胡郁; 刘庆峰; 王仁华
Original assignee: iFlytek Co Ltd
Current assignee: IFLYTEK South Asia Information Technology (Yunnan) Co.,Ltd.
Priority date: 2008-07-17
Filing date: 2008-07-17
Publication date: 2010-06-02
Anticipated expiration: 2028-07-17
Also published as: CN101315733A

Abstract

本发明涉及一种针对计算机语言学习系统发音评测的自适应方法，包括以下步骤：搭建语音识别系统；在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别；根据切分和限制边界识别的结果计算各声韵母和声调后验概率，并根据预先设定门限分别挑选出的自适应数据；根据挑选出自适应数据对识别系统中的声学模型进行自适应；用自适应后的声学模型进行第二遍切分和识别；用最终切分识别结果提取评测参数。本发明通过后验概率挑选合适的自适应语料，既能减弱由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差，又能避免自适应时将标准模型拉偏，不能正确对发音人的发音进行评价。

Description

一种针对计算机语言学习系统发音评测的自适应方法

技术领域

本发明涉及一种针对计算机语言学习系统发音评测作出自适应调整的方法。

背景技术

为了更方便，更准确的使学生学习各种语言，目前，较多的采用计算机辅助语言学习系统，但目前的计算机辅助语言学习系统会出现一个问题：使用到的标准声学模型训练数据的发音人数目有限，不可能覆盖到各种音色；标准语料录音环境(办公室环境)跟实际环境(考试及学习环境)有差异，同时录音设备也可能有较大差异。受到这些因素的影响，使得声学模型与实际使用的情况存在较大的不匹配现象；这些因素造成了实际应用中考生的发音矢量与标准声学模型差异较大，使得识别器的性能受到很大的干扰，严重影响计算机辅助语言学习系统对发音评价的正确性。

发明内容

针对现有计算机辅助语言学习系统出现的问题，本发明通过后验概率挑选合适的自适应语料，确保既能减弱由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差，又能避免自适应时将标准模型拉偏，不能正确对发音人的发音进行评价。

本发明是通过以下技术方案实现的：

一种针对计算机语言学习系统发音评测的自适应方法，包括搭建语音识别系统，还包括以下步骤：

(1)在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别；

所述的步骤(1)包括以下步骤：

(A)根据专家的先验知识，统计得到发音人容易混淆的音素作为限定边界识别的候选项，进行声韵母替换列表的设计；

(B)利用被评测语料的文本对发音进行切分和计算目标文本的概率，记为P_T，然后，在切分得到的边界上，计算此音段对替换列表内所有模型的概率，这是一个矢量，记为(P₁，P₂，……，P_N)，得到声韵母第一遍切分和限制边界识别结果；(C)利用被评测语料的文本，在声韵母切分的边界上，计算该段对所有声调模型的概率，将这个矢量记为(P_T1，P_T2，……，P_TK)，将其中评测文本对应的调型概率记为P_TT，得到声调第一遍限制边界识别的结果；

(2)根据切分和限制边界识别的结果计算各声韵母和声调后验概率，并根据预先设定门限分别挑选出的自适应数据；

所述的步骤(2)包括以下步骤：

首先，根据切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率，记为PP(p)；同样，以调型为单位计算各个声调的后验概率，记为PP_T(p)，计算方法如下：

PP (p) = (Log \frac{P_{T}}{Σ_{i = 1}^{N} P_{i}}) / nFrame

P P_{T} (p) = (Log \frac{P_{TT}}{Σ_{i = 1}^{K} P_{Ti}}) / nFram e_{Tone}

其中nFrame为当前声韵母所占的时间长度，nFrame_Tone为单个调型所占时间长度，然后仅选择后验概率大于预先设定门限的数据作为自适应数据；

(3)根据挑选出自适应数据对识别系统中的声学模型进行自适应；

步骤(3)是根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应，得到自适应后的声韵母识别模型和声调识别模型；

(4)用自适应后的声学模型进行第二遍切分和识别；得到自适应后的声韵母识别模型和声调识别模型后，使用自适应后的模型对发音人的语料进行第二遍切分和限制边界的识别；

(5)用最终切分识别结果提取评测参数。

本发明提出了针对计算机辅助语言学习系统的一种有监督自适应方法，其自适应方法是通过后验概率挑选合适的自适应语料，引入改进自适应策略后，既减弱了因为发音人、使用环境和信道差异造成的声学特征矢量和声学模型的不匹配性，又能保证不用发音错误的数据自适应，提高了语音识别器正确的识别性能。减弱了由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差；又避免自适应时将标准模型拉偏，不能正确对发音人的发音进行评价的不足。

附图说明

图1为计算机辅助语言学习系统中自适应策略的改进方法流程框图。

具体实施方式

参见附图所示。

针对计算机语言学习系统发音评测的自适应方法包括以下步骤：

1、语音识别系统的搭建，其步骤如下：

(1)收集训练识别器语音；

(2)数据标注；

(3)声韵母模型训练；

(4)声调模型训练；

(5)将模型保存到计算机辅助语言学习系统库中。

2、在识别器基础上进行切分和限制边界的识别，其步骤如下：

(1)声韵母替换列表的统计：根据专家的先验知识，统计得到发音人容易混淆的音素作为限定边界识别的候选项，这么做好处有二：其一，简化了计算，使得后验概率计算更为方便快捷。其二，降低了声学模型混淆对分母计算的影响。第一个优点显而易见，第二个优点的说明如下：由于HMM模型并不能完全代表真实语音模型(Plug-in决策的天然缺点)，而且，某些音素对本身的混淆程度就较大(如ian-an等)而它们实际在学习者发音上的发音错误几乎不会发生，此时，忽略混淆音素的影响实际上加强了错误检测的能力。

(2)得到声韵母第一遍切分和限制边界识别结果：利用被评测语料的文本，对发音进行切分和计算目标文本的概率，记为P_T，然后，在切分得到的边界上，计算此音段对替换列表内所有模型的概率，这是一个矢量，记为(P₁，P₂，……，P_N)。

(3)得到声调第一遍限制边界识别的结果：利用被评测语料的文本，在声韵母切分的边界上，计算该段对所有声调模型的概率，将这个矢量记为(P_T1，P_T2，……，P_TK)，将其中评测文本对应的调型概率找出来，记为P_TT。

3自适应数据的挑选和自适应，其步骤如下：

(1)自适应数据的挑选：

首先，根据第一遍切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率，记为PP(p)；同样，以调型为单位计算各个声调的后验概率，记为PP_T(p)，计算方法如下：

PP (p) = (Log \frac{P_{T}}{Σ_{i = 1}^{N} P_{i}}) / nFrame

P P_{T} (p) = (Log \frac{P_{TT}}{Σ_{i = 1}^{K} P_{Ti}}) / nFram e_{Tone}

其中nFrame为当前声韵母所占的时间长度(以帧为单位，每帧10ms)，nFrame_Tone为单个调型所占时间长度。

然后仅选择后验概率高过选择预先设定门限(事先经验性设定)的数据作为自适应数据，进行有选择性的自适应：

如果PP(p)≥Thresh₁(Thresh₁：事先设定的声韵母经验性门限)，该数据保留，作为声韵母模型自适应数据；如果PP(p)＜Thresh₁舍弃该数据。

同样，如果PP_T(p)≥Thresh₂(Thresh₂：事先设定的声调经验性门限)，该数据保留，作为声调模型自适应数据；如果PP_T(p)＜Thresh₂舍弃该数据。

(2)模型自适应

根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应，得到自适应后的声韵母识别模型和声调识别模型。

4、使用自适应后的声韵母识别模型和声调识别模型，对发音人的语料进行第二遍切分和限制边界的识别，过程基本同第一遍切分识别。

5、得到最终的切分识别结果后就可以提取语音评测用到的参数了。

Claims

1.一种针对计算机语言学习系统发音评测的自适应方法，包括搭建语音识别系统，其特征在于还包括以下步骤：

所述的步骤(1)包括以下步骤：

(B)利用被评测语料的文本对发音进行切分和计算目标文本的概率，记为P_T，然后，在切分得到的边界上，计算此音段对替换列表内所有模型的概率，这是一个矢量，记为(P₁，P₂，……，P_N)，得到声韵母第一遍切分和限制边界识别结果；

(C)利用被评测语料的文本，在声韵母切分的边界上，计算该段对所有声调模型的概率，将这个矢量记为(P_T1，P_T2，……，P_TK)，将其中评测文本对应的调型概率记为P_TT，得到声调第一遍限制边界识别的结果；

所述的步骤(2)包括以下步骤：

PP (p) = (Log \frac{P_{T}}{Σ_{i = 1}^{N} P_{i}}) / nFrame

{PP}_{T} (p) = (Log \frac{P_{TT}}{Σ_{i = 1}^{K} P_{Ti}}) / {nFrame}_{Tone}

(5)用最终切分识别结果提取评测参数。