CN101710490A

CN101710490A - 语音评测的噪声补偿方法及装置

Info

Publication number: CN101710490A
Application number: CN200910222900A
Authority: CN
Inventors: 魏思; 高前勇; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2009-11-20
Filing date: 2009-11-20
Publication date: 2010-05-19
Anticipated expiration: 2029-11-20
Also published as: CN101710490B

Abstract

本发明公开了一种语音评测的噪声补偿方法，用于对带噪语音进行噪声补偿，包括训练环节和测试环节，所述训练环节包括：对噪声分类；按照多种信噪比，利用各类噪声对干净数据集进行加噪处理；对比加噪前后所述数据集的各音素的后验概率，得到各音素的后验概率补偿函数；所述测试环节包括：确定所述带噪语音中的噪声片段所属的噪声类型，并计算所述带噪语音的信噪比，从而确定后验概率补偿函数；利用所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。较传统的谱上补偿方法，本发明细化噪声类型，直接对评测特征利用后验概率补偿函数进行补偿，比现有的补偿方法更加直接、细致，可有效降低噪声对语音评测所带来的负面影响。

Description

语音评测的噪声补偿方法及装置

技术领域

本发明涉及语音评测技术领域，尤其涉及一种语音评测的噪声补偿方法及装置。

背景技术

语音评测是指能够对语言学习者的发音进行自动评测的智能语音技术，是从语音识别技术中派生出来的。语音评测技术具体应用包括，对语言学习者朗读的一个篇章、一个句子进行评分(一般称为发音评测)，以及对其中所发生的发音错误进行检出(一般称为发音检错)等。

语音评测的基本方法和步骤是：1)通过语音识别技术计算得到学习者对待朗读文本中每个音素的发音的正确程度，以及时长合理性等评测特征；2)在人工专家的评分数据库中，实现评测特征到专家评分的映射函数训练；3)对待评测的语音数据进行评测特征提取和评分映射，实现对该数据的自动评测。

语音识别的准确性与所受到的环境噪声和信道噪声的干扰有关，一旦出现环境噪音较大或者信道较不匹配，语音识别的识别正确率就会出现大幅下降。针对这一点，目前主要有三类针对噪声的补偿方法：1)抗噪性特征提取方法，2)语音增强方法，3)声学模型补偿方法，三种方法各有特点，下面分别简单介绍。

1、抗噪性特征提取方法

其基本出发点在于如何从受“污染”的语音中提取噪声“免疫性”高的特征，而不在于如何将噪声去除。此方法的优势在于不对噪声作任何先验假设，对不同噪声环境有着较强的普适性，但因为该方法对各类噪声进行统一的处理，而且不区分噪声对不同音素发音的不同影响程度，因此降噪性能有限。该方法一般作为语音识别系统抗噪处理的第一步，复杂一些的识别系统一般都还需要进一步加入另两类降噪算法处理环节。

2、语音增强方法

这种方法的根本目的是从噪声环境中恢复干净的发音波形或特征向量，例如特征向量映射方法，获得干净语音和加噪后带噪语音特征向量之间的转换函数，转换函数可以是线性、非线性或者神经网络。例如谱减法根据噪声谱的变化相对缓慢这一假设，利用无声段估计的噪声谱压低语音段的噪声，该方法的主要缺陷是十分依赖噪声/语音判决的准确性，并且会产生音乐噪声。这类方法最初从增强语音质量发展而来，主要目的是提高带噪语音的信噪比，优化信噪比的同时改变了语音信号的完整性并使得功率谱失真变形，因此和识别率提高没有必然联系。

3、声学模型补偿方法

隐马尔可夫模型(Hidden Morkov Model，HMM)是语音识别领域广泛采用的模型，模型补偿法采用带噪语音调节HMM的参数，从而降低训练和测试的噪声以及信道等环境的差异。考虑到声学模型占用较多的存储资源，该方法无法针对不同干扰环境训练针对性补偿后的声学模型，而是笼统地将各种干扰环境因素都考虑在一起，训练一个统一的补偿后的声学模型，因此无法针对不同干扰环境进行针对性的补偿，补偿效果一般。

发明内容

本发明提供一种语音评测的噪声补偿方法及装置，基于后验概率进行补偿，可获得较好的去除噪声对语音评测系统的干扰。

为此，本发明实施例采用如下技术方案：

一种语音评测的噪声补偿方法，用于对带噪语音进行噪声补偿，包括训练环节和测试环节，

所述训练环节包括：

对噪声分类；按照多种信噪比，利用各类噪声对干净数据集进行加噪处理；对比加噪前后所述数据集的各音素的后验概率，得到各音素的后验概率补偿函数；

所述测试环节包括：

确定所述带噪语音中的噪声片段所属的噪声类型，并计算所述带噪语音的信噪比，从而确定后验概率补偿函数；利用所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。

所述对噪声分类包括：

从海量现场实际录音语料中提取噪声，将所提取的噪声聚类成不同的噪声类型，得到每类噪声数据以及各类噪声数据对应的GMM。

所述确定所述带噪语音中的噪声片段所属的噪声类型包括：

从带噪语音中提取噪声片段，根据各类噪声的GMM，确定当前噪声片段所属的噪声类型。

所述对比加噪前后所述数据集的各音素的后验概率、得到各音素的后验概率补偿函数包括：

计算加噪数据集的后验概率；

计算干净数据集的后验概率；

对比加噪前后对应音素的后验概率，获取各噪声、信噪比下的后验概率补偿函数。

所述利用所确定的后验概率补偿函数对所述带噪语音的当前各音素的后验概率进行补偿包括：

对带噪语音进行音素切分和限制音素边界识别，基于音素切分和识别结果计算所述带噪语音的各音素的后验概率；

利用所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。

所述从海量现场实际录音语料中提取噪声包括：

海量现场真实录音数据库切分；

噪声片段截取、规整和拼接，得到实际录音语料的噪声。

所述将所提取的噪声聚类成不同的噪声类型、得到每类噪声数据以及各类噪声数据对应的GMM包括：

训练每个语音学习者噪声数据的GMM；

计算各噪声GMM两两间的散度距离；

自顶向下对海量噪声数据进行聚类。

所述按照多种信噪比利用各类噪声对干净数据集进行加噪处理包括：

录制干净数据集；

在同类噪声中随机挑选噪声数据，按照不同信噪比分别加噪。

所述从带噪语音中提取噪声片段包括：

带噪语音的切分；

噪声片段截取、规整和拼接，获得带噪语音中的噪声片段。

所述计算加噪数据集的后验概率包括：对加噪数据集进行音素切分和限制音素边界识别，基于音素切分和识别结果计算所述加噪数据的音素后验概率；

所述计算干净数据集的后验概率包括：对干净数据集进行音素切分和限制音素边界识别，基于音素切分和识别结果计算所述干净数据的音素后验概率。

所述对比加噪前后对应音素的后验概率，获取各噪声、信噪比下的后验概率补偿函数包括：

计算干净数据集中不同音素后验概率的累积直方图分布函数；

计算加噪数据集中不同音素后验概率的累积直方图分布函数；

根据以上两种累积直方图分布函数，获取后验概率映射关系，得到各音素的后验概率补偿函数。

一种语音评测的噪声补偿装置，用于对带噪语音进行噪声补偿，包括训练模块和测试模块，其特征在于，

所述训练模块包括：

分类单元，用于对噪声分类；

加噪单元，用于按照多种信噪比，利用所述分类单元确定的各类噪声对干净数据集进行加噪处理；

补偿函数计算单元，用于对比加噪前后所述数据集的各音素的后验概率，得到各音素的后验概率补偿函数；

所述测试模块包括：

补偿函数确定单元，用于确定所述带噪语音中的噪声片段所属的噪声类型，并计算所述带噪语音的信噪比，从而确定后验概率补偿函数；

噪声补偿单元，用于利用所述补偿函数确定单元所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。

可见，本发明直接对评测特征利用后验概率补偿函数进行补偿，比现有的补偿方法更加直接，同时本发明细化噪声类型和信噪比，且仅需要额外保存加噪前后音素后验概率的对应关系，所需资源小，实现不同的噪声环境和不同信噪比的细致区分和针对性补偿，能有效降低噪声对语音评测所带来的负面影响。

附图说明

图1为本发明语音评测的噪声补偿方法流程图；

图2为本发明语音评测的噪声补偿方法实施例训练环节原理图；

图3为本发明语音评测的噪声补偿方法实施例测试环节原理图；

图4为本发明方法实施例的整体流程图；

图5为本发明语音评测的噪声补偿装置结构示意图。

具体实施方式

对于现有的抗噪性特征提取方法，都是针对语音识别系统进行的，其主要改进在于声学特征或声学模型，而没有专门针对语音评测系统进行优化，语音评测系统中，最终使用的是基于声学模型计算得到的待朗读音素发音的后验概率，因此通过声学特征或声学模型补偿虽然有作用，但是不够直接，存在进一步改进的可能和必要。对于现有的语音增强类噪声补偿方法，虽然针对每种噪音环境设计不同的补偿函数，但是同一环境下的语音都是采用相同的补偿函数，未考虑噪音对不同音素的干扰作用之间的差异。而一般声学模型补偿方法，虽然区分了不同音素进行补偿，但考虑到声学模型占用较多存储资源，所以无法针对不同干扰环境训练补偿后的声学模型，而是笼统地将各种干扰环境因素都考虑在一起，训练一个统一的补偿后声学模型，即因为无法针对不同干扰环境进行针对性的补偿，致使补偿效果不理想。

实际上，对于语音评测，针对每个音素的发音正确程度计算是评测技术的核心所在。一般采取的音素发音正确程度计算方法是借鉴语音识别中置信度估计技术，基于各个音素的声学模型计算当前音素发音相对于待朗读音素的后验概率，以所计算得到的后验概率作为发音标准程度的度量。为了更好地度量，一般要求所用声学模型基于标准发音数据训练得到。可见，音素后验概率的准确计算是发音评测及发音检错技术中的核心。语音评测技术中的音素后验概率的计算也是基于语音识别技术，因此噪声环境对后验概率计算也会产生很大影响，也因此对语音评测整体的性能造成很大的干扰。噪声鲁棒性也是语音评测系统主要需要克服的核心问题之一。

由此，本发明基于后验概率，提出了一种语音评测的噪声补偿方法。参见图1，为本发明方法流程图，下面详细介绍。

1：训练环节

S101：从海量现场实际录音语料中提取噪声片段；

S102：将S101所提取的噪声片段聚类成若干不同的噪声类型，得到每个类型的噪声数据以及各类噪声数据对应的高斯混合模型(Gsussian MixtureModel，GMM)；

S103：按照多种信噪比，采用S102所获得的每一类噪声分别对干净数据集进行多次加噪；

S104：对比每种加噪前后所计算得到的音素后验概率，获得各音素的后验概率补偿函数；

2：测试环节

S105：从带噪语音(带噪语音即语言学习者的录音)中提取噪声片段；

S106：根据S102获得的各类噪声的GMM模型，确定当前噪声的类型，并计算当前带噪语音的信噪比，选择相应的S104所获得的后验概率补偿函数；

S107：计算当前各音素发音的后验概率；

S108：利用S106所选择的后验概率补偿函数，对S107计算到的当前后验概率进行补偿，以达到抵消噪声干扰的目的。

本发明细化噪声类型，直接对评测特征利用后验概率补偿函数进行补偿，较传统的谱上补偿方法更加直接，也避免了频谱上的失真给识别带来的负面影响，该方法通过分类加噪过程，仅需要额外保存加噪前后音素后验概率的对应关系，所需资源小，同时可细致区分不同的噪声环境和不同信噪比。

下面结合附图对本发明方法实施例进行详细描述。

请参见附图，其中，图2为本发明方法实施例的训练环节的原理图，图3为本发明方法实施例的测试环节的原理图，图4为本发明方法实施例的整体流程图。

对于训练环节，请参见图2。

S201：从海量现场真实录音中提取噪声数据；具体地，S201可细分为以下步骤(请参见图4)：S401：海量现场真实录音数据库切分；S402：噪声片段截取、规整和拼接，形成语言学习者噪声数据。

S202：将海量噪声数据聚类成若干不同的类别，每一种类别表征一类特殊的噪声环境；具体地，S202可细分为以下步骤(请参见图4)：S403：训练每个语言学习者噪声数据的GMM模型；S404：计算各噪声GMM模型两两间的散度距离；S405：自顶向下对海量噪声数据聚类。

S203：噪声按照不同类别、不同信噪比对干净环境下录音数据进行加噪；具体地，S203可细分为以下步骤(请参见图4)：S406：录制干净数据集；S407：在同一类噪声中随机挑选噪声数据，按不同信噪比分别加噪。

S204：计算加噪数据集各音素的后验概率；具体地，S204可细分为以下步骤(请参见图4)：S408：加噪数据集的根据朗读文本信息的音素切分和限制音素边界识别；S409：在音素切分和限制因素边界识别结果基础上计算音素后验概率。

S205：计算干净数据集的后验概率；具体地，S205可细分为以下步骤(请参见图4)：S410：干净数据集的根据朗读文本信息的音素切分和限制音素边界识别；S411：在音素切分和限制因素边界识别结果基础上计算音素后验概率。

S206：对比加噪前后对应音素的后验概率，获取后验概率特征的转换函数；具体地，S206可细分为以下步骤(请参见图4)：S412：计算干净环境下不同音素后验概率的累积直方图分布；S413：计算加噪后不同音素的后验概率累积直方图分布；S414：根据以上两种累积直方图分布获取后验概率映射关系。

对于测试环节，请参见图3。

从学习者录音数据(带噪数据)中提取该语言学习者的噪声数据的步骤，具体地，该步骤可细分为以下步骤(可一并参见图4中的S415～S419)：S301：学习者录音数据切分；S302：噪声片段截取、规整和拼接形成语言学习者噪声数据；S303：确定语言学习者的噪声类型；S304：计算语言学习者录音的信噪比；S305：根据噪声类型和量化信噪比确定补偿函数。

以及，计算原始带噪数据的音素后验概率并完成补偿，具体地，该步骤可细分为以下步骤(可一并参见图4中的S420～S421)：S306：带噪数据的根据朗读文本信息的音素切分和限制音素边界识别，并在音素切分和限制因素边界识别结果基础上计算音素后验概率；S307：带噪数据后验概率补偿。

对于本发明方法实施例的整体流程图请参见图4。

S401：海量现场真实录音数据库切分；

海量现场录音数据库由各种实际语言学习环境下所采集的真实录音数据构成，噪声类型和噪声强度各异，从中提取的噪声可以很好的覆盖实际使用环境。例如，可采用剑桥大学发布的语音识别开发包(HMM Tool Kit，HTK[31])对收集到的每一份录音数据及其对应的朗读文本，进行自动音段切分(ForcedAlignment，FA)，获取语音和非语音的准确边界信息。

S402：噪声片段截取、规整和拼接，形成语言学习者噪声数据；

根据现场录音语料上语音和非语音的准确边界切分信息，提取每一次录音数据的非语音片段，按平均能量大小进行排序并丢掉平均能量高的片段(这些片段往往是无关语料、增读或切分错误形成)。假设该录音人该题中共有N段静音，每一段的帧数F_i，i＝1，2，...，N(帧长25ms，帧移10ms，采样频率16kHz)，s_t为t时刻采样值，t_i ^j为第i段第j帧的起始时间点，则静音段的平均帧能量E：

E_{i} = \frac{1}{400 * F_{i} * N} Σ_{j = 1}^{F_{i}} Σ_{t = t_{i}^{j}}^{t_{i}^{j} + 400} s_{t}^{2}

................公式1

静音段的偏移b_i：

b_{i} = \frac{1}{400 * F * N_{i}} Σ_{j = 1}^{F_{i}} Σ_{t = t_{i}^{j}}^{t_{i}^{j} + 400} s_{t}

................公式2

静音段的平均幅度A_i：

A_{i} = \frac{1}{400 * F_{i} * N} Σ_{j = 1}^{F_{i}} Σ_{t = t_{i}^{j}}^{t_{i}^{j} + 400} | s_{t} |

................公式3

保留的静音片段去除偏移b_i(s′_t＝s_t-b_i)、并将幅度规整到固定幅度A₀：

s′_t＝(s_t-b_i)*A₀/A_i

................公式4

后拼接成一个完整的语音文件，作为当前录音的噪声数据。

S403：训练每个语言学习者噪声数据的GMM模型；

提取每次噪声数据的MFCC_0_D_A特征，为S402中提取得到的每个噪声数据文件，分别训练对应的高斯混合模型(Gaussian Mixture Model，GMM)。

S404：计算各噪声GMM模型两两间的散度距离；

计算两两GMM模型间的散度(Kullback-Leibler Divergence，KLD)距离。KLD距离是一种描述概率分布重合程度的距离测度，如果两个语言学习者噪声的GMM模型KLD距离越小，说明这两个噪声类型越相似，可以使用相同的噪声类型代表它们。通过一定的聚类方法，将相似的噪声类型聚成一类，并用聚到一类的所有噪声数据训练一个GMM模型，从而可以有效的减少噪声类型，便于减小存储开销和噪声分类的计算量。

S405：自顶向下对海量噪声数据聚类；

采用自顶向下(Top-down[32])方式逐层分裂，当最终形成的聚类节点满足既定数目后，分别用聚到各个节点的所有语言学习者噪声数据训练相应节点的GMM模型，用于对测试语言学习者用户噪声数据进行分类。自顶向下聚类的算法步骤如下：

1.初始化：将所有的噪声GMM(记为GMM_i，i＝1，2，...，N)归为根节点，并计算根节点的中心GMM。一个节点Φ的中心GMM(记为GMM_C(Φ))定义为该节点所包含的N_Φ个噪声GMM中的一个，且满足从该GMM到节点内各GMM的距离之和最小。即：

Dist (GM M_{i} . Φ) = \underset{{GMM}_{k} &Element; Φ}{Σ} KLD ({GMM}_{i}, {GMM}_{k})

{GMM}_{C (Φ)} = \underset{{GMM}_{i} &Element; Φ}{\arg \min} Dist ({GMM}_{i}, Φ)

基于步骤202计算得到的两两GMM间的KLD距离信息，包含N个GMM的根节点的中心可以在N²的复杂度内求解。将根节点置为当前节点；

2.对当前节点Φ进行分裂：

a)遍历当前节点中任意2个GMM(记为GMM_i，GMM_j，i≠j)，对当前节点内剩余的所有GMM，按其与GMM_i和GMM_j的KLD距离大小，选择距离较小的进行归类，分别形成以GMM_i和GMM_j为代表(未必是新节点的中心GMM)的当前节点的分裂结果，形成2个新的子节点Φ_i和Φ_j。定义根据计算Cost＝Dist(GMM_i，Φ_i)+Dist(GMM_j，Φ_j)，选取当前节点中使得Cost最小的GMM_i，GMM_j，i≠j，记为当前节点的最优分类方法。

b)如果基于当前节点的最优分类方法所获得的Dist小于Dist(GMM_C(Φ)，Φ)，则将节点Φ分裂成Φ_i和Φ_j，否则不分裂。

3.判断当前的叶子节点数目(即当前所聚类形成的噪声类别数)是否达到预设门限K，如果是，进入第4步。选取所有未尝试分裂的叶子节点

中平均距离(定义为

表示节点

中所包含的噪声GMM的个数)最大的子节点为当前节点，进入第2步。如果找不到未尝试分裂的叶子节点，进入第4步。

4.重训叶子节点的噪声GMM模型。对每个叶子节点Φ，将其所包含的噪声GMM所对应的原始噪声语音数据，合并在一起，重新训练该叶子节点所对应的噪声GMM模型，作为最终该类噪声的GMM模型，记为Noise_i，i＝1，2，...，K。

S406：录制干净数据集；

录制干净环境下的录音数据集。该数据集是在很安静办公室录音环境使用高保真麦克风所录制的数据构成。

S407：在同一类噪声中随机挑选噪声数据，按不同信噪比分别加噪；

对干净录音数据集，基于聚类所获得的每类噪声，随机从该类噪声数据中挑选一个原始噪声数据，分别按照四区间10～14dB、15～20dB、20～25dB，25～30dB信噪比对干净数据集分别进行加噪，形成不同噪声类型不同信噪比的加噪结果。为了减少实验强度和最后系统大小，信噪比区间没有进一步细化。

S408：加噪数据集的切分和限制边界识别；

采用和S401相同的方式对加噪后的数据集进行切分，并在FA的每个音素所对应的语音片段O上，计算该语音O作为音素集合Ω内任一音素q的似然值Likelihood(O|M_q)，M_q表示音素q所对应的声学模型，似然值的计算方法参见语音识别开发包(HMM Tool Kit，HTK)。这里可定义这个步骤为限制边界识别(Limited Boundary Recognition)。

S409：在音素切分和限制因素边界识别结果基础上计算音素后验概率；

音素后验概率指一个发音O是某个音素p的发音的概率。后验概率有很多不同的具体计算方法[3-5]。本例定义后验概率(记为gwpp)的定义如下：

gwpp (O, p) = \frac{Likelihood (O | M_{p})}{\underset{q &Element; Ω}{Σ} Likelihood (O | M_{q})}

................公式4

S410：干净数据集的切分和限制边界识别；

和S408相同，对干净环境下数据集进行切分FA和基于FA音素边界信息的限定边界识别。

S411：在音素切分和限定边界识别结果上计算音素后验概率；

和S409相同，计算干净环境下各音素后验概率。

S412：计算干净环境下不同音素后验概率的累积直方图分布；

根据加噪后数据集音素后验概率gwpp，分别得到不同加噪环境下的音素后验概率累积直方图分布。

S413：计算加噪后不同音素的后验概率累积直方图分布；

根据干净环境下的数据集音素后验概率gwpp，分别得到干净环境下的音素后验概率累积直方图分布。

S414：根据以上两种累积直方图分布获取后验概率映射关系；

由S412和S413的结果知加噪前后音素后验概率是一一对应的，为了刻画这种对应关系，我们采用累积分布函数均衡(Cumulative DistributionFunction Matching，CDF-matching[29])转换函数来描述这种非线性变换，它假定加噪前后音素后验概率特征的概率分布是一定的，相同的概率区间内，噪声干扰前后所包含的样本数量以及特征的大小顺序保持不变，相同概率子区间内的特征在噪声干扰前后是一一对应的。具体实现步骤如下：

1.对一个音素的干净环境下的所有M个后验概率gwpp从低到高进行排序，平均分成N_c个区间，前N_c-1个区间后验概率样本个数都为

个(

表示不大于x的最大整数)，最后一个区间样本个数为

个。记录第i个区间的音素后验概率上下限为[gwpp_i，gwpp_i+1]，i＝0，1，...，N_c-1；

2.对各种加噪数据上对应音素的所有M个后验概率gwpp′同1做排序和划分为N_c个子区间，记录第i个区间的音素后验概率上下限为[gwpp′_igwpp′_i+1]，i＝0，1，...，N_c-1；

3.区间[gwpp′_i，gwpp′_i+1]和区间[gwpp_i，gwpp_i+1]便建立起一一对应关系。至此完成该发明的训练阶段，形成针对每个音素p、每种噪声类型s、每种信噪比t下的一系列针对带噪环境下gwpp’补偿成为干净环境下gwpp的噪声补偿函数gwpp＝f_p，s，t(gwpp′)。

S415：学习者录音数据切分；

采用S408相同的方式对学习者录音数据进行切分。

S416：噪声片段截取、规整和拼接形成语言学习者噪声数据；

采用S401相同的方式提取学习者录音的噪声数据。

S417：确定语言学习者的噪声类型；

从学习者录音的噪声数据中提取MFCC_0_D_A特征。并采用训练环节得到的各类噪声GMM模型(Noise_i，i＝1，2，...，K)计算学习者噪声O的似然值Likelihood(O|Noise_i)，似然值的计算方法参见语音识别开发包(HMM Tool Kit，HTK[31])，选取似然值最大的噪声类别i_Noise作为当前噪声所对应的噪声类别。

S418：计算语言学习者录音的信噪比；

信噪比估计采用传统的方法，即语音段帧平均能量和静音段帧平均能量的比值。在切分边界基础上可以方便地计算信噪比。首先，根据切分边界确定语音段和非语音段，计算出语音段的平均帧能量E_v。平均帧能量计算采用式(1)。计算规整前的噪声帧平均能量作为非语音段平均帧能量E_u。信噪比定义为：

snr = 10 * \log \frac{E_{v}}{E_{u}}

................公式6

S419：根据噪声类型和量化信噪比确定补偿函数；

根据计算得到的当前信噪比，选择对应的区间10～14dB、15～20dB、20～25dB，25～30dB。当计算得到的信噪比超过30dB时，认为数据是干净的，不进行任何的补偿，但信噪比低于10dB时，选择10～14dB的区间。并根据S417获得的噪声类型从训练得到的一系列转换函数f_p，s，t(gwpp′)中找到当前环境下各个音素的补偿函数f。

S420：带噪数据的限制边界识别并计算音素后验概率；

和S408相同，基于FA音素边界信息的限定边界识别。并与S409相同，计算学习者带噪语音的音素后验概率。

S421：带噪数据后验概率补偿。

假定学习者录音的某一音素的后验概率gwpp′，根据所找到的对应补偿函数f，根据gwpp’所落在区间[gwpp′_i，gwpp′_i+1]获得其对应的干净环境下的区间[gwpp_i，gwpp_i+1]。定义gwpp′补偿后的值为gwpp″＝0.5*(gwpp_i+gwpp_i+1)，以此方式完成对语言学习者用户的音素后验概率特征矫正。矫正后的音素后验概率输入语音评测后续模块，至此整个音素后验概率的噪声补偿过程结束。

与上述方法相对应，本发明还提供一种语音评测的噪声补偿装置，用于对带噪语音进行噪声补偿，参见图5，该装置包括训练模块501和测试模块502。

其中，训练模块501包括分类单元5011、加噪单元5012和补偿函数计算单元5013。

分类单元5011，用于对噪声分类。该分类单元5011的具体工作过程为，从海量现场实际录音语料中提取噪声，将所提取的噪声聚类成不同的噪声类型，得到每类噪声数据以及各类噪声数据对应的高斯混合模型GMM。其中，从海量现场实际录音语料中提取噪声的过程为，海量现场真实录音数据库切分；噪声片段截取、规整和拼接，得到实际录音语料的噪声。所述将所提取的噪声聚类成不同的噪声类型、得到每类噪声数据以及各类噪声数据对应的GMM的过程为，训练每个语音学习者噪声数据的GMM；计算各噪声GMM两两间的散度距离；自顶向下对海量噪声数据进行聚类。

加噪单元5012，用于按照多种信噪比，利用分类单元5011确定的各类噪声对干净数据集进行加噪处理。该加噪单元5012的具体工作过程为，录制干净数据集；在同类噪声中随机挑选噪声数据，按照不同信噪比分别加噪。

补偿函数计算单元5013，用于对比加噪前后数据集的各音素的后验概率，得到各音素的后验概率补偿函数。该补偿函数计算单元5013的具体工作过程为，计算加噪数据集的后验概率；计算干净数据集的后验概率；对比加噪前后对应音素的后验概率，获取各噪声、信噪比下的后验概率补偿函数。其中，计算加噪数据集的后验概率的过程为，对加噪数据集进行切分和限制边界识别，在音素切分和识别结果基础上计算音素后验概率；计算干净数据集的后验概率的过程为，对干净数据集进行切分和限制边界识别，在音素切分和识别结果基础上计算音素后验概率。对比加噪前后对应音素的后验概率，获取各噪声、信噪比下的后验概率补偿函数的过程为，计算干净数据集中不同音素后验概率的累积直方图分布函数；计算加噪数据集中不同音素后验概率的累积直方图分布函数；根据以上两种累积直方图分布函数，获取后验概率映射关系，得到各音素的后验概率补偿函数。

测试模块502包括补偿函数确定单元5021和噪声补偿单元5022。

补偿函数确定单元5021，用于确定带噪语音中的噪声片段所属的噪声类型，并计算所述带噪语音的信噪比，从而确定后验概率补偿函数。其中，确定噪声片段所属噪声类型的过程为，从带噪语音中提取噪声片段，根据各类噪声的GMM，确定当前噪声片段所属的噪声类型。从带噪语音中提取噪声片段的过程为，带噪语音的切分；噪声片段截取、规整和拼接，获得带噪语音中的噪声片段。

噪声补偿单元5022，用于利用补偿函数确定单元5021所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。噪声补偿单元5022的具体工作过程为，识别带噪语音的限制边界，并计算所述带噪语音的各音素的后验概率；利用所确定的后验概率补偿函数，对所述带噪语音的当前各音素的后验概率进行补偿。

可见，本发明通过直接针对后验概率进行补偿，建立带噪语音所提取的后验概率到干净语音所提取的后验概率的转换，转换函数通过在干净语音上加噪获得，并对噪声进行细致分类，区分对待不同噪声对各音素后验概率的干扰，较传统的谱上补偿方法更加直接，也避免了频谱上的失真给识别带来的负面影响，该方法通过分类加噪过程，仅需要额外保存加噪前后音素后验概率的对应关系，所需资源小，同时可细致区分不同的噪声环境和不同信噪比。

本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音评测的噪声补偿方法，用于对带噪语音进行噪声补偿，包括训练环节和测试环节，其特征在于，

所述训练环节包括：

所述测试环节包括：

2.根据权利要求1所述方法，其特征在于，所述对噪声分类包括：

从海量现场实际录音语料中提取噪声，将所提取的噪声聚类成不同的噪声类型，得到每类噪声数据以及各类噪声数据对应的高斯混合模型GMM。

3.根据权利要求2所述方法，其特征在于，所述确定所述带噪语音中的噪声片段所属的噪声类型包括：

4.根据权利要求1所述方法，其特征在于，所述对比加噪前后所述数据集的各音素的后验概率、得到各音素的后验概率补偿函数包括：

计算加噪数据集的后验概率；

计算干净数据集的后验概率；

5.根据权利要求1所述方法，其特征在于，所述利用所确定的后验概率补偿函数对所述带噪语音的当前各音素的后验概率进行补偿包括：

6.根据权利要求2所述方法，其特征在于，所述从海量现场实际录音语料中提取噪声包括：

海量现场真实录音数据库切分；

噪声片段截取、规整和拼接，得到实际录音语料的噪声。

7.根据权利要求2所述方法，其特征在于，所述将所提取的噪声聚类成不同的噪声类型、得到每类噪声数据以及各类噪声数据对应的GMM包括：

训练每个语音学习者噪声数据的GMM；

计算各噪声GMM两两间的散度距离；

自顶向下对海量噪声数据进行聚类。

8.根据权利要求1-7任一项所述方法，其特征在于，所述按照多种信噪比利用各类噪声对干净数据集进行加噪处理包括：

录制干净数据集；

9.根据权利要求3所述方法，其特征在于，所述从带噪语音中提取噪声片段包括：

带噪语音的切分；

噪声片段截取、规整和拼接，获得带噪语音中的噪声片段。

10.根据权利要求4所述方法，其特征在于，

11.根据权利要求4所述方法，其特征在于，所述对比加噪前后对应音素的后验概率，获取各噪声、信噪比下的后验概率补偿函数包括：

12.一种语音评测的噪声补偿装置，用于对带噪语音进行噪声补偿，包括训练模块和测试模块，其特征在于，

所述训练模块包括：

分类单元，用于对噪声分类；

所述测试模块包括：