CN108257606A

CN108257606A - 一种基于自适应并行模型组合的鲁棒语音身份识别方法

Info

Publication number: CN108257606A
Application number: CN201810035573.6A
Authority: CN
Inventors: 葛洪伟; 李聪; 葛阳
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-07-06

Abstract

本发明公开了一种基于自适应并行模型组合的鲁棒语音身份识别方法，主要解决噪声环境下由于真实测试环境与训练环境之间的差异而导致的说话人身份识别性能急剧下降的问题，该方法通过从实际测试环境的语音中估计噪声信息，并将该信息通过相应变换后对纯净训练GMM模型参数进行补偿，使调整后的GMM参数能够尽量匹配当前测试环境，进而提高整个语音说话人身份识别的鲁棒性。本发明方法能够提高噪声环境下语音身份识别系统的识别率，提高系统的鲁棒性和自适应的能力，满足日常生活中如智能家居、车载系统和各种需要进行身份安全认证的安全领域。

Description

一种基于自适应并行模型组合的鲁棒语音身份识别方法

技术领域

本发明属于模式识别和语音处理技术领域，涉及现实噪声环境下鲁棒语音身份识别方法，具体是指一种基于自适应并行模型组合的鲁棒语音身份识别方法，可用于满足日常生活中如智能家居、车载系统等，以及在需要进行安全认证的各种安全领域。

背景技术

语音身份识别也称为说话人识别，属于生物识别技术的一种，是利用说话人的一段语音提取出该说话人的个性特征，通过对这些特征的分析和识别，达到对说话人身份辨认和确认的技术。说话人识别有着广泛的应用前景，可用在需要进行安全认证的各种安全领域，也可在智能家居、车载系统等小容量嵌入式系统中运用。目前说话人识别技术已经有了很大突破，在安静环境下表现出了较高的识别率，但是，现有的语音身份识别系统仍存在一些困难，最突出的便是噪声环境下系统的鲁棒性问题。由于现实环境下不可避免的背景噪音的干扰，语音识别相关系统的应用环境往往不能很好的和纯净训练模型的环境相匹配，从而导致了在干净语音上训练出来的系统在真实的测试环境中性能往往会有明显的下降。

目前针对减小环境失配问题提出的方法大体分为两类：一类是特征域方法，主要是寻求稳健的声学特性提取鲁棒性语音特征，减小噪声对语音的干扰；另一类称为模型域方法，通过调整声学模型参数，将噪声信息融合到纯净训练模型的语音状态中，使之能够匹配当前测试中的噪声环境，克服环境失配所带来的影响，模型域中较为经典的方法是并行模型组合 (Parallel Model Combination，PMC)方法。

传统PMC方法需要噪声信息已知，即通过已知的噪声信息对原始语音进行相应变换和调整后提高模型的抗噪能力，这样的做法虽然能够更充分的利用噪声信息改善原有模型，但缺乏一定的自适应性。

为了提高模型的自适应性，本发明结合并行模型组合PMC和高斯混合模型(Gaussian Mixture Model，GMM)的原理，提出了一种基于自适应并行模型组合APMC(Adaptive Parallel Model Combination)的鲁棒语音身份识别方法。

并行模型组合PMC方法是一种有效的噪声补偿技术，最初是用于语音识别系统中声学模型的参数调整，根据已有的纯净语音声学模型和噪声模型，估计含噪语音的声学模型。该方法的原理分别以纯净语音及单纯的噪声来训练出纯净的语音模型及噪声模型，接着在对数谱域对两个模型进行合并，得到含噪语音模型，使其能够尽可能地匹配噪声环境。为了更有针对性地解决噪声鲁棒性的问题，PMC方法假设语音信号和噪音是相互独立的声源，并在时间域中是可以相加的关系，且噪声相对平稳。在对数谱域上，对于加噪语音y(t)表现为干净语音 x(t)和加性噪声n(t)在对数谱域特征矢量的非线性函数：

y^ln(t)＝f(x^ln(t)，n^ln(t))＝ln(exp(x^ln(t))+exp(n^ln(t)))；

高斯混合模型是利用多维高斯概率密度函数对语音信号特征矢量进行建模，通过高斯密度函数的线性组合来表示每个说话人的训练语音在声学空间的分布，由统计理论可知，用若干个高斯概率密度的线性组合可以逼近任意分布，因此GMM可以用来模拟各种形式的语音特征分布。一个高斯混合密度是由混合度为M个高斯分量密度的加权和构成，概率输出公式为：

其中X是一个D维随机向量，b_i(X)，(i＝1…M)是子分布，w_i，(i＝1…M)是混合权重，且有

每个子分布是D维的联合高斯概率分布，公式如下：

设λ_q，(q＝1，2，…，Q)是第q个说话人模型对应的补偿后GMM参数，对于一个确定的语音特征观察值矢量X，通过最大后验概率来寻找训练库中最匹配的说话人目标q^*。计算公式为：其中t＝1，2，...，T表示帧序号。

发明内容

本发明提供一种基于自适应并行模型组合的鲁棒语音身份识别方法，该方法不需要当前噪声已知，而是在含噪语音中估计出一小段噪声信息，通过该噪声信息得到噪声参数，进而用来调整训练GMM各高斯单元的均值向量和协方差矩阵，估计出符合当前环境的GMM参数，减少因为环境差异而导致的识别率不理想的问题，来提高模型的抗噪性能以及自适应能力。

本发明的技术技术方案如下：

首先对语音进行预处理操作，并提取语音特征，经过自适应的噪声估计得出倒谱域噪声参数，包括均值向量和协方差矩阵，然后对纯净语音倒谱特征训练成的GMM参数同噪声参数经倒谱提升逆变换和离散余弦反变换一同变换到对数谱域，接着通过指数变换变换到线性谱域，在线性谱域，对原始GMM模型参数和噪声参数进行加性合并，再经过对数变换将参数变换到对数谱域，进而再通过离散余弦变换和倒谱系数提升变换到倒谱域，便得到了补偿后的GMM模型参数，最后通过最大似然估计得到识别结果。

为实现上述目标，具体实现步骤包括如下：

(1)对训练库的纯净语音提取倒谱特征，经过训练得到每个说话人的GMM参数，包括均值μ_x和方差∑_x；

(2)获取噪声特征和噪声平均能量：

(2.1)对于输入的测试语音，进行分帧处理并提取倒谱特征，求取第i帧能量E(i)，其中X_i(k)表示特征X第i帧的第k个元素，dim表示特征矢量维度；

(2.2)利用宽度为5的移动平均滤波器对帧能量序列进行平滑处理，得到平滑后的帧能量E′(i)，然后从第一帧开始，对每一帧平滑后的帧能量与门限值TH进行比较，若E′(i)≤TH，则认为该帧为噪声帧，若E′(i)＞TH，则认为语音帧开始，进而对该帧的前一帧进行位置标记，记为T′，并取前T′帧语音特征矢量作为噪声特征矢量；

(2.3)从中得到噪声平均能量E^*，其中

(3)用一个单高斯模型对噪声特征矢量进行拟合，得到噪声特征均值μ_n和方差∑_n；

(4)将纯净语音GMM均值、方差以及在倒谱域估计得到的噪声矢量均值和方差变换到线性谱域；

(5)将纯净语音和噪声的线性谱域参数在线性域进行非线性的相加，得到含噪语音GMM在线性谱域的均值和方差，其中，μ_x，m(i)和μ_y，m(i)分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型均值向量的第i个元素，和分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型在线性谱域协方差矩阵的第i行j列元素，G为常数，表示补偿增益因子；

(6)将含噪语音线性谱域均值和方差变换到倒谱域，得到补偿后的GMM模型参数；

(7)将得到的测试语音倒谱特征通过最大似然估计与调整后的所有说话人GMM参数进行相应计算，得到具有最大概率的说话人模型所对应的身份作为识别结果输出。

本发明对语音信号进行了预处理，选取了合适的语音特征提取方法，基于并行模型组合的思想，采用自适应的并行模型组合补偿方法对原始GMM参数进行补偿，最后通过最大似然估计得到识别结果，提高了噪声环境下模型的自适应能力和抗噪方面的鲁棒性。

本发明引入并行模型组合的原理对训练模型参数进行补偿，使调整后的参数能够适应当前噪声环境，减少在噪声环境下由于真实测试环境与训练环境之间的差异而导致的说话人身份识别性能急剧下降的问题，提高了整个模型的抗噪能力和鲁棒性。通过不需要噪声信息已知，无论针对现实环境中的何种噪声，都能用这种方法提高模型的自适应能力。

附图说明

图1是本发明的流程图。

图2是PMC原理流程图。

图3是纯净语音MFCC特征的GMM均值分布情况。

图4是纯净语音混入信噪比为0dB加性Babble噪声后的GMM均值分布。

图5是加性Babble噪声的GMM均值分布。

图6是含噪语音估计出的噪声参数，经APMC算法对纯净语音GMM均值分步的重构结果。

图7(a)中是在Babble噪声环境下，本发明方法和其他方法的识别率对比图。

图7(b)中是在Volvo噪声环境下，本发明方法和其他方法的识别率对比图。

图7(c)是在Factory噪声环境下，本发明方法和其他方法的识别率对比图。

图7(d)是在Cafe噪声环境下，本发明方法和其他方法的识别率对比图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施例。

实施例1：基于自适应并行模型组合的鲁棒语音身份识别方法

步骤1.模型训练

(1.1)对训练库的纯净语音进行预处理操作。包括对语音信号的预加重、分帧以及加窗等处理操作；

(1.2)提取倒谱特征。倒谱特征包括梅尔频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)等；

(1.3)经过训练得到每个说话人的GMM参数，包括均值μ_x和方差Σ_x。

步骤2.自适应噪声估计

(2.1)对于输入的含噪语音信号，先进行分帧处理，并对每一帧求取帧能量E(i)，其中i表示帧序号，dim表示特征矢量维度；

(2.2)取前五帧的能量平均值的1.2倍作为基准门限值TH，其中

(2.3)对帧能量进行平滑处理，利用宽度为5的移动平均滤波器对帧能量序列进行平滑处理，得到平滑后的帧能量E′(i)，然后从第一帧开始，对每一帧平滑后的帧能量与门限值H进行比较，若E′(i)≤TH，则认为该帧为噪声帧，若E′(i)＞TH，则认为语音帧开始，进而对该帧的前一帧进行位置标记，记为T′，取该帧及之前的帧作为噪声段进行参数估计；

(2.4)对提取的含噪语音倒谱特征矢量X，取前T′帧语音特征矢量作为噪声特征矢量 N＝X_1：T′，用一个单高斯模型对该特征矢量进行拟合，得到噪声特征均值μ_n和方差∑_n；

(2.5)通过得到的噪声段来估计噪声能量信息，作为噪声补偿阶段的阈值。此阈值的作用是在噪声补偿阶段判断是否进行相应补偿。根据经验，在信噪比小于20dB时，噪声对语音破坏影响较大，适当进行补偿有利于提升识别率，但当信噪比较大，也就是噪声对语音污染较小时，补偿的结果一定程度上会破坏原有参数，导致识别效率的下降。因此在噪声估计时通过噪声平均能量判断该噪声的信噪比大小，以此作为是否进行补偿的阈值和依据。一般认为 E^*≥0.01时，噪声平均能量较大，信噪比较低，噪声对语音污染较大，应进行相应补偿。否则，认为噪声影响较小，不再进行特征补偿，其中

步骤3.特征补偿

(3.1)由于语音特征倒谱系数各个分量对于识别率的贡献是不同的，高阶特征分量较低阶特征分量来讲，不易受到噪声的影响，具有较好的鲁棒性。针对这种状况，补偿过程中采用了一种半升正弦函数(Half Raise-Sine Function，HRSF)的倒谱系数提升策略来对倒谱系数进行非线性的提升。倒谱提升相当于对倒谱系数{x_i}赋予权值{w_i}，用正弦波来分配权重，可以降低易受噪声干扰的低阶分量值，同时又提高了数值相对较小的中高阶分量值。由于突出了语音鲁棒性较好的高阶系数值，可以在抗噪能力方面提供更好的性能。将纯净语音GMM均值μ_x、方差∑_x和在倒谱域估计得到的噪声矢量均值μ_n和方差∑_n变换到对数谱域

(3.2)将对数谱域均值与方差通过指数变换变换到线性谱域，此时变量服从对数正态分布

(3.3)将纯净语音和噪声的线性谱域参数叠加，得到含噪语音GMM在线性谱域的均值和方差

(3.4)将含噪语音线性谱域均值和方差变换到对数谱域，得到含噪GMM模型参数

(3.5)将得到的对数谱域均值与方差通过离散余弦和倒谱系数提升变换到倒谱域

(3.6)为了提高运算效率，去掉冗余元素，对得到的倒谱域协方差矩阵只保留对角元素

其中，μ_x，m(i)表示纯净语音GMM第m个高斯模型均值向量的第i个元素，μ_y，m(i)表示估计出的含噪语音GMM第m个高斯模型均值向量的第i个元素。表示纯净语音GMM第m个高斯模型在线性谱域协方差矩阵的第i行j列元素，表示估计出的含噪语音GMM第m个高斯模型在线性谱域协方差矩阵的第i行j列元素，G为常数，表示补偿增益因子，为了区分不同的声学特征域，上标lin表示线性谱域,上标ln表示对数谱域，C和C^-1分别是离散余弦变换矩阵及其逆矩阵，L和L^-1分别是倒谱系数提升矩阵及逆矩阵，其中，N维离散余弦变换矩阵第m行 n列的定义是N维离散余弦变换逆矩阵C^-1＝C^T，N维倒谱系数提升矩阵N维倒谱系数提升逆矩阵

步骤4.识别

将得到的测试语音倒谱特征通过最大似然估计与调整后的所有说话人GMM参数进行相应计算，得到具有最大概率的说话人模型所对应的身份作为识别结果输出，设λ_q，(q＝1，2，…，Q)是第q个说话人模型对应的补偿后GMM参数，对于一个确定的语音特征观察值矢量X，通过最大后验概率来寻找训练库中最匹配的说话人目标q^*，计算公式为：其中t＝1，2，…，T表示帧序号。

实施例2：本发明的效果仿真实验

仿真实验数据来自TIMIT语音库，噪声语音来自NoiseX-92数据库，选用了其中生活中常出现的几种噪声，包括工厂噪声Factory噪声、嘈杂话语噪声Babble噪声、咖啡厅噪声Cafe 以及汽车噪声Volvo噪声。

实验模型为高斯混合模型，设定高斯混合模型的混合度为32，语音分帧长度为20ms，帧移为帧长的一半。特征补偿的增益因子初始值G设为0.75，当无噪声或噪声较小时，为了防止补偿造成的失配问题，方法会根据噪声平均能量的阈值判断自动调整G的值为1，G＝1意味着不再进行特征补偿。

仿真实验中，本发明方法通过对GMM高斯单元均值分布的重构、与传统识别方法进行对比分析，实验主要从以下两个方面开展。

实验1：APMC方法对GMM高斯单元均值分布的重构

影响识别误差的问题与含噪语音模型均值与估计含噪语音模型均值之间的距离有关，距离越小，说明相似度越高，拟合效果越好，相应的识别率也会随之提高。本实验通过对同一段纯净语音加噪前和加噪后，以及对原始纯净语音补偿后的GMM高斯单元均值分布进行了比较。

实验选取12维的MFCC倒谱系数作为语音特征，结合NoiseX-92数据库中Babble噪声，对原始语音进行加噪处理，信噪比SNR＝0dB。用32分量的高斯混合模型进行训练，得出不同状图下语音的GMM高斯单元均值的分布情况。

通过对GMM均值的补偿可以看出，补偿前未调整的参数与含噪语音均值参数差距较大，通过自适应的并行模型合并算法补偿后，两者之间的距离差有明显的降低，也就是相较于图3，图6的均值分布更加接近图4的均值分布。这说明补偿后的纯净语音能够更加接近含噪语音的GMM均值分布，从而可以提供更好的识别性能，减少噪声污染所带来的误差问题。

实验2：噪声环境下的说话人身份识别

为了突出本方法的有效性，分别选取较为经典的MFCC特征和近几年提出的抗噪性能较好的GFCC特征进行对比实验。选取Timit语音库中50人的发音数据进行文本无关说话人识别实验。语音采样频率为16kHz，其中男性和女性各25人，每人10段语音数据，每段语音长度约为3～5秒，用每个说话人发音数据中的5段语音作为训练数据，另外5段语音单独在不同信噪比下混合噪声后作为测试数据，共50组训练样本和250组测试样本在同样条件下，噪声混合信噪比SNR分别取-5dB、0dB、5dB、10dB、15dB、20dB进行实验。

将不加补偿的两种特征结果作为基准对比数据，通过与结合APMC方法的两种特征进行实验对比，图7(a-d)是在不同噪声环境下，几种方法的识别率对比图，图7(a-d)中分别表示是在 Babble噪声、Volvo噪声、Factory噪声以及Cafe噪声环境下的实验结果。

仿真结果表明，在信噪比较大，也就是噪声污染较小的时候，不加补偿的两种特征均表现出了较好的识别能力，在信噪比较小的情况下，MFCC特征对噪声较为敏感，识别性能会随着信噪比的降低而迅速下降，GFCC特征的鲁棒性较MFCC有一定改善，但在信噪比较低时，识别效果仍然不理想。在结合了自适应特征补偿APMC方法后，这两种特征说话人身份识别系统在抗噪能力上较未补偿的MFCC和GFCC特征有明显的改善，尤其是在较低信噪比时，平均识别性能较未补偿的方法最多约有50％的识别率提升，并且该方法在各种噪声和不同强度下都展现出了较好的鲁棒性和稳定性，证明了该方法在抗噪方面的有效性。

Claims

1.一种基于自适应并行模型组合的鲁棒语音身份识别方法，其特征在于：首先对语音进行预处理操作，并提取语音特征，经过自适应的噪声估计得出倒谱域噪声参数，包括均值向量和协方差矩阵，然后对纯净语音倒谱特征训练成的GMM参数同噪声参数经倒谱提升逆变换和离散余弦反变换一同变换到对数谱域，接着通过指数变换变换到线性谱域，在线性谱域，对原始GMM模型参数和噪声参数进行加性合并，再经过对数变换将参数变换到对数谱域，进而再通过离散余弦变换和倒谱系数提升变换到倒谱域，得到补偿后的GMM模型参数，最后通过最大似然估计得到识别结果。

2.根据权利要求1所述的鲁棒语音身份识别方法，其特征包括如下步骤：

(2)获取噪声特征和噪声平均能量：

(2.3)从中得到噪声平均能量E^*，其中

3.根据权利要求2所述的鲁棒语音身份识别方法，其特征在于，所述的步骤(4)按如下过程进行：

(4.1)将倒谱域均值与方差变换到对数谱域,计算方法如公式(1)和公式(2)：

其中，上标lin表示线性谱域,上标ln表示对数谱域，C和C^-1分别是离散余弦变换矩阵及其逆矩阵，L和L^-1分别是倒谱系数提升矩阵及逆矩阵；

(4.2)将对数谱域均值与方差通过指数变换变换到线性谱域，计算方法如公式(3)和公式(4)：

此时变量处于线性谱域，服从对数正态分布。

4.根据权利要求2或3所述的鲁棒语音身份识别方法，其特征在于，所述的步骤(6)按如下过程进行：

(6.1)将含噪语音线性谱域均值和方差变换到对数谱域，得到含噪GMM模型参数，计算方法如公式(5)：

(6.2)将得到的对数谱域均值与方差通过离散余弦和倒谱系数提升变换到倒谱域，变换方法如公式(6)：

(6.3)去掉冗余元素，对得到的倒谱域协方差矩阵只保留对角元素，

得到补偿后的GMM参数。