CN107146601A

CN107146601A - 一种用于说话人识别系统的后端i‑vector增强方法

Info

Publication number: CN107146601A
Application number: CN201710224925.8A
Authority: CN
Inventors: 王昕�; 张洪冉; 李宗晏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2017-09-08
Anticipated expiration: 2037-04-07
Also published as: CN107146601B

Abstract

本发明公开了一种用于说话人识别系统的后端i‑vector增强方法，该方法以深层神经网络为基础,结合深度神经网络在语音增强方面的应用,建立了一种用于说话人识别系统后端的i‑vector回归模型,得到一种适用于说话人识别系统的后端特征处理器。相比常规的前端语音增强算法,本发明在提高说话人识别系统的抗噪声性能的同时,又能优化说话人识别系统的结构模型，从而使说话人识别系统在噪声环境下的实用性得到有效提升。

Description

一种用于说话人识别系统的后端i-vector增强方法

技术领域

本发明属于说话人识别技术领域，特别指一种用于说话人识别系统的后端i-vector增强方法。

背景技术

说话人识别(Speaker Recognition，SR)又称声纹识别，是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来，基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明，在对说话人语音的因子分析中，通常信道子空间中会包含说话人的信息。因此，i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量提取、i-vector映射、似然比得分计算3个步骤。首先提取语音信号特征来训练表征语音空间的Gauss混合模型-通用背景模型(Gaussianmixture model-universal background model，GMM-UBM),利用训练好的UBM计算每帧语音特征的充分统计量，并将该充分统计量映射到总变量空间得到每条说话人语音的i-vector。最后利用概率线性鉴别式分析(probabilistic linear discriminant analysis，PLDA)模型对i-vector建模并计算似然比得分，根据设定的阈值做出最终判决。但是，在应用环境中存在背景的情况下，系统的性能会急剧下降。这也是现在说话人识别技术走向商业化的一大障碍。

近年来，随着机器学习算法性能的提升和计算机存储、计算能力的提高，深层神经网络(deep neural network，DNN)被应用到各个领域中并取得了显著的效果。DNN对非线性函数关系具有很强的拟合能力，经过训练后的DNN可以用来表示输入数据和输出数据之间的非线性映射关系。近年来，在语音增强领域，利用DNN的这种非线性结构，通过学习含噪语音特征和纯净语音特征之间的非线性映射关系，将DNN设计成一个降噪滤波器，达到语音增强的目的。该方法如果简单作为说话人识别系统的前端模块，在一定程度上提高系统性能的同时，也使系统结构复杂化，增加了对语音信号处理的计算量，因此该方法与说话人识别系统的融合成为当前技术难点。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于DNN的用于说话人识别系统的i-vector后端增强方法。

本发明解决该技术问题所采用的技术方案如下：一种用于说话人识别系统的i-vector后端增强方法，包括以下步骤：分为训练和识别两个阶段，训练阶段步骤如下：

A-1)，对训练说话人语音信号进行预处理，包括预加重、端点检测、分帧、加窗；

A-2)，利用所述MFCC提取法，提取说话人语音信号的MFCC特征；具体有：对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱，设语音信号的DFT为：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数。

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，求出L阶的梅尔频率倒谱参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

A-3)，根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量；

A-4)，根据A-3)得到的特征充分统计量训练i-vector特征提取器，利用该提取器提取说话人语音信号的i-vector；

A-5)，根据A-4)训练得到的i-vector特征提取器，提取纯净语音和含噪语音的i-vector,其中，含噪语音的i-vector作为DNN训练数据，纯净语音的i-vector作为标签数据；

A-6)，根据A-4)得到的训练数据和标签数据，使用以下所述方法对深度神经网络模型进行训练，经过训练后的神经网络模型作为i-vector后端增强模块，与i-vector/PLDA说话人识别模型融合；DNN训练步骤如下：

(A-6-1)利用CD算法逐层预训练构成DBN网络的RBM参数，采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层，逐层累加得到多层结构；

(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构，利用误差反向传播算法，将MMSE函数作为优化函数，通过最小化优化函数得到最优参数；

识别步骤为：

B-1)，对识别语音进行预加重、端点检测、分帧、加窗，并提取识别语音的MFCC特征；

B-2)，根据权利要求1中训练得到的i-vector特征提取器，提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入，该模型的输出为增强后的i-vector；

B-3)，将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分，将PLDA输出的似然比得分与设定的阈值比较，做出最终判决结果。

有益效果

本发明与传统说话人识别系统相比，将DNN与说话人识别系统模型相融合，结合DNN在语音增强领域的显著效果，本发明公开的说话人识别方法在存在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，使识别实时性得到有效增强，提高相应说话人识别产品的竞争力。

附图说明

图1为基于i-vector后端增强的说话人识别系统结构图；

图2为MFCC特征提取流程图；

图3为神经网络结构图；

图4(a)为car噪声下系统DET曲线图；

图4(b)为babble噪声下系统DET曲线图。

具体实施方式

下面将结合附图对本发明具体实施方式做进一步说明：如图1所示，本发明采用的技术方案如下：一种基于DNN的用于说话人识别系统的i-vector后端增强方法包括以下步骤：分为训练和识别两个阶段，所述的训练步骤是：

第一步，对说话人语音信号进行预处理，包括预加重、端点检测、分帧、加窗。

(1)预加重

预加重处理是将语音信号通过一个高通滤波器：

H(Z)＝1-μz^-1

式中μ的值介于0.9-1.0之间，我们通常取0.97。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

(2)分帧

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，帧长约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

(3)加窗(Hamming Window)

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1,…,N-1,N为帧的大小，那么乘上汉明窗后S′(n)＝S(n)×W(n),W(n)形式如下：

不同的a值会产生不同的汉明窗，一般情况下a取0.46。

第二步，如图2所示，利用所述MFCC提取法，提取说话人语音信号的MFCC特征，MFCC特征提取步骤如下：

(1)对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数。

(2)将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

(3)经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

第三步，根据步骤二提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。具体地，

其中，和分别表示第k段语音段在第c个GMM高斯分量上的零阶统计量、一阶统计量和二阶统计量，表示第k段语音段的第t个时间段的语音特征表示，表示语音特征对第c个GMM混合分量的后验概率，可通过下式计算得到：

其中，C为混合高斯分量总数，μ_c和∑_c分别对应第c个高斯分量的权重、均值和协方差。

第四步，根据步骤三得到的特征充分统计量训练i-vector特征提取器，利用该提取器提取说话人语音信号的i-vector。具体地，i-vector因子分析模型建立在GMM-UBM所表征的均值超向量空间之上。给定一段语音，其Gauss均值超矢量M可以分解为如下形式：

M＝m+Tω

其中：m是说话人和信道无关分量，通常可以采用UBM的均值超矢量来代替；T是总体变化子空间矩阵；ω是包含了说话人和信道信息的变化因子,即i-vector。

第五步，根据步骤四训练得到的i-vector特征提取器，提取纯净语音和含噪语音的i-vector,其中，含噪语音的i-vector作为DNN训练数据，纯净语音的i-vector作为标签数据。

第六步，根据步骤四得到的训练数据和标签数据，使用以下所述方法对深度神经网络模型进行训练，经过训练后的神经网络模型作为i-vector后端增强模块，与i-vector/PLDA说话人识别模型融合。深层神经网络训练步骤如下：

(1)利用对比散度算法(contrastive divergence，CD)逐层预训练构成DBN网络的RBM参数，采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层，逐层累加得到深度置信网络(deep belief network，DBN)模型。RBM是一种包含一层可见层和一层隐含层的2层无向图模型，相同层的节点之间无连接。假设v和h分别表示可见层节点和隐含层节点，定义(v，h)间的联合分布如下所示：

其中W表示可见层节点和隐含层节点间的权重矩阵，b和c分别是可见层节点和隐含层节点的偏置，Z是归一化因数。RBM的优化目标是要最大化可见层节点概率分布在训练过程中可以通过梯度下降和CD算法估计得到模型参数。

(2)如图3所示，在训练好的DBN顶部添加线性输出层得到DNN回归模型。利用误差反向传播(BP)算法，将MMSE函数作为优化函数，通过最小化优化函数得到最优参数。具体地，BP算法分为两步：(1)前向响应传播，即将输入通过各隐层获得相应，前一层响应作为后一层输出依次向前传播，直到最后一层输出预测值。每层隐层的激活函数选择为sigmoid函数，表达式为：

sigmoid函数单调递增、无限可微的非线性特性使使神经网络能够很好地拟合含噪语音i-vector和纯净语音i-vector之间的非线性映射关系。

(2)误差反向传播，即将前向传播输出的预测值与参考值之间的误差进行反向传播，误差计算公式如下：

其中，W，b分别为模型的权重和偏置参数。根据反向传播到每层的误差来更新神经网络每层的权重和偏置：

这里，σ表示学习率，为l层第i个单元的权重，当进行BP算法的迭代时，权重更新的关系表达式为：

W_n＝W_n-1+Δw

即第n次迭代后的权重等于第n-1次迭代权重加上权重的更迭量。

所述的识别步骤为：

第一步，对识别语音进行预加重、端点检测、分帧、加窗，并提取识别语音的MFCC特征。

第二步，利用训练得到的i-vector特征提取器，提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为训练得到的DNN模型的输入，该模型的输出为增强后的i-vector。

第三步，将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分，将PLDA输出的似然比得分与设定的阈值比较，做出最终判决结果。

下面结合实例来说明此发明的实际效果，给定一段测试语音，仿真混合0dB-27dB之间随机信噪比的加性babble和car噪声，提取含噪语音的i-vector之后利用本发明所述的DNN模型进行增强。分别对纯净语音、含噪语音、i-vector增强下语音进行打分测试，处理结果如图4(a)，图4(b)所示。

图4(a)，图4(b)分别给出了在car和babble背景噪声环境下，系统在纯净语音、含噪语音、和i-vector增强下语音的DET曲线，可以明显看出，经i-vector增强后的系统相比噪声环境下性能有了显著的提高，本发明有效的提高了系统的噪声鲁棒性。

本发明实例只是介绍其具体实施方式，不在于限制其保护范围。本行业技术人员在本实例的启发下可以做某些修改，故凡依照本发明专利范围所做的等效变化或修饰，均属于本发明专利权利要求范围内。

Claims

1.一种用于说话人识别系统的i-vector后端增强方法，其特征在于，分为训练和识别两个阶段，训练阶段步骤如下：

A-2)，利用所述MFCC提取法，提取说话人语音信号的MFCC特征；

A-6)，根据A-4)得到的训练数据和标签数据，使用以下所述方法对深度神经网络模型进行训练，经过训练后的神经网络模型作为i-vector后端增强模块，与i-vector/PLDA说话人识别模型融合。

识别步骤为：

2.如权利要求1所述的方法，其特征在于，在A-2)中，还包括：

对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱，设语音信号的DFT为：

<mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>h</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mn>2</mn> <mi>&pi;</mi> <mi>k</mi> <mi>n</mi> <mo>/</mo> <mi>N</mi> </mrow> </msup> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>k</mi> <mo>&le;</mo> <mi>N</mi> </mrow>

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M，M取22-26；各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

经离散余弦变换(DCT)得到MFCC系数：

<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>&pi;</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mi>n</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>...</mo> <mo>...</mo> <mi>L</mi> </mrow>

将上述的对数能量带入离散余弦变换，求出L阶的梅尔频率倒谱参数；L阶指MFCC系数阶数，取12-16；这里M是三角滤波器个数。

3.如权利要求1所述的方法，其特征在于，在A-6)中，还包括：

深层神经网络(deep neural network，DNN)训练步骤如下：

(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构。利用误差反向传播算法，将MMSE函数作为优化函数，通过最小化优化函数得到最优参数。