CN108831486B

CN108831486B - 基于dnn与gmm模型的说话人识别方法

Info

Publication number: CN108831486B
Application number: CN201810518855.1A
Authority: CN
Inventors: 孙林慧; 顾婷
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2023-06-02
Anticipated expiration: 2038-05-25
Also published as: CN108831486A

Abstract

本发明揭示了一种基于DNN与GMM模型的说话人识别方法，包括如下步骤：在给定特征参数MFCC的前提下，基于GMM‑SVM提取超矢量实现数据降维，并拟构建相关超矢量来提取携带更丰富的说话人身份信息的特征；构造深度信念网络体系结构来提取说话人深度特征；结合相关超矢量和瓶颈特征以构建新的说话人辨认系统。应用本发明的该说话人识别方法，较之于传统此类单独方法具备突出的实质性特点和显著的进步性：该方法弥补了传统特征参数不能挖掘语音信号深层结构信息的缺点；与传统GMM超矢量相比，相关超矢量在实现数据降维的同时在一定程度上提高了识别率，并且减少了系统建模时间。

Description

基于DNN与GMM模型的说话人识别方法

技术领域

本发明属于与文本无关的说话人辨认（Speaker Identification，SI）技术领域，具体涉及到深度神经网络（Deep Neural Network，DNN）与高斯混合模型（GaussianMixture Model，GMM）相结合的说话人识别方法。

背景技术

语音信号中不仅包含着文本内容的信息，也包含了说话人的身份信息，并且每个说话人的语音信号都具有独特性，这使得说话人辨认技术得以实现。常用的说话人识别方法有基于模板模型的动态时间规整方法、矢量量化方法、基于概率模型的隐马尔可夫模型法（Hidden Markov Model，HMM）和高斯混合模型法。其中，高斯混合模型得到了最为广泛的应用，也是最为成熟的方法。2006年提出的将GMM结合SVM用于说话人识别的方法成为当时的主流技术。

深度学习作为机器学习的一个分支，近年来极大地促进了人工智能的发展，它是从人工神经网络发展出来的新领域。深度学习发展至今，已经应用到图像处理、语音处理、自然语言处理等多个领域，并取得了巨大的成功。现有的研究表明利用DNN来进行说话人识别工作是可行的，而利用DNN来进行说话人识别的方法大体上可分为两类，即“直接应用”和“间接应用”。前者是将DNN单纯地作为一个分类器用于识别任务中，而后者则是把DNN作为一个工具来提取特征，随后利用其它分类器来进行语音识别。上述的GMM-SVM和DNN这两种方法都是单独地应用于说话人辨认中，但各自又存在较为明显的弱点，严重限制了说话人辨认的准确性和系统能效。

发明内容

本发明针对GMM-SVM模型中传统超矢量没有充分利用各个高斯分量均值矢量之间的关联性，目的旨在提出一种融合GMM和DNN这两种方法的新技术用于实现说话人辨认。

本发明实现上述目的的技术解决方案为：一种基于DNN与GMM模型的说话人识别方法，其特征在于包括：

步骤一：在给定特征参数MFCC的前提下，基于GMM-SVM提取超矢量实现数据降维，并拟构建相关超矢量来提取携带更丰富的说话人身份信息的特征；

步骤二：构造深度信念网络体系结构来提取说话人深度特征；

步骤三：结合相关超矢量和瓶颈特征以构建新的说话人辨认系统。

进一步地，其中步骤一包含：

S11、对语音信号进行预处理后提取MFCC参数；

S12、提取GMM超矢量并关联预设范围内的均值矢量形成相关超矢量；

S13、在GMM模型基础上搭建SVM实现分类，并且通过实验对比选择最合适的SVM核函数。

更进一步地，所述预处理至少为预加重、加窗、分帧和端点检测。

进一步地，其中步骤二包含：

S21、构造两端宽中间窄的DBN模型，先进行预训练再通过有监督的方式进行精细调整以得到训练好的深度信念网络；

S22、将训练和测试语音经过预处理后提取的MFCC参数作为这个深度信念网络的输入以提取瓶颈层的特征。

进一步地，其中步骤三在GMM-SVM模型的基础上，将步骤一、二中所提出的相关超矢量和瓶颈特征同时应用到这个模型中，得到最优的说话人辨认系统，其中瓶颈特征随DBN模型的结构参数变化可调，相关超矢量随预设范围内高斯关联数变化可调。

应用本发明的该说话人识别方法，较之于传统此类单独方法具备突出的实质性特点和显著的进步性：该方法提出的深度神经网络结构可以充分表征语音信号中更深层次的能表征语音说话人特性的信息，从而克服了传统特征帧间信息被忽略、不能挖掘语音信号深层结构信息的缺点；与传统GMM超矢量相比，相关超矢量在实现数据降维的同时在一定程度上提高了识别率，并且减少了系统建模时间。

附图说明

图1是说话人识别的基本框图。

图2是传统MFCC特征参数条件下说话人识别率随高斯关联数的变化情况。

图3是深度信念网络的结构图。

图4是本发明的整体结构框图。

图5是瓶颈特征条件下说话人识别率与高斯关联数的关系。

图6是系统建模时间随高斯关联数的变化。

具体实施方式

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握，从而对本发明的保护范围做出更为清晰的界定和支持。

下面结合图1所示说话人识别的基本框图，对本发明的具体实施方式做进一步的具体说明。

步骤一：基于改进的GMM-SVM模型实现说话人识别。

本发明采用笔者所在团队在消音室录制的语料，该数据库包含210个说话人的语音，每个人有180条语音，语音信号的采样频率为16kHz。对语音进行分帧处理时，为了使数据的过渡更为平滑，帧长取256点，帧移取128点。本发明的试验采用10说话人，每人80条语句，其中训练语句60条，平均时长3s。将预处理后的语音帧经过FFT、DCT等变换后就可以得到MFCC参数。

每帧信号我们提取24维的MFCC参数和24维的一阶差分MFCC参数，高斯混合数固定为1024。在输入特征参数为MFCC前提下提取GMM超矢量，由于原始的GMM-SVM系统没有考虑到各个高斯分量的均值矢量之间的关联性，每个均值矢量样本的信息量也不够，我们对组成GMM超矢量的各个均值向量进行重新组合。每个高斯分量的均值矢量为

，并且/>

是维数为48的向量，即超矢量/>

。若选择高斯关联数的个数是/>

，并且/>

，则我们得到的第一个新的均值向量为:

，依次遍历整个超矢量，得到相关超矢量。相关超矢量具有的新的均值向量个数为p，并且满足关系：/>

。则相关超矢量/>

为/>

。本发明中可选的高斯关联数有/>

，并且训练样本和测试样本的相关超矢量选择相同的高斯关联数。

将训练阶段提取的相关超矢量用于SVM的训练，在测试阶段语音也经过预处理、特征参数以及超矢量的提取，最后构建相关超矢量与训练阶段得到的SVM模型来进行匹配从而得到识别结果。SVM的性能很大程度上取决于核函数的选择，但是目前没有很好的方法来针对具体问题指导选择特定的核函数。常用的核函数有线性核函数、多项式核函数、径向基核函数和sigmoid核函数。从图2中我们可以看出使用径向基核函数时系统的识别率最好，而多项式核函数时，系统的识别率最差。就核函数为径向基的情况下，高斯关联数

为1的时候，即相关超矢量等于原始超矢量，这时系统识别率最低。随着高斯关联数递增至64和128，系统识别率达到最高为96.125%。可以看出将相关超矢量应用于系统当中，均比应用原始超矢量的系统的识别率高。根据所提供的数据可看出，本发明提出的相关超矢量能够确切的提高系统的识别率。

步骤二：构造深度信念网络体系结构来提取说话人深度特征。

为了能够得到语音中“不变”的、足够“顽健”的说话人个体特征参数，构建一种中间的某个隐层的神经元个数远小于输入层和其它隐层神经元个数的深度信念网络，并将这一隐层称为瓶颈层，具体结构如图3所示。深度信念网络是一个概率生成模型，由多个受限玻尔兹曼机（RBM)堆叠而成。我们通过无监督的逐层贪婪算法训练DBN，隐层单元训练的目的是为了捕捉可视层单元表现出来的高阶数据的相关性，从而更好地拟合可视层的输入数据。通过预训练的方式我们就可得到DBN的模型参数，这也就是深度神经网络的初始参数，然后对这个深度神经网络进行有监督的fine-tuning之后就得到训练好的DBN。相比传统的对神经网络采用随机初始化网络参数的方式，采用预训练的方法有效解决了传统神经网络易陷入局部极小值等缺点。

首先对每帧信号提取48维的MFCC参数（即零阶24维和一阶24维），随后对MFCC特征参数采用零均值、标准差归一化的方式进行数据的归一化处理。对于如图3所示的DBN，除瓶颈层之外的所有隐藏层的神经元个数为200，输出层神经元的个数与分类类别数一致，即为10。而为了更有利于分类信息的压缩，瓶颈层节点数要比其他隐层节点数少的多。实验中第一个隐藏层的学习率为0.0002，其余隐藏层的学习率为0.002。训练好DBN后，就可以用DBN分别对训练语音和测试语音提取深度特征，瓶颈特征的维数与瓶颈层神经元的个数一致。

步骤三：基于相关超矢量和瓶颈特征实现说话人辨认。

为了充分利用上述的相关超矢量和深度特征的优势，构建一个结合GMM-SVM和DBN新的说话人辨认系统，如图4。首先对每帧语音信号提取48维的MFCC特征参数，将MFCC作为DBN的输入提取瓶颈特征，然后基于瓶颈特征利用GMM提取超矢量并进一步构建相关超矢量，最后利用SVM实现模式匹配和分类。

为了优化说话人辨认系统的性能，本发明探索了不同DBN结构参数对识别率的影响。首先固定隐层层数为3层，中间一层为瓶颈层，改变瓶颈层的神经元个数，通过多组实验发现当瓶颈层节点数为48，即与输入MFCC特征参数的维数一致时，说话人的识别率是最高的。一般来说越深的网络结构模型越能取得好的效果，紧接着本发明在瓶颈层节点数固定为48的前提下，讨论了网络深度对识别率的影响。我们分别设置了隐层层数为2层、3层、4层和5层，其中拥有2个隐层的网络把第一隐层设为瓶颈层，而拥有3、4和5个隐层的网络则把第二隐层设为瓶颈层。通过实验对比，当隐层个数为3层，识别率相对较高。而当隐层层数再增加时，识别率反而下降，因为网络模型越深，所需的数据量也越大，从而有限的数据不能充分地训练DBN。

在DBN性能最优的情况下，即隐层层数为3层、瓶颈层节点数为48个，本文利用DBN提取的瓶颈特征作为改进的GMM-SVM模型的输入特征。从图5中看出，在径向基和sigmoid核函数条件下，当高斯关联数为64时，说话人的识别率能达到98.125%，相对于前面的基于传统MFCC参数的改进的GMM-SVM模型其值提高了1.875%。

本发明还研究了系统建模时间与高斯关联数的关系，从图6可以看出，高斯关联数越大，系统建模所需的时间越短。因而当高斯关联数为64时，在达到最大识别率的前提下，建模时间比原始系统的建模时间缩短了很多。

以上实验结果表明：与传统的高斯超矢量相比，本文所构建的相关超矢23量可以显著地提高说话人的识别率。将相关超矢量和瓶颈特征同时应用在GMM-SVM模型中时，识别率相对基于MFCC的GMM-SVM模型不仅可以进一步提高，还可以减少系统识别说话人身份所需的时间。

以上详细描述了本发明的优选实施方式，但是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者等同变换，均应包含在本发明的保护范围之内。

Claims

1.基于DNN与GMM模型的说话人识别方法，其特征在于包括：

步骤一：在给定特征参数MFCC的前提下，基于GMM-SVM提取超矢量实现数据降维，并拟构建相关超矢量来提取携带更丰富的说话人身份信息的特征；对语音进行分帧处理，将预处理后的语音帧经过FFT、DCT等变换后得到MFCC参数，在输入特征参数为MFCC前提下提取GMM超矢量，对组成GMM超矢量的各个均值向量进行重新组合，每个高斯分量的均值矢量为m₁，m₂，...，m₁₀₂₄，并且m_i，i＝1，2，...，1024是维数为48的向量，即超矢量m＝(m₁，m₂，...，m₁₀₂₄)^T；若选择高斯关联数的个数是q，并且1≤q≤1024，则得到的第一个新的均值向量为:m′₁-(m₁，m₂，...，m_q)，依次遍历整个超矢量，得到相关超矢量；相关超矢量具有的新的均值向量个数为p，并且满足关系：1024＝p×q，则相关超矢量m′为m′＝(m′₁，m′₂，...，m′_p)′；将训练阶段提取的相关超矢量用于SVM的训练，在测试阶段语音也经过预处理、特征参数以及超矢量的提取，最后构建相关超矢量与训练阶段得到的SVM模型来进行匹配从而得到识别结果；

步骤三：结合相关超矢量和瓶颈特征以构建新的说话人辨认系统；

为了能够得到语音中“不变”的、足够“顽健”的说话人个体特征参数，构建一种中间的某个隐层的神经元个数远小于输入层和其它隐层神经元个数的深度信念网络，并将这一隐层称为瓶颈层；

构建一个结合GMM-SVM和DBN的说话人辨认系统，首先对每帧语音信号提取48维的MFCC特征参数，将MFCC作为DBN的输入提取瓶颈特征，然后基于瓶颈特征利用GMM提取超矢量并进一步构建相关超矢量，最后利用SVM实现模式匹配和分类；

当瓶颈层的节点数固定为48，即与输入MFCC特征参数的维数一致时，说话人的识辨率最高；在固定瓶颈层节点数后，确认隐层层数为3层，实现对所述说话人辨认系统的性能进行优化。

2.根据权利要求1所述基于DNN与GMM模型的说话人识别方法，其特征在于：其中步骤一包含：

S11、对语音信号进行预处理后提取MFCC参数；

3.根据权利要求2所述基于DNN与GMM模型的说话人识别方法，其特征在于：所述预处理至少为预加重、加窗、分帧和端点检测。

4.根据权利要求1所述基于DNN与GMM模型的说话人识别方法，其特征在于：其中步骤二包含：

5.根据权利要求1所述基于DNN与GMM模型的说话人识别方法，其特征在于：其中步骤三在GMM-SVM模型的基础上，将步骤一、二中所提出的相关超矢量和瓶颈特征同时应用到这个模型中，得到最优的说话人辨认系统，其中瓶颈特征随DBN模型的结构参数变化可调，相关超矢量随预设范围内高斯关联数变化可调。