CN107039036B

CN107039036B - 一种基于自动编码深度置信网络的高质量说话人识别方法

Info

Publication number: CN107039036B
Application number: CN201710088300.3A
Authority: CN
Inventors: 李燕萍; 刘俊坤; 凌云志
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2020-06-16
Anticipated expiration: 2037-02-17
Also published as: CN107039036A

Abstract

本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法，包括模型训练和说话人识别：首先对说话人语音进行预处理，提取MFCC特征参数，为不同说话人特征参数进行标记。将多名说话人特征参数输入深度置信网络进行网络训练学习，得到自动编码深度置信网络。利用训练好的自动编码深度置信网络分别对每个说话人提取的特征参数进行编码重构，输出数据作为矢量量化模型的输入，进行矢量量化模型训练。说话人识别阶段，说话人的语音特征参数经自动编码深度置信网络编码重构，输入矢量量化模型进行识别。通过深度置信网络对说话人语音特征的编码重构，提取说话人个性特征的同时，可以过滤语音中的噪声，提高了说话人识别准确性和系统鲁棒性。

Description

一种基于自动编码深度置信网络的高质量说话人识别方法

技术领域

本发明涉及信号处理、机器学习和模式识别领域，尤其涉及一种基于自动编码深度置信网络的高质量说话人识别方法别方法。

背景技术

说话人识别又称声纹识别，是一种通过对说话人的语音进行处理和分析，自动鉴别说话人身份的技术。说话人识别是根据语音波形中反映说话人生理和行为个性特征的语音参数来区分说话人的身份。说话人识别技术与其他生物识别技术相比，具有采集设备简单、认证方式友好、易于扩展等优势，在军事安全系统、银行证券系统以及司法鉴定系统等各个领域有广泛的应用。人在说话时，由于声道形状的不断变化，而发出不同的语音。声道是人体自声门、声带之后最重要的、对发音起决定性作用的器官。声道特征在一定程度上可以反映说话人的个性特征，可以采用声道特征来对说话人进行识别。梅尔倒谱系数(Mel-frequencyCepstralCoefficients,MFCC)是基于听觉系统的临界带效应，在Mel标度频率域提取的一种倒谱声道特征参数，它充分利用人耳这种特殊感知特征，具有较强的鲁棒性，得到广泛应用。说话人识别中学习模型是识别的核心，在说话人语音数据充分时，概率统计模型可以很好的拟合说话人特征，在说话人语音数据时长较短时，往往得不到较准确的模型估计参数，说话人语音时长不知时，矢量量化(VectorQuantization,VQ)可以得到较好的识别效果。

基于矢量量化的说话人识别方法是基于这样的假设，不同说话人由于个性特征使得语音特征矢量分布不同，从而这些信息可以对不同说话人区分。矢量量化是基于失真最小化原则，试图根据每个说话人的训练数据建立码本模型，然后对这一分布进行描述。识别时，提取待识别语音中特征矢量，经过每个码本矢量量化，求得平均量化误差，判别最小量化误差的码本就是说话人识别身份。矢量量化中比较成熟和常用的码本训练方法有LBG算法等。单纯的基于矢量量化的说话人识别方法存在以下几个缺陷：(1)说话人数量较多，且每人训练语音较少时，系统识别率变差。(2)干净语音下训练的模型，对带噪语音识别率极差,鲁棒性弱。因此，获取比较健壮的输入特征对整个系统识别率至关重要。

2006年，Hinton等人提出深度学习的概念，深度置信网络是由多层受限玻尔兹曼机(RBM)堆叠构成，采用贪婪逐层训练学习算法，通过逐层预训练和整体微调的方法，够充分挖掘数据中的潜在特征，克服传统多层神经网络易陷入局部最优解、需要大量数据标记等问题。深度置信网络被证明对自然界中的实际信号建模，比传统浅层结构的建模方法强。语音信号的产生和感知是一个复杂的过程，并且具有多层次和深层次处理结构。利用深度置信网络多层非线性变换可以捕捉到语音信号中的结构化信息和高层信息。说话人训练数据经过深度置信网络得到的矢量特征，可以更好地描述说话人个性特征矢量分布。

发明内容

本发明的目的在于利用深度置信网络的多层非线性结构，对说话人语音数据特征向量进行特征挖掘和数据重构，经过深度置信网络输出特征矢量作为矢量量化模型的输入数据，提升说话人识别系统的识别率和鲁棒性。

本发明的目的可以通过以下技术方案来实现：本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法，包括说话人模型训练阶段和说话人识别两个步骤，具体如下：

(1)模型训练阶段：对不同说话人语音信号进行预处理，提取语音特征，得到每个人的特征向量，并对特征向量以不同人为类别，进行标记；提取说话人语音40维MFCC参数，除去代表直流分量的第一维数据，然后每帧进行前后两帧拼接，形成195维的特征向量。

(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练，得到自动编码深度置信网络模型；将多层受限波尔兹曼机进行堆叠，构成深度置信网络；训练数据经第一层受限波尔兹曼机可视层输入，对第一层网络进行训练，第一层网络的输出作为第二层输入进行下一层的训练，按照以上方式构建深度置信网络模型。

(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入，训练矢量量化模型；构建完成深度置信网络后，利用每层训练的参数构建其对称网络，经过反向微调，最终构建出自动编码深度置信网络模型。

(4)模型识别阶：待识别语音的特征经过自动编码深度置信网络编码重构，输入矢量量化模型进行识别。

所述步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。

所述步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。

有益效果

1)提取说话人语音的40维MFCC参数，除去代表直流分量的第一维数据，然后依次取每帧前后各两帧进行拼接，构成一个5*(40-1)＝195维的向量，更好地表征语音数据中时序特征，提高系统识别率。

2)采用深度置信网络对说话人训练数据进行训练，克服了传统神经网络无法求出最优解等缺点，提高系统识别率。

3)利用将逐层预训练的深度置信编码网络参数，生成其对称网络，经过反向微调，进而获得自动编码深度置信网络模型，提高系统识别率。

4)采用自动编码深度置信网络，对有噪语音的特征数据具有一定噪声过滤能力，提高了系统的鲁棒性。

5)采用矢量量化模型进行识别，确保系统识别速率。

附图说明

图1是本发明说话人识别系统流程图。

图2是本发明自动编码深度置信网络模型示意图。

具体实施方式

下面结合附图对本发明实施例的一种基于深度学习与矢量量化的说话人识别方法进行详细描述。参照图1，图1示出本发明流程图，该方法分为说话人模型训练、说话人识别两个步骤：

Step1:首先说话人模型训练操作包括：

(1)提取说话人语音特征向量。本实施例采用TIMIT语音库进行实验。TIMIT是一个全英文语音数据库，由麻省理工MIT、斯坦福研究院SRI和德州仪器TI合作设计。该数据库每位话者录制10句话，声音采集频率是16000Hz，采样位数为16位。本实施例选取200名录音人，其中男128名，女72名，对每人10句语音划分为互不交叉的训练语音和识别语音，其中训练语音每人采用3句话(平均时长约10s左右)。说话人语音信号先由短时能量去除低于0.25倍平均短时能量的静音，然后经过傅里叶变换后提取40维的MFCC参数。除去代表直流分量的第一维数据，然后依次取每帧前后各两帧进行拼接，构成5*(40-1)＝195维的超帧，并对每个超帧根据不同说话人进行标记。

(2)构建深度置信网络，采用(1)中训练数据进行深度置信网络训练。

(2-1)本发明实施例设置由3层受限玻尔兹曼机(RBM)堆叠构成深度置信网络。典型的RBM是由可见层和隐含层构成二部图模型，可见层或隐含层层内没有连接，只有可见层和隐含层节点间存在连接。RBM是一个能量模型，其能量函数表示为：

其中v_i和h_j表示可见层第i个节点状态和隐含层第j个节点状态，W_ij是第i个可见层节点和第j个隐含层节点连接权重，a_i和b_j分别是可见层节点和隐含层节点的偏置。可见层v和隐含层h的联合概率分布为：

其中：Z为分配函数，或称归一化常量，可以通过所有可见层单元和隐含层单元分配能量计算得到，表示如下：

由于RBM在训练时，同一层中条件独立性，条件概率分布如下：

p(h_j＝0|v)＝1-p(h_j＝1|v)(2-5)

p(v_i＝0|h)＝1-p(v_i＝1|h) (2-7)

其中函数f为sigmoid函数，为f(x)＝1/(1+e^-x)。可以得到RBM的更新公式：

其中ε为学习率，设置大小为0.0002，<>_data是数据的期望，<>_model是模型的期望。模型期望计算比较复杂，它需要随机初始化可见层状态然后经过长时间采样。实际采用对比散度算法。

(2-2)多层RBM堆叠，依次将RBM隐含层单元的输出数据做为更高层RBM输入层数据，通过学习下一个RBM对上一个RBM隐藏单元的显著依赖关系进行建模则构成深度置信网络，结构如图2所示。本发明实施例中每层RBM节点数设置都是1024，第一层采用高斯-伯努利RBM,其他两层都是伯努利-伯努利RBM。由(1)得到的多个说话人所有带标签数据有监督的对网络逐层预训练。

(2-3)三层RBM网络初始训练完成后，利用训练好的参数，按照图2所示方式反转，构建对称网络，然后根据训练数据反向微调整个网络，完成自动编码深度置信网络训练。

对(1)中不同说话人语音提取的特征向量分别经过(2)自动编码深度置信网络进行编码重构，经过自动编码深度置信网络重构得到的深层特征向量作为矢量量化模型训练数据。矢量量化码长设置为32，码本设计采用LBG算法。

Step2:利用训练好的模型，进行说话人识别：

在(1)中选取非训练语句进行识别。不同说话人的识别语音同样经过特征提取后,分别输入深度置信网络进行编码重构，然后由矢量量化模型识别。

在相同说话人数训练数据和识别数据前提下，本发明与另外两种算法进行识别率对比，具体实施如下：

本发明是在矢量量化的说话人识别方法(VQ)进行改进，首先与该方法对比。基于矢量量化方法的实验设置为：说话人训练以及识别语音数据特征数据同样是MFCC进行拼接成每个195维特征向量，矢量量化编码长度是32，码本设计采用LBG算法。

基于高斯混合模型方法(GMM)，该方法的基本原理是对说话人集合中的每一个说话人建立一个高斯混合模型，模型中的参数是由说话人的特征参数分布决定。该方法在说话人识别领域是研究人员研究的热点，所以选择该方法与本发明做对比。基于高斯混合模型方法设置是：语音特征数据采用20维MFCC参数，高斯混合度设为16。(采取的两组对比方法的实验设置都是在本实验数据集下，系统识别率最优)

表1显示了三种方法在干净语音训练下，每人在识别语音集中选取1句话(平均时长约3s)、2句话、3句话时正确识别率。表2是在识别语音数据在10dB工厂噪声条件下和10dB白噪声条件下最优识别结果。因为基于矢量量化方法和基于高斯模型方法在无噪语音数据训练条件下，识别语音加噪识别不匹配情况，导致识别率崩溃，鲁棒性测试中，该两种方法模型训练时数据加入同样的10dB噪声。

通过实验数据可以看出，在每人训练语音时长为3句话，平均时长为10s左右短时训练语音数据下，有噪声或无噪噪环境下，本发明说话人识别准确率提升很多，具有一定鲁棒性和实用价值。

表1

表2

Claims

1.一种基于自动编码深度置信网络的高质量说话人识别方法，其特征在于，包括说话人模型训练阶段和说话人识别阶段，该方法包括以下步骤：

(1)模型训练阶段：对不同说话人语音信号进行预处理，提取语音特征，得到每个人的特征向量，并对特征向量以不同人为类别，进行标记；

(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练，得到自动编码深度置信网络模型；

(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入，训练矢量量化模型；

(4)模型识别阶段：待识别语音的特征经过自动编码深度置信网络编码重构，输入矢量量化模型进行识别。

2.根据权利要求1所述方法，其特征在于，步骤(1)得到每个人的特征向量内容是：提取说话人语音40维MFCC参数，除去代表直流分量的第一维数据，然后每帧进行前后两帧拼接，形成195维的特征向量。

3.根据权利要求1所述方法，其特征在于，步骤(2)中:将多层受限波尔兹曼机进行堆叠，构成深度置信网络；训练数据经第一层受限波尔兹曼机可视层输入，对第一层网络进行训练，第一层网络的输出作为第二层输入进行下一层的训练，按照以上方式构建深度置信网络模型。

4.根据权利要求1所述方法，其特征在于，步骤(2)中：构建完成深度置信网络后，利用每层训练的参数构建其对称网络，经过反向微调，最终构建出自动编码深度置信网络模型。

5.根据权利要求1所述方法，其特征在于，步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。

6.根据权利要求1所述方法，其特征在于，步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。