CN109346084A

CN109346084A - 基于深度堆栈自编码网络的说话人识别方法

Info

Publication number: CN109346084A
Application number: CN201811092136.4A
Authority: CN
Inventors: 曾春艳; 马超峰; 武明虎; 叶佳翔; 朱莉; 王娟; 吕松南; 朱栋梁; 蔡松
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-15

Abstract

本发明涉及一种基于深度堆栈自编码网络的说话人识别方法，S1：说话人特征提取；S2：堆栈自编码器的网络设计；S3：说话人识别与决策。本发明与传统说话人识别相比，将深度堆栈自编码网络与说话人识别系统模型相融合，结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果，本发明的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，使识别实时性得到有效增强。

Description

基于深度堆栈自编码网络的说话人识别方法

技术领域

本发明计算机视觉技术领域，尤其涉及一种基于深度堆栈自编码网络的说话人识别方法。

背景技术

说话人识别又称声纹识别，是利用语音信号中含有的特定说话人信息来识别说话人身份的一种生物认证技术。近年来，基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显提升。I-vector用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量的提取、i-vector映射、似然比得分计算3个步骤。然而，i-vector模型框架中总体变化模型和线性判别分析模型可行性的前提是说话人信息和通道信息线性可分，实际上线性可分难以准确地将两者有效分离，这就限制了模型在复杂实际环境中的性能。

近年来，得益于深度学习较强的深层信息抽取和非线性建模能力，深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性，将深度学习引入到说话人识别的建模框架中，利用深度学习模型具有的深度非线性结构特征，进行了性能评估和分析。

发明内容

基于背景技术存在的技术问题，本发明提出一种基于深度堆栈自编码网络的说话人识别方法。

一种基于深度堆栈自编码网络的说话人识别方法，方法步骤如下：

S1：说话人特征提取；

S2：堆栈自编码器的网络设计；

S3：说话人识别与决策。

优选的，所述S1中包括以下步骤：

1)采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量，获得MFCC系数；

2)给出一组训练按步骤1)提取出MFCC特征，训练高斯混合-通用背景模型；

3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征，训练高斯混合-通用背景模型来对语音声学特征进行对准，并计算得到特征的高维充分统计量。

优选的，所述S2中包括以下步骤：

1)将多层稀疏自动编码器组成堆栈式自动编码器；

2)加入无监督的预训练和有监督的微调。

优选的，所述S3中包括以下步骤：

1)在后端测试阶段，当给出一条测试语音的i-vector后，首先将该语音和所有说话人模型进行比对，得到测试概率，即测试得分；

2)将最大得分对应的标签与声称的标签对比，若相同，就认为这段语音是其所声称的说话人的语音，否则就拒绝；

3)计算所有测试语音正确识别的概率，即系统的识别率。

优选的，在S1的第1)步中将语音信号进行分帧时，将N个采样点集合成一个观测单位，N为256或512。

优选的，在S1的第1)步中将语音信号进行差分时，采用一阶差分和二阶差分。

优选的，在S1的第3)步中通过训练i-vector特征提取器，提取出目标说话人和待识别说话人语音信号的i-vector。

优选的，在S3的第1)步中采用Softmax函数进行测试：

式中k为输出类别的索引，即目标说话人的类别索引，p_s表示待识别说话人在第s类的输出值，即输出概率。

与现有技术相比，本发明具有的有益效果在于：

本发明提出一种基于深度堆栈自编码网络的说话人识别方法，具体而言使用堆栈自编码器和i-vector组合的方法。堆栈式自动编码器，先用无监督逐层贪心训练算法完成对隐含层的预训练，然后用BP算法对整个神经网络进行系统性参数优化调整，显著降低了神经网络的性能指数，有效改善了BP算法易陷入局部最小的不良状况。堆栈式自动编码器的多层结构既能提高评价模型的表征能力，又能避免节点数指数增长，进而提高抗噪性、识别率。

本发明与传统说话人识别相比，将深度堆栈自编码网络与说话人识别系统模型相融合，结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果，本发明的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，使识别实时性得到有效增强。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是基于本网络的i-vecor特征提取的结构图；

图2是本发明提出的网络的识别过程图；

图3是MFCC特征提取流程图；

图4是i-vector特征提取流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

下面结合具体实施例对本发明作进一步解说。

参照图1-4，一种基于深度堆栈自编码网络的说话人识别方法，该方法可以分为三部分：1)说话人特征提取；2)堆栈自编码器的网络设计；3)说话人识别与决策(softmax)。

1)说话人特征提取，步骤如下：

A、采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、短时能量；

(A-1)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

(A-2)分帧：将N个采样点集合成一个观测单位，称为帧，通常情况下N的值为256或512；

(A-3)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性，x(n)表示分帧之后的信号：

(A-4)快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析；

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数。

(A-5)将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

(A-6)经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数，取12-16；

(A-7)差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度，常用的是一阶差分和二阶差分。

B、给出一组训练按步骤A提取出MFCC特征，训练高斯混合-通用背景模型(GMM-UBM)；

(B-1)若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(X_t)加权得到，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中混合权重w_k满足假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；

(B-2)一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

C、将目标说话人和待识别说话人的语音按步骤A提取出MFCC特征，训练GMM-UBM模型来对语音声学特征进行对准，并计算得到特征的高维充分统计量；

(C-1)I-vector引入到说话人识别过程是通过将JFA算法中说话人因子分量和信道因子分量同时映射到一个低维空间，其公式可表示为：

M(s)＝M₀+Tw+ε (8)

式中M₀表示与说话人与信道都无关的均值超矢量；T表示全局差异空间矩阵；w即表示为总变化因子，服从标准正态分布N(0,1)；ε表示残差，服从分布N(0,∑)；

(C-2)全差异空间T训练

构建全局差异空间是需要将GMM得到因子进行计算Baum-Welch统计量，计算公式如下：

式中T表示为语音信号帧数，x_t是D维的语音特征向量；P(k|X_t)是x_t在第k个GMM混合分量下的后验概率，m_k表示第k个GMM混合分量的均值矢量；N_k为零阶统计量，F_k是F×1维的一阶统计量，是F×1维的一阶中心统计量。为了使计算更加方便，一般对一阶统计量和均值进行归一化处理；

(C-3)T矩阵可根据期望最大化(EM)算法在训练语音集上估计生成。T矩阵训练步骤如下：

1)初始化

将空间定为R维，矩阵大小为KF×R。T中初始元素随机产生。将矩阵乘以UBM模型协方差矩阵元素和进行补偿。对每个语音片段利用公式(9)计算相应的统计量；

2)计算w的期望值

在计算期望值之前，需要计算其后验分布。设置临时变量L＝I+T^t∑^-1N(s)T，其中T已有初始值，∑^-1为UBM模型协方差矩阵的逆。s表示说话人，通过充足数据计算出总变化因子的一阶期望和二阶期望,来得到的w分布函数。公式为：

得到的w后验分布

3)更新T矩阵

4)重复(2)(3)的步骤直达得到固定迭代次数iteration。

(C-4)提取i-vector

对给定语音进行如下公式得到w，即i-vector因子

其中N是GMM混合分量的占有率，∑是UBM协方差矩阵。

D、根据步骤C得到的特征充分统计量来训练i-vector特征提取器，提取出目标说话人和待识别说话人语音信号的i-vector；

2)堆栈自编码器的网络设计，步骤如下：

A、堆栈式自动编码器由多层稀疏自动编码器组成。对于一个n层栈式自编码神经网络，假定用W^(k,1),W^(k,2),b^(k,1),b^(k,2)表示第k个自编码器对应的W⁽¹⁾,W⁽²⁾,b⁽¹⁾,b⁽²⁾参数。那么该栈式自编码神经网络的编码过程：按照从前向后的顺序执行每一层自编码器的编码步骤：

同理，栈式神经网络的解码过程：按照从后向前的顺序执行每一层自编码器的解码步骤：

式中a⁽ⁿ⁾表示最深层隐藏单元的激活值，a⁽ⁿ⁾通过将作为softmax分类器的输入特征，可以将栈式自编码神经网络中学到的特征用于分类问题。

B、加入无监督的预训练和有监督的微调；

3)说话人识别与决策(softmax)：

A、在后端测试阶段，当给出一条测试语音的i-vector后，首先将该语音和所有说话人模型进行比对，得到测试概率，即测试得分；

对于输出层，采用Softmax函数：

B、将最大得分对应的标签与声称的标签对比，若相同，就认为这段语音是其所声称的说话人的语音，否则就拒绝；

C计算所有测试语音正确识别的概率，即系统的识别率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，方法步骤如下：

S1：说话人特征提取；

S2：堆栈自编码器的网络设计；

S3：说话人识别与决策。

2.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S1中包括以下步骤：

3.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S2中包括以下步骤：

1)将多层稀疏自动编码器组成堆栈式自动编码器；

2)加入无监督的预训练和有监督的微调。

4.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，所述S3中包括以下步骤：

3)计算所有测试语音正确识别的概率，即系统的识别率。

5.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，第1)步中将语音信号进行分帧时，将N个采样点集合成一个观测单位，N为256或512。

6.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，第1)步中将语音信号进行差分时，采用一阶差分和二阶差分。

7.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，第3)步中通过训练i-vector特征提取器，提取出目标说话人和待识别说话人语音信号的i-vector。

8.根据权利要求4所述的一种基于深度堆栈自编码网络的说话人识别方法，其特征在于，第1)步中采用Softmax函数进行测试：