CN107993664A

CN107993664A - 一种基于竞争神经网络的鲁棒说话人识别方法

Info

Publication number: CN107993664A
Application number: CN201810075745.2A
Authority: CN
Inventors: 于泓; 马占宇; 司中威; 郭军
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-05-04
Anticipated expiration: 2038-01-26
Also published as: CN107993664B

Abstract

本发明实施例公开了一种基于竞争神经网络的鲁棒说话人识别方法。该方法利用竞争神经网络提取具有噪声不变性的声学特征，并利用该特征进行基于GMM‑UBM模型的说话人识别系统的训练，包括如下步骤：构建包含两个级连的编码网络与区分网络的竞争神经网络，并利用其中的编码网络提取噪声不变特征，然后利用提取的特征实现基于GMM‑UBM模型的说话人。在竞争网络训练时编码网络与区分网络分别训练，训练编码网络时所有输入采用相同的干净语音标签，训练区分网络时利用训练语音的噪声类型作为训练标签，利用本发明实施例，能够提高文本无关的说话人鉴别率，具有很大的实用价值。

Description

一种基于竞争神经网络的鲁棒说话人识别方法

本发明属于声纹识别领域着重描述了一种基于竞争神经网络的鲁棒说话人识别方法。

背景技术

说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术，该技术在信息安全，远程身份认证等领域具有非常重要的研究及应用价值。

在实际的应用中环境噪声的存在会极大的降低说话人识别的准确率，常用的语音增强的方法虽然能够去除语音中的噪声，但是在去噪的同时也会破坏语音中与说话人相关的信息，并不适应说话人识别的任务。因此从含有噪声的语音中直接提取一种在不同噪声环境下具有不变性的声学特征，是一种更适合说话人识别任务的方案。本发明所描述的是一种利用竞争神经网络提取具有噪声不变性声学特征并利用该特征构建说话人识别系统的方法。竞争神经网络包含编码网络与区分网络两个子网络，利用编码网络提取噪声不变性特征，利用区分网络保持提取特征的可区分性，通过对两个子网络的交替竞争训练后即可利用编码子网络提取噪声不变特征。利用该特征进行说话人识别系统的设计可以极大的提高系统在噪声环境下识别的准确率。

发明内容

为了解决环境噪声影响说话人识别准确率的问题，本发明提供了一种基于竞争神经网络的鲁棒说话人识别方法。

该方法利用竞争神经网络提取具有噪声不变性的声学特征，并利用该特征进行基于GMM-UBM模型的说话人识别系统的训练，下面将结合附图对本发明的具体实施步骤介绍如下：

一.声学特征提取竞争神经网络构建步骤：

图1为用来进行噪声不变声学特征提取的神经网络结构图。声学特征提取的竞争网络结构为：包含两个级联的子网络，下层的编码网络(EN)与上层的区分性网络(DN)，编码网络的输出作为最终需要提取的瓶颈特征。如图1所示，下层编码网络包含级联的一个输入层与三个全连接隐藏层E1、E2，E3，三个隐藏层E1、E2、E3所对应的节点数分别为1024、1024、128，E1、E2的激活函数为softplus函数，即f(x)＝log(e^x+1)，E3的激活函数为双曲正切函数，上层区分性网络包含两个级联的全连接隐藏层D1、D2与一个softmax输出层D3，D1、D2节点数分别为1024、1024，激活函数为sigmoid函数，E3的输出将作为D1的输入，D3包括N+1个节点，分别表示N种噪声类型与干净语音。

二.竞争神经网络训练步骤：

11帧连续的梅尔倒谱系数特征被用来作为神经网络的输入训练特征。用来进行网络训练时编码网络与区分性网络采用不同的目标标签进行交替训练，当训练区分性网络时输入特征中包含的噪声类型，，作为训练标签，即为[1,0,…0]、[0,1,0,…]、[0,0,1,0,…]等，不同位置的“1”表示不同的噪声类型。

当训练编码网络时所有的输入采用相同的干净语音标签，即，此时所有输入特征所对应的目标标签都为[1,0,0,…0]。编码网络的参数θ_E与区分网络的参数θ_D利用随机梯度下降法进行更新，更新θ_E时θ_D保持不变，更新θ_D时θ_E保持不变，更新参数θ_E与θ_D时所用的损失函数分别为:

其中m为训练用min-batch的大小，DN与EN分别表示编码网络与区分网络的传输函数，xi为输入11帧连续的梅尔倒谱系数特征特征。如图1所示，与分别表示更新θ_E与θ_D时所用的不同训练标签，在训练过程中θ_E每轮都更新，每更新五次θ_E，更新一次θ_D。

三、噪声不变特征提取步骤：

按照步骤二进行竞争网络训练后，提取下层的编码网络作为特征提取器，输入11帧连续的梅尔倒谱系数特征后，即可通过编码网络的输出层E3的线性输出获取128维的噪声不变特征。

四、说话人识别方法训练步骤：

采集大量的与说话人无关的背景语音，提取梅尔倒谱系数特征后，按照步骤三提取噪声不变特征，并利用这些特征训练一个包含512个成分的高斯混合模型(GMM)作为通用背景模型(UBM)。利用注册说话人的语音，提取噪声不变特征后，利用最大后验适应方法在UBM的基础上训练说话人GMM。

五、说话人识别方法测试步骤：

对测试语音按照步骤三，提取噪声不变特征后，利用测试人所宣称的说话人GMM以及UBM计算似然值的差值作为检测分数，检测分数计算公式为:

其中X＝[X₁，X₂，…,X_T]为从测试语音中提取的T帧噪声不变特征，λ_GMM与λ_UBM分别为GMM与UBM的参数。利用该分数与事先设定的阈值进行比较，大于阈值则判定测试说话人与其所宣称的说话人是否一致，否则则判定测试说话人与其所宣称的身份不符。

本发明的有益效果在于，相对于现有技术而言，本发明应用竞争神经网络提取具有噪声不变性的声学特征，并利用该特征进行经典的基于GMM-UBM说话人识别方法的训练和测试。实验结果验证了本发明的有效性与鲁棒性，可以极大的提高噪声环境下说话人识别的准确性，具有很强的实用性。

下面将结合附图对本发明具体实施方式进行详细说明。

图2是本发明的流程图，其中实线表示训练部分流程走向，虚线表示鉴别部分流程走向，包括以下步骤：

第一步：训练噪声不变特征提取器。利用含有噪声的训练数据提取梅尔倒谱系数特征后进行竞争神经网络的训练。训练完成后提取竞争网络下层的编码网络作为特征提取器用来进行噪声不变特征提取。

第二步：训练通用背景模型(UBM)。利用大量与待识别说话人无关的背景语音提取倒谱系数特征后利用第一步获取的特征提取器提取噪声不变特征，并利用该特征训练一个高斯混合模型(GMM)作为UBM。

第三步：训练说话人GMM。利用待识别说话人的注册语音提取噪声不变特征后，利用步骤2中训练获取的UBM采用最大后验自适应方法训练属于注册说话人的GMM。

第四步：说话人识别过程。利用待识别说话人的语音，提取噪声不变特征后送入第二步获取的UBM，以及第三步获取的测试语音所宣称说话人的GMM中计算似然值的差值，并利用该数值作为说话人识别的分数，若该分数大于预先设定的阈值则测试说话人与其所宣称的身份相符，否则被判定为虚假说话人。

以上结合附图对所提出的基于竞争神经网络的鲁棒说话人识别方法的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现，该软件产品存储在一个存储介质中，包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于竞争神经网络的鲁棒说话人识别方法，其特征在于：

一.声学特征提取的竞争网络结构为：包含两个级联的子网络，下层的编码网络与上层的区分性网络，编码网络的输出作为最终需要提取的瓶颈特征；

二.竞争网络训练方法为：进行网络训练时编码网络与区分性网络采用不同的目标标签进行交替训练，当训练区分性网络时输入特征中包含的噪声类型作为训练标签，当训练编码网络时所有的输入采用相同的干净语音标签。

2.根据权利要求1所述的下层编码网络的特征在于，包含级联的一个输入层与三个全连接隐藏层E1、E2，E3，输出层的输入为11帧连续的梅尔倒谱系数特征，三个隐藏层E1、E2、E3所对应的节点数分别为1024、1024、128，E1、E2的激活函数为softplus函数，即f(x)＝log(e^x+1)，E3的激活函数为双曲正切函数。

3.根据权利要求1所述的上层区分性网络的特征在于，包含两个级联的全连接隐藏层D1、D2与一个softmax输出层D3，D1、D2节点数分别为1024、1024，激活函数为sigmoid函数，E3的输出将作为D1的输入，D3包括N+1个节点，分别表示N种噪声类型与干净语音。

4.根据权利要求1所述的竞争网络训练方法其特征在于，利用随机梯度下降法对编码网络的参数θ_E与区分网络的参数θ_D进行更新，更新θ_E时θ_D保持不变，更新θ_D时θ_E保持不变，更新参数θ_E与θ_D时所用的损失函数分别为：

其中m为训练用min-batch的大小，DN与EN分别表示编码网络与区分网络的传输函数，x_i为输入的11帧连续的梅尔倒谱系数特征，与分别表示更新θ_E与θ_D时所用的不同训练标签，在训练过程中θ_E每轮都更新，每更新五次θ_E，更新一次θ_D。