CN108694949B

CN108694949B - 基于重排序超向量和残差网络的说话人识别方法及其装置

Info

Publication number: CN108694949B
Application number: CN201810257464.9A
Authority: CN
Inventors: 陈金坤; 蔡丹蔚; 蔡炜城; 李明
Original assignee: Joint Research Institute; Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Joint Research Institute; Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2021-06-22
Anticipated expiration: 2038-03-27
Also published as: CN108694949A

Abstract

本发明公开了基于重排序超向量和残差网络的说话人识别方法及其装置，方法包括：对语音样本进行信号检测，提取及优化MFCC特征；基于TDNN声学模型处理MFCC特征，得到均值中心化超向量；根据senone状态的相似性对均值中心化超向量进行重排序；以重排序后的均值中心化超向量作为外部神经网络的输入，对外部神经网络进行训练，其中输入端为残差网络，从其输出端获取说话人的深度编码特征；对说话人的深度编码特征进行PLDA建模，得到PLDA模型；计算语音样本的深度编码特征在PLDA模型上的似然得分，判断说话人是否为同一个人。本发明能够更好地学习超向量内部的连续性信息和局部相关性信息，有利于提升说话人识别性能。

Description

基于重排序超向量和残差网络的说话人识别方法及其装置

技术领域

本发明涉及语音识别领域，尤其是基于重排序超向量和残差网络的说话人识别方法及其装置。

背景技术

说话人识别，又称声纹识别，是一种生物识别技术。说话人识别指的是给定某个人的语音，提取语音信号中说话人的信息，利用机器学习和模式识别的相关方法，鉴定语音信号中对应的说话人身份。

目前已经研究出了多种说话人识别网络，包括一种端到端的深度神经网络识别系统，该系统一般采用全连接层作为输入层，在输入层采用平均池化的技术，以获得固定维度的输入，但在文本无关的说话人识别问题中，这并不是理想的解决办法，这是因为不同的音素状态之间存在着内部连续性和局部相关性信息，经过平均池化处理后，反而丢失了这些信息，对系统性能容易产生不利影响，并且采用全连接层作为输入层，对于这些信息的学习效果也不佳。

发明内容

为了解决上述问题，本发明的目的是提供基于重排序超向量和残差网络的说话人识别方法及其装置，通过对均值中心化超向量进行重排序，使得超向量内部的连续性信息和局部相关性信息更加明显，并且采用残差网络作为输入层，具有更好的学习效果。

为了弥补现有技术的不足，本发明采用的技术方案是：

基于重排序超向量和残差网络的说话人识别方法，包括以下步骤：

S1、对语音样本进行语音信号检测，提取及优化MFCC特征；

S2、基于TDNN声学模型处理MFCC特征，从而得到均值中心化超向量；

S3、根据senone状态的相似性对均值中心化超向量进行重排序；

S4、以重排序后的均值中心化超向量作为外部神经网络的输入，对外部神经网络进行训练，其中外部神经网络的输入端为残差网络；从外部神经网络的输出端获取说话人信息的深度编码特征；

S5、对说话人信息的深度编码特征进行PLDA建模，从而得到PLDA模型；

S6、计算多个语音样本的深度编码特征在PLDA模型上的似然得分，并比较对应的似然得分是否相同，若相同，则判定对应的说话人为同一个人，否则不为同一个人。

进一步，所述步骤S1中，对语音样本进行语音信号检测，包括：采用VAD去除语音样本中的静音与噪声部分。

进一步，所述步骤S1中，提取及处理MFCC特征，包括：提取向量维度为60的MFCC特征，采用特征均值方差归一化方法对MFCC特征进行优化。

进一步，所述步骤S2中，基于TDNN声学模型处理MFCC特征，从而得到均值中心化超向量，包括：

S21、基于TDNN声学模型提取MFCC特征中每一帧在音素层单元上的后验概率，得到：

其中，MFCC特征为{y₁,y₂,…,y_L}，L为帧数，c_i是TDNN声学模型中的第i个senone状态，μ_i是对应第i个senone状态的均值向量，P(c_i|y_t)是第t帧特征y_t在音素层单元上的后验概率，N_i和F_i分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。

S22、利用N_i对F_i的均值中心化向量进行权重估计，得到F_i的归一化均值中心化向量

S23、将所有帧的

拼接，得到均值中心化超向量

进一步，所述

为K×D矩阵，包括3个维度为

的子矩阵，所述3个子矩阵分别对应梅尔频率倒谱系数及其一阶、二阶导数，其中K为senone状态的个数，D为MFCC特征的向量维度。

进一步，所述步骤S3中，根据senone状态的相似性对均值中心化超向量进行重排序，包括：采用层次聚类或决策树聚类方法将相似的senone状态聚集到相同组别中，对

进行重排序，将

表示为K×D二维图像。

进一步，所述步骤S4中的残差网络表示为：

y＝F(x,W_i)+x

其中，x是输入量，y是输出量，F()表示一层或多层的卷积神经网络，W_i表示残差网络内所有卷积层的参数。

进一步，所述步骤S4中，所述外部神经网络的输出端为全连接网络，通过全连接网络的瓶颈层获取说话人信息的深度编码特征。

基于重排序超向量和残差网络的说话人识别装置，包括：

提取模块，用于对语音样本进行语音信号检测，提取及优化MFCC特征；

生成模块，用于利用TDNN声学模型处理MFCC特征，从而得到均值中心化超向量；

重排序模块，用于根据senone状态的相似性对均值中心化超向量进行重排序；

训练模块，用于以重排序后的均值中心化超向量作为外部神经网络的输入，对外部神经网络进行训练并从外部神经网络的输出端获取说话人信息的深度编码特征，其中外部神经网络的输入端为残差网络；

特征建模模块，用于对说话人信息的深度编码特征进行PLDA建模，从而得到PLDA模型；

比较模块，用于计算多个语音样本的深度编码特征在PLDA模型上的似然得分，并比较对应的似然得分是否相同，若相同，则判定对应的说话人为同一个人，否则不为同一个人。

基于重排序超向量和残差网络的说话人识别装置，包括处理器和用于存储处理器可执行指令的存储器；所述处理器读取可执行指令并执行以下步骤：

对语音样本进行语音信号检测，提取及优化MFCC特征；

基于TDNN声学模型处理MFCC特征，从而得到均值中心化超向量；

根据senone状态的相似性对均值中心化超向量进行重排序；

以重排序后的均值中心化超向量作为外部神经网络的输入，对外部神经网络进行训练，其中外部神经网络的输入端为残差网络；从外部神经网络的输出端获取说话人信息的深度编码特征；

对说话人信息的深度编码特征进行PLDA建模，从而得到PLDA模型；

计算多个语音样本的深度编码特征在PLDA模型上的似然得分，并比较对应的似然得分是否相同，若相同，则判定对应的说话人为同一个人，否则不为同一个人。

本发明的有益效果是：通过对语音样本进行检测，以获取更纯粹的语音信号，进一步利用TDNN声学模型处理MFCC特征，从而得到均值中心化超向量，尤其是，通过对均值中心化超向量进行重排序，使得超向量内部的连续性信息和局部相关性信息更加明显，并且采用残差网络作为输入层，使得能够更好地学习超向量内部的连续性信息和局部相关性信息，从而有利于获取说话人信息的深度编码特征，进而提升整体的识别性能。因此，本发明能够更好地学习超向量内部的连续性信息和局部相关性信息，有利于提升说话人识别性能。

附图说明

下面结合附图给出本发明较佳实施例，以详细说明本发明的实施方案。

图1是本发明的步骤流程示意图；

图2是本发明与其它识别方法的实验数据对比图。

具体实施方式

实施例一

参照图1，本发明的基于重排序超向量和残差网络的说话人识别方法，包括以下步骤：

S1、对语音样本进行语音信号检测，提取及优化MFCC特征；

具体地，在本发明中，对以下这些技术用语稍作解释：MFCC特征即梅尔频率倒谱系数(Mel-frequencycepstral coefficients)特征；TDNN声学模型，即是时延神经网络(Timedelay neural network)声学模型；后验概率，即Phoneticposterior probability，简称PPP；PLDA，即概率线性判别分析(Probabilisticlinear discriminate analysis)，是一种后端建模技术。

通过对语音样本进行检测，以获取更纯粹的语音信号，进一步利用TDNN声学模型处理MFCC特征，从而得到均值中心化超向量，尤其是，通过对均值中心化超向量进行重排序，使得超向量内部的连续性信息和局部相关性信息更加明显，并且采用残差网络作为输入层，使得能够更好地学习超向量内部的连续性信息和局部相关性信息，从而有利于获取说话人信息的深度编码特征，进而提升整体的识别性能。因此，本发明能够更好地学习超向量内部的连续性信息和局部相关性信息，有利于提升说话人识别性能。

其中，所述步骤S1中，对语音样本进行语音信号检测，包括：采用VAD去除语音样本中的静音与噪声部分；VAD是本领域一种常见静噪处理手段，在此不作赘述。

其中，所述步骤S1中，提取及处理MFCC特征，包括：提取向量维度为60的MFCC特征，采用特征均值方差归一化方法对MFCC特征进行优化；MFCC特征为矩阵表示，故对其特征均值方差进行归一化处理，使其成为标准矩阵，可使接下来的运算更加方便，由于该方法仅涉及到简单向量特征处理，因此不再赘述。

其中，所述步骤S2中，基于TDNN声学模型处理MFCC特征，从而得到均值中心化超向量，包括：

S23、将所有帧的

拼接，得到均值中心化超向量

其中，所述

为K×D矩阵，包括3个维度为

的子矩阵，所述3个子矩阵分别对应梅尔频率倒谱系数及其一阶、二阶导数，其中K为senone状态的个数，即P(c_i|y_t)的维度为K，D为MFCC特征的向量维度。

具体地，由于不同senone状态有不同的占有概率，一般置信度高的senone状态在神经网路中能够有更高的权重，也就更有利于外部神经网络的学习，所以需要用零阶Baum-Welch统计量重新估计F_i的均值中心化向量；

在本实施例中，采用了DC fisher语料库中约1800小时的英语语料TDNN声学模型，其中senone状态数K为5515，向量维度D为60。

其中，所述步骤S3中，根据senone状态的相似性对均值中心化超向量进行重排序，包括：采用层次聚类或决策树聚类方法将相似的senone状态聚集到相同组别中，对

进行重排序，将

表示为K×D二维图像。

具体地，对于相似的senone状态，在单音素或者三音素状态的表示上具有相似性，则TDNN声学模型会输出相似的音素后验概率。在K×D的

矩阵中，按照对应的senone状态的相似度进行排序和分组，相似的senone状态将被聚集到相同的组别中，从而将超向量矩阵重新表示为含有更强的连续性和相关性信息的K×D二维图像；

用层次聚类方法对senone进行分组包括：首先，以K个senone状态为树的叶子节点，即K个子类，再用余弦距离或相关距离计算各个子类的均值向量μ_i之间的距离，即类间距离，然后根据类间距离用层次聚类方法对senone状态进行分组。

用决策树聚类方法对senone进行聚类包括：将多个三音素状态映射到一个senone状态，并且使相似的senone状态在决策树中的位置相近，状态编号也相近，因此可利用该决策树中的senone状态编号来将均值中心化超向量进行重排序；其中，决策树模型在TDNN声学模型的训练过程中也被伴随构建，是已知模型。

其中，所述步骤S4中的残差网络表示为：

y＝F(x,W_i)+x

其中，x是输入量，y是输出量，F()表示一层或多层的卷积神经网络，W_i表示残差网络内所有卷积层的参数；优选地，残差网络包括4层卷积神经网络，在不同的卷积神经网络之间，采用常见的激活函数Rectified linear unit(ReLU)进行传递。

其中，所述步骤S4中，所述外部神经网络的输出端为全连接网络，通过全连接网络的瓶颈层获取说话人信息的深度编码特征，瓶颈层为全连接网络的隐藏层，瓶颈层的输出可以作为说话人信息的一种深度编码特征。

其中，优选地，所述步骤S4中，以交叉熵损失函数作为目标函数来对外部神经网络进行训练，训练起来较为简单方便，由于普适性高，适合本领域的技术人员进行使用。

实施例二

基于重排序超向量和残差网络的说话人识别装置，包括：

实施例三

对语音样本进行语音信号检测，提取及优化MFCC特征；

根据senone状态的相似性对均值中心化超向量进行重排序；

以下给出本发明的实验数据结果。

其中，所述的语音样本是从NISTSRE2010核心测试集中选出的。

参照图2和表1，PLDA和Cosine为不同的算法模型，EER为等错误率，DCF10是指当误警率为10％时的漏判率,图2中4幅图像依次对应编号1、2、8和11的实验数据；其中，编号为1和2的是基于UBM和i-vector的系统，两者的区别在于UBM模型的不同，前者是混合高斯(GMM)的UBM而后者是基于深度神经网络(DNN)的UBM模型，通过数据对比，可知DNN-UBM模型的识别性能更好；编号为3的是基于全连接层网络和原始超向量的识别算法，编号为4的是基于残差网络(ResNet)和原始超向量的识别算法，编号为5、6和7的是基于残差网络和重排序超向量的识别算法，对应的重排序的方法分别是基于余弦距离的层次聚类、基于相关距离的层次聚类和决策树聚类，而编号为8、9、10和11的分别是几个识别系统在得分层上用BOSARIS工具融合得到的混合系统。

表1基于不同算法的说话人识别结果

以PLDA为例，通过编号3和4的实验结果对比，可以发现，以超向量作为输入时，残差网络的性能优于全连接网络，而通过对超向量进行重排序，又可以进一步提升识别算法的性能。另外，参照编号8-11的实验结果，将基于残差网络和重排序超向量的识别系统与基于UBM和i-vector的识别系统做融合，可以得到较优的混合系统，说明不同的方法具有互补性质，实际使用时不必太过于局限。

以上内容对本发明的较佳实施例和基本原理作了详细论述，但本发明并不局限于上述实施方式，熟悉本领域的技术人员应该了解在不违背本发明精神的前提下还会有各种等同变形和替换，这些等同变形和替换都落入要求保护的本发明范围内。

Claims

1.基于重排序超向量和残差网络的说话人识别方法，其特征在于，包括以下步骤：

S1、对语音样本进行语音信号检测，提取及优化MFCC特征；

S6、计算多个语音样本的深度编码特征在PLDA模型上的似然得分，并比较对应的似然得分是否相同，若相同，则判定对应的说话人为同一个人，否则不为同一个人；

其中，MFCC特征为{y₁，y₂，...，y_L}，L为帧数，c_i是TDNN声学模型中的第i个senone状态，μ_i是对应第i个senone状态的均值向量，P(c_i|y_t)是第t帧特征y_t在音素层单元上的后验概率，N_i和F_i分别是MFCC特征在第t帧下的零阶和一阶的Baum-Welch统计量。