CN112331216A

CN112331216A - 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法

Info

Publication number: CN112331216A
Application number: CN202011183292.9A
Authority: CN
Inventors: 苗冉; 王以; 申树藩; 卫志华
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-05

Abstract

基于复合声学特征和低秩分解TDNN的说话人识别系统及方法。对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取，将两种特征复合；在说话人模块中，将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取，再经过统计池化层后，通过两个全连接层和一个softmax层完成段级别特征提取，并得到输入语音对应的特征向量。上述方法在采用低秩矩阵分解对TDNN进行优化，能够显著减小参数规模，加快训练速度；同时在网络中采用跳层连接，以减少梯度消失的出现；相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取，弥补了单纯采用MFCC对高频信息的损失，增加了特征的多样性，提高说话人识别的准确性。

Description

基于复合声学特征和低秩分解TDNN的说话人识别系统及方法

技术领域

本发明属于声纹识别领域，具体地说，涉及一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法。

背景技术

声纹识别，也称为说话人识别。对说话人辨认问题，即对于某段语音，判断是若干人中的哪一个个体，从而可以将其应用于多种应用场景下，如会议语音记录、银行信息匹配等。

声学特征提取是说话人识别中重要的一部分，对于特征参数的要求除了能将语音信号转换为计算机能处理的语音特征向量，还需要其符合类似人耳的听觉感知特性。同时，作为语音的特征参数，需要在一定程度上增强语音信号，抑制非语音信号。其中最常用到的特征参数为梅尔频率倒谱系数(MFCC)。MFCC可以准确通过语音短时功率谱的包络中显示描述声道的形状。然而MFCC更多提取低频信息，而往往忽略高频信息对声纹识别的作用。

归一化互相关函数(NCCF)可以对音频的音高特征进行有效提取，可以有效弥补上述声学特征的缺陷。

神经网络模型广泛地应用于说话人识别的模式匹配。例如，x-vector系统采用时延神经网络(TDNN)，取得了很好的效果。但是，单纯的TDNN网络也存在一些欠缺可以进行优化，比如参数过多，训练时间过长等问题。

低秩矩阵分解的基本思想是，将原来大的参数矩阵分解为多个较小的矩阵，这样分解后的小矩阵计算总量小于原始矩阵。低秩矩阵分解的常见方法有SVD、CP分解、Tucker分解等等。其中奇异值分解(SVD)：对于m×n阶矩阵M，存在一个分解M＝U∑V^*，其中U是m×n阶酉矩阵，∑是n×n阶对角矩阵，V^*表示V的共轭转置，是n×n酉矩阵。该分解称为奇异值分解。对神经网络某一层的参数矩阵进行奇异值分解，可以有效降低特征维数和减少模型参数。

发明内容

本发明的目的在于公开一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法，对于传统x-vector方法中存在的一些不足，包括声学特征提取以及TDNN网络进行优化。本发明的成果将提高说话人识别的性能与效率，尤其是应用在会议场景中将发挥很大作用。

技术方案：

一种基于复合声学特征和低秩矩阵分解TDNN的说话人识别方法，其特征在于，主要模块包括声学特征提取模块，说话人模块以及判定模块，其中说话人识别模块包括帧级别特征提取模块，池化统计层以及段级别特征提取模块。对于输入语音，通过MFCC和归一化互相关函数提取声学特征，能够兼顾高低频特征。之后的说话人模块中，用低秩矩阵分解TDNN代替经典的TDNN进行帧级别特征提取，能够明显减少神经网络的参数数量，在保证性能的同时提高效率。同时再采用跳层连接减少梯度消失，加快训练速度；使用Dropout处理避免过拟合。之后特征继续经过段级别特征提取模块中的两个全连接层与一个softmax层，完成模型训练，同时在第一个全连接层处输出该语音的特征向量。打分判决模块使用PLDA模型对注册语音和测试语音的特征向量进行相似度判定。

本发明是对x-vector说话人识别系统进行的改进，在保证原有TDNN网络处理时序信息优势的基础上，引入参数矩阵低秩分解对TDNN进行优化，显著减少参数数量，加快了模型训练速度；同时采用归一化互相关函数提取音高特征，弥补了单纯采用MFCC特征在高频区域的信息损失，为说话人识别模型提供了一种新的思路。

有益效果

1)本发明采用基于低秩矩阵分解TDNN的说话人模型，有以下几点优势：

①TDNN可以获取相关语音的时间序列特征，从而更好地利用上下文信息。由于不同的帧之间存在时序关系，多层TDNN可以使网络学习到语音信号的时序结构性信息。同时尽管输入的语音帧是不定长特征，但是TDNN可以通过池化层将其处理为固定维度的向量。

②在TDNN的基础上添加中间层，采用奇异值分解将原来的每个参数矩阵都分解为两个较小矩阵乘积的形式，其中一个矩阵约束为半正交，这有利于降低特征维数，减小参数规模，不仅加快了模型训练的速度，而且能够有效避免过拟合状态。另外采用跳层连接的方式，可以减少梯度消失，增强梯度的流动，泛化神经网络。另外进行在训练的过程中，采用Dropout处理，避免过拟合的出现。

2)本发明综合了MFCC与归一化互相关函数进行声学特征提取，弥补了MFCC在提取高频信息方面的不足。MFCC作为倒谱特征，更多被采用其低频段信息，往往忽略了高频信息对声纹识别的作用。归一化互相关函数提取得到的音高特征，可以作为高频信息的补充表达，使得模型具有更好的说话人识别能力。

附图说明

此处说明的附图仅用来提供对于本发明思路的进一步理解，构成本发明的一部分，本发明的示意性实例以及其解释文字仅用于对本发明的说明，对本发明不构成不当限定。在附图中：

图1本发明整体流程图

图2说话人模块网络结构示意图

具体实现方式

下面将配合附图以及实例来详细说明本发明的具体实现方式，同时借此对本发明如何应用技术手段来解决技术问题，并且达到技术功效的实现过程。

对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取，将两种特征复合；在说话人模块中，将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取，再经过统计池化层后，通过两个全连接层和一个softmax层完成段级别特征提取，并得到输入语音对应的特征向量；在测试阶段，使用PLDA模型对注册语音和测试语音的特征向量进行打分判定，最终输出识别结果。上述方法在采用低秩矩阵分解对TDNN进行优化，能够显著减小参数规模，加快训练速度；同时在网络中采用跳层连接，以减少梯度消失的出现；相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取，弥补了单纯采用MFCC对高频信息的损失，增加了特征的多样性，提高说话人识别的准确性。

本发明整体流程见附图说明图1。

第一部分、声学特征提取

1.1语音信号预处理

语音信号是一种非平稳的时变信号，在进行相应的语音处理中都需要提取语音中所包含的各种信息。对语音信号的预处理有利于方便有效地提取并表示语音信号所携带的信息。

实际的语音信号在进行数字处理之前，首先要将语音信号s(t)以采样周期T采样，将其离散化为s(n)，采样周期的选取根据模拟语音信号的带宽来确定，以避免信号的频域混叠失真。

1)语音信号的预加重处理；预加重的目的是对语音的高频部分进行加重，增加语音的高频分辨率，一般通过传递函数H(z)＝1-αz^-1，α为预加重系数，z为输入的信号变量。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)＝x(n)-αx(n-1)。经过预加重后的频谱在高频部分的幅度会得到一定的提升。

2)语音信号的加窗处理；语音信号是一种随时间而变化的信号，由于发声器官的惯性运动，可以认为语音信号具有短时平稳性。因此，可以将语音信号分为一些短段(分析帧)来进行处理。语音信号的分帧采用可移动的有限长度窗口进行加权的方式进行实现。在本发明中采用海明(Hamming)窗，窗函数如下，

其中N为窗函数长度，n为离散信号在信号序列中的位置，π为圆周率。

海明窗具有更平滑的低通透性，能够在较高的程度上反应短时信号的频率特性。

1.2声学特征提取

1)梅尔频率倒谱系数MFCC

首先采用MFCC进行声学特征提取，依次经过预加重、分帧加窗的预处理，快速傅里叶变换，Mel滤波，倒谱分析，得到MFCC的声学特征，但该特征只反映了语音的静态特征，再对其进行一阶或二阶差分，得到语音信号的动态特征。本发明综合了上述MFCC及其差分特征。

2)归一化互相关函数NCCF

采用归一化互相关函数(Normalized Cross Correlation Function,NCCF)算法进行音高特征的提取。对于语音信号s(n),n≤N,n∈N⁺，其自相关函数为：

N为离散语音信号序列的长度，K为选取的最大时延，s(n+k)为s(n)相邻的语音信号(时延为k)，时延应当设置为基音周期的整数倍。

对上面的自相关函数做修改，得到归一化互相关函数：

其中N为离散语音信号序列的长度，K为选取的最大时延，给定n时刻的语音信号s(n),n≤N,n∈N⁺，s(n+k)为s(n)相邻的语音信号(时延为k)，

然后求得自相关函数的最大值，此时函数的延迟值k即为估算的基音周期。

3)设置声学特征参数；帧长25ms，帧移设置为10ms，窗函数采用海明窗。

原始的20维MFCC特征和其本身一阶差分二阶差分共同组成60维声学特征参数；同时提取每帧语音的NCCF系数，共同组成61维的声学特征参数。

第二部分、说话人模块

在完成声学特征提取后，本发明基于x-vector的基础，同时对其中时延神经网络(Time-Delay Neural Network，TDNN)加以改进，采用基于低秩矩阵分解进行优化。由所得语音特征提取说话人特征得到的说话人特征向量。该部分可以分为两个模块，如附图说明图2所示。

2.1帧级别特征提取模块

第一个模块为帧级别特征提取模块，将之前预处理得到的声学特征作为TDNN神经网络的输入。由于不同的帧之间存在时序关系，多层TDNN可以使网络学习到语音信号的时序结构性信息。在原始TDNN网络的5层帧级层的基础上，依次插入5个带有半正交限制的Factorized层作为中间层，其中中间层维数低于原来的帧级层。假设原来一个帧级层的参数矩阵为M，加入中间层后需要考虑两个参数矩阵A和B，其中M＝AB，且约束B为半正交矩阵。该分解可以通过奇异值分解(SVD)进行证明：

对于实矩阵M，可以通过奇异值分解得到M＝U∑V^T，其中U是m×n阶正交矩阵，∑是n×n阶对角矩阵，V^*表示V的转置，是n×m正交矩阵。令A＝U，B＝∑V^T，容易得到B是半正交矩阵(BB^T＝∑V^TV^T∑＝E)，此时有分解形式：M＝AB。

上述低秩矩阵分解操作在减少模型参数的同时，依然能保持很好的建模能力。

下面解释低秩矩阵分解TDNN的参数矩阵的构造。假设M为m×n的半正交约束矩阵，那么目标是使得M满足：MM^T＝E(E为单位矩阵)。

定义P＝MM^T，Q＝P-E，则需要求得最小化损失函数：

f＝tr(QQ^T)＝tr[(P-E)(P^T-E)]

对其求偏导数：

设ν是学习率，则更新矩阵M：M←M-4vQM。

增加一个浮动因子α，将其扩展为：

其中浮动因子α为：

在添加中间层的同时，网络中增加了跳层连接(Skip Connection)，跳跃一层，直接将上一层的输出添加到当前层的输出，共同作为下一层的输入传递下去。另外为了避免过拟合，网络在训练时还需要进行Dropout处理，即在神经网络中随机失活部分隐层神经元，再通过BP算法来更新没有被删除的隐层神经元的参数。

设t为当前时刻，假设输入端对于当前帧前后各时延一帧，那么对于隐藏层的每个神经元结点，将当前帧前后连续的三个时刻的特征向量作为输入，这样就实现了对于语音序列的时延操作。最终输出为帧级别的说话人特征。

2.2段级别特征提取模块

第二个模块为段级别特征提取模块。对以上TDNN提取得到的帧级别说话人特征，经过一个统计层以句子为单位计算帧级别特征的均值和标准差，实现帧级说话人特征到段级说话人特征的转变，公式如下：

其中h_t表示帧级别特征，T表示语音段的帧数，μ为所有帧级别特征h_t的均值；

之后连接两个全连接层和一个softmax层。从第一个全连接层中提取的特征向量作为说话人特征的特征向量。其中损失函数采用多类交叉熵损失函数：

其中E为损失函数值，N为训练语句个数，K为说话人个数，T为语音段的帧数，d_nk表示第n个句子是否属于说话人k，是则取1，否则为0；给定第k个说话人spkr_k，

表示输入

属于第k个说话人的概率。

第三部分、模型测试

模型测试流程如附图说明图1所示。

3.1概率线性判别

假设训练数据语音由I个说话人的语音组成，其中每个说话人有J段自己不同的语音，则定义第i个人的第j条语音为x_ij。定义x_ij的生成模型为：

x_ij＝μ+Fh_i+Gw_ij+ε_ij

其中μ表示数据均值，F表示说话人空间，G表示噪声空间，表示第i个说话人有关的隐含变量，即x_ij在说话人空间的表示，表示与第i个说话人的第j个语音有关的隐含变量，即在噪声空间的表示，ε_ij∈N(0,∑)表示噪声协方差。该模型看成两个部分，信号部分μ+Fh_i仅与说话人有关而与具体某条语音无关，反映了说话人之间的差异；噪音部分Gw_ij+ε_ij描述了同一个说话人的不同语音之间的差异。

接下来使用期望最大化(Expectation-Maximum，EM)算法对PLDA模型的四个变量θ＝{μ,F,G,∑}进行估计，可以分为两个步骤。先计算隐含变量h_i和w_ij的期望，如此重复。

经过多次迭代，最终可以得到拟合训练数据集X的参数集θ。

3.2得分处理

在测试阶段，已注册语音与测试语音采用PLDA模型进行打分，计算两条语音的似然比进行判定。公式如下：

上式中如果有两条测试语音，两条语音来自同一空间的假设为H_s，来自不同空间的假设为H_d，然后计算对数似然比，其实质就是两条语音属于同一个人和不属于同一个人的概率之比大小，若大于设定的阈值，可以认定两条语音来自于同一个人。

3.3模型测试与评价标准

得到一批注册说话人的特征向量之后，使用同样的方法对输入的测试数据得到特征向量，利用PLDA模型进行打分判决，进行识别。系统性能的衡量采用等错误率(EER)表征。错误拒绝率(False Rejection Rate,FRR)是在一段全部为真的语音中漏掉几个没有正确识别的语音；错误接受率(False Acceptance Rate,FAR)是在一段应该全部为假的语音中，误判几个被识别为真的语音。以FRR为x轴，FAR为y轴绘制出检测错误权衡曲线(DetectionError Tradeoff,DET)，其中使得FRR＝FAR的点的值就是ERR。通常认为等错误率EER越小，系统的准确率越高。

创新点

创新之一：时延神经网络的优化

使用参数矩阵的低秩分解对TDNN加以改进，在常规TDNN的基础上添加多个中间层，使得原有参数矩阵各分解为两个较小的矩阵之积的形式，能够减小参数规模，加快训练速度。同时网络中使用跳层连接，以减少梯度消失的出现，同时使用Dropout避免过拟合。

创新之二：声学特征提取的多样性

在传统的说话人识别算法中，常用的特征为MFCC。然而MFCC对于高频特征的提取能力有所欠缺，为了提高说话人识别的准确率，在MFCC特征之外，使用归一化互相关函数提取音高特征，共同组成61维的复合声学特征。音高特征作为额外的特征用于识别，能有效提高准确率。

Claims

1.一种基于复合声学特征和低秩分解TDNN的说话人识别系统，特征是，包括声学特征提取模块、说话人模块和判定模块；对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取模块，将两种特征复合；在说话人模块中，将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取，再经过统计池化层后，通过两个全连接层和一个softmax层完成段级别特征提取，并得到输入语音对应的特征向量；在测试阶段中，判定模块使用PLDA模型对注册语音和测试语音的特征向量进行打分判定，最终输出识别结果。

2.一种基于复合声学特征和低秩分解TDNN的说话人识别方法，其特征在于，具体实现方法为：

第一部分、声学特征提取

1.1语音信号预处理

语音信号是一种非平稳的时变信号，在进行相应的语音处理中都需要提取语音中所包含的各种信息；对语音信号的预处理有利于方便有效地提取并表示语音信号所携带的信息；

实际的语音信号在进行数字处理之前，首先要将语音信号s(t)以采样周期T采样，将其离散化为s(n)，采样周期的选取根据模拟语音信号的带宽来确定，以避免信号的频域混叠失真；

1)语音信号的预加重处理：预加重的目的是对语音的高频部分进行加重，增加语音的高频分辨率，一般通过传递函数H(z)＝1-αz^-1，α为预加重系数，z为输入的信号变量；设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)＝x(n)-αx(n-1)；经过预加重后的频谱在高频部分的幅度会得到一定的提升；

2)语音信号的加窗处理：语音信号是一种随时间而变化的信号，由于发声器官的惯性运动，可以认为语音信号具有短时平稳性，因此，可以将语音信号分为一些短段(分析帧)来进行处理；语音信号的分帧采用可移动的有限长度窗口进行加权的方式进行实现；采用海明(Hamming)窗，窗函数如下，

其中N为窗函数长度，n为离散信号在信号序列中的位置，π为圆周率；

1.2声学特征提取

1)梅尔频率倒谱系数MFCC：首先采用MFCC进行声学特征提取，依次经过预加重、分帧加窗的预处理，快速傅里叶变换，Mel滤波，倒谱分析，得到MFCC的声学特征；再对其进行一阶或二阶差分，得到语音信号的动态特征；

2)归一化互相关函数NCCF：采用归一化互相关函数(Normalized Cross CorrelationFunction,NCCF)算法进行音高特征的提取；对于语音信号s(n),n≤N,n∈N⁺，其自相关函数为：

N为离散语音信号序列的长度，K为选取的最大时延，s(n+k)为s(n)相邻的语音信号(时延为k)，时延应当设置为基音周期的整数倍；

对上面的自相关函数做修改，得到归一化互相关函数：

其中N为离散语音信号序列的长度，K为选取的最大时延；给定n时刻的语音信号s(n),n≤N,n∈N⁺，s(n+k)为s(n)相邻的语音信号(时延为k)，

然后求得自相关函数的最大值，此时函数的延迟值k即为估算的基音周期；

3)设置声学特征参数：帧长25ms，帧移设置为10ms，窗函数采用海明窗；

原始的20维MFCC特征和其本身一阶差分二阶差分共同组成60维声学特征参数；同时提取每帧语音的NCCF系数，共同组成61维的声学特征参数；

第二部分、说话人模块

在完成声学特征提取后，基于x-vector的基础，同时对其中时延神经网络(Time-DelayNeural Network，TDNN)加以改进，采用基于低秩矩阵分解进行优化；由所得语音特征提取说话人特征得到的说话人特征向量；

2.1帧级别特征提取模块

第一个模块为帧级别特征提取模块，将之前预处理得到的声学特征作为TDNN神经网络的输入；由于不同的帧之间存在时序关系，多层TDNN可以使网络学习到语音信号的时序结构性信息；在原始TDNN网络的5层帧级层的基础上，依次插入5个带有半正交限制的Factorized层作为中间层，其中中间层维数低于原来的帧级层；

在添加中间层的同时，网络中增加了跳层连接(Skip Connection)，跳跃一层，直接将上一层的输出添加到当前层的输出，共同作为下一层的输入传递下去；

设t为当前时刻，假设输入端对于当前帧前后各时延一帧，那么对于隐藏层的每个神经元结点，将当前帧前后连续的三个时刻的特征向量作为输入，这样就实现了对于语音序列的时延操作；最终输出为帧级别的说话人特征；

2.2段级别特征提取模块

第二个模块为段级别特征提取模块；对以上TDNN提取得到的帧级别说话人特征，经过一个统计层以句子为单位计算帧级别特征的均值和标准差，实现帧级说话人特征到段级说话人特征的转变，公式如下：

之后连接两个全连接层和一个softmax层；从第一个全连接层中提取的特征向量作为说话人特征的特征向量；其中损失函数采用多类交叉熵损失函数：

表示输入

属于第k个说话人的概率；

第三部分、模型测试

3.1概率线性判别

假设训练数据语音由I个说话人的语音组成，其中每个说话人有J段自己不同的语音，则定义第i个人的第j条语音为x_ij；定义x_ij的生成模型为：

x_ij＝μ+Fh_i+Gw_ij+ε_ij

其中μ表示数据均值，F表示说话人空间，G表示噪声空间，表示第i个说话人有关的隐含变量，即x_ij在说话人空间的表示，表示与第i个说话人的第j个语音有关的隐含变量，即在噪声空间的表示，ε_ij∈N(0,∑)表示噪声协方差；该模型看成两个部分，信号部分μ+Fh_i仅与说话人有关而与具体某条语音无关，反映了说话人之间的差异；噪音部分Gw_ij+ε_ij描述了同一个说话人的不同语音之间的差异；

接下来使用期望最大化(Expectation-Maximum，EM)算法对PLDA模型的四个变量θ＝{μ,F,G,∑}进行估计，可以分为两个步骤；先计算隐含变量h_i和w_ij的期望，如此重复；

经过多次迭代，最终可以得到拟合训练数据集X的参数集θ；

3.2得分处理

在测试阶段，已注册语音与测试语音采用PLDA模型进行打分，计算两条语音的似然比进行判定；公式如下：

上式中两条测试语音的特征向量分别为η₁和η₂，两条语音来自同一空间的假设为H_s，来自不同空间的假设为H_d，然后计算对数似然比，其实质就是两条语音属于同一个人和不属于同一个人的概率之比大小，若大于设定的阈值，可以认定两条语音来自于同一个人；

3.3模型测试与评价标准

使用步骤2方法先得到一批注册说话人的特征向量，然后对输入的测试数据得到特征向量，利用PLDA模型进行打分判决，进行识别。

3.如权利要求1所述基于复合声学特征和低秩分解TDNN的说话人识别方法，其特征在于：步骤一中，预处理包括语音信号的预加重处理和加窗处理，其中声学参数设置为：帧长25ms，帧移设置为10ms，窗函数选择海明窗。复合声学特征包括MFCC特征及其一阶和二阶差分，以及归一化互相关函数得到的音高特征。

4.如权利要求1所述基于低秩矩阵分解TDNN的说话人识别方法，其特征在于：步骤二中，原始TDNN的参数矩阵采用低秩矩阵分解进行优化。在原始TDNN网络的5层帧级层的基础上，依次插入5个带有半正交限制的中间层，其中中间层维数低于原来的帧级层。假设原来一个帧级层的参数矩阵为M，加入中间层后需要考虑两个参数矩阵A和B，其中M＝AB，且限定B为半正交矩阵。

5.如权利要求1所述低秩矩阵分解TDNN的说话人识别方法，其特征在于：步骤二中，TDNN中增加了跳层连接，跳跃一层，直接将上一层的输出添加到当前层的输出，共同作为下一层的输入传递下去。另外为了避免过拟合，网络在训练时还需要进行Dropout处理。