CN113488058B

CN113488058B - 一种基于短语音的声纹识别方法

Info

Publication number: CN113488058B
Application number: CN202110696040.4A
Authority: CN
Inventors: 熊盛武; 王丹
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-03-24
Anticipated expiration: 2041-06-23
Also published as: CN113488058A

Abstract

本发明公开了一种基于短语音的声纹识别方法，解决现有声纹识别模型在短语音条件下识别准确率低的问题。本发明首先提出了一种基于频谱的数据增强方式，扩充训练数据集；然后使用MFCC和PNCC的融合特征提取帧级说话人特征；帧级特征提取网络为一种改进的残差网络(ResNet)—深度残差收缩网络(DRSN)，该网络在ResNet基础上加入软阈值化作为收缩层，用于去除冗余信息；最后使用双重自注意力机制将帧级特征聚合为句子级特征，得到说话人嵌入。相比于现有的声纹识别技术，本发明提取的说话人嵌入包含更丰富的说话人信息，从而提升了声纹识别在短语音条件下的识别准确率，使得声纹识别技术更适用于实际生活场景。

Description

一种基于短语音的声纹识别方法

技术领域

本发明属于深度学习和声纹识别技术领域，具体涉及一种基于短语音的声纹识别方法。

背景技术

声纹识别在实际生活中有着非常广泛的应用前景，比如安防领域帮助刑侦破案和电信反欺诈，金融领域声纹登陆和支付，智能家居的个性化智能音箱等。然而，虽然基于深度学习的声纹识别已经具有很高的识别准确率，但是这些声纹识别系统通常为长语音识别，测试语音通常为5s以上。由于训练数据不足，并且实际应用中用户通常只能向声纹识别系统提供1-5秒的短语音，导致声纹识别性能急剧下降，从而限制了声纹识别的实际应用范围。

现有提高短语音声纹识别准确率的方法主要集中在使用更有效的特征提取网络和特征聚合策略，除此之外最新的方法是使用长语音补偿短语音，补偿方法包括知识蒸馏、元学习和生成对抗网络(GAN)。知识蒸馏方法用长语音数据集训练的教师网络，同时用短语音训练一个学生网络，然后用教师网络学到的知识传递给学生网络，以补偿语音信息不足的问题；元学习方法采用不平衡的长度对训练一个原型网络，不平衡长度对为一个长语音支持集和一个短语音查询集，并强制网络对支持集和查询集一起分类；GAN提出了一种对抗性学习的嵌入映射模型，对于从同一说话人的话语中提取的短嵌入对和长嵌入对，将短嵌入直接映射到增强的可分辨性的嵌入。

发明内容

本发明目的在于通过扩充训练数据以及改进特征提取网络和特征聚合策略，从长度有限的语音中提取尽可能多的说话人特征，丰富说话人特征表达，从而提高短语音声纹识别准确率；提出了一种基于短语音的声纹识别方法，使得提取的说话人特征包含更丰富的信息，从而提升短语音条件下声纹识别的准确率。

本发明的方法所采用的技术方案是：一种基于短语音的声纹识别方法，包括以下步骤：

步骤1：数据增强；

扩充公开语音数据集Voxceleb1和Voxceleb2，然后将数据集中的语音随机剪切为0～Ns短语音，其中N为预设值；

步骤2：声学参数提取；

从原始语音波形分别提取梅尔频率倒谱系数MFCC和和功率归一化倒谱系数PNCC；

步骤3：帧级特征提取；

将MFCC特征与PNCC特征融合，共同输入帧级特征提取网络，提取帧级说话人信息；

所述帧级特征提取网络包括1个一维卷积，1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS；

步骤4：帧级特征聚合；

将帧级说话人信息输入到句子级特征聚合网络，采用双重注意力机制将帧级特征聚合为句子级特征；

所述句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC；

所述双重注意力机制为两个并行的自注意力模块，分别为位置注意力模块和信道注意力模块；位置注意力模块包括4个一维卷积，通过自注意力机制学习空间特征的相关性；信道注意力机制包括2个一维卷积，通过自注意力机制学习信道特征的相关性；

步骤5：利用损失函数训练声纹识别模型直至损失函数收敛，保存声纹识别模型参数；

所述声纹识别模型由声学参数提取模块、帧级特征提取模块和帧级特征聚合模块组成；

步骤6：输入待测语音，利用训练好的声纹识别模型识别说话人身份。

相对于现有技术，本发明的有益效果是：

(1)本发明提出一种改进的基于频谱的数据增强方法，在原始语音的对数梅尔谱图上利用时域掩蔽、频域掩蔽和时域-频域对角线掩蔽三种变形方法来扩充数据；

(2)本发明使用MFCC和PNCC的融合特征作为输入，改善MFCC单独输入时抗噪性差的问题；

(3)本发明使用一种改进的残差网络(ResNet)——深度残差收缩网络(DRSN)作为特征提取器，在ResNet基础上加入软阈值化，去除特征中与目标任务无关的信息，减少特征冗余；

(4)本发明使用一种双重注意力机制将帧级特征聚合为句子级特征，使用自注意力机制分别从空间维度和信道维度提取更丰富的说话人信息。

附图说明

图1为本发明实施例的基于短语音的声纹识别方法的流程图；

图2为本分明实施例的MFCC声学特征参数提取的流程图；

图3为本分明实施例的PNCC声学特征参数提取的流程图；

图4为本发明实施例的深度残差收缩网络结构图；

图5为本发明实施例的残差收缩网络构建单元的网络结构图；

图6为本发明实施例的双重注意力机制的结构图。

具体实施方式

为了便于本领域的普通技术员工理解和实施本发明，下面结合附图及实施案例，对本发明做进一步的详细描述，应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于短语音的声纹识别方法，包括以下步骤：

步骤1：数据增强；

使用频谱增强方法扩充公开语音数据集Voxceleb1和Voxceleb2，然后将数据集中的语音随机剪切为0～Ns短语音，其中N为预设值；

本实施例步骤1的具体实现包括以下子步骤：

步骤1.1：将原始语音转换为对数梅尔谱图，在谱图的时域、频域和时域-频域的对角线分别进行掩蔽，得到新的对数梅尔谱图，从而得到新的语音数据；

步骤1.2：将原始数据集和扩充的数据集一起进行语音活动检测(VAD)，去除静音片段；

步骤1.3：将去除静音后的语音随机剪切为0～5s的短语音。

步骤2：声学特征参数提取；

如图2所示，MFCC提取过程包括加重、分帧、加窗、短时傅里叶变换(FFT)、幅值平方运算、应用梅尔滤波器组、取对数和离散余弦变换(DCT)；如图3所示，PNCC提取过程包括预加重、分帧、加窗、短时傅里叶变换、幅值平方运算、Gammatone滤波、非线性功率函数和离散余弦变换(DCT)；

步骤3：帧级特征提取；

本实施例的帧级特征提取网络包括1个一维卷积，1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS；

本实施例步骤3的具体实现包括以下子步骤：

步骤3.1：将声学特征参数MFCC输入1个一维卷积层；

步骤3.2：在一维卷积层之后，将MFCC和PNCC相加，进行特征融合；

步骤3.3：将MFCC和PNCC的融合特征输入信道共享的深度残差收缩网络，得到帧级说话人特征向量。

如图4所示，本实施例信道共享的深度残差收缩网络(DRSN-CS)，该网络由1个输入层，1个卷积层，6个信道共享阈值的残差收缩构建单元(RSBU-CS)，1个批量归一化层(BN)，1个整流线性单元ReLU激活函数，1个全局平均池化层GAP和1个全连接输出层(FC)组成，其中C表示特征图的通道数，K表示卷积层中卷积核的数目，“/2”表示以2的步幅移动卷积内核以减小输出特征映射的宽度；输入的MFCC和PNCC的融合特征依次经过1个输入层、1个卷积层、6个信道共享阈值的残差收缩构建单元RSBU-CS，然后将残差收缩构建单元的输出进行批量归一化、整流线性单元激活和全局平均池化操作，最后经过1个全连接层，得到帧级说话人特征；

如图5所示，每个信道共享阈值的残差收缩构建单元包括2个BN，2个ReLU激活函数，2个卷积层，1个恒等映射层和1个阈值估计模块，其中M是FC网络中的神经元数量，C×W×1中C、W和1分别表示特征图的通道数、宽度和高度，x、z和α是确定阈值时要使用的特征映射的指标，

表示逐元素加法，/>

表示逐元素乘法，/>

表示软阈值；进入信道共享阈值的残差收缩构建单元的特征向量记为A，A首先进行批量归一化和整流线性单元激活操作，然后进入第1个卷积层；卷积层的输出再次进行批量归一化和整流线性单元激活操作，然后进入第2个卷积层；第2个卷积层的输出记为x，x进入阈值估计模块计算得到阈值/>

x和/>

进行软阈值化，软阈值化的结果通过恒等映射与A相加，得到RSBU-CS的输出；

阈值估计模块包括1个GAP，2个FC，1个BN，1个ReLU和1个sigmoid激活函数；x首先取绝对值，然后进行全局平均池化得到一个一维向量，一方面该一维向量经过FC—BN、ReLU、FC—Sigmoid路径得到缩放参数α，另一方面该一维向量取均值后与α相乘，得到最终的阈值

本实施例阈值估计模块用于估计软阈值，软阈值化是信号处理中一种用于信号降噪的算法：将绝对值小于某一阈值的特征赋值为零，将其他的特征朝着零的方向，收缩，软阈值函数表达式如下：

其中，x表示输入特征，y表示输出特征，τ表示阈值；

深度残差收缩网络将软阈值化作为非线性转换层嵌入残差模块，利用神经网络学习阈值τ，且根据噪声信息的大小为每个样本学习一组独立的阈值。

步骤4：帧级特征聚合；

本实施例的句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC；

本实施例双重注意力机制为两个并行的自注意力模块，分别为位置注意力模块和信道注意力模块；位置注意力模块包括4个一维卷积，通过自注意力机制学习空间特征的相关性；信道注意力机制包括2个一维卷积，通过自注意力机制学习信道特征的相关性；

本实施例步骤4的具体实现包括以下子步骤：

步骤4.1：将深度残差收缩网络的输出特征输入到1个卷积网络进行降维；

步骤4.2：将特征并行输入位置注意力模块和信道注意力模块；

请见图6，本实施例将特征输入位置注意力模块，将更广泛的上下文信息编码为局部信息；具体包括以下子步骤：

步骤A.1：将输入的维度为C×H×W特征A分别经过3个卷积层，得到特征B、C和D，其中B、C、D的维度为C×H×W；

步骤A.2：对特征B、C、D进行维度转换得到特征B_r、C_r、D_r，其中B_r、C_r、D_r的维度为C×N，其中N＝H×W；

步骤A.3：对特征B_r和C_r做矩阵乘法，得到任意两点特征之间的关联强度矩阵；

步骤A.4：对关联强度矩阵进行softmax操作，得到注意力图S，表示每个位置对其他位置的注意力，S中每个元素表达式如下：

其中，s_ji衡量第i个位置对第j个位置的影响；B_i表示特征B_r的第i个位置的元素，C_j表示特征C_r的第j个位置元素，1≤i,j≤N；

步骤A.5：注意力图S和特征D_r进行矩阵乘法，利用注意力图S中的权值对特征D_r进行加权；

步骤A.6：将加权后的D_r乘以尺度参数α，然后与原始特征A进行逐元素加法，得到输出特征E^p，E^p的表达式如下：

其中，α初始化为0；D_i表示特征D_r的第i个位置的元素，A_j表示特征A的第j个位置元素；

请见图6，本实施例将特征输入信道注意力模块，模拟信道之间的相互依赖关系；具体包括以下子步骤：

步骤B.1：将输入的维度为C×H×W特征A进行维度转换得到A_r，A_r维度为C×N，其中N＝H×W；

步骤B.2：对特征A和A_r进行矩阵乘法得到关联强度矩阵；

步骤B.3：对关联强度矩阵进行softmax操作，得到维度为C×N的信道注意力图X，X中每个元素表达式如下：

其中，x_ji衡量第i个信道对第j个信道的影响；1≤i≤C，1≤j≤N；

步骤B.4：注意力图X和特征A进行矩阵乘法，利用注意力图X中的权值对特征A进行加权；

步骤B.5：将加权后的A乘以尺度参数β，然后与原始特征A进行逐元素加法，得到输出特征E^c，E^c的表达式如下：

其中β从0开始逐渐学习权重；

步骤4.3：将E^p和E^c相加，经过两个全连接层，得到最终的说话人嵌入。

本实施例的声纹识别模型由声学参数提取模块、帧级特征提取模块和帧级特征聚合模块组成；

本实施例训练模型的损失函数为softmax，表达式如下：

其中，N表示每个批量中包含的句子数，C表示说话人总数，x_i表示第i个句子的说话人嵌入，y_i表示第i个句子对应的说话人，1≤i≤N，1≤y≤C，W_j ^T和b_j是网络学习到的权重和偏差，T表示转置。

步骤6：输入待测语音，利用训练好的声纹识别模型识别说话人身份；

步骤6的具体实现包括以下子步骤：

步骤6.1：输入待测语音，根据步骤2进行数据预处理，得到测试短语音的MFCC特征和PNCC特征；

步骤6.2：将MFCC特征经过1个一维卷积层之后和PNCC特征融合；

步骤6.3：将融合特征输入到训练好的声纹识别模型，根据步骤3和步骤4提取说话人嵌入z，并计算说话人嵌入z与注册语音之间余弦相似度；

步骤6.4：根据余弦相似度判断说话人身份，与z相似度最高的注册语音的说话人身份即为测试语音的说话人身份。

本发明针对实际应用场景中用户提供给声纹识别系统的语音通常为1-5s短语音导致声纹识别准确率下降的问题，设计了一种基于短语音的声纹识别模型，其中包括设计数据增强方法扩充数据集，弥补短语音数据不足的问题；设计MFCC和PNCC融合特征作为神经网络的输入，并引入一种新的深度残差收缩网络作为作为特征提取网络，尽可能提取更丰富的说话人信息；使用双重注意力机制聚合帧级特征，将注意力尽可能放在与说话人身份相关的信息上，从而提高声纹识别模型在短语音场景下的识别准确率。

上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制。本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于短语音的声纹识别方法，其特征在于，包括以下步骤：

步骤1：数据增强；

步骤2：声学参数提取；

从原始语音波形分别提取梅尔频率倒谱系数MFCC和功率归一化倒谱系数PNCC；

步骤3：帧级特征提取；

步骤4：帧级特征聚合；

步骤4的具体实现包括以下子步骤：

将特征输入位置注意力模块，将更广泛的上下文信息编码为局部信息；具体包括以下子步骤：

将特征输入信道注意力模块，模拟信道之间的相互依赖关系；具体包括以下子步骤：

步骤B.2：对特征A和A_r进行矩阵乘法得到关联强度矩阵；

其中，x_ji衡量第i个信道对第j个信道的影响1≤i≤C，1≤j≤N；

其中β从0开始逐渐学习权重；

步骤4.3：将E^p和E^c相加，经过两个全连接层，得到最终的说话人嵌入；

2.根据权利要求1所述的基于短语音的声纹识别方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.2：将原始数据和扩充的数据一起进行语音活动检测，去除静音片段；

步骤1.3：将去除静音后的语音随机剪切为0～5s的短语音。

3.根据权利要求1所述的基于短语音的声纹识别方法，其特征在于：步骤2中，MFCC提取过程包括加重、分帧、加窗、短时傅里叶变换、幅值平方运算、应用梅尔滤波器组、取对数和离散余弦变换。

4.根据权利要求1所述的基于短语音的声纹识别方法，其特征在于：步骤2中，PNCC提取过程包括预加重、分帧、加窗、短时傅里叶变换、幅值平方运算、Gammatone滤波、非线性功率函数和离散余弦变换。

5.根据权利要求1所述的基于短语音的声纹识别方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：将声学特征参数MFCC输入1个一维卷积层；

6.根据权利要求5所述的基于短语音的声纹识别方法，其特征在于：步骤3.3中所述信道共享的深度残差收缩网络DRSN-CS，由1个输入层，1个卷积层，6个信道共享阈值的残差收缩构建单元RSBU-CS，1个批量归一化层BN，1个整流线性单元ReLU激活函数，1个全局平均池化层GAP和1个全连接输出层FC组成；输入的MFCC和PNCC的融合特征依次经过1个输入层、1个卷积层、6个信道共享阈值的残差收缩构建单元RSBU-CS，然后将残差收缩构建单元的输出进行批量归一化、整流线性单元激活和全局平均池化操作，最后经过1个全连接层，得到帧级说话人特征；

每个信道共享阈值的残差收缩构建单元RSBU-CS包括2个批量归一化层BN，2个整流线性单元ReLU激活函数，2个卷积层，1个恒等映射层和1个阈值估计模块；进入信道共享阈值的残差收缩构建单元的特征向量记为A，A首先进行批量归一化和整流线性单元激活操作，然后进入第1个卷积层；卷积层的输出再次进行批量归一化和整流线性单元激活操作，然后进入第2个卷积层；第2个卷积层的输出记为x，x进入阈值估计模块计算得到阈值

x和

阈值估计模块包括1个全局平均池化层GAP，2个全连接输出层FC，1个批量归一化层BN，1个整流线性单元ReLU和1个sigmoid激活函数；x首先取绝对值，然后进行全局平均池化得到一个一维向量，一方面该一维向量经过FC—BN、ReLU、FC—Sigmoid路径得到缩放参数α，另一方面该一维向量取均值后与α相乘，得到最终的阈值

7.根据权利要求6所述的基于短语音的声纹识别方法，其特征在于：所述阈值估计模块，用于估计软阈值，将绝对值小于某一阈值的特征赋值为零，将其他的特征朝着零的方向，收缩，软阈值函数表达式如下：

其中，x表示输入特征，y表示输出特征，τ表示阈值。

8.根据权利要求1所述的基于短语音的声纹识别方法，其特征在于，步骤5中损失函数为softmax，表达式如下：

其中，N表示每个批量中包含的句子数，C表示说话人总数，x_i表示第i个句子的说话人嵌入，y_i表示第i个句子对应的说话人，1≤i≤N，1≤y≤C，

和b_j是网络学习到的权重和偏差，T表示转置。

9.根据权利要求1-8任意一项所述的基于短语音的声纹识别方法，其特征在于，步骤6的具体实现包括以下子步骤：

步骤6.2：将MFCC特征经过1个一维卷积层之后和PNCC特征融合；