CN113488060B

CN113488060B - 一种基于变分信息瓶颈的声纹识别方法及系统

Info

Publication number: CN113488060B
Application number: CN202110709415.6A
Authority: CN
Inventors: 熊盛武; 王丹; 董元杰
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-07-19
Anticipated expiration: 2041-06-25
Also published as: CN113488060A

Abstract

本发明提供了一种基于变分信息瓶颈的声纹识别方法及系统，解决现有声纹识别模型提取的说话人嵌入鲁棒性差和区分性不强的问题。首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络，用于提取多尺度多频率的帧级说话人信息；然后引入变分信息瓶颈作为一种正则化方法，对说话人特征向量进一步压缩，去除说话人无关的信息，只保留与判别说话人身份相关的信息，使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术，本发明提升了声纹识别在噪声背景下的识别准确率，使得声纹识别技术更适用于实际生活场景。

Description

一种基于变分信息瓶颈的声纹识别方法及系统

技术领域

本发明涉及深度学习和声纹识别领域，尤其涉及一种基于变分信息瓶颈的声纹识别方法及系统。

背景技术

声纹识别，又称为说话人识别，是一种根据声音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的技术。深度学习的出现极大推动了声纹识别的发展，基于深度神经网络的端到端声纹识别已经成为目前的主流技术，即利用深度神经网络强大的学习能力，从语音信号中学习一种说话人表征向量，称为说话人嵌入。

基于深度说话人嵌入的声纹识别通常由三部分组成：特征提取网络、特征聚合层和训练损失函数。卷积神经网络(CNNs)，如时延神经网络(TDNNs)和残差网络(ResNet)，通常用于从声学特征中提取帧级说话人信息。随后，特征聚合层将帧级特征聚合成句子级特征，得到一个低维向量，称为深度说话人嵌入。常用的聚合方法包括平均池化、统计池化和注意力统计池化。训练声纹识别模型的损失函数主要分为分类损失和度量损失两大类，常用的分类损失函数包括 softmax损失及其一系列变体，例如A-softmax、AM-softmax和AAM-softmax；度量损失如三元组损失(Triplet loss)、广义端到端损失(GE2E)和角度原型损失(Angular Prototypical loss)均已表现出优异的性能。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

上述基于深度神经网络的声纹识别技术已经具有较高的识别准确率，然而这种高准确率依赖于干净语音。在实际应用中，输入语音不可避免会包含各种背景噪声，导致声纹识别网络的识别准确率大幅降低。为了解决噪声干扰问题，目前已有的方法主要有两种：语音增强和数据增强。语音增强方法首先去除语音中的背景噪声，然后将去噪后的干净语音输入到声纹识别网络进行身份识别；数据增强方法人为向干净语音中叠加各种类型的噪声，然后用噪声数据和干净数据共同训练声纹识别模型，使得神经网络生成的说话人嵌入对噪声鲁棒。上述两种方法都存在各自的问题：在去噪过程中，去噪网络很可能去除语音中与说话人身份相关的信息，导致识别准确率下降；人为添加噪声难以覆盖生活中各种各样的噪声类型，并且随着数据量增加，训练声纹识别模型的资源需求计算量也会增加。

发明内容

本发明提出一种基于变分信息瓶颈的声纹识别方法及系统，用于解决或者至少部分解决实际应用场景中声纹识别准确率不高的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于变分信息瓶颈的声纹识别方法，包括：

S1：获取原始语音数据；

S2：构建引入变分信息瓶颈的声纹识别模型，其中，声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器，其中，声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数 FBank，帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息，得到帧级特征向量，特征聚合层用于将帧级特征向量转换为低维句子级特征向量，变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩，保留与说话人身份相关的信息，去除与说话人身份无关的信息，得到说话人嵌入，说话人嵌入为表示说话人身份的特征向量，分类器用于根据说话人嵌入得到声纹识别的结果；

S3：将获取的原始语音数据作为训练数据对声纹识别模型进行训练，利用神经网络反向传播算法更新模型参数，最小化损失函数直到损失函数收敛，保存模型参数，得到训练好的声纹识别模型；

S4：利用训练好的声纹识别模型对输入的语音数据进行识别。

在一种实施方式中，声学特征参数提取层的处理过程包括：输入原始语音波形，对语音依次进行预加重、分帧、加窗、离散傅里叶变换、幅值平方运算、应用梅尔滤波器组和取对数操作，得到声学特征参数FBank。

在一种实施方式中，步骤S2中帧级特征提取网络包括3个二维卷积层和4 个一次聚合模块，一次聚合模块即为OSA模块，每个OSA模块包含5个二维卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM；二维卷积层的卷积核大小为3×3，步长为32，每个卷积层的输出连接到下一个卷积层，同时通过短连接与最后一个卷积层的输出进行拼接；每个OSA模块后接一个最大池化层，其卷积核为3×3，步长为2；子空间注意力机制将特征图分为g个组，称为g个子空间，每个组有G个特征图，每个子空间生成一个注意力图，将g个注意力图拼接作为输出。

在一种实施方式中，步骤S2中特征聚合层包含1个池化层，池化层采用时域平均池化方法，信号输出尺寸为1×1。

在一种实施方式中，步骤S2中变分信息瓶颈层包括1个全连接层和1个仿射变换层，利用重参数方法实现反向传播；

其中，句子级特征向量首先输入到全连接层，该全连接层的节点数为1024；将全连接层的输出特征向量均分为两个向量，其中一个特征向量作为均值μ，另一个特征向量经过softplus函数转换作为方差σ；重参数方法首先生成一个均值为0，方差为1的高斯分布，从这个高斯分布中采样数据，记作∈，然后经过放缩平移后得到目标分布z，z的计算过程如下式：

其中，μ和σ分别是平移参数和放缩参数，即全连接层输出的均值和方差；

输出的特征向量z输入到仿射变换层，该仿射变换层是1个节点数为512的全连接层，将z映射为固定的512维向量；对向量z做L2归一化操作，得到表示说话人身份的特征向量，即说话人嵌入。

在一种实施方式中，S2中分类器使用余弦距离计算说话人嵌入之间的相似度分数，计算公式如下式：

其中x_i,x_j分别表示从两份语音数据对应的音频文件中提取到的说话人嵌入。

在一种实施方式中，步骤S3中训练模型的采用的损失函数包含两个部分，表达式如下：

表示期望，p(z)为潜在变量的分布，r(z)表示 p(z)的变分近似，β表示惩罚强度；损失函数第一项为分类损失，采用softmax 损失函数；第二项为惩罚项，表示说话人嵌入和模型输出之间的互信息，β越大，惩罚强度越大。

在一种实施方式中，步骤S4包括：

S4.1：将待测语音数据输入到训练好的声纹识别模型，提取出与待测语音数据对应的说话人嵌入z，并计算说话人嵌入z与注册语音之间余弦相似度；

S4.2，根据计算出的余弦相似度判断说话人身份，将与z相似度最高的注册语音的说话人身份作为待测语音数据的说话人身份。

基于同样的发明构思，本发明第二方面提供了一种基于变分信息瓶颈的声纹识别系统，包括：

数据获取模块，用于获取原始语音数据；

模型构建模块，用于构建引入变分信息瓶颈的声纹识别模型，其中，声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器，其中，声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank，帧级特征提取网络用于从声学特征参数FBank中提取多尺度多频率的帧级说话人信息，得到帧级特征向量，特征聚合层用于将帧级特征向量转换为低维句子级特征向量，变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩，保留与说话人身份相关的信息，去除与说话人身份无关的信息，得到说话人嵌入，说话人嵌入为表示说话人身份的特征向量，分类器用于根据说话人嵌入得到声纹识别的结果；

模型训练模块，用于将获取的原始语音数据作为训练数据对声纹识别模型进行训练，利用神经网络反向传播算法更新模型参数，最小化损失函数直到损失函数收敛，保存模型参数，得到训练好的声纹识别模型；

识别模块，用于利用训练好的声纹识别模型对输入的语音数据进行识别。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于变分信息瓶颈的声纹识别方法，构建了引入变分信息瓶颈的声纹识别模型，并利用该声纹识别模型对语音数据进行识别，其中，帧级特征提取网络使用一次聚合方式，减少特征冗余，保留浅层特征的原来的形式，能够提取多尺度多频率的说话人信息，使得最终的说话人嵌入更具有可区分性；并且引入变分信息瓶颈层，利用变分信息瓶颈原理对说话人特征进一步压缩，去除说话人嵌入中背景噪声等与说话人身份无关的信息，尽可能保留与预测说话人身份最相关的信息，使得最终的说话人嵌入对噪声不敏感，从而提高声纹识别模型的鲁棒性，提高了在实际应用场景中的识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施基于变分信息瓶颈的声纹识别模型的框架图，

图2为本分明实施FBank声学特征参数提取的流程图，

图3为本发明实施帧级说话人信息提取的网络结构图，

图4为本发明实施帧级说话人信息提取网络中OSA模块结构图，

图5为本发明实施帧级说话人信息提取网络中ULSAM结构图，

图6为本发明实施变分信息瓶颈正则化的示意图。

具体实施方式

本发明的目的在于，提供一种基于变分信息瓶颈的声纹识别方法及系统，提取更具鲁棒性和可区分性的说话人嵌入，使得声纹识别模型在包含背景噪声的实际应用场景中识别准确率大大提升。

本发明的主要构思如下：

首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络，用于提取多尺度多频率的帧级说话人信息；然后引入变分信息瓶颈作为一种正则化方法，对说话人特征向量进一步压缩，去除说话人无关的信息，只保留与判别说话人身份相关的信息，使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术，本发明提升了声纹识别在噪声背景下的识别准确率，使得声纹识别技术更适用于实际生活场景。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于变分信息瓶颈的声纹识别方法，包括：

S1：获取原始语音数据；

请参见图1，为基于变分信息瓶颈的声纹识别模型的框架图，该声纹识别模块，包括一个声学特征参数提取层L_fbank，一个帧级特征提取器E，一个特征聚合层L_pooling，一个变分信息瓶颈层L_VIB，一个后端分类器C。

所述声学特征参数提取层L_fbank用于将原始语音波形转换为声学特征参数 FBank，帧级特征提取器E_frame用于从声学特征参数中提取帧级说话人特征，特征聚合层L_pooling用于将帧级说话人特征聚合为句子级特征，变分信息瓶颈层L_VIB进一步压缩句子级特征得到低维的说话人嵌入向量，后端分类器C对不同的说话人嵌入进行分类。

步骤S3中，将原始语音数据输入构建的声纹识别模型，首先通过声学特征参数提取层输出FBank特征，然后将Fbank特征输入帧级特征提取网络进行模型训练。

具体实施时，如图2所示，为FBank声学特征参数提取的流程图，可以通过下述步骤来实现

步骤S1.1，预加重；

将语音波形输入到一个一阶高通滤波器，以增强语音信号中高频部分的能量；

步骤S1.2，分帧；

将预加重之后的语音信号分段，每一段称为一帧，帧长设置为25ms，帧移设置为10ms；

步骤S1.3，加窗；

分帧之后将每一帧语音信号与窗口函数相乘，窗口函数选取Hamming窗，表达式如下式：

其中，w(n)表示加窗后的语音信号，n表示语音帧的序列号，N表示窗口长度，n的取值范围为0≤n≤N-1；

步骤S1.4，离散傅里叶变换；

对加窗后的每一帧信号进行离散傅里叶变换，得到每一帧的频谱，然后对频谱取模平方得到每一帧语音信号的功率谱；

离散傅里叶变换的公式如下式：

其中，s(k)为进行傅里叶变换之后第k个频谱，DFT(·)为离散傅里叶变换函数，S(n)为加窗后的语音信号，j表示常量，n表示语音帧序列号，N表示语音序列长度，0≤k，n≤N-1；

步骤S1.5，幅值平方运算

将频谱转换为功率谱的公式如下式：

p(k)为第k个功率谱，s(k)为傅里叶变换之后第k个频谱，N表示语音序列长度；

步骤S1.6，应用梅尔滤波器组、取对数；

将功率谱输入到一组Mel刻度的三角滤波器(以40个三角滤波器为一组) 然后进行取对数操作，即可得到FBank特征。

具体实施过程中，请参见图3，为帧级特征提取网络的结构示意图。3个二维卷积层中，第一个卷积层和第三个卷积层步长为2，第二个卷积层步长为1，每个卷积层后都接有批量归一化层(BN)，激活函数为修正线性单元(ReLu)；如图4所示，每个OSA模块包含5个步长为32的3×3卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM，图中符号

表示按元素乘法，

表示按元素加法；每个3×3卷积层的输出连接到下一个卷积层，同时通过短连接与最后一个卷积层的输出进行拼接，OSA模块的输入也聚合到最后一个卷积层输出的特征图；每个OSA模块最后采用一个最大池化层降采样，其卷积核为3×3，步长为2；如图5所示，子空间注意力机制将特征图分为g个组，称为g个子空间，每个组有G个特征图，每个子空间生成一个注意力图，将g个注意力图拼接作为输出，图中DW 1×1表示卷积核为1×1的深度卷积，PW 1×1表示卷积核为1×1的逐点卷积，Max Pool表示卷积核为3×3，填充为1的最大池化层，符号

表示按元素乘法，

表示按元素加法，“Concat”表示拼接。其中，g和G为超参数，可以根据实际情况进行设置。

具体来说，将特征提取器E(帧级特征提取网络)输出的帧级特征向量输入到特征聚合层Lpooling，得到低维句子级特征向量。

如图6所示，为本发明实施变分信息瓶颈正则化的示意图。FC表示全连接层，softplus为深度学习的激活函数，Sample∈fromN(0,1)，表示采用重参数方法生成一个均值为0，方差为1的高斯分布，并从这个高斯分布中采样数据。

具体来说，根据相似度分数，可以将相似度分数高的说话人嵌入分为同一类。

具体实施过程中，训练模型的损失函数包含两个部分，第一部分为分类损失，表达式如下：

其中，x、y分别表示输入语音和输出的说话人身份标签，p(x,y)表示x、y 的联合分布，x,y～p(x,y)表示x、y服从分布p(x，y)，q(y|x)表示标准极大似然估计，

表示期望；

第二部分为惩罚项，引入惩罚项之后的损失函数表达式如下：

其中，x、y、z分别是X、Y、Z对应的样本变量，z表示说话人嵌入，E(Z|X) 表示将输入语音X映射到潜在变量Z的分布上，惩罚项I(X；Z)表示输入语音和提取的说话人嵌入之间的互信息，β表示惩罚强度，β越大惩罚强度越大；

将互信息I(X；Z)展开为：

其中，p(x)为输入数据的分布，p(z)为潜在变量的分布，p(x,z)表示x、z的联合分布，p(z|x)表示将x映射到z；

由于p(z)无法直接计算得到，因此根据变分近似原理，使用变分近似r(z)代替p(z)；

根据KL散度恒为正，p(z)和其变分近似r(z)的KL计算如下式：

由此得到互信息I(X；Z)的变分上界：

根据上述推断过程，引入变分信息瓶颈正则化方法的声纹识别模型训练损失函数表达式如下：

模型训练时，输入的Batch Size为128，采用随机梯度下降法(SGD)作为优化器，初始学习率为0.1，每30个周期下降10倍，总共训练100个周期，每 10个周期保存一次模型参数。

在一种实施方式中，步骤S4包括：

相对于现有技术，本发明的有益效果是：

(1)本发明提出的特征提取网络使用一次聚合方式，减少特征冗余，保留浅层特征的原来的形式，能够提取多尺度多频率的说话人信息，使得最终的说话人嵌入更具有可区分性；

(2)本发明引入变分信息瓶颈层，利用变分信息瓶颈原理对说话人特征进一步压缩，去除说话人嵌入中背景噪声等与说话人身份无关的信息，尽可能保留与预测说话人身份最相关的信息，使得最终的说话人嵌入对噪声不敏感，从而提高声纹识别模型的鲁棒性。

实施例二

基于同样的发明构思，本实施例提供了一种基于变分信息瓶颈的声纹识别系统，包括：

数据获取模块，用于获取原始语音数据；

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于变分信息瓶颈的声纹识别方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于变分信息瓶颈的声纹识别方法，其特征在于，包括：

S1：获取原始语音数据；

S2：构建引入变分信息瓶颈的声纹识别模型，其中，声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器，其中，声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank，帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息，得到帧级特征向量，特征聚合层用于将帧级特征向量转换为低维句子级特征向量，变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩，保留与说话人身份相关的信息，去除与说话人身份无关的信息，得到说话人嵌入，说话人嵌入为表示说话人身份的特征向量，分类器用于根据说话人嵌入得到声纹识别的结果；

2.如权利要求1所述的声纹识别方法，其特征在于，声学特征参数提取层的处理过程包括：输入原始语音波形，对语音依次进行预加重、分帧、加窗、离散傅里叶变换、幅值平方运算、应用梅尔滤波器组和取对数操作，得到声学特征参数FBank。

3.如权利要求1所述的声纹识别方法，其特征在于，步骤S2中帧级特征提取网络包括3个二维卷积层和4个一次聚合模块，一次聚合模块即为OSA模块，每个OSA模块包含5个二维卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM；二维卷积层的卷积核大小为3×3，步长为32，每个卷积层的输出连接到下一个卷积层，同时通过短连接与最后一个卷积层的输出进行拼接；每个OSA模块后接一个最大池化层，其卷积核为3×3，步长为2；子空间注意力机制将特征图分为g个组，称为g个子空间，每个组有G个特征图，每个子空间生成一个注意力图，将g个注意力图拼接作为输出。

4.如权利要求1所述的声纹识别方法，其特征在于，步骤S2中特征聚合层包含1个池化层，池化层采用时域平均池化方法，信号输出尺寸为1×1。

5.如权利要求1所述的声纹识别方法，其特征在于，步骤S2中变分信息瓶颈层包括1个全连接层和1个仿射变换层，利用重参数方法实现反向传播；

6.如权利要求1所述的声纹识别方法，其特征在于，S2中分类器使用余弦距离计算说话人嵌入之间的相似度分数，计算公式如下式：

7.如权利要求1所述的声纹识别方法，其特征在于，步骤S3中训练模型的采用的损失函数包含两个部分，表达式如下：

表示期望，p(z)为潜在变量的分布，r(z)表示p(z)的变分近似，β表示惩罚强度；损失函数第一项为分类损失，采用softmax损失函数；第二项为惩罚项，表示说话人嵌入和模型输出之间的互信息，β越大，惩罚强度越大。

8.如权利要求1所述的声纹识别方法，其特征在于，步骤S4包括：

9.一种基于变分信息瓶颈的声纹识别系统，其特征在于，包括：

数据获取模块，用于获取原始语音数据；

模型构建模块，用于构建引入变分信息瓶颈的声纹识别模型，其中，声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器，其中，声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank，帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息，得到帧级特征向量，特征聚合层用于将帧级特征向量转换为低维句子级特征向量，变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩，保留与说话人身份相关的信息，去除与说话人身份无关的信息，得到说话人嵌入，说话人嵌入为表示说话人身份的特征向量，分类器用于根据说话人嵌入得到声纹识别的结果；