CN116434759A

CN116434759A - 一种基于srs-cl网络的说话人识别方法

Info

Publication number: CN116434759A
Application number: CN202310380703.0A
Authority: CN
Inventors: 陈志浩; 伍忠东; 郑礼; 汤春阳; 王鹏程; 张卓; 乔思诺
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-14
Anticipated expiration: 2043-04-11
Also published as: CN116434759B

Abstract

本发明公开了一种基于SRS‑CL网络的说话人识别方法，属于说话人识别技术领域，包括步骤一：采集非约束场景下的带有高斯白噪声的说话人语音数据；步骤二：针对传统的Sup‑cl对比学习模型的不足，我们提出一种用于执行说话人识别任务的SRS‑CL模型；步骤三：使用步骤二中数据处理后得到的训练集对步骤二中构建的SRS‑CL模型进行训练；步骤四：将步骤二中数据处理后的测试集作为待识别说话人语音信号输入训练完成后的SRS‑CL模型，得到说话人识别结果。本发明采用小波变换和阈值去噪的方法对语音数据进行处理，将其转换为时频图，并通过对比学习网络进行语音信号的特征提取和训练，以提高网络在高噪声环境下的特征提取能力，并实现说话人识别功能。

Description

一种基于SRS-CL网络的说话人识别方法

技术领域

本发明涉及说话人识别领域，特别涉及一种基于SRS-CL网络的说话人识别方法。

背景技术

说话人识别，也称为声纹识别，是一种利用说话人语音中提取所需声纹特征的技术，以建立模型识别说话人身份。声纹识别在各行各业中应用广泛，如银行证券、公安司法、军队国防和信息认证，对人们的日常生活产生着越来越大的影响。

在非约束场景下，采集到的说话人语音数据可能混入各种环境白噪音，从而影响现有的说话人识别技术。目前，解决这一问题的方法是进行人工标注，但标注同样会带来大量的人工成本。此外，传统数据处理方法很难捕捉语音中信号的突变，导致无法满足非稳态信号变化的频率需求，这种信号突变也会影响说话人识别系统。随着深度学习技术的不断进步，声纹识别技术从原先的统计学习方法扩充到深度学习方法。本发明采用小波变换和阈值去噪的方式对数据进行处理，将语音数据转换为时频图，并经过预处理，通过对比学习网络进行语音信号特征提取和训练，以解决上述问题。

发明内容

本发明目的就在于为了解决上述的问题，而提供一种基于SRS-CL网络的说话人识别方法。

为实现上述目的，本发明采取的技术方案为：包括利用Voxceleb2数据集采集非约束场景下的带有高斯白噪声的说话人语音数据，其特征在于，针对说话人语音数据的处理提出了新的SRS-CL模型，所述SRS-CL模型包含依次相连的数据增强模块、预处理模块、对比学习模块，其SRS-CL模型的构建方法包括：

S1：在模型的开始使用小波变化编码器结构，将输入的语音数据进行分解；

S2：使用改进的阈值处理模块对数据去噪并转化为声谱图；

S3：获取Sup-cl网络，将网络的预处理模块中的ResNet-152(3×SK)网络替换为ResNet-50网络，提升模型的训练速度。

S4：将Sup-cl网络中的交叉熵损失函数替换为三元组损失函数，以提升网络的识别率与效率。

进一步地，所述数据增强具体步骤为：

第一步：利用小波变换对输入的说话人语音数据进行N次分解，以便于之后对数据进行去噪处理；

第二步：使用改进的阈值函数对分解后的各层小波系数进行阈值处理，以达到去除噪声的目的；

第三步：获取估计的小波系数，并对其进行重构，将语音数据转化为声谱图，以便于后续的网络训练；

第四步：将数据集划分为训练集和测试集，用于训练和测试SRS-CL模型。

进一步地，所述预处理模块包括：

一个数据增强模块，其原理是通过定义图像翻转函数T，对每张声谱图进行多角度翻转，从而得到两张增强后的声谱图。

一个基础编码器模块，它则采用ResNet-50网络提取上述声谱图的特征值(z_i,z_j)，作为后续对比网络模块的输入数据。

进一步地，所述预处理模块具体步骤为：

第一步，通过增强函数T对每一张声谱图进行多角度的翻转从而得到两张声谱图；

第二步，对增强过的图像通过ResNet-50网络来获得图像特征值(z_i,z_j)，并输出一个2048维的向量作为后续对比网络的输入数据。

进一步地，所述对比学习模块包括：

一个特征输入层，该层的目的是获取预处理模块中的图像特征值(z_i,z_j)，并将其作为后续层次的输入；

一个比较层，目的是通过计算特征向量之间的相似度来拉近相似的特征向量，使其分组聚合。相反，不同组之间的特征向量被分散开来，使所有特征分组以便后续比较；

一个预测层，该层以预测输入属于的类别，根据特征向量计算出每个类别的概率，选取概率最大的类别作为输出；

一个损失函数层，该层以计算一个损失值，该损失值用于指导特征提取的学习，以使比较层输出更具有分类性。

进一步地，由以下方程定义对比学习模块：

其中：

公式(1)为余弦相似函数，用于比对特征值(z_i,z_j)，来确定自信例以及噪声例与噪声对；

公式(2)为Top-K损失函数，用于提高模型模型对误标记的鲁棒性；

公式(3)为三元组损失函数，用于识别自信样本并将相似的自信样本分组为自信例；

公式(4)为自信对函数，用于将已识别的自信例转化为一组相关的自信对；

公式(5)为自信对集函数，用于利用公式(3)的三元组损失函数得到自信对集。

进一步地，对比学习模块具体步骤为：

第一步：通过公式(1)(2)和(3)对低维特征进行比对，以确定与给定标签一致的自信例，并使用公式(4)将这些自信例组成相关自信对；

第二步：利用第一步的公式同时可以通过标签的一致性来确定噪声例(noisyexamples)以及噪声对(noisy pairs)；

第三步：对于存在不正确标签的自信对，即将两个数据错误地分类为同一类的情况，它们的相似度标签仍然一致。因此，我们可以利用噪声对来获得更自信的对，使SRS-CL网络在面对环境白噪声时仍能获得较高的识别率。

第四步：将上述自信对和更自信的对融合形成自信对集。因此，SRS-CL网络可以在标记较少的情况下进行对比学习训练以获得特征。

与现有技术相比，本发明具有如下有益效果：

1、本发明针对传统Sup-cl对比学习模型在说话人识别任务中存在的不足，提出了一种名为SRS-CL模型的解决方案。该模型采用小波变换和阈值去噪的方法对语音数据进行处理，将其转换为时频图，并利用预处理后的数据进行对比学习网络的特征提取和训练。相比传统模型，SRS-CL模型在高噪声环境下能够更有效地提取特征，并实现更准确的说话人识别功能。

2、本发明通过对监督对比学习网络结构的创新和改进，既能利用监督对比学习网络对于特征提取的高性能特点进行特征提取，又通过数据去噪以及数据预处理提高了模型对于正常说话人语音的环境白噪声的适应鲁棒性，使其能够有效地提取声纹特征并实现分类。

3、声纹提取网络需要大量数据量以及数据标注才能发挥更好的特征提取效果。本发明采用对比网络的特性得到更多的说话人特征样本，有利于发挥改进网络在少量标签的情况下提取特征效果，解决了使用传统网络进行特征提取时泛化能力不强的问题。

4、传统数据处理方法很难捕捉语音中信号的突变，导致无法满足非稳态信号变化的频率需求，这种信号突变也会影响说话人识别系统。本发明利用小波变换将声学问题转化为语音问题，使得对比学习网络能够提取语音特征并将非稳态信号转化为稳态信号。

附图说明

图1为本发明中一种基于SRS-CL网络的说话人识别方法的流程示意图；

图2为本发明实施例中基于SRS-CL网络模型的总结构示意图；

图3为本发明实施例中预训练模块的结构示意图；

图4为本发明实施例中对比学习模块的结构示意图；

图5为本发明实施例中基于SRS-CL网络模型训练原理示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1-5所示，一种基于SRS-CL网络的说话人识别方法，包括如下步骤：

步骤一，采集非约束场景下的带有高斯白噪声的说话人语音数据。

在具体实施中，我们使用了Voxceleb2数据集。该数据集是通过一套基于计算机视觉技术开发的全自动程序从开源视频网站中捕捉而得到的。该数据集包括超过6000个说话人的超过百万个语音句子。这些语音数据的采样率为16kHz，位深为16bit，单声道，格式为PCM-WAV。该数据集适用于噪声和非约束场景下的声纹识别任务。此外，该数据集属于自然环境下的真实场景，数据集是文本无关的，说话人范围广泛，并且带有真实噪声，而非人造白噪声。

步骤二，针对传统的Sup-cl对比学习模型的不足，我们提出一种用于执行说话人识别任务的SRS-CL模型；

进一步，所述模型包含依次相连的数据增强模块、预训练模块、对比学习模块。

进一步地，所述数据增强的具体步骤包括三个过程。

分解过程，即选定一种小波对输入的说话人语音数据进行N层小波分解。

阈值处理过程，即对分解的各层系数进行阈值处理，获得估计小波系数。

重构过程，根据去噪后的小波系数进行小波重构，获得去噪后的信号，并将其转化为声谱图，以便后续的网络训练使用。

具体实施过程中，阈值处理过程当中采用对高噪声数据鲁棒性较好的改进的软硬阈值法进行阈值降噪：

对于一组说话人语音信号：

f(t)＝s(t)+n(t)

式中：f(t)是含有噪声的语音信号，s(t)是有效信号，n(t)是噪声信号。若有N个采样点，对语音信号f(t)的一维小波变化如下：

式中：W_j,k为小波系数，φ(t)为一个母小波。

进一步，本发明采用改进的软硬阈值法进行降噪，阈值降噪函数如下：

式中：

根据此函数表达式可以得出以下结论：当β→0时，/>

为硬阈值降噪函数，当β→1时，/>

为软阈值降噪函数；

进一步，所述预处理模块包括：

进一步，所述预处理模块的步骤为：

进一步，所述对比学习模块包括：

进一步，由以下方程定义对比学习模块：

其中：

进一步，对比网络的模块的步骤为：

步骤三，使用步骤二中数据处理后得到的训练集对步骤二中构建的SRS-CL模型进行训练；

步骤四，将步骤二中数据处理后的测试集作为待识别说话人语音信号输入训练完成后的SRS-CL模型，得到说话人识别结果。

上述步骤三与步骤四具体实施过程中，使用下述损失函数进行模型训练并得出结果：

该网络的对比损失函数为：

L^aLL＝L^MIX+λL^CLS+λL^sIM

cs

其中：

其中λ_c和λ_s为权重系数，我们在所有实验中设为λ_c＝0.1，λ_s＝0.01。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于SRS-CL网络的说话人识别方法，包括利用Voxceleb2数据集采集非约束场景下的带有高斯白噪声的说话人语音数据，其特征在于，针对说话人语音数据的处理提出了新的SRS-CL模型，所述SRS-CL模型包含依次相连的数据增强模块、预处理模块、对比学习模块，其SRS-CL模型的构建方法包括：

S2：使用改进的阈值处理模块对数据去噪并转化为声谱图；

S3：获取Sup-cl网络，将网络的预处理模块中的ResNet-152(3×SK)网络替换为ResNet-50网络，提升模型的训练速度；

2.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法，其特征在于，所述数据增强具体步骤为：

3.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法，其特征在于，所述预处理模块包括：

一个数据增强模块，其原理是通过定义图像翻转函数T，对每张声谱图进行多角度翻转，从而得到两张增强后的声谱图；

4.根据权利要求3所述的一种基于SRS-CL网络的说话人识别方法，其特征在于，所述预处理模块具体步骤为：

5.根据权利要求1所述的一种基于SRS-CL网络的说话人识别方法，其特征在于，所述对比学习模块包括：

一个比较层，目的是通过计算特征向量之间的相似度来拉近相似的特征向量，使其分组聚合；相反，不同组之间的特征向量被分散开来，使所有特征分组以便后续比较；

6.根据权利要求5所述的一种基于SRS-CL网络的说话人识别方法，其特征在于，由以下方程定义对比学习模块：