CN116844554A

CN116844554A - 一种基于Transformer和CNN长时语音的声纹识别方法

Info

Publication number: CN116844554A
Application number: CN202310813399.4A
Authority: CN
Inventors: 张斌; 徐宇强
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-03

Abstract

本发明提供的是一种结合Transformer和CNN的一种长时语音的声纹识别方法，涉及音频识别技术领域。该方法步骤包括：S1，输入长时语音信号；S2，对长时语音进行预处理；S3，进行Fbank特征的提取；S4，进行声纹识别模型的训练；S5，特征匹配与识别；S6，输出识别结果；本发明在长时语音的声纹识别上准确率，解码速度更快，在多个数据集上验证后等错率达到了1.2％，其中在Sitw数据集上最好达到了0.9％的等错率。

Description

一种基于Transformer和CNN长时语音的声纹识别方法

技术领域

本发明涉及声纹识别技术领域，特别是一种基于Transformer和CNN的一种长时语音的声纹识别方法。

背景技术

声纹识别是一种生物特征识别技术，通过分析人的语音特征来识别和验证个体身份。但是大部分的声纹识别关注的语音时长为10-30s，对于30s以上语音时长的场景的研究还比较少。长时语音声纹识别是指通过分析人的声音特征来进行身份验证和辨识的技术。与传统的短时声纹识别相比，长时语音声纹识别更具挑战性，因为它需要在长时间的语音输入中准确地提取和比对声音特征。

传统的声纹识别系统通常使用基于高斯混合模型(GMM)的特征提取和匹配方法。随着深度学习技术的引入使得长时语音声纹识别实现了更好的性能。使用深度神经网络(DNN)和卷积神经网络(CNN)等模型进行声纹特征的提取和建模可以取得比传统模型更好的识别准确率，但是其识别准确率以及推理速度还有很大的提升空间。

因此，有必要提供一种基于Transformer和CNN长时语音的声纹识别算法来解决上述技术问题。

发明内容

为解决上述技术问题，本发明提出的一种基于Transformer和CNN长时语音的声纹识别算法，包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤。

输入长时语音信号步骤：通过收声设备采集用户的初始音频数据，并获取用户对应身份信息。

预处理步骤：在声纹识别之前，需要对原始语音数据进行预处理以提高声纹特征的质量。包括语音切割、噪声去除步骤：

Fank特征提取步骤：先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征。

声纹识别模型训练步骤：将提取到的Fank特征输入至神经网络模型中进行相关模型训练，将满足识别精度的模型进行输出，得到声纹识别模型。

特征匹配与识别步骤：通过与声纹数据标记步骤相同的收声设备采集验证音频数据，并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比，判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求；若满足，则声纹验证成功；否则声纹验证失败。

输出识别结果步骤：声纹验证成功，输出说话人的身份。

作为更进一步的解决方案，所述使用收声设备所收集的音频数据内容均为超过60s的长时语音。

作为更进一步的解决方案，所述语音切割，将采集到的语音信号切割成较小的帧或片段。

作为更进一步的解决方案，所述特征在于噪声去除，通过噪声估计和去噪算法，降低背景噪声对声纹特征的影响。

作为更进一步的解决方案，所述特征Fank特征提取的数据为带有身份标记信息。

作为更进一步的解决方案，所述声纹识别模型训练步骤通过如下具体步骤进行：

步骤A1：输入提取到的Fank特征。

步骤A2：将Fank特征进行卷积(Convolution)和下采样(Subsampling)的操作。

步骤A3：使用线性Dropout(Linear Dropout)进行正则化减少神经网络的过拟合现象。

步骤A4：进入5个t-cblock模块的步骤。

步骤A5：进入Concat(Concatenate)环节将两个或多个张量拼接在一起。

步骤A6：进行Layer normalization(层归一化)对神经网络层的激活进行归一化处理，使其在特征维度上具有相似的分布。

步骤A7：进行Attentive Statistic Pooling(ASP，注意力统计池化)，对从序列或特征图中提取有关重要信息的汇总表示。

步骤A8：进行Linear Batch Norm(线性批归一化)：有助于加速训练过程，并提高神经网络的鲁棒性和泛化能力。

步骤A9：得到说话人的嵌入码(Speaker Embedding)。

作为更进一步的解决方案，所述声纹识别模型的t-cblock模块通过如下具体步骤进行：

步骤B1：线性Dropout之后进入前向传播模块，同时与下一步骤之间有残差计算。

步骤B2：在前向传播模块之后transformer模型的多头自注意力模块(Multi-HeadSelfAttention Module)，同时与下一步骤之间有残差计算。

步骤B3：多头自注意力模块之后进入CNN模型的卷积模块(Convolution Module)，同时与下一步骤之间有残差计算。

步骤B4：再次进入前向传播模块(Feed Forward Module)，同时与下一步骤之间有残差计算。

步骤B5：进行层归一化(Layer normalization)处理，使其在特征维度上具有相似的分布。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于Transformer和CNN长时语音的声纹识别算法的步骤流程图。

图2是一种基于Transformer和CNN长时语音的声纹识别算法的模型训练的步骤流程图。

图3是一种基于Transformer和CNN长时语音的声纹识别算法的t-cblock块的步骤流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施条例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

如图1、图2、图3所示，本发明提供的一种基于Transformer和CNN长时语音的声纹识别算法，包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤；

预处理步骤：在声纹识别之前，需要对原始语音数据进行预处理以提高声纹特征的质量，包括语音切割、噪声去除步骤。

Fank特征提取步骤：先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个梅尔滤波器组提取256维的取对数后的梅尔滤波器Fbank特征、

输出识别结果步骤：声纹验证成功，输出说话人的身份。

步骤A1：输入提取到的Fank特征。

步骤A4：进入5个t-cblock模块的步骤。

步骤A9：得到说话人的嵌入码(Speaker Embedding)。

Claims

1.一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤；

输入长时语音信号步骤：通过收声设备采集用户的初始音频数据，并获取用户对应身份信息；

Fank特征提取步骤：先对语音信号预加重，再通过一个固定的10ms帧位移的25ms汉明窗口进行分析，并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征；

声纹识别模型训练步骤：将提取到的Fank特征输入至神经网络模型中进行相关模型训练，将满足识别精度的模型进行输出，得到声纹识别模型；

输出识别结果步骤：声纹验证成功，输出说话人的身份。

2.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述使用收声设备所收集的音频数据内容均为超过60s的长时语音。

3.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述语音切割，将采集到的语音信号切割成较小的帧或片段。

4.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述特征在于噪声去除，通过噪声估计和去噪方法，降低背景噪声对声纹特征的影响。

5.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述特征Fank特征提取的数据为带有身份标记信息。

6.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述声纹识别模型训练步骤通过如下具体步骤进行：

步骤A1：输入提取到的Fank特征；

步骤A2：将Fank特征进行卷积(Convolution)和下采样(Subsampling)的操作；

步骤A3：使用线性Dropout(Linear Dropout)进行正则化减少神经网络的过拟合现象；

步骤A4：进入5个t-cblock模块的步骤；

步骤A5：进入Concat(Concatenate)环节将两个或多个张量拼接在一起；

步骤A7：进行Attentive Statistic Pooling(ASP，注意力统计池化)，对从序列或特征图中提取有关重要信息的汇总表示；

步骤A8：进行Linear Batch Norm(线性批归一化)：有助于加速训练过程，并提高神经网络的鲁棒性和泛化能力；

步骤A9：得到说话人的嵌入码(Speaker Embedding)。

7.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法，其特征在于，所述声纹识别模型的t-cblock模块通过如下具体步骤进行：

步骤B1：线性Dropout之后进入前向传播模块，同时与下一步骤之间有残差计算；

步骤B2：在前向传播模块之后transformer模型的多头自注意力模块(Multi-HeadSelf Attention Module)，同时与下一步骤之间有残差计算；

步骤B3：多头自注意力模块之后进入CNN模型的卷积模块(Convolution Module)，同时与下一步骤之间有残差计算；

步骤B4：再次进入前向传播模块(Feed Forward Module)，同时与下一步骤之间有残差计算；。