CN117524232A

CN117524232A - 一种基于检索模式的声纹识别方法和系统

Info

Publication number: CN117524232A
Application number: CN202311482660.3A
Authority: CN
Inventors: 沈然; 孙钢; 沈皓; 章江铭; 金良峰; 王庆娟; 倪琳娜; 吴慧; 陈金鹏; 姜伟昊
Original assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-06

Abstract

本发明公开了一种基于检索模式的声纹识别方法和系统。本发明的声纹识别方法包括：输入待识别的声纹音频；将待识别的声纹音频通过声纹识别模型转化为特征向量表示；将上述待识别声纹音频的特征向量表示，与声纹数据库中的向量进行比较，利用faiss的IVF索引算法在声纹数据库中快速定位到候选向量的集合；将待识别的声纹音频的特征向量表示与候选向量集合中的向量表示进行精确相似度计算，挑选出相似度最高的向量；返回相似度最高的向量所对应的人名，作为最终声纹识别的结果。本发明利用音频和文本两个模态对声纹识别进行训练，提升声纹识别的准确率；并使用faiss检索，快速减少相似性搜索的候选项数量，从而提高搜索效率。

Description

一种基于检索模式的声纹识别方法和系统

技术领域

本发明涉及声纹识别技术领域，尤其是一种基于检索模式的声纹识别方法和系统。

背景技术

声纹识别技术起源于声学和信号处理领域，经过多年的研究和发展，已经取得了显著的进展。声纹识别的基本原理是通过分析声音信号中的频率、声调、语速、共振等声学特征，来唯一地识别一个个体。与其他生物识别技术(如指纹和虹膜扫描)相比，声纹识别具有独特的优势，因为它无需接触，可实现远程身份验证。在当今数字化时代，数据泄露和身份盗窃问题不断增加。声纹识别提供了一种更加安全、便捷和高效的身份验证方式，用于保护敏感信息和系统免受未经授权的访问。随着生物识别技术的不断发展，声纹识别有望成为许多行业的核心技术，为用户提供更好的体验，同时增强了数据和系统的安全性。

现有的声纹识别技术主要通过音频单模态样本数据进行声纹识别，单一模态数据的性能波动较大，对于不同的个体和不同的录制条件，性能差异明显，这使得算法的性能有限。仅依赖音频数据容易受到环境噪音、录制条件变化等因素的影响，从而导致准确性下降。

发明内容

本发明的目的之一在于提供一种基于检索模式的声纹识别方法，其将声纹识别模型与检索模式结合，并且在声纹识别任务中添加了语音识别任务，通过音频和文本的两个模态训练声纹识别模型，以提高识别准确率和识别速度，并同时完成语音识别任务。

本发明的目的之一采用以下技术方案实现：一种基于检索模式的声纹识别方法，其包括训练部分和预测部分；

所述的训练部分包括以下步骤：

步骤一，获取声纹的预训练语言模型；

步骤二，预训练语言模型多任务学习，通过声纹识别和语音识别两个任务进行预训练，训练出一个用于将声纹转化为向量的模型，即声纹识别模型；

步骤三，构建声纹数据库，将每个人的声纹通过声纹识别模型转换为向量形式与对应人名进行存储；

步骤四，声纹数据库内全量声纹的向量索引构建；

所述的预测部分包括以下步骤：

步骤五，输入待识别的声纹音频；

步骤六，将待识别的声纹音频通过声纹识别模型转化为特征向量表示；

步骤七，将上述待识别声纹音频的特征向量表示，利用faiss的IFV索引在声纹数据库中进行检索，与声纹数据库中的向量进行比较，从声纹数据库中挑选出相似的声纹向量后，作为候选向量；

步骤八，将待识别的声纹音频的特征向量表示与候选向量集合中的向量表示进行精确相似度计算，挑选出相似度最高的向量；

步骤九，返回相似度最高的向量所对应的人名，作为最终声纹识别的结果。

进一步地，所述的预训练语言模型，为由CNN卷积层和transformer模块组成的wav2vec模型。

进一步地，所述的声纹识别将语音输入并输出对应人名标签，语音识别将语音输入并输出文本，通过在声纹识别的训练中，添加一个语音识别的目标，提高声纹识别的准确率，得到一个声纹识别模型。声纹识别是本发明的主要任务，语音识别在训练期间起到支撑作用，通过提供文本方面的数据特征，提升声纹识别的准确性。

进一步地，所述的构建声纹数据库，需要收集音频文件和音频文件对应的说话人，通过声纹识别模型将音频文件转换成向量进行存储。

进一步地，所述的声纹数据库内全量声纹的向量索引构建，主要使用faiss工具对声纹数据库中的向量进行索引构建。

进一步地，所述faiss的IVF索引算法，它将向量划分为不同的子集，然后对每个子集建立倒排文件，允许faiss快速定位到候选向量集合，减少需要计算相似性的向量数量。

进一步地，所述的精确相似度计算，通过计算向量之间的夹角余弦值来计算两个向量之间的相似度。

进一步地，步骤七的具体内容如下：将声纹数据库中向量数据集进行聚类，将向量分配到不同的簇中；为每个簇构建一个倒排文件，其中记录了该簇中的向量；创建一个索引结构，将每个簇的倒排文件关联到一个索引表中，以便进行快速检索。

本发明的第二个目的在于提供一种基于检索模式的声纹识别系统，包括：

预训练模块，使用wav2vec模型进行声纹识别和语音识别两个训练任务，得到声纹识别模型，该声纹识别模型用于将输入的声纹音频文件转化为对应向量；

声纹数据库索引库模块：其由声纹音频转化的向量特征和对应的人名标签组成，将已有的声纹音频文件依次通过声纹识别模型提取得到所述的向量特征；

召回模块：通过faiss中的IFV检索挑选出声纹数据库中的候选向量集合；

精排模块：通过计算两个向量之间的余弦值，得到向量之间的相似度，对候选向量进行排序；

声纹识别模块：用于从声纹数据索引库模块中检索与待识别声纹的向量特征最匹配的向量特征，将检索结果对应的人名作为识别结果。

本发明具有的有益效果如下：本发明利用音频和文本两个模态对声纹识别进行训练提升声纹识别的准确；并使用faiss检索，快速减少相似性搜索的候选项数量，从而提高搜索效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的本发明的声纹识别方法流程图；

图2是根据一示例性实施例示出的本发明的声纹识别系统结构图；

图3是根据一示例性实施例示出的预训练声纹识别模型的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提出的一种基于检索模式的声纹识别方法，如图1所示，由训练部分和预测部分组成。

所述的训练部分包括以下步骤：

步骤一，获取声纹的预训练语言模型；

步骤四，声纹数据库内全量声纹的向量索引构建；

所述的预测部分包括以下步骤：

步骤五，输入待识别的声纹音频；

在本发明的一项具体实施中，步骤一，声纹的预训练语言模型为一个由CNN卷积层和transformer模块组成，可以称为wav2vec模型。wav2vc模型首先是一个多层卷积特征编码器f：X→Z，它以原始音频X作为输入，并输出潜在语音表示z1,...,zT；然后，它们被馈送到一个Transformer g：Z→C中，以构建上下文表示c1,...,cT，捕捉整个序列的信息。transformer在连续语音表示上构建上下文表示，并通过端到端捕捉整个潜在表示序列的依赖关系。特征编码器由多个块组成，每个块包含一个时间卷积，然后是一个GELU激活函数。第一个块将原始音频映射到特征表示，并为增加鲁棒性，在GELU激活函数之前添加了组归一化，以在序列上规范化每个输出通道。对这个网络的输出通道应用层归一化，带Transformer的上下文表示。特征编码器的输出被馈送到一个遵循Transformer架构的上下文网络。与编码绝对位置信息的固定位置嵌入不同，特征编码器使用了一个卷积层，内核大小为128，分为16组，它作为相对位置嵌入。将卷积的输出与输入相加，然后应用层归一化。将wav2vec模型的最后一个隐藏层的输出作为特征z。

步骤二是声纹识别模型多任务学习，主要完成两个任务，分别是声纹识别和语音识别，声纹识别将语音输入并输出对应人名标签。语音识别将语音输入并输出文本。声纹识别是本发明的主要任务。语音识别在训练期间起到支撑作用。将wav2vec模型的最后一个隐藏层的输出作为特征z，分别作为声纹识别任务和语音识别任务的输入。对于声纹识别以一个池化层开始，该层对样本长度L进行求和。这将一个向量序列，转换为一个单一向量。假设有C个声纹，应用另一个全连接层，将向量映射到logits模型末尾，获得了关于logits形式的声纹预测。对于语音识别，构建一个全连接层，在模型末尾，获得了关于logits形式的预测，其中训练语音识别的任务一定程度上提升了声纹识别的准确率。取声纹识别的最后一个隐藏层的输出作为声纹对应的特征向量表示，如图3所示。

步骤三：构建声纹数据库，将每个人的声纹通过声纹识别模型转换为向量形式与对应人名进行存储。通过已经存在的声纹音频数据集，将声纹音频数据通过声纹识别模型转化为特征向量表示，与对应人名一一对应进行存储。

步骤四：声纹数据库内全量声纹的向量索引构建。使用faiss中IFV索引的方式对声纹数据库的向量索引进行构建，向量数据集划分成多个簇(cluster)，然后使用倒排文件的方式来存储每个簇中的向量。这种索引结构可以大大提高召回候选向量的速度，因为它允许在搜索时快速定位到与查询向量最接近的簇，然后在簇内进行更精细的搜索，而不需要遍历整个数据集。

剩下的步骤都是属于声纹识别应用的预测。

步骤五，首先输入待识别的音频文件。

步骤六，将待识别的声纹音频通过声纹识别模型转化为特征向量表示。这一过程通常包括声纹信号的预处理，例如去噪、降采样等。

步骤七，将上述待识别声纹音频的特征向量表示，利用faiss的IFV索引在声纹数据库中进行检索，从声纹数据库中挑选出相似的声纹向量后，作为候选向量，具体步骤如下：

将声纹数据库中向量数据集进行聚类，将向量分配到不同的簇中；

为每个簇构建一个倒排文件，其中记录了该簇中的向量；

创建一个索引结构，将每个簇的倒排文件关联到一个索引表中，以便进行快速检索。

步骤八，将待识别的声纹音频向量表示与召回的候选向量表示，通过将待识别声纹音频的特征向量与候选声纹向量进行余弦值相似度计算，相似度最高的为最相似的声纹向量。

步骤九，返回相似度最高的向量所对应的人名，作为最终声纹识别的结果。因此，最终的结果是被识别的人名，这就完成了声纹识别的过程。这一过程通常会伴随着阈值设定来确保结果的可信度，只有当得分高于一定阈值时才会被接受为有效的声纹识别结果。

与前述的基于检索模式的声纹识别方法的实施例相对应，本申请还提供了一种基于检索模式的声纹识别系统的实施例，如图2所示，其包括：

预训练模块，以wav2vec模型为基座训练声纹识别和语音识别两个任务，训练出一个声纹识别模型；采用wav2vec模型进行先期训练，而这个模型不仅仅局限于声纹识别，它还包含了语音识别等多种任务的多任务学习。这样的多任务学习使得模型在声音特征提取方面更为强大和全面，能够同时处理声纹和语音的特征抽取需求，从而提高了声纹系统的多功能性和性能。

声纹数据库索引库模块，包含由声音音频转化而来的向量特征以及与之相对应的人名标签。这些向量特征是通过声纹识别模型，依次从已有的声纹音频中提取出来。这一模块的关键作用是将声纹数据进行编码和索引化，以便后续的声纹比对和识别。每个声纹特征向量都与其对应的个体的人名标签关联，使得声纹数据库成为了一个有力的工具，可以通过声音特征来快速准确地识别个体身份。

召回模块：通过faiss中的IFV索引检索进行相似声纹向量召回，将声纹数据库中向量数据集进行聚类，将向量分配到不同的簇中。为每个簇构建一个倒排文件，其中记录了该簇中的向量；创建一个索引结构，将每个簇的倒排文件关联到一个索引表中，以便进行快速检索。

精排模块，通过计算两个向量之间的余弦值，得到向量之间的相似度，对候选向量进行排序；

声纹识别模块，其用于从声纹数据索引库模块中检索与待识别声纹的向量特征最匹配的向量特征，返回相似度最高的向量所对应的人名，作为最终声纹识别的结果。通过距离度量待识别音频的特征向量和候选特征向量的相似度，距离度量通常使用欧氏距离或其他适用于数据类型的距离度量函数。通过特征匹配的方式，将询问语句的句子特征与特征语料索引库中的句子特征进行匹配，例如，采用近似最近邻匹配方式，相似度计算公式为：

采用a表示待识别的句子特征，b^j表示通过ANN算法从声纹特征语料索引库中召回的top N个特征中的第j个句子特征，j∈{1,2,…,N}，将d值最小时b^j对应的声纹标签作为识别结果。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

本发明提出了一种基于检索模式的声纹识别方法，通过巧妙地结合声纹识别和语音识别任务，并采用端到端的Transformer模型进行训练，以优化声纹识别任务的性能。这一方法的关键创新点在于将这两个任务有机结合，充分利用它们之间的信息互补性，从而提高了声纹识别的准确性和鲁棒性。

此外，本发明还引入了faiss的IFV索引检索，用于在声纹检索阶段，快速挑选出相似的向量，作为候选向量。在面对大规模声纹数据库时，传统的搜索方法可能会面临效率和速度的瓶颈，faiss的IFV索引的引入进一步提高了检索结果的准确性，确保了在大规模声纹数据库下的高效声纹识别。

综上所述，本发明不仅实现了声纹识别和语音识别任务的协同优化，还引入了高效的声纹检索，使得在处理大规模声纹数据时，声纹识别的性能得到了显著的提升，为声纹识别技术的进一步发展提供了有力支持。

Claims

1.一种基于检索模式的声纹识别方法，其特征在于，包括训练部分和预测部分；

所述的训练部分包括以下步骤：

步骤一，获取声纹的预训练语言模型；

步骤四，声纹数据库内全量声纹的向量索引构建；

所述的预测部分包括以下步骤：

步骤五，输入待识别的声纹音频；

2.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述的预训练语言模型，为由CNN卷积层和transformer模块组成的wav2vec模型。

3.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述的声纹识别将语音输入并输出对应人名标签，语音识别将语音输入并输出文本，通过在声纹识别的训练中，添加一个语音识别的目标，提高声纹识别的准确率，得到一个声纹识别模型。

4.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述的构建声纹数据库，需要收集音频文件和音频文件对应的说话人，通过声纹识别模型将音频文件转换成向量进行存储。

5.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述的声纹数据库内全量声纹的向量索引构建，主要使用faiss工具对声纹数据库中的向量进行索引构建。

6.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述faiss的IVF索引算法，它将向量划分为不同的子集，然后对每个子集建立倒排文件，允许faiss快速定位到候选向量集合，减少需要计算相似性的向量数量。

7.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，所述的精确相似度计算，通过计算向量之间的夹角余弦值来计算两个向量之间的相似度。

8.根据权利要求1所述的基于检索模式的声纹识别方法，其特征在于，步骤七的具体内容如下：

为每个簇构建一个倒排文件，其中记录了该簇中的向量；

9.一种基于检索模式的声纹识别系统，其特征在于，包括：

10.根据权利要求9所述的基于检索模式的声纹识别系统，其特征在于，所述的声纹识别模块中，采用近似最近邻匹配方式，相似度计算公式为：

采用a表示待识别的句子特征，b^j表示通过ANN算法从声纹特征语料索引库中召回的topN个特征中的第j个句子特征，j∈{1,2,…,N}，将d值最小时b^j对应的声纹标签作为识别结果。