CN115408555A

CN115408555A - 一种声纹检索方法、系统、存储介质及电子设备

Info

Publication number: CN115408555A
Application number: CN202211052039.9A
Authority: CN
Inventors: 陈芬
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-29

Abstract

本申请公开了一种声纹检索方法、系统、存储介质及电子设备，可用于大数据领域或其他领域。通过预设哈希函数将预先构建的声纹数据库中获取到的原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中，当接收到待检索声纹向量时，将待检索声纹向量进行哈希处理，得到待检索声纹向量的哈希桶的桶号，对待检索声纹向量与哈希桶的桶号中的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果。基于上述，在大规模声纹检索过程中，通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数，以使在预设检索准确率范围内声纹检索速度最高，从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。

Description

一种声纹检索方法、系统、存储介质及电子设备

技术领域

本申请涉及声纹检索技术领域，更具体地说，涉及一种声纹检索方法、系统、存储介质及电子设备。

背景技术

声纹检索是将需要检索的语音提取声纹，与声纹数据库中的声纹进行比对的检索方式。

随着大数据时代来临，声纹数据库规模激增，传统的声纹检索方式采用的线性检索耗时耗力，不适用于大规模数据的情况，过高的计算时间开销会降低检索的实用性和效率。

因此，现有的声纹检索方式的实用性低，且效率低。

发明内容

有鉴于此，本申请公开了一种声纹检索方法、系统、存储介质及电子设备，旨在提高得到待检索声纹向量对应的检索结果的检索效率和实用性。

为了实现上述目的，其公开的技术方案如下：

本申请第一方面公开了一种声纹检索方法，所述方法包括：

通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中；所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高；所述原始声纹特征数据用于表征未进行哈希编码的声纹向量；

当接收到待检索声纹向量时，对所述待检索声纹向量进行哈希处理，得到所述待检索声纹向量的哈希桶的桶号；

对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到所述待检索声纹向量对应的检索结果；所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。

优选的，构建声纹数据库的过程，包括：

通过预设声纹模型从目标对象语音中提取高维声纹特征；所述高维声纹特征用于表征多维度的声纹信息；

通过所述高维声纹特征构建声纹数据库。

优选的，所述当接收到待检索声纹向量时，对所述待检索声纹向量进行哈希处理，得到所述待检索声纹向量的哈希桶的桶号，包括：

当接收到待检索声纹向量时，通过预设哈希算法对所述待检索声纹向量进行处理，得到所述待检索声纹向量的哈希桶的桶号。

优选的，所述对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到所述待检索声纹向量对应的检索结果，包括：

在所述声纹数据库中获取与所述待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据；

通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算，得到各个相似度结果；

通过预设排序顺序对所述各个相似度结果进行排序，得到相似度排序结果；

从所述相似度排序结果中选取出所述待检索声纹向量对应的相似度最高的声纹向量，并将所述相似度最高的声纹向量确定为所述待检索声纹向量对应的检索结果。

优选的，还包括：

通过调整哈希表数目和调整哈希桶长度参数，控制所述待检索声纹向量和所述待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。

本申请第二方面公开了一种声纹检索系统，所述系统包括：

编码单元，用于通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中；所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高；所述原始声纹特征数据用于表征未进行哈希编码的声纹向量；

处理单元，用于当接收到待检索声纹向量时，对所述待检索声纹向量进行哈希处理，得到所述待检索声纹向量的哈希桶的桶号；

计算单元，用于对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到所述待检索声纹向量对应的检索结果；所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。

优选的，构建声纹数据库的过程的编码单元，包括：

提取模块，用于通过预设声纹模型从目标对象语音中提取高维声纹特征；所述高维声纹特征用于表征多维度的声纹信息；

构建模块，用于通过所述高维声纹特征构建声纹数据库。

优选的，所述处理单元具体用于：

本申请第三方面公开了一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的声纹检索方法。

本申请第四方面公开了一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的声纹检索方法。

经由上述技术方案可知，本申请公开了一种声纹检索方法、系统、存储介质及电子设备，通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中，预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高，多个原始声纹特征数据用于表征未进行哈希编码的声纹向量，当接收到待检索声纹向量时，将待检索声纹向量进行哈希处理，得到待检索声纹向量的哈希桶的桶号，对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果，检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。基于上述方案，在大规模声纹检索过程中，通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数，以使在预设检索准确率范围内声纹检索速度最高，从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种声纹检索方法的流程示意图；

图2为本申请实施例公开的得到待检索声纹向量对应的检索结果的流程示意图；

图3为本申请实施例公开的一种声纹检索系统的结构示意图；

图4为本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要说明的是，本申请提供的一种声纹检索方法、系统、存储介质及电子设备，可用于大数据领域或其他领域。上述仅为示例，并不对本申请提供的一种声纹检索方法、系统、存储介质及电子设备的应用领域进行限定。

由背景技术可知，随着大数据时代来临，声纹数据库规模激增，传统的声纹检索方式采用的线性检索耗时耗力，不适用于大规模数据的情况，过高的计算时间开销会降低检索的实用性和效率。因此，现有的声纹检索方式的实用性低，且效率低。

为了解决上述问题，本申请实施例公开了声纹检索方法、系统、存储介质及电子设备，在大规模声纹检索过程中，通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数，以使在预设检索准确率范围内声纹检索速度最高，从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。具体实现方式通过下述实施例具体进行说明。

参考图1所示，为本申请实施例公开的一种声纹检索方法的流程示意图，该声纹检索方法主要包括如下步骤：

S101：通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中；预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高；原始声纹特征数据用于表征未进行哈希编码的声纹向量。

其中，预设哈希函数为汉明距离的局部敏感哈希算法(Locality-SensitiveHashing，LSH)函数。通过在不同参数下的设定下，利用相同的声纹数据测试集，进行声纹库入库哈希映射以及声纹检索。通过多次不同参数组合下的测试结果(检索效率及效果等)对比验证，来选取最适用于某个业务场景的最终参数值。

预设检索准确率范围可以是85％-95％、90％-95％等，预设检索准确率范围的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

统计声纹数据库大致的数量级，调整LSH函数的哈希表数目及哈希桶长度等参数，可利用已标注的声纹数据集，在数据库同时进行全库暴力线性检索和LSH检索，在可接受的准确率情况下，调整相应的参数使搜索速度最高；参照不同LSH参数下的检索准确率和速度，按照具体业务场景，选定二者平衡的LSH参数。

其中，LSH参数包括LSH函数的哈希表数目及哈希桶长度等。

二者平衡的LSH参数取决于应用的业务场景，若该场景需求对检索速度要求较高而对于检索准确性相对没那么严格时，可通过测试验证调整LSH参数使得检索结果符合该要求。

即在大规模声纹检索过程中LSH技术相当于在中间添加了一层筛选，将搜索空间控制到一个可以接受的范围。

其中，该范围即哈希桶内数据规模大小。该数据量为(1000-5000)不能过大超出范围，否则桶内线性检索时间复杂度还是会很高，没有起到筛选的作用；该数目不能过小，否则会导致原本很相似的声纹数据映射到不同桶内的概率增加，会降低检索正确率。

例如，在实时反电信诈骗场景中，主要线索只有语音的情况下，可将从语音中提取的嫌疑人声纹特征放入已知人员的声纹库大库进行检索，快速锁定嫌疑人。该场景下对于声纹检索时效性要求较高，可调整LSH参数，在保障检索准确率前提下，提高检索效率。

构建预设声纹数据库的过程如下：

首先，通过预设声纹模型从目标对象语音中提取高维声纹特征；高维声纹特征用于表征多维度的声纹信息。

其中，预设声纹模型可以是向量I-vector模型、声纹识别模型PLDA等。具体预设声纹模型的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

然后，通过高维声纹特征构建声纹数据库。

构建声纹数据库的过程如下：

其中，目标对象语音即为选定的用户的语音。

然后，通过高维声纹特征构建声纹数据库。

S102：当接收到待检索声纹向量时，对待检索声纹向量进行哈希处理，得到待检索声纹向量的哈希桶的桶号。

在S102中，通过预设哈希算法对待检索声纹向量进行处理，得到待检索声纹向量的哈希桶的桶号。

预设哈希算法可以是基于汉明距离的局部敏感哈希算法LSH算法，也可以是其他类型的哈希算法，具体预设哈希算法的确定由技术人员根据实际情况进行设置，本申请不做具体限定。本申请的预设哈希算法优选基于汉明距离的局部敏感哈希算法。

其中，汉明距离是指两个相同长度的二进制数据中相同位置处比特位值不同的个数。一般作用于二值化向量，二值化的意思是向量的每一列只有0或者1两种取值。

LSH是建立在哈希基础上的一种近似最近邻算法，它能将检索时间复杂度缩减到线性，能较好的处理数据在高维空间中的检索问题。

LSH能够在只牺牲一部分搜索精度的条件下大幅提升查询效率，因为在很多领域中并不需非常高的精确度。而且即使是近似解，但有时候这个近似程度几乎和精准解一致。在大规模声纹检索的场景下，可以快速地返回结果，减少用户过多的时间，提升用户体验。

利用选取散列函数hash function-汉明距离，对所有入库的声纹数据都进行hash映射，得到一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶内会落入一些声纹数据，那么属于同一个桶内的数据就有很大可能是相近的。

其中，在原始声纹特征数据入声纹数据库过程中，使用基于汉明距离的LSH函数计算原始声纹数据对应的哈希编码，并将原始声纹特征数据对应的哈希编码存储至声纹数据库中，使得所有原始声纹特征数据能够映射到相应的哈希桶中。

利用LSH函数对入声纹数据库的原始声纹特征数据进行哈希编码，使得相似的原始声纹数据能够被映射到相同的桶内，具有相同的桶号。

S103：对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果；检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。

具体对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果的过程如A1-A4所示。

A1：在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。

A2：通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算，得到各个相似度结果。

其中，预设相似度算法可以是余弦距离算法、欧式距离算法等。具体预设相似度算法的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

A3：通过预设排序顺序对各个相似度结果进行排序，得到相似度排序结果。

其中，预设排序顺序按为相似度由高至低的顺序。

A4：从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量，并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。

为了方便理解对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果的过程，这里举例进行说明：

例如，用余弦距离计算声纹相似度，得到余弦值，余弦值越接近1表明两个向量夹角越接近0度，也就是两个向量越相似，所以声纹检索结果应按照余弦值大小降序排序，即由相似度高到低排序，得到相似度排序结果，相似度排序结果中排序越靠前说明该声纹与待检索声纹的相似度越高。从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量，并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。

可选的，通过调整哈希表数目和调整哈希桶长度参数，控制待检索声纹向量和待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。

本申请实施例中，在大规模声纹检索过程中，通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数，以使在预设检索准确率范围内声纹检索速度最高，从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。

参考图2所示，为上述S103中涉及到的对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果的过程，主要包括如下步骤：

S201：在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。

S202：通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算，得到各个相似度结果。

S203：通过预设排序顺序对各个相似度结果进行排序，得到相似度排序结果。

S204：从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量，并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。

S201-S204的执行过程和执行原理与上述S103的执行过程和执行原理一致，可参考，此处不再进行赘述。

基于上述实施例图1公开的一种声纹检索方法，本申请实施例还对应公开了一种声纹检索系统，如图3所示，该声纹检索系统包括编码单元301、处理单元302和计算单元303。

编码单元301，用于通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中；预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高；多个原始声纹特征数据用于表征未进行哈希编码的声纹向量。

处理单元302，用于当接收到待检索声纹向量时，对待检索声纹向量进行哈希处理，得到待检索声纹向量的哈希桶的桶号。

计算单元303，用于对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果；检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。

进一步的，构建声纹数据库的过程的编码单元301，包括提取模块和构建模块。

提取模块，用于通过预设声纹模型从目标对象语音中提取高维声纹特征；高维声纹特征用于表征多维度的声纹信息。

构建模块，用于通过高维声纹特征构建声纹数据库。

进一步的，处理单元302具体用于当接收到待检索声纹向量时，通过预设哈希算法对待检索声纹向量进行处理，得到待检索声纹向量的哈希桶的桶号。

进一步的，计算单元303包括获取模块、计算模块、排序模块和确定模块。

获取模块，用于在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。

计算模块，用于通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算，得到各个相似度结果。

排序模块，用于通过预设排序顺序对各个相似度结果进行排序，得到相似度排序结果。

确定模块，用于从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量，并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。

进一步的，声纹检索系统还包括控制单元。

控制单元，用于通过调整哈希表数目和调整哈希桶长度参数，控制待检索声纹向量和待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。

本申请实施例还提供了一种存储介质，存储介质包括存储的指令，其中，在指令运行时控制存储介质所在的设备执行上述声纹检索方法。

本申请实施例还提供了一种电子设备，其结构示意图如图4所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402执行如下：

通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码，使得相似的原始声纹特征数据散列到同一哈希桶中；预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高；原始声纹特征数据用于表征未进行哈希编码的声纹向量；

当接收到待检索声纹向量时，对待检索声纹向量进行哈希处理，得到待检索声纹向量的哈希桶的桶号；

对待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到待检索声纹向量对应的检索结果；检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。

上述各个实施例的具体实施过程及其衍生方式，均在本申请的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种声纹检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，构建声纹数据库的过程，包括：

通过所述高维声纹特征构建声纹数据库。

3.根据权利要求1所述的方法，其特征在于，所述当接收到待检索声纹向量时，对所述待检索声纹向量进行哈希处理，得到所述待检索声纹向量的哈希桶的桶号，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算，得到所述待检索声纹向量对应的检索结果，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种声纹检索系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，构建声纹数据库的过程的编码单元，包括：

构建模块，用于通过所述高维声纹特征构建声纹数据库。

8.根据权利要求6所述的系统，其特征在于，所述处理单元具体用于：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1至5任意一项所述的声纹检索方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1至5任意一项所述的声纹检索方法。