CN115408555A - 一种声纹检索方法、系统、存储介质及电子设备 - Google Patents

一种声纹检索方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN115408555A
CN115408555A CN202211052039.9A CN202211052039A CN115408555A CN 115408555 A CN115408555 A CN 115408555A CN 202211052039 A CN202211052039 A CN 202211052039A CN 115408555 A CN115408555 A CN 115408555A
Authority
CN
China
Prior art keywords
voiceprint
retrieved
hash
vector
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211052039.9A
Other languages
English (en)
Inventor
陈芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202211052039.9A priority Critical patent/CN115408555A/zh
Publication of CN115408555A publication Critical patent/CN115408555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种声纹检索方法、系统、存储介质及电子设备,可用于大数据领域或其他领域。通过预设哈希函数将预先构建的声纹数据库中获取到的原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中,当接收到待检索声纹向量时,将待检索声纹向量进行哈希处理,得到待检索声纹向量的哈希桶的桶号,对待检索声纹向量与哈希桶的桶号中的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果。基于上述,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。

Description

一种声纹检索方法、系统、存储介质及电子设备
技术领域
本申请涉及声纹检索技术领域,更具体地说,涉及一种声纹检索方法、系统、存储介质及电子设备。
背景技术
声纹检索是将需要检索的语音提取声纹,与声纹数据库中的声纹进行比对的检索方式。
随着大数据时代来临,声纹数据库规模激增,传统的声纹检索方式采用的线性检索耗时耗力,不适用于大规模数据的情况,过高的计算时间开销会降低检索的实用性和效率。
因此,现有的声纹检索方式的实用性低,且效率低。
发明内容
有鉴于此,本申请公开了一种声纹检索方法、系统、存储介质及电子设备,旨在提高得到待检索声纹向量对应的检索结果的检索效率和实用性。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种声纹检索方法,所述方法包括:
通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;所述原始声纹特征数据用于表征未进行哈希编码的声纹向量;
当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号;
对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果;所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
优选的,构建声纹数据库的过程,包括:
通过预设声纹模型从目标对象语音中提取高维声纹特征;所述高维声纹特征用于表征多维度的声纹信息;
通过所述高维声纹特征构建声纹数据库。
优选的,所述当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号,包括:
当接收到待检索声纹向量时,通过预设哈希算法对所述待检索声纹向量进行处理,得到所述待检索声纹向量的哈希桶的桶号。
优选的,所述对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果,包括:
在所述声纹数据库中获取与所述待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据;
通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算,得到各个相似度结果;
通过预设排序顺序对所述各个相似度结果进行排序,得到相似度排序结果;
从所述相似度排序结果中选取出所述待检索声纹向量对应的相似度最高的声纹向量,并将所述相似度最高的声纹向量确定为所述待检索声纹向量对应的检索结果。
优选的,还包括:
通过调整哈希表数目和调整哈希桶长度参数,控制所述待检索声纹向量和所述待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。
本申请第二方面公开了一种声纹检索系统,所述系统包括:
编码单元,用于通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;所述原始声纹特征数据用于表征未进行哈希编码的声纹向量;
处理单元,用于当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号;
计算单元,用于对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果;所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
优选的,构建声纹数据库的过程的编码单元,包括:
提取模块,用于通过预设声纹模型从目标对象语音中提取高维声纹特征;所述高维声纹特征用于表征多维度的声纹信息;
构建模块,用于通过所述高维声纹特征构建声纹数据库。
优选的,所述处理单元具体用于:
当接收到待检索声纹向量时,通过预设哈希算法对所述待检索声纹向量进行处理,得到所述待检索声纹向量的哈希桶的桶号。
本申请第三方面公开了一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的声纹检索方法。
本申请第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的声纹检索方法。
经由上述技术方案可知,本申请公开了一种声纹检索方法、系统、存储介质及电子设备,通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中,预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高,多个原始声纹特征数据用于表征未进行哈希编码的声纹向量,当接收到待检索声纹向量时,将待检索声纹向量进行哈希处理,得到待检索声纹向量的哈希桶的桶号,对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果,检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。基于上述方案,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种声纹检索方法的流程示意图;
图2为本申请实施例公开的得到待检索声纹向量对应的检索结果的流程示意图;
图3为本申请实施例公开的一种声纹检索系统的结构示意图;
图4为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,本申请提供的一种声纹检索方法、系统、存储介质及电子设备,可用于大数据领域或其他领域。上述仅为示例,并不对本申请提供的一种声纹检索方法、系统、存储介质及电子设备的应用领域进行限定。
由背景技术可知,随着大数据时代来临,声纹数据库规模激增,传统的声纹检索方式采用的线性检索耗时耗力,不适用于大规模数据的情况,过高的计算时间开销会降低检索的实用性和效率。因此,现有的声纹检索方式的实用性低,且效率低。
为了解决上述问题,本申请实施例公开了声纹检索方法、系统、存储介质及电子设备,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。具体实现方式通过下述实施例具体进行说明。
参考图1所示,为本申请实施例公开的一种声纹检索方法的流程示意图,该声纹检索方法主要包括如下步骤:
S101:通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;原始声纹特征数据用于表征未进行哈希编码的声纹向量。
其中,预设哈希函数为汉明距离的局部敏感哈希算法(Locality-SensitiveHashing,LSH)函数。通过在不同参数下的设定下,利用相同的声纹数据测试集,进行声纹库入库哈希映射以及声纹检索。通过多次不同参数组合下的测试结果(检索效率及效果等)对比验证,来选取最适用于某个业务场景的最终参数值。
预设检索准确率范围可以是85%-95%、90%-95%等,预设检索准确率范围的确定由技术人员根据实际情况进行设置,本申请不做具体限定。
统计声纹数据库大致的数量级,调整LSH函数的哈希表数目及哈希桶长度等参数,可利用已标注的声纹数据集,在数据库同时进行全库暴力线性检索和LSH检索,在可接受的准确率情况下,调整相应的参数使搜索速度最高;参照不同LSH参数下的检索准确率和速度,按照具体业务场景,选定二者平衡的LSH参数。
其中,LSH参数包括LSH函数的哈希表数目及哈希桶长度等。
二者平衡的LSH参数取决于应用的业务场景,若该场景需求对检索速度要求较高而对于检索准确性相对没那么严格时,可通过测试验证调整LSH参数使得检索结果符合该要求。
即在大规模声纹检索过程中LSH技术相当于在中间添加了一层筛选,将搜索空间控制到一个可以接受的范围。
其中,该范围即哈希桶内数据规模大小。该数据量为(1000-5000)不能过大超出范围,否则桶内线性检索时间复杂度还是会很高,没有起到筛选的作用;该数目不能过小,否则会导致原本很相似的声纹数据映射到不同桶内的概率增加,会降低检索正确率。
例如,在实时反电信诈骗场景中,主要线索只有语音的情况下,可将从语音中提取的嫌疑人声纹特征放入已知人员的声纹库大库进行检索,快速锁定嫌疑人。该场景下对于声纹检索时效性要求较高,可调整LSH参数,在保障检索准确率前提下,提高检索效率。
构建预设声纹数据库的过程如下:
首先,通过预设声纹模型从目标对象语音中提取高维声纹特征;高维声纹特征用于表征多维度的声纹信息。
其中,预设声纹模型可以是向量I-vector模型、声纹识别模型PLDA等。具体预设声纹模型的确定由技术人员根据实际情况进行设置,本申请不做具体限定。
然后,通过高维声纹特征构建声纹数据库。
构建声纹数据库的过程如下:
首先,通过预设声纹模型从目标对象语音中提取高维声纹特征;高维声纹特征用于表征多维度的声纹信息。
其中,目标对象语音即为选定的用户的语音。
然后,通过高维声纹特征构建声纹数据库。
S102:当接收到待检索声纹向量时,对待检索声纹向量进行哈希处理,得到待检索声纹向量的哈希桶的桶号。
在S102中,通过预设哈希算法对待检索声纹向量进行处理,得到待检索声纹向量的哈希桶的桶号。
预设哈希算法可以是基于汉明距离的局部敏感哈希算法LSH算法,也可以是其他类型的哈希算法,具体预设哈希算法的确定由技术人员根据实际情况进行设置,本申请不做具体限定。本申请的预设哈希算法优选基于汉明距离的局部敏感哈希算法。
其中,汉明距离是指两个相同长度的二进制数据中相同位置处比特位值不同的个数。一般作用于二值化向量,二值化的意思是向量的每一列只有0或者1两种取值。
LSH是建立在哈希基础上的一种近似最近邻算法,它能将检索时间复杂度缩减到线性,能较好的处理数据在高维空间中的检索问题。
LSH能够在只牺牲一部分搜索精度的条件下大幅提升查询效率,因为在很多领域中并不需非常高的精确度。而且即使是近似解,但有时候这个近似程度几乎和精准解一致。在大规模声纹检索的场景下,可以快速地返回结果,减少用户过多的时间,提升用户体验。
利用选取散列函数hash function-汉明距离,对所有入库的声纹数据都进行hash映射,得到一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶内会落入一些声纹数据,那么属于同一个桶内的数据就有很大可能是相近的。
其中,在原始声纹特征数据入声纹数据库过程中,使用基于汉明距离的LSH函数计算原始声纹数据对应的哈希编码,并将原始声纹特征数据对应的哈希编码存储至声纹数据库中,使得所有原始声纹特征数据能够映射到相应的哈希桶中。
利用LSH函数对入声纹数据库的原始声纹特征数据进行哈希编码,使得相似的原始声纹数据能够被映射到相同的桶内,具有相同的桶号。
S103:对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果;检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
具体对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果的过程如A1-A4所示。
A1:在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。
A2:通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算,得到各个相似度结果。
其中,预设相似度算法可以是余弦距离算法、欧式距离算法等。具体预设相似度算法的确定由技术人员根据实际情况进行设置,本申请不做具体限定。
A3:通过预设排序顺序对各个相似度结果进行排序,得到相似度排序结果。
其中,预设排序顺序按为相似度由高至低的顺序。
A4:从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量,并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。
为了方便理解对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果的过程,这里举例进行说明:
例如,用余弦距离计算声纹相似度,得到余弦值,余弦值越接近1表明两个向量夹角越接近0度,也就是两个向量越相似,所以声纹检索结果应按照余弦值大小降序排序,即由相似度高到低排序,得到相似度排序结果,相似度排序结果中排序越靠前说明该声纹与待检索声纹的相似度越高。从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量,并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。
可选的,通过调整哈希表数目和调整哈希桶长度参数,控制待检索声纹向量和待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。
本申请实施例中,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。
参考图2所示,为上述S103中涉及到的对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果的过程,主要包括如下步骤:
S201:在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。
S202:通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算,得到各个相似度结果。
S203:通过预设排序顺序对各个相似度结果进行排序,得到相似度排序结果。
S204:从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量,并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。
S201-S204的执行过程和执行原理与上述S103的执行过程和执行原理一致,可参考,此处不再进行赘述。
本申请实施例中,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。
基于上述实施例图1公开的一种声纹检索方法,本申请实施例还对应公开了一种声纹检索系统,如图3所示,该声纹检索系统包括编码单元301、处理单元302和计算单元303。
编码单元301,用于通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;多个原始声纹特征数据用于表征未进行哈希编码的声纹向量。
处理单元302,用于当接收到待检索声纹向量时,对待检索声纹向量进行哈希处理,得到待检索声纹向量的哈希桶的桶号。
计算单元303,用于对待检索声纹向量与桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果;检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
进一步的,构建声纹数据库的过程的编码单元301,包括提取模块和构建模块。
提取模块,用于通过预设声纹模型从目标对象语音中提取高维声纹特征;高维声纹特征用于表征多维度的声纹信息。
构建模块,用于通过高维声纹特征构建声纹数据库。
进一步的,处理单元302具体用于当接收到待检索声纹向量时,通过预设哈希算法对待检索声纹向量进行处理,得到待检索声纹向量的哈希桶的桶号。
进一步的,计算单元303包括获取模块、计算模块、排序模块和确定模块。
获取模块,用于在声纹数据库中获取与待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据。
计算模块,用于通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算,得到各个相似度结果。
排序模块,用于通过预设排序顺序对各个相似度结果进行排序,得到相似度排序结果。
确定模块,用于从相似度排序结果中选取出待检索声纹向量对应的相似度最高的声纹向量,并将相似度最高的声纹向量确定为待检索声纹向量对应的检索结果。
进一步的,声纹检索系统还包括控制单元。
控制单元,用于通过调整哈希表数目和调整哈希桶长度参数,控制待检索声纹向量和待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。
本申请实施例中,在大规模声纹检索过程中,通过预设哈希函数将调整哈希表数目和调整哈希桶长度参数,以使在预设检索准确率范围内声纹检索速度最高,从而提高得到待检索声纹向量对应的检索结果的检索效率和实用性。
本申请实施例还提供了一种存储介质,存储介质包括存储的指令,其中,在指令运行时控制存储介质所在的设备执行上述声纹检索方法。
本申请实施例还提供了一种电子设备,其结构示意图如图4所示,具体包括存储器401,以及一个或者一个以上的指令402,其中一个或者一个以上指令402存储于存储器401中,且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402执行如下:
通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;原始声纹特征数据用于表征未进行哈希编码的声纹向量;
当接收到待检索声纹向量时,对待检索声纹向量进行哈希处理,得到待检索声纹向量的哈希桶的桶号;
对待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到待检索声纹向量对应的检索结果;检索结果用于表征与待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
上述各个实施例的具体实施过程及其衍生方式,均在本申请的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种声纹检索方法,其特征在于,所述方法包括:
通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;所述原始声纹特征数据用于表征未进行哈希编码的声纹向量;
当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号;
对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果;所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,构建声纹数据库的过程,包括:
通过预设声纹模型从目标对象语音中提取高维声纹特征;所述高维声纹特征用于表征多维度的声纹信息;
通过所述高维声纹特征构建声纹数据库。
3.根据权利要求1所述的方法,其特征在于,所述当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号,包括:
当接收到待检索声纹向量时,通过预设哈希算法对所述待检索声纹向量进行处理,得到所述待检索声纹向量的哈希桶的桶号。
4.根据权利要求1所述的方法,其特征在于,所述对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果,包括:
在所述声纹数据库中获取与所述待检索声纹向量处于同一个桶号的哈希桶内所有相似的原始声纹数据;
通过预设相似度算法对同一个桶号的哈希桶内所有相似的原始声纹数据进行计算,得到各个相似度结果;
通过预设排序顺序对所述各个相似度结果进行排序,得到相似度排序结果;
从所述相似度排序结果中选取出所述待检索声纹向量对应的相似度最高的声纹向量,并将所述相似度最高的声纹向量确定为所述待检索声纹向量对应的检索结果。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过调整哈希表数目和调整哈希桶长度参数,控制所述待检索声纹向量和所述待检索声纹向量对应的相似声纹数据被映射到同一个哈希桶的概率。
6.一种声纹检索系统,其特征在于,所述系统包括:
编码单元,用于通过预设哈希函数将预先构建的声纹数据库中获取到的多个原始声纹特征数据进行哈希编码,使得相似的原始声纹特征数据散列到同一哈希桶中;所述预设哈希函数用于调整哈希表数目和调整哈希桶长度参数以使在预设检索准确率范围内声纹检索速度最高;所述原始声纹特征数据用于表征未进行哈希编码的声纹向量;
处理单元,用于当接收到待检索声纹向量时,对所述待检索声纹向量进行哈希处理,得到所述待检索声纹向量的哈希桶的桶号;
计算单元,用于对所述待检索声纹向量与所述桶号的哈希桶中对应的原始声纹特征数据进行相似度距离计算,得到所述待检索声纹向量对应的检索结果;所述检索结果用于表征与所述待检索声纹向量处于同一个桶号的桶内的相似度最高的声纹向量所对应的检索结果。
7.根据权利要求6所述的系统,其特征在于,构建声纹数据库的过程的编码单元,包括:
提取模块,用于通过预设声纹模型从目标对象语音中提取高维声纹特征;所述高维声纹特征用于表征多维度的声纹信息;
构建模块,用于通过所述高维声纹特征构建声纹数据库。
8.根据权利要求6所述的系统,其特征在于,所述处理单元具体用于:
当接收到待检索声纹向量时,通过预设哈希算法对所述待检索声纹向量进行处理,得到所述待检索声纹向量的哈希桶的桶号。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1至5任意一项所述的声纹检索方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1至5任意一项所述的声纹检索方法。
CN202211052039.9A 2022-08-31 2022-08-31 一种声纹检索方法、系统、存储介质及电子设备 Pending CN115408555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211052039.9A CN115408555A (zh) 2022-08-31 2022-08-31 一种声纹检索方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211052039.9A CN115408555A (zh) 2022-08-31 2022-08-31 一种声纹检索方法、系统、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115408555A true CN115408555A (zh) 2022-11-29

Family

ID=84163451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211052039.9A Pending CN115408555A (zh) 2022-08-31 2022-08-31 一种声纹检索方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115408555A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251641A (zh) * 2023-11-20 2023-12-19 上海爱可生信息技术股份有限公司 向量数据库检索方法、系统、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251641A (zh) * 2023-11-20 2023-12-19 上海爱可生信息技术股份有限公司 向量数据库检索方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
AU2020200997B2 (en) Optimization of audio fingerprint search
US6580814B1 (en) System and method for compressing biometric models
CN107085607B (zh) 一种图像特征点匹配方法
CN110298249A (zh) 人脸识别方法、装置、终端及存储介质
CN112417381B (zh) 应用于图像版权保护的快速定位侵权图像的方法及装置
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN109783547B (zh) 一种相似性连接查询方法及装置
CN113536020B (zh) 数据查询的方法、存储介质和计算机程序产品
CN112464058B (zh) 一种基于XGBoost算法的电信互联网诈骗识别方法
CN115408555A (zh) 一种声纹检索方法、系统、存储介质及电子设备
WO2024012138A1 (zh) 目标检测模型训练方法、目标检测方法及装置
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN114691868A (zh) 文本聚类方法、装置及电子设备
CN114528421A (zh) 内容审核方法、装置、电子设备及存储介质
CN109918529A (zh) 一种基于树形聚类矢量量化的图像检索方法
CN116738009A (zh) 一种对数据进行归档回溯的方法
CN113688762B (zh) 基于深度学习的人脸识别方法、装置、设备及介质
CN112418298B (zh) 数据检索方法、装置以及计算机可读存储介质
CN112528068B (zh) 声纹特征存储方法、声纹特征匹配方法、装置及电子设备
CN114385843A (zh) 分类网络构建方法以及图像检索方法
CN111291602A (zh) 视频检测方法、装置、电子设备及计算机可读存储介质
CN113221008B (zh) 基于app安装序列的目标app推荐系统
CN112559170B (zh) 一种边缘计算环境下缓存数据的近似匹配方法
CN112766312A (zh) 用户信息获取方法、电子设备和介质
WO2008035251A2 (en) Method and apparatus for calculating an index key

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination