CN114780787A - 声纹检索方法、身份验证方法、身份注册方法和装置 - Google Patents
声纹检索方法、身份验证方法、身份注册方法和装置 Download PDFInfo
- Publication number
- CN114780787A CN114780787A CN202210339393.3A CN202210339393A CN114780787A CN 114780787 A CN114780787 A CN 114780787A CN 202210339393 A CN202210339393 A CN 202210339393A CN 114780787 A CN114780787 A CN 114780787A
- Authority
- CN
- China
- Prior art keywords
- target
- voiceprint
- retrieval
- feature
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012795 verification Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 218
- 238000000605 extraction Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 27
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 241000157593 Milvus Species 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 18
- 238000012549 training Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000006116 polymerization reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001622623 Coeliadinae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及声纹识别的领域,尤其是涉及一种声纹检索方法、身份验证方法、身份注册方法和装置,声纹检索方法包括基于目标声纹特征,确定目标特征向量;基于目标特征向量,生成目标音频的目标音频指纹;基于目标音频指纹进行相似度检索,基于检索结果,确定对应于目标声纹特征的对照特征向量。在获取目标音频的目标声纹特征之后,根据目标特征向量生成目标音频指纹,使得目标音频指纹具有更高的可辨别性。在基于目标音频指纹进行相似度检索的过程中,是基于目标特征向量进行向量与向量之间的相似度检索,能够更加快速、准确地搜索到与目标特征向量最为相似的对照特征向量。本申请具有提升声纹检索的效率和准确性的特点。
Description
技术领域
本申请涉及声纹识别的领域,尤其是涉及一种声纹检索方法、身份验证方法、身份注册方法和装置。
背景技术
声纹识别是生物特征识别的一种,能够通过专用的电声转换仪器将声波特征绘制成波谱图形,与已经注册过的声纹模型对比,从而区分不同的个体,实现身份校验功能。由于不同人在说话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔等)在尺寸和形态方面具有较大的差异,所以使得不同人的语音的声纹图谱存在差异,因此在一般情况下,通过声纹识别技术可以区分不同的个体。利用每个人的声音特征唯一而且很少会发生变化的特性,可以通过声纹识别技术进行用户身份识别,所以声纹识别能够广泛应用于各种身份鉴定、安全保密、门警等系统中。
声纹识别技术的核心是通过预先录入说话人的声音样本,提取声音样本的语音特征并保存在数据库中。在声纹识别的实际应用中需要先进行声纹检索,声纹检索指的是根据说话人的语音,提取对应的声纹特征,然后基于提取的声纹特征,在数据库检索出相似度匹配度最高的语音特征,利用声纹检索得到的语音特征,可以确定说话人的具体身份。但是,目前的声纹检索技术中,不同的声纹特征之间的区别不够明显,对声纹特征的辨别能力较差,导致声纹检索的整体搜索速度较慢。
发明内容
本申请实施例提供了一种声纹检索方法、身份验证方法、身份注册方法和装置,用于提高对声纹特征的辨别能力,提升声纹检索的效率和准确性。
根据本申请实施例的一方面,提供了一种声纹检索方法,包括:
确定目标音频的目标声纹特征;
基于所述目标声纹特征,确定目标特征向量;
基于所述目标特征向量,生成所述目标音频的目标音频指纹;
基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量。
通过采用上述技术方案,在获取目标音频的目标声纹特征之后,将目标声纹特征转换成以向量形式表示的目标特征向量,再根据目标特征向量生成目标音频指纹,使得目标音频指纹具有更高的可辨别性。在基于目标音频指纹进行相似度检索的过程中,是基于目标特征向量进行向量与向量之间的相似度检索,能够更加快速、准确地搜索到与目标特征向量最为相似的对照特征向量,从而提升声纹检索的效率和准确性。
可选的,所述基于所述目标声纹特征,确定目标特征向量的步骤,包括:
基于所述目标声纹特征进行局部特征提取,确定目标局部特征;
基于所述目标局部特征进行池化聚合,确定目标特征向量。
通过采用上述技术方案,先将目标声纹特征转换成目标局部特征,再将目标局部特征进行池化聚合,完成从局部特征到特征向量的转换,得到目标特征向量。
可选的,所述基于所述目标声纹特征进行局部特征提取,确定目标局部特征的步骤,包括:
将所述目标声纹特征输入训练完成的向量提取网络,得到目标局部特征。
通过采用上述技术方案,利用训练完成的向量提取网络,基于目标声纹特征提取出目标局部特征,提高提取目标局部特征的准确性。
可选的,所述基于所述目标局部特征进行池化聚合,确定目标特征向量的步骤,包括:
将所述目标局部特征输入嵌入于所述向量提取网络的VLAD池化聚合层,得到目标特征向量。
通过采用上述技术方案,利用VLAD池化聚合层,将目标局部特征池化聚合成目标特征向量,不需要进行欠采样或者全局映射即可得到目标特征向量,提高特征信息的完整性。
可选的,所述基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量的步骤,包括:
基于所述目标特征向量,在Milvus数据库中对多个注册特征向量进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量。
通过采用上述技术方案,采用Milvus数据库作为向量库引擎,利用Milvus数据库具备的高可用、高性能、易拓展的特点,可以实现海量向量数据的实时召回,能达到亿级别向量秒级返回的性能,提升声纹检索的性能和效率。
根据本申请实施例的另一方面,提供了一种身份验证方法。
一种身份验证方法,基于上述任意一项声纹检索方法的技术方案实施,还包括:
基于所述对照特征向量所绑定的注册身份信息,确定所述目标音频的验证信息。
通过采用上述技术方案,利用声纹检索得到目标音频指纹所对应的对照特征向量之后,可以按照对照特征向量所绑定的注册身份信息,确定目标音频指纹锁对应的身份已经进行过注册,完成身份验证。
根据本申请实施例的另一方面,提供了一种身份注册方法。
一种身份注册方法,基于上述任意一项声纹检索方法的技术方案实施,包括:
确定注册音频的注册声纹特征和注册身份信息;
基于所述注册声纹特征,确定注册特征向量;
绑定所述注册特征向量和所述注册身份信息;
将所述注册特征向量储存进向量数据库中,以等待进行相似度检索,且检索结果中的所述注册特征向量为所述对照特征向量。
通过采用上述技术方案,将注册音频的注册声纹特征转换成注册特征向量,使得注册声纹特征具有更高的可辨别性,在后续的声纹检索过程中,可以实现向量与向量之间的相似度检索,能够更加快速、准确地完成声纹检索和身份验证。
根据本申请实施例的另一方面,提供了一种声纹检索装置。
一种声纹检索装置,基于上述任意一项声纹检索方法的技术方案实施,包括:
声纹提取模块,用于确定目标音频的目标声纹特征;
目标向量生成模块,用于基于所述目标声纹特征进行池化聚合,确定目标特征向量;
目标指纹生成模块,用于基于所述目标特征向量,生成所述目标音频的目标音频指纹;
向量检索模块,用于基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的注册特征向量。
根据本申请实施例的另一方面,提供了一种身份验证系统。
一种身份验证系统,基于上述声纹检索装置的技术方案实施,包括:
信息验证模块,用于基于所述对照特征向量所绑定的注册身份信息,确定所述目标音频的验证信息。
根据本申请实施例的另一方面,提供了一种身份注册装置。
一种身份注册装置,基于上述任意一项声纹检索方法的技术方案实施,包括:
信息获取模块,用于确定注册音频的注册声纹特征和注册身份信息;
注册向量生成模块,用于基于所述注册声纹特征,确定注册特征向量;
信息绑定模块,用于绑定所述注册特征向量和所述注册身份信息;
信息储存模块,用于将所述注册特征向量储存进向量数据库中,以等待进行相似度检索,且检索结果中的所述注册特征向量为所述对照特征向量。
附图说明
图1是本申请的声纹检索方法的流程示意图。
图2是本申请的声纹检索方法中步骤S2的子流程示意图。
图3是本申请的身份验证方法的工作过程演示图。
图4是本申请的身份注册方法的工作过程演示图。
图5是本申请的声纹检索装置的模块示意图。
图6是本申请的身份验证系统的模块示意图。
图7是本申请的身份注册装置的模块示意图。
图中,1、声纹提取模块;2、目标向量生成模块;3、目标指纹生成模块;4、向量检索模块;5、信息验证模块;6、信息获取模块;7、注册向量生成模块;8、信息绑定模块;9、信息储存模块。
具体实施方式
声纹识别又被称为说话人识别,区别于语音识别,说话人识别不需要分析语音的内容,而只是确定关于说话人的信息,比如说话人是否在使用者的集合中、说话人是谁等内容。语音识别关注的是信号中包含的语音信息,而说话人识别只是关注包含在信号中的说话人特征。所以在处理的时候,语音识别尽量排除不同说话人之间的区别,将不同说话人之间的差别归一化,而说话人识别则是力图充分利用不同说话人之间的差别。换句话说,就是语音识别是利用语音信号中说话人的个性特征,不考虑包含在语音信号中字词的含义,强调说话人的个性;而说话人识别则主要是为了识别出语音信号中的语义内容,并不去在乎说话人的个性,强调的是语音的共性。
建立和应用一个说话人识别系统的过程可以分为两个阶段:训练阶段和识别阶段。在训练阶段,需要多个使用者说出一定的语音训练材料,系统根据这些语音训练材料,通过训练学习建立每个使用者的模板或者模型参数参考集合。然后在识别阶段,先获取待识别的说话人的语音信号,然后从语音信号中提取特征参数,将特征参数与在训练过程中得到的参考参数集或者模型模板加以比较,并且根据一定的相似性准则进行判断,基于判断结果,把相似度最高的参考模型所对应的使用者辨认为是发出输入语音信号的说话人。
相关技术中,文本无关的说话人确认(TI-SV)和文本相关的说话人确认(TD-SV)均会采用基于因子分析技术(i-vector)和概率线性判别分析技术(Probabilistic LinearDiscriminant Analysis,PLDA)去处理声纹识别中的很多问题。
目前,随着深度神经网络(Deep Neural Network,DNN)的发展,很多研究专注于使用深度神经网络进行声纹识别,其中最成功的系统是端到端的系统。在这些系统中,神经网络输出的向量作为嵌入向量,也称d-vector。类似于i-vector,此嵌入向量也可以将说话人的语句表征在固定的维度空间中,同时神经网络的方法还能够提取说话人的判别特征向量,用于消除说话人之间的歧义,这种优势是传统基于 i-vector 的方法所不具有的。在文本相关的说话人确认中,提出一种分类说话人的深度神经网络,在训练过程中,深度神经网络产生帧级别的说话人嵌入,在注册过程中,深度神经网络的softmax层被丢弃,而d-vector由平均最后一个隐含层所提取的说话人特征得到。此外,谷歌还提出了一种端到端的系统,此系统使用长短期记忆技术(Long-Short Term Memory,LSTM)来产生句子级别的说话人嵌入。上述两种方法均优于传统的 i-vector系统。
在文本无关的说话人确认中,相关技术中有一种端到端的系统称为DeepSpeaker,该系统使用残差网络(ResNet)和GRU[30]架构来产生句子级别的说话人嵌入,同时该系统也使用人脸映射的神经网络(FaceNet)中的三元组损失来对模型进行微调,该损失选取三个句子,分别来自同一个说话人的两个不同语音以及另一个说话人的语音,目的是使前两个句子更近,同时远离第三个句子。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,本实施例中各步骤的标号仅为方便说明,不代表对各步骤运动顺序的限定,在实际应用时,可以根据需要各步骤运动顺序进行调整,或同时进行,这些调整或者替换均属于本发明的保护范围。
下面结合说明书附图1-图7对本申请实施例作进一步详细描述。
本申请实施例提供一种声纹检索方法,所述方法的主要流程描述如下。
参照图1,S1、确定目标音频的目标声纹特征。
其中,目标音频为说话人说出的音频信号,目标声纹特征为目标音频的声学特征描述。音频信号具有声学特征,由于不同的说话人的语音之间的声学特征具有差异性,因此,目标音频相当于是说话人的一种标识。
具体的,目标声纹特征优选为梅尔倒谱系数特征(MFCC),梅尔倒谱系数特征可以将人耳的听觉感知特性和语音产生机制相结合,模拟人类的听觉系统,能够更好地体现出说话人的个人特征,提高目标声纹特征的辨别率。
具体实施过程中,先通过快速傅立叶变换(FFT)计算目标音频的频谱得到短时谱,再经过mel滤波器滤波,输出对数MEL能量谱,经过离散余弦变换(DCT)去相关,得到梅尔倒谱系数特征,从而得到目标声纹特征。
S2、基于目标声纹特征,确定目标音频的目标特征向量。
其中,目标声纹特征实际为基于尔倒谱系数形成的声谱图,目标特征向量为以向量进行表示的特征,以将目标声纹特征抽象成信息含量更高、更明显的特征,将目标声纹特征转换成目标特征向量的目的是为了增大不同的特征之间的区别,提高目标音频的可辨别度。
在本实施例中,从目标声纹特征到目标特征向量的变换由向量提取网络完成。
参照图1和图2,步骤S2具体包括:
S21、基于目标声纹特征进行局部特征提取,确定目标局部特征。
其中,向量提取网络包括有局部特征提取网络。目标局部特征为对目标声纹特征进行抽象化的特征提取得到的特征,此特征提取的方式可利用局部特征提取网络。
在具体实施过程中,根据目标声纹特征和目标局部特征之间的变换关系,建立并训练好局部特征提取网络,再将目标声纹特征输入训练完成的局部特征提取网络,得到目标音频的目标局部特征。
在本实施例中,局部特征提取网络的主体网络结构采用卷积神经网络(CNN),并且优选为VGG16网络,在其他实施例中,也可以采用Resnet34 2D网络。
VGG16网络包括有13个卷积层和3个全连接层,第一次经过64个卷积核的两次卷积后,采用一次pooling,第二次经过两次128个卷积核卷积后,再采用pooling,再重复两次三个512个卷积核卷积后,再pooling,最后经过三次全连接。
局部特征提取网络的具体工作过程为:
1)将目标声纹特征输入局部特征提取网络中。其中,输入的目标声纹特征实际为特征图,且尺寸可为224×224×3,进行第一个卷积之后得到变换成224×224×64的特征图,接着还有一层224×224×64的变换,可以得到2个厚度为64的卷积层。
2)将经过卷积层转换的特征图输入池化层进行压缩,以缩小声特征的矩阵大小,从224×224×64缩小到112×112×64。
3)经过多轮的卷积层和池化层的处理,处理后可以认为目标声纹特征中的信息已被抽象成了信息含量更高的特征。
4)利用全连接层来完成分类任务,输出目标局部特征。
S22、基于目标局部特征进行池化聚合,确定目标特征向量。
其中,池化聚合的方式为利用VLAD算法,将目标局部特征转换成目标特征向量。VLAD(vector of locally aggregated descriptors,局部描述子特征向量)算法是一种能够将局部特征表示成全局特征的编码方法。
在本实施例中,以局部特征提取网络的网络结构为基础,在将VLAD作为池化层嵌入局部特征提取网络的最后一层,可以得到vlad池化聚合层,结合向量提取网络和vlad池化聚合层得到完整的向量提取网络。
值得注意的是,局部特征提取网络最后一层卷积层输出的都是W×H×D的特征,vlad池化聚合层的作用是为了实现此W×H×D的特征到向量的变换,实现此变换还可以采用欠采样或者全局映射的方式,而利用vlad池化聚合层可以避免直接进行欠采样或者全局映射得到向量,而是通过一个新的池化对此W×H×D的特征进行聚合得到目标特征向量,可以减少特征信息的丢失,提高目标音频中特征信息的完整性。
由于VLAD算法具有非常优秀的识别性能,将VLAD算法通过vlad池化聚合层的方式融合到卷积神经网络中,可以有效提高向量提取网络的识别能力。
VLAD算法的主要方法是通过聚类训练一个小的码本,对于每幅图像中的特征找到最近的码本聚类中心,随后所有特征与聚类中心的差值做累加,得到一个k×d的VLAD矩阵,其中k是聚类中心个数,d是特征维数,随后将该矩阵扩展为一个(k×d)维的向量,并对其L2归一化,所得到的向量即为VLAD向量。
vlad池化聚合层的具体工作过程为:
1)从目标局部特征中提取描述信息。
2)利用多个训练样本去训练码本,基于训练完成的码本得到N个聚类中心;
3)确定标量K,将目标局部特征的描述信息按照相似度最高的规则分配到K个聚类中心中;K为预设值,K小于等于N。
4)基于目标局部特征的描述子和各个聚类中心,计算对应于各个聚类中心的残差值,然后对各个残差值求和,得到参差和;
5)对参差和进行归一化,得到目标特征向量。
vlad池化聚合层最终池化得到的输出是一个恒定的k×d、并且经过了L2正则的向量。
VLAD需要标量K来构成一个矩阵C,是通过原数据算出来的每一个W×H特征的聚类中心,C的shape即C:K×D,然后根据三个输入,VLAD是计算公式(1)的V:
公式中Xi表示第i个局部特征,Ck表示第k个聚类中心Xi和Ck都是D维向量。
如果xi属于当前类别k,ak=1,否则ak=0,计算每一个x和对应聚类中心的残差,然后把残差加起来,即是每个类别k的残差值结果,最后分别L2正则后拉成一个长向量后再做L2正则。正则非常的重要,因为这样才能统一所有聚类算出来的值,而残差和的目的主要是消减不同聚类上的分布不均,两者共同作用才能得到最后正常的输出。
本实施例中,向量提取网络由局部特征提取网络和vlad池化聚合层结合组成,在向量提取网络的训练过程中,局部特征提取网络和vlad池化聚合层同时进行训练。为了使得vlad池化聚合层能够在深度卷积网络里使用反向传播进行训练,本申请实施例中利用softmax算法对VLAD中的参数a进行了修正,具体则是利用公式(2)所表示的表示式作为公式(1)中的参数a,得到的新的公式即是VLAD的公式,可以进行反向传播更新参数。
所以一共有三个可训练参数,公式(2)中的W:K×D,公式(2)中的b:K×1,聚类中心c:K×D,而原始的VLAD算法公式(1)只有一个参数c。
S3、基于目标特征向量,生成目标音频的目标音频指纹。
其中,目标音频指纹由通过目标音频的特征处理得到的所有目标特征向量生成,集成有关于目标音频的所有向量信息。
S4、基于目标音频指纹进行相似度检索,基于检索结果,确定对应于目标声纹特征的对照特征向量。
其中,相似度检索具体为向量相似度检索(vector similarity search),向量相似度检索指的是在储存有海量由特征提取得到的对照向量的向量检索库中,使用时给定一个目标向量,然后从向量检索库中快速检索出和目标向量最“相似”的K个对照向量。
在本实施例中,采用Milvus数据库作为向量检索库。Milvus数据库中存储有大量的已经注册过的注册特征向量,以目标音频指纹中的目标特征向量为基础,在Milvus数据库中索引出相似度最高且满足预设标准的注册特征向量作为检索结果,检索结果中的注册特征向量即为对照特征向量。
Milvus数据库是一款云原生向量数据库,它具备高可用、高性能、易拓展的特点,用于海量向量数据的实时召回。Milvus数据库基于FAISS、Annoy、HNSW等向量搜索库构建,核心是解决稠密向量相似度检索的问题。在向量检索库的基础上,Milvus数据库支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel等功能,同时大幅优化了向量检索的性能,可满足任何向量检索场景的应用需求。重要的是,采用Milvus数据库,能达到亿级别向量,秒级返回的性能,能够快速实现声纹检索。
本申请提供的一种声纹检索方法的实施原理为:在获取目标音频的目标声纹特征之后,将目标声纹特征转换成以向量形式表示的目标特征向量,再根据目标特征向量生成目标音频指纹,使得目标音频指纹具有更高的可辨别性。在基于目标音频指纹进行相似度检索的过程中,是基于目标特征向量进行向量与向量之间的相似度检索,能够更加快速、准确地搜索到与目标特征向量最为相似的对照特征向量,从而提升声纹检索的效率和准确性。
本申请还提供一种身份验证方法,所述方法的主要流程描述如下。
参照图3,身份验证方法包括:
S1、确定目标音频的目标声纹特征。
S2、基于目标声纹特征,确定目标音频的目标特征向量。
S3、基于目标特征向量,生成目标音频的目标音频指纹。
S4、基于目标音频指纹进行相似度检索,基于检索结果,确定对应于目标声纹特征的对照特征向量。
其中,步骤S1-步骤S4的原理分析可详见于前述声纹检索方法中的相关描述,在此不再累述。
S5、基于对照特征向量所绑定的注册身份信息,确定目标音频的验证信息。
其中,对照特征向量和注册身份信息为预存于系统中的信息。对照特征向量由用户的音频信息经过处理后得到。注册身份信息为用户进行身份注册时录入的信息,并与用户录入的对照特征向量相绑定。
在基于检索结果确定对照特征向量后,可以认为对照特征向量所对应的人员与目标音频指纹所对应的人员在声纹特征上的相似度极高,已经满足预设的标准区间,因此,可基于对照特征向量的注册身份信息,确定目标音频的验证信息。
身份验证的具体过程为:验证人员通过说话的方式输入目标音频,系统基于目标音频生成目标音频指纹,并基于目标音频指纹快速进行相似度检索。如果能够在检索结果中能够索引出对照特征向量,即证明当前验证人员为已经注册过的、具有验证资格的人员,身份验证成功;反之,如果能够在检索结果中不能够索引出对照特征向量,即证明当前验证人员未注册过,并不具有验证资格,身份验证失败。
本申请提供的一种身份验证方法的实施原理为:利用声纹检索得到目标音频指纹所对应的对照特征向量之后,可以按照对照特征向量所绑定的注册身份信息,确定目标音频指纹锁对应的身份已经进行过注册,完成身份验证。
本申请还提供一种身份注册方法,所述方法的主要流程描述如下。
参照图4,身份注册方法包括:
E1、确定注册音频的注册声纹特征和注册身份信息。
其中,注册音频为说话人说出的音频信号,注册声纹特征为注册音频的声学特征描述。对应于目标声纹特征,注册声纹特征为梅尔倒谱系数特征(MFCC)。先通过快速傅立叶变换(FFT)计算注册音频的频谱得到短时谱,再经过mel滤波器滤波,输出对数MEL能量谱,经过离散余弦变换(DCT)去相关,得到梅尔倒谱系数特征,从而得到注册声纹特征。
注册身份信息为注册音频的说话人的身份标识,注册身份信息可以为系统自动分配的身份编码,也可以为人为设定的账号密码,具体可视实际情况而定。
E2、基于注册声纹特征,确定注册特征向量。
其中,注册声纹特征实际为基于尔倒谱系数形成的声谱图,注册特征向量为以向量进行表示的特征,以将注册声纹特征抽象成信息含量更高、更明显的特征,将注册声纹特征转换成注册特征向量的目的是为了增大不同的特征之间的区别,提高注册音频的可辨别度。
在本实施例中,从目标声纹特征到目标特征向量的变换由向量提取网络完成。向量提取网络的具体工作过程和原理分析可详见于前述声纹检索方法中的相关描述,在此不再累述。
E3、绑定注册特征向量和注册身份信息。
其中,将从注册音频中提取出的注册特征向量和录入此注册音频的人员的注册身份信息进行绑定。
E4、将注册特征向量储存进向量数据库中。
其中,在后续的声纹检索中,系统会以向量数据库中的所有注册特征作为基础的进行向量相似度检索,并将检索结果中的注册特征向量为对照特征向量。
在本实施例中,向量数据库采用Milvus数据库。Milvus数据库的原理分析和向量相似度检索的原理分析可详见于前述声纹检索方法中的相关描述,在此不再累述。
本申请提供的一种身份注册方法的实施原理为:将注册音频的注册声纹特征转换成注册特征向量,使得注册声纹特征具有更高的可辨别性,在后续的声纹检索过程中,可以实现向量与向量之间的相似度检索,能够更加快速、准确地完成声纹检索和身份验证。
本申请还提供一种声纹检索装置,与上述声纹检索方法相对应。
参照图5,声纹检索装置包括:
声纹提取模块1,用于确定目标音频的目标声纹特征,并发送至目标向量生成模块2;
目标向量生成模块2,用于基于目标声纹特征进行池化聚合,确定目标特征向量,并发送至目标指纹生成模块3;
目标指纹生成模块3,用于基于目标特征向量,生成目标音频的目标音频指纹,并发送至向量检索模块4;
向量检索模块4,用于基于目标音频指纹进行相似度检索,基于检索结果,确定对应于目标声纹特征的注册特征向量。
本实施例提供的声纹检索装置,由于其各模块本身的功能及彼此之间的逻辑连接,能实现前述声纹检索方法的各个步骤,因此能够达到与前述声纹检索方法相同的技术效果,原理分析可参见前述声纹检索方法步骤的相关描述,在此不再累述。
本申请还提供一种身份验证系统,与上述身份验证方法相对应。
参照图6,身份验证系统包括上述声纹检索装置,还包括:
信息验证模块5,用于基于对照特征向量所绑定的注册身份信息,确定目标音频的验证信息。
本实施例提供的身份验证系统,由于其各模块本身的功能及彼此之间的逻辑连接,能实现前述身份验证方法的各个步骤,因此能够达到与前述身份验证方法相同的技术效果,原理分析可参见前述身份验证方法步骤的相关描述,在此不再累述。
本申请还提供一种身份注册装置,与上述身份注册方法相对应。
参照图7,身份注册装置包括:
信息获取模块6,用于确定注册音频的注册声纹特征和注册身份信息,并发送至注册向量生成模块7;
注册向量生成模块7,用于基于注册声纹特征进行池化聚合,确定注册特征向量,并发送至信息绑定模块8;
信息绑定模块8,用于绑定注册特征向量和注册身份信息,并发送至信息储存模块9;
信息储存模块9,用于将注册特征向量储存进向量数据库中,以等待进行相似度检索,且检索结果中的注册特征向量为对照特征向量。
本实施例提供的身份注册装置,由于其各模块本身的功能及彼此之间的逻辑连接,能实现前述身份注册方法的各个步骤,因此能够达到与前述身份注册方法相同的技术效果,原理分析可参见前述身份注册方法步骤的相关描述,在此不再累述。
Claims (10)
1.一种声纹检索方法,其特征在于,包括:
确定目标音频的目标声纹特征;
基于所述目标声纹特征,确定目标特征向量;
基于所述目标特征向量,生成所述目标音频的目标音频指纹;
基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量。
2.根据权利要求1所述的声纹检索方法,其特征在于,所述基于所述目标声纹特征,确定目标特征向量的步骤,包括:
基于所述目标声纹特征进行局部特征提取,确定目标局部特征;
基于所述目标局部特征进行池化聚合,确定目标特征向量。
3.根据权利要求2所述的声纹检索方法,其特征在于,所述基于所述目标声纹特征进行局部特征提取,确定目标局部特征的步骤,包括:
将所述目标声纹特征输入训练完成的向量提取网络,得到目标局部特征。
4.根据权利要求3所述的声纹检索方法,其特征在于,所述基于所述目标局部特征进行池化聚合,确定目标特征向量的步骤,包括:
将所述目标局部特征输入嵌入于所述向量提取网络的VLAD池化聚合层,得到目标特征向量。
5.根据权利要求1所述的声纹检索方法,其特征在于,所述基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量的步骤,包括:
基于所述目标特征向量,在Milvus数据库中对多个注册特征向量进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的对照特征向量。
6.一种身份验证方法,其特征在于,包括如权利要求1-5任意一项所述的声纹检索方法,还包括:
基于所述对照特征向量所绑定的注册身份信息,确定所述目标音频的验证信息。
7.一种身份注册方法,其特征在于,配合应用于如权利要求1-5任意一项所述的声纹检索方法,所述身份注册方法包括:
确定注册音频的注册声纹特征和注册身份信息;
基于所述注册声纹特征,确定注册特征向量;
绑定所述注册特征向量和所述注册身份信息;
将所述注册特征向量储存进向量数据库中,以等待进行相似度检索,且检索结果中的所述注册特征向量为所述对照特征向量。
8.一种声纹检索装置,其特征在于,应用于权利要求1-5任意一项所述的声纹检索方法,所述声纹检索装置包括:
声纹提取模块(1),用于确定目标音频的目标声纹特征;
目标向量生成模块(2),用于基于所述目标声纹特征进行池化聚合,确定目标特征向量;
目标指纹生成模块(3),用于基于所述目标特征向量,生成所述目标音频的目标音频指纹;
向量检索模块(4),用于基于所述目标音频指纹进行相似度检索,基于检索结果,确定对应于所述目标声纹特征的注册特征向量。
9.一种身份验证系统,其特征在于,包括如权利要求8所述的声纹检索装置,还包括:
信息验证模块(5),用于基于所述对照特征向量所绑定的注册身份信息,确定所述目标音频的验证信息。
10.一种身份注册装置,其特征在于,应用于权利要求7任意一项所述的身份注册方法,包括:
信息获取模块(6),用于确定注册音频的注册声纹特征和注册身份信息;
注册向量生成模块(7),用于基于所述注册声纹特征,确定注册特征向量;
信息绑定模块(8),用于绑定所述注册特征向量和所述注册身份信息;
信息储存模块(9),用于将所述注册特征向量储存进向量数据库中,以等待进行相似度检索,且检索结果中的所述注册特征向量为所述对照特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339393.3A CN114780787A (zh) | 2022-04-01 | 2022-04-01 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339393.3A CN114780787A (zh) | 2022-04-01 | 2022-04-01 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114780787A true CN114780787A (zh) | 2022-07-22 |
Family
ID=82426920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210339393.3A Pending CN114780787A (zh) | 2022-04-01 | 2022-04-01 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780787A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799605A (zh) * | 2012-05-02 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告监播方法和系统 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及系统 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
WO2018149077A1 (zh) * | 2017-02-16 | 2018-08-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、存储介质和后台服务器 |
CN110309343A (zh) * | 2019-06-28 | 2019-10-08 | 南京大学 | 一种基于深度哈希的声纹检索方法 |
CN112435673A (zh) * | 2020-12-15 | 2021-03-02 | 北京声智科技有限公司 | 一种模型训练方法及电子终端 |
CN112447178A (zh) * | 2019-08-28 | 2021-03-05 | 北京声智科技有限公司 | 一种声纹检索方法、装置及电子设备 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113221673A (zh) * | 2021-04-25 | 2021-08-06 | 华南理工大学 | 基于多尺度特征聚集的说话人认证方法及系统 |
CN113223536A (zh) * | 2020-01-19 | 2021-08-06 | Tcl集团股份有限公司 | 声纹识别方法、装置及终端设备 |
CN113268630A (zh) * | 2021-06-08 | 2021-08-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检索方法、设备及介质 |
WO2021232213A1 (zh) * | 2020-05-19 | 2021-11-25 | 华为技术有限公司 | 一种声纹识别、注册装置、及跨设备声纹识别方法 |
CN113868461A (zh) * | 2021-10-13 | 2021-12-31 | 北京声智科技有限公司 | 声纹识别方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-04-01 CN CN202210339393.3A patent/CN114780787A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799605A (zh) * | 2012-05-02 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告监播方法和系统 |
WO2018149077A1 (zh) * | 2017-02-16 | 2018-08-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、存储介质和后台服务器 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及系统 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
CN110309343A (zh) * | 2019-06-28 | 2019-10-08 | 南京大学 | 一种基于深度哈希的声纹检索方法 |
CN112447178A (zh) * | 2019-08-28 | 2021-03-05 | 北京声智科技有限公司 | 一种声纹检索方法、装置及电子设备 |
CN113223536A (zh) * | 2020-01-19 | 2021-08-06 | Tcl集团股份有限公司 | 声纹识别方法、装置及终端设备 |
WO2021232213A1 (zh) * | 2020-05-19 | 2021-11-25 | 华为技术有限公司 | 一种声纹识别、注册装置、及跨设备声纹识别方法 |
CN112435673A (zh) * | 2020-12-15 | 2021-03-02 | 北京声智科技有限公司 | 一种模型训练方法及电子终端 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113221673A (zh) * | 2021-04-25 | 2021-08-06 | 华南理工大学 | 基于多尺度特征聚集的说话人认证方法及系统 |
CN113268630A (zh) * | 2021-06-08 | 2021-08-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检索方法、设备及介质 |
CN113868461A (zh) * | 2021-10-13 | 2021-12-31 | 北京声智科技有限公司 | 声纹识别方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
刘大龙: "基于感知哈希的音乐声纹检索", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵春昊等: "声纹识别技术发展与应用浅谈", 《中国安全防范技术与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Li et al. | Few-shot speaker identification using lightweight prototypical network with feature grouping and interaction | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
Khan et al. | An efficient text-independent speaker identification using feature fusion and transformer model | |
Huang et al. | A classification method for wood vibration signals of Chinese musical instruments based on GMM and SVM. | |
Ali et al. | Fake audio detection using hierarchical representations learning and spectrogram features | |
Chen et al. | ACGAN-based data augmentation integrated with long-term scalogram for acoustic scene classification | |
Gupta et al. | Speech Recognition Using Correlation Technique | |
Naveen et al. | Speaker Identification and Verification using Deep Learning | |
Soltane et al. | Soft decision level fusion approach to a combined behavioral speech-signature biometrics verification | |
Koolagudi et al. | Speaker recognition in the case of emotional environment using transformation of speech features | |
Panda et al. | Study of speaker recognition systems | |
CN114780787A (zh) | 声纹检索方法、身份验证方法、身份注册方法和装置 | |
CN114220438A (zh) | 基于bottleneck和通道切分的轻量级说话人识别方法及系统 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
Abdiche et al. | Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks | |
Hossan et al. | Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization | |
Zi et al. | BSML: Bidirectional Sampling Aggregation-based Metric Learning for Low-resource Uyghur Few-shot Speaker Verification | |
Shetty et al. | SPEECH BIOMETRICS: A Comprehensive Deep Learning-based Speaker Identification System | |
Amrutha et al. | Multi-level Speaker Authentication: An Overview and Implementation | |
Yerramreddy et al. | Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220722 |
|
RJ01 | Rejection of invention patent application after publication |