CN114495948B - 一种声纹识别方法及装置 - Google Patents
一种声纹识别方法及装置 Download PDFInfo
- Publication number
- CN114495948B CN114495948B CN202210401211.0A CN202210401211A CN114495948B CN 114495948 B CN114495948 B CN 114495948B CN 202210401211 A CN202210401211 A CN 202210401211A CN 114495948 B CN114495948 B CN 114495948B
- Authority
- CN
- China
- Prior art keywords
- vector
- voiceprint
- voice
- characteristic
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 289
- 238000013507 mapping Methods 0.000 claims abstract description 96
- 230000001537 neural effect Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 61
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 14
- 239000000126 substance Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种声纹识别方法及装置,其中,该声纹识别方法包括:获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。可以提高声纹识别的准确率。
Description
技术领域
本发明涉及声纹识别技术领域,具体而言,涉及一种声纹识别方法及装置。
背景技术
随着深度学习技术的发展,声纹识别技术广泛应用在个人身份认证场景,例如,家用声纹锁、声纹登录银行等。基于说话人的语音信号,提取表征说话人的声纹特征向量,与预先存储的该说话人的声纹特征向量进行匹配,从而对说话人进行认证。
在声纹识别中,通过语音信号提取出语音特征,语音特征一般包括:线性预测倒谱系数(LPCC,Linear Predictive Cepstral Coefficient)、梅尔频率倒谱系数(MFCC,Mel-Frequency Cepstral Coefficients)、滤波器组特征(Fbank,Filter bank)。然后,将语音特征输入预设模型以提取更深层次的嵌入式向量作为声纹特征向量,通用计算声纹特征向量的相似度,如计算余弦距离,当相似度大于预设的声纹阈值,确定声纹认证通过。但该声纹识别方法,依据从语音信号提取的语音特征进行识别,识别的准确率不高。
发明内容
有鉴于此,本发明的目的在于提供声纹识别方法及装置,以提高声纹识别的准确率。
第一方面,本发明实施例提供了声纹识别方法,包括:
获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述分支分类网络包括标识映射网络、性别映射网络以及年龄映射网络。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述标识映射网络用于分类用户ID,对应的嵌入式特征向量为表征用户综合信息的128维标识嵌入式向量。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述性别识映射网络用于分类用户性别,对应的嵌入式特征向量为表征用户性别的32维性别嵌入式向量。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述年龄映射网络用于分类用户年龄,对应的嵌入式特征向量为表征用户年龄的64维年龄嵌入式向量。
结合第一方面、第一方面的第一种可能的实施方式至第四种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,构建所述深度神经映射网络,包括:
获取样本说话人的语音训练数据,为语音训练数据标注样本说话人ID;
计算语音训练数据的语音训练共振峰向量;
获取语音训练数据的滤波器组训练特征向量;
利用残差卷积神经网络对滤波器组训练特征向量进行处理,得到第一特征向量;
将第一特征向量分别输入分支分类网络,得到每一分支分类网络对应的嵌入式训练特征向量;
拼接嵌入式训练特征向量以及语音训练共振峰向量,得到多维拼接特征向量;
将多维拼接特征向量输入深度神经映射网络进行映射,得到声纹向量及声纹均值向量;
利用余弦距离公式,计算声纹向量及声纹均值向量之间的相似性系数,基于相似性系数与声纹向量,得到用于表征声纹的高维特征训练向量;
基于高维特征训练向量以及标注的样本说话人ID,计算交叉熵损失,基于交叉熵损失进行反向传播,调整深度神经映射网络的学习参数矩阵,以得到训练好的深度神经映射网络。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述语音训练数据包括:样本说话人ID、语音、性别、年龄,所述样本说话人ID、性别、年龄采用独热编码。
第二方面,本发明实施例还提供了一种声纹识别装置,包括:
特征获取模块,用于获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
特征卷积模块,用于利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
分支向量获取模块,用于将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
特征拼接映射模块,用于拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
声纹识别模块,用于基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的声纹识别方法及装置,通过获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。这样,通过分支网络获取用于表征声道、声带、说话风格的综合特征向量以及用户强相关属性特征向量,在综合特征向量识别度较低时,依据强相关属性特征向量进行约束,从而增加了声纹识别的准确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的声纹识别方法流程示意图;
图2示出了本发明实施例所提供的声纹识别装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,从语音数据中提取语音共振峰向量以及声学特征FBank特征向量,考虑基于FBank特征向量分别得到表征用户类别、性别、年龄的标识嵌入式向量、性别嵌入式向量、年龄嵌入式向量,对语音共振峰向量、标识嵌入式向量、性别嵌入式向量以及年龄嵌入式向量进行拼接,得到多维拼接特征向量,利用深度神经映射网络进行深度融合变换后,进行用户最终分类,通过将多个声音属性表征向量融合到声纹识别方法中,用以提高声纹识别的性能。
本发明实施例提供了一种声纹识别方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的声纹识别方法流程示意图。如图1所示,该方法包括:
步骤101,获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
本发明实施例中,语音共振峰为声腔的共振频率,用于表征用户的音质以及声道的物理特征。作为一可选实施例,计算语音的前3共振峰,进行归一化后,拼接为共振峰序列作为语音共振峰向量:
式中,T 0为语音共振峰向量。
本发明实施例中,滤波器组(Fbank)特征向量用于表征语音,可以通过对语音训练数据进行预加重、分帧、加窗、短时傅里叶变换、梅尔滤波处理,得到Fbank特征向量。
本发明实施例中,经过梅尔滤波得到的Fbank特征向量为:
其中,
m i为第i个滤波器输出的能量值。
本发明实施例中,作为一可选实施例,选用40个三角滤波器进行梅尔滤波,输出的Fbank特征向量对应的维数为40维。作为另一可选实施例,为了模拟人耳对于声强的非线性感应,还可以对Fbank特征向量进行对数操作,得到LogFbank特征向量。
步骤102,利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
本发明实施例中,每份语音数据对应一综合特征向量。声纹特征提取模型包括:残差卷积神经网络(Residual CNN,Residual Convolutional Neural Network)、分支分类网络以及深度神经(DNN,Deep Neural Networks)映射网络。
本发明实施例中,输入声纹特征提取模型的滤波器组特征向量(LogFbank特征向量)的时间窗为M帧,其中,M为40帧,LogFbank特征经过残差卷积神经网络的N层卷积操作,得到综合特征向量,表示为:
其中,k为256,即综合特征向量为256维特征向量。
本发明实施例中,残差卷积神经网络可以使用通用的ResNet34网络,也可使用自定义残差网络,利用残差卷积神经网络,可以在一定程度上缓解模型退化问题。作为一可选实施例,采用ResNet34网络,将ResNet34网络输出的综合特征向量分别输入三个分支分类网络。
步骤103,将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
本发明实施例中,作为一可选实施例,分支分类网络包括标识映射网络、性别映射网络以及年龄映射网络。
本发明实施例中,标识映射网络用于学习综合特征向量和用户映射关系,为8层DNN结构,分类目标是用户ID,输出的标识嵌入式向量为128维,用于表征用户综合信息。
本发明实施例中,性别识映射网络用于学习综合特征向量和和用户性别映射关系,为5层DNN结构,分类目标是用户性别,输出的性别嵌入式向量的维度为32。
年龄映射网络用于学习综合特征向量和和用户年龄映射关系,输出的年龄嵌入式向量的维度为64。
本发明实施例中,每一综合特征向量对应一标识嵌入式向量、性别嵌入式向量和年龄嵌入式向量。
步骤104,拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
本发明实施例中,将标识嵌入式向量、性别嵌入式向量、年龄嵌入式向量、语音共振峰向量进行特征拼接,得到融合向量。每份语音数据对应一高维特征向量。
步骤105,基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。
本发明实施例中,作为一可选实施例,可以利用余弦距离公式,计算高维特征向量和声纹均值向量的相似度值,若相似度值大于或等于声纹阈值,确定语音数据所属的用户与声纹均值向量对应的用户属于同一用户,声纹识别通过,若相似度值小于声纹阈值,声纹识别未通过;作为另一可选实施例,也可以通过获取两份语音数据,针对每份语音数据,获取该语音数据的高维特征向量,然后,利用余弦距离公式,计算两份语音数据分别对应的高维特征向量的相似度值,若相似度值大于或等于声纹阈值,确定两份语音数据为属于同一用户的语音,通过声纹识别,若相似度值小于声纹阈值,确定两份语音数据不属于同一用户的语音,声纹识别未通过。
本发明实施例中,作为一可选实施例,构建深度神经映射网络,包括:
A11,获取样本说话人的语音训练数据,为语音训练数据标注样本说话人ID;
本发明实施例中,每一条语音训练数据包括:样本说话人ID、语音、性别、年龄,多条语音训练数据组成语音数据集。作为一可选实施例,语音数据集包含的样本说话人ID 的数量为n,样本说话人ID从1开始编号,则第i个样本说话人ID的编号为i,对样本说话人ID进行独热编码(one-hot),第i个样本说话人ID对应的独热编码表示为:
在第i个样本说话人ID对应的独热编码中,共包含n位编码,n为样本说话人ID的数量,第i位为1,其余位为0。
本发明实施例中,对语音数据集中的用户年龄进行分段统计,划分为如下6类:
(12以下)、(13~18)、(19~28)、(29~40)、(41~55)、(55以上)
对分段的年龄进行独热编码,例如,对于12岁以下的年龄段,编码表示为:
本发明实施例中,相类似地,性别女对应的独热编码以及性别男对应的独热编码分别为:
A12,计算语音训练数据的语音训练共振峰向量;
A13,获取语音训练数据的滤波器组训练特征向量;
A14,利用残差卷积神经网络对滤波器组训练特征向量进行处理,得到第一特征向量;
本发明实施例中,关于残差卷积神经网络的具体结构,可参见相关技术文献,在此略去详述。
A15,将第一特征向量分别输入分支分类网络,得到每一分支分类网络对应的嵌入式训练特征向量;
本发明实施例中,作为一可选实施例,分支分类网络包括标识映射网络、性别映射网络以及年龄映射网络。
本发明实施例中,标识映射网络为8层DNN结构,分类目标是用户类别ID,激活函数采用Relu函数,损失函数选A-softmax Loss函数,记为Loss1,经过softmax层的A-softmaxLoss函数处理后,输出的标识训练嵌入式向量表示为:
其中,r为128,即T 2为表征用户综合信息的128维的标识嵌入式向量。
本发明实施例中,性别识映射网络为5层DNN结构,分类目标是用户性别,激活函数采用Relu,损失函数选用交叉熵损失函数,记为Loss2,学习到的性别训练嵌入式向量为T 3,维度为32。
年龄映射网络采用的损失函数为Center Loss函数,记为Loss3,学习到的年龄训练嵌入式向量为T 4,维度为64。
本发明实施例中,在训练过程中,标识映射网络、性别映射网络以及年龄映射网络的损失分别设有不同权重,根据不同权重进行融合,得到的分支分类网络的最终损失为:
本发明实施例中,作为一可选实施例,采用随机最速下降法(SGD,StochasticGradient Descent)对分支分类网络的最终损失进行优化,其中,作为一可选实施例,权重系数Q1、Q2、Q3分别为0.5,0.25,0.25。
A16,拼接嵌入式训练特征向量以及语音训练共振峰向量,得到多维拼接特征向量;
本发明实施例中,将T 0、T 2、T 3、T 4进行特征拼接,得到如下的多维拼接特征向量:
其中,
+为向量拼接运算;
W 1、W 2、W 3、W 4分别为残差卷积神经网络、标识映射网络、性别映射网络以及年龄映射网络学习参数;
F n 为输入的第一特征向量的声学特征窗。
A17,将多维拼接特征向量输入深度神经映射网络进行映射,得到声纹向量及声纹均值向量;
本发明实施例中,针对每一样本说话人,将该样本说话人拼接后的多维拼接特征向量,利用深度神经映射网络进行映射,以基于映射得到的向量对深度神经映射网络的学习参数矩阵W进行调节。
本发明实施例中,将多维拼接特征向量输入深度神经映射网络进行映射,得到声纹向量Vi,并对于语音训练数据集内的每一样本说话人,计算该样本说话人声纹向量的声纹均值向量。作为一可选实施例,分别利用下式计算声纹向量以及声纹均值向量:
其中,
V i 为声纹向量;
V avg 为声纹均值向量;
W为学习参数矩阵。
A18,利用余弦距离公式,计算声纹向量及声纹均值向量之间的相似性系数,基于相似性系数与声纹向量,得到用于表征声纹的高维特征训练向量;
本发明实施例中,利用下式计算相似性系数:
本发明实施例中,利用下式计算高维特征训练向量H:
A19,基于高维特征训练向量以及标注的样本说话人ID,计算交叉熵损失,基于交叉熵损失进行反向传播,调整深度神经映射网络的学习参数矩阵,以得到训练好的深度神经映射网络。
本发明实施例中,将高维向量经过softmax函数转成概率向量,将样本说话人ID编码成one-hot向量,利用概率向量和one-hot向量计算交叉熵损失。作为一可选实施例,利用如下的损失函数计算交叉熵损失:
其中,
yi为真实样本类别,即标注的样本说话人ID;
本发明实施例中,当交叉熵损失大于预先设置的损失阈值,采用反向传播算法,对深度神经映射网络的学习参数矩阵进行调整,调整后再进行训练,直至深度神经映射网络的交叉熵损失小于或等于损失阈值,得到训练好的深度神经映射网络。
本发明实施例中,在应用过程中,将用户在深度神经映射网络注册生成的多条声纹向量进行平均后,作为该用户的声纹均值向量,从而可以简化用于存储用户声纹向量的声纹库。在利用声纹特征提取模型进行声纹识别时,将声纹特征提取模型提取到的声纹向量(高维特征向量)与声纹库中保存的声纹均值向量进行相似度计算,如果大于预设声纹阈值,则声纹识别通过。作为另一可选实施例,也可以针对两个待识别语音数据,利用声纹特征提取模型分别对两个待识别语音数据进行声纹向量提取,依据提取到的两个声纹向量计算相似度,如果大于预设相似度阈值,则声纹识别通过,确认两个待识别语音数据为同一说话人。
本发明实施例中,在学习样本说话人的综合特征,例如,用于表征声道、声带、说话风格的标识嵌入式向量时,会同时学习用户强相关属性特征,例如,性别嵌入式向量以及年龄嵌入式向量,这样,在综合特征识别度较低时,依据强相关属性特征进行约束,从而增加了声纹识别的准确率,使深度神经映射网络提取的特征更加鲁棒。
图2示出了本发明实施例所提供的声纹识别装置结构示意图。如图2所示,该装置包括:
特征获取模块201,用于获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
本发明实施例中,语音共振峰向量为语音的前3共振峰,Fbank特征向量的维数为40。
特征卷积模块202,用于利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
本发明实施例中,将Fbank特征输入残差卷积神经网络进行N层卷积操作,得到综合特征向量,其中,N为预先设置的整数。作为一可选实施例,残差卷积神经网络为ResNet34网络。
分支向量获取模块203,用于将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
本发明实施例中,作为一可选实施例,分支分类网络包括标识映射网络、性别映射网络以及年龄映射网络。其中,
标识映射网络用于分类用户ID,对应的嵌入式特征向量为表征用户综合信息的128维标识嵌入式向量。
性别识映射网络用于分类用户性别,对应的嵌入式特征向量为表征用户性别的32维性别嵌入式向量。
年龄映射网络用于分类用户年龄,对应的嵌入式特征向量为表征用户年龄的64维年龄嵌入式向量。
特征拼接映射模块204,用于拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
声纹识别模块205,用于基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别。
本发明实施例中,作为一可选实施例,利用余弦距离公式计算高维特征向量和声纹均值向量的相似度值。
本发明实施例中,作为一可选实施例,该装置还包括:
构建模块(图中未示出),用于获取样本说话人的语音训练数据,为语音训练数据标注样本说话人ID;
计算语音训练数据的语音训练共振峰向量;
获取语音训练数据的滤波器组训练特征向量;
利用残差卷积神经网络对滤波器组训练特征向量进行处理,得到第一特征向量;
将第一特征向量分别输入分支分类网络,得到每一分支分类网络对应的嵌入式训练特征向量;
拼接嵌入式训练特征向量以及语音训练共振峰向量,得到多维拼接特征向量;
将多维拼接特征向量输入深度神经映射网络进行映射,得到声纹向量及声纹均值向量;
利用余弦距离公式,计算声纹向量及声纹均值向量之间的相似性系数,基于相似性系数与声纹向量,得到用于表征声纹的高维特征训练向量;
基于高维特征训练向量以及标注的样本说话人ID,计算交叉熵损失,基于交叉熵损失进行反向传播,调整深度神经映射网络的学习参数矩阵,以得到训练好的深度神经映射网络。
本发明实施例中,语音训练数据包括:样本说话人ID、语音、性别、年龄,其中,样本说话人ID、性别、年龄采用独热编码。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的声纹识别方法,该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述声纹识别方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述声纹识别方法。
对应于图1中的声纹识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述声纹识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述声纹识别方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种声纹识别方法,其特征在于,包括:
获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别,包括:
利用余弦距离公式,计算高维特征向量和声纹均值向量的相似度值,若相似度值大于或等于声纹阈值,确定语音数据所属的用户与声纹均值向量对应的用户属于同一用户,声纹识别通过,若相似度值小于声纹阈值,声纹识别未通过;或,
获取两份语音数据,针对每份语音数据,获取该语音数据的高维特征向量,然后,利用余弦距离公式,计算两份语音数据分别对应的高维特征向量的相似度值,若相似度值大于或等于声纹阈值,确定两份语音数据为属于同一用户的语音,通过声纹识别,若相似度值小于声纹阈值,确定两份语音数据不属于同一用户的语音,声纹识别未通过。
2.根据权利要求1所述的方法,其特征在于,所述分支分类网络包括标识映射网络、性别映射网络以及年龄映射网络。
3.根据权利要求2所述的方法,其特征在于,所述标识映射网络用于分类用户ID,对应的嵌入式特征向量为表征用户综合信息的128维标识嵌入式向量。
4.根据权利要求2所述的方法,其特征在于,所述性别识映射网络用于分类用户性别,对应的嵌入式特征向量为表征用户性别的32维性别嵌入式向量。
5.根据权利要求2所述的方法,其特征在于,所述年龄映射网络用于分类用户年龄,对应的嵌入式特征向量为表征用户年龄的64维年龄嵌入式向量。
6.根据权利要求1至5任一项所述的方法,其特征在于,构建所述深度神经映射网络,包括:
获取样本说话人的语音训练数据,为语音训练数据标注样本说话人ID;
计算语音训练数据的语音训练共振峰向量;
获取语音训练数据的滤波器组训练特征向量;
利用残差卷积神经网络对滤波器组训练特征向量进行处理,得到第一特征向量;
将第一特征向量分别输入分支分类网络,得到每一分支分类网络对应的嵌入式训练特征向量;
拼接嵌入式训练特征向量以及语音训练共振峰向量,得到多维拼接特征向量;
将多维拼接特征向量输入深度神经映射网络进行映射,得到声纹向量及声纹均值向量;
利用余弦距离公式,计算声纹向量及声纹均值向量之间的相似性系数,基于相似性系数与声纹向量,得到用于表征声纹的高维特征训练向量;
基于高维特征训练向量以及标注的样本说话人ID,计算交叉熵损失,基于交叉熵损失进行反向传播,调整深度神经映射网络的学习参数矩阵,以得到训练好的深度神经映射网络。
7.根据权利要求6所述的方法,其特征在于,所述语音训练数据包括:样本说话人ID、语音、性别、年龄,所述样本说话人ID、性别、年龄采用独热编码。
8.一种声纹识别装置,其特征在于,包括:
特征获取模块,用于获取待识别语音数据,基于语音数据,获取语音共振峰向量以及滤波器组特征向量;
特征卷积模块,用于利用预先训练好的声纹特征提取模型的残差卷积神经网络,对滤波器组特征向量进行处理,得到综合特征向量;
分支向量获取模块,用于将综合特征向量分别输入声纹特征提取模型的分支分类网络,得到每一分支分类网络对应的嵌入式特征向量;
特征拼接映射模块,用于拼接各嵌入式特征向量以及语音共振峰向量,将拼接得到的融合向量输入声纹特征提取模型的深度神经映射网络进行映射,得到高维特征向量;
声纹识别模块,用于基于高维特征向量以及预先通过深度神经映射网络得到的声纹均值向量,确定是否通过声纹识别,包括:
利用余弦距离公式,计算高维特征向量和声纹均值向量的相似度值,若相似度值大于或等于声纹阈值,确定语音数据所属的用户与声纹均值向量对应的用户属于同一用户,声纹识别通过,若相似度值小于声纹阈值,声纹识别未通过;或,
获取两份语音数据,针对每份语音数据,获取该语音数据的高维特征向量,然后,利用余弦距离公式,计算两份语音数据分别对应的高维特征向量的相似度值,若相似度值大于或等于声纹阈值,确定两份语音数据为属于同一用户的语音,通过声纹识别,若相似度值小于声纹阈值,确定两份语音数据不属于同一用户的语音,声纹识别未通过。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的声纹识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的声纹识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401211.0A CN114495948B (zh) | 2022-04-18 | 2022-04-18 | 一种声纹识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401211.0A CN114495948B (zh) | 2022-04-18 | 2022-04-18 | 一种声纹识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495948A CN114495948A (zh) | 2022-05-13 |
CN114495948B true CN114495948B (zh) | 2022-09-09 |
Family
ID=81489426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210401211.0A Active CN114495948B (zh) | 2022-04-18 | 2022-04-18 | 一种声纹识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495948B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884437B (zh) * | 2023-09-07 | 2023-11-17 | 北京惠朗时代科技有限公司 | 基于人工智能的语音识别处理器 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610707B (zh) * | 2016-12-15 | 2018-08-31 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
KR102655628B1 (ko) * | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN112071325B (zh) * | 2020-09-04 | 2023-09-05 | 中山大学 | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 |
CN112908341B (zh) * | 2021-02-22 | 2023-01-03 | 哈尔滨工程大学 | 基于多任务自注意力机制的语言学习者声纹识别方法 |
CN113488060B (zh) * | 2021-06-25 | 2022-07-19 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及系统 |
CN113782032B (zh) * | 2021-09-24 | 2024-02-13 | 广东电网有限责任公司 | 一种声纹识别方法及相关装置 |
-
2022
- 2022-04-18 CN CN202210401211.0A patent/CN114495948B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114495948A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107104803B (zh) | 一种基于数字口令与声纹联合确认的用户身份验证方法 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN112992126B (zh) | 语音真伪的验证方法、装置、电子设备及可读存储介质 | |
US7684986B2 (en) | Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN114495948B (zh) | 一种声纹识别方法及装置 | |
CN111613230A (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN104464738A (zh) | 一种面向智能移动设备的声纹识别方法 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN112863521B (zh) | 一种基于互信息估计的说话人识别方法 | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
CN111028847B (zh) | 一种基于后端模型的声纹识别优化方法和相关装置 | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
Nijhawan et al. | Speaker recognition using support vector machine | |
CN113299295B (zh) | 声纹编码网络的训练方法及装置 | |
Vestman et al. | Supervector compression strategies to speed up i-vector system development | |
CN111310836B (zh) | 一种基于声谱图的声纹识别集成模型的防御方法及防御装置 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Sharma et al. | Text-independent speaker identification using backpropagation MLP network classifier for a closed set of speakers | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
Xafopoulos | Speaker Verification (an overview) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhu Laili Inventor after: Pan Jiawei Inventor after: Dong Weiming Inventor after: Lu Guiqiu Inventor before: Zhu Laili Inventor before: Pan Jiawei Inventor before: Dong Weiming Inventor before: Lu Guiqiu |
|
GR01 | Patent grant | ||
GR01 | Patent grant |