CN112466311A - 声纹识别方法、装置、存储介质及计算机设备 - Google Patents

声纹识别方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN112466311A
CN112466311A CN202011526763.1A CN202011526763A CN112466311A CN 112466311 A CN112466311 A CN 112466311A CN 202011526763 A CN202011526763 A CN 202011526763A CN 112466311 A CN112466311 A CN 112466311A
Authority
CN
China
Prior art keywords
voiceprint
data
preset
recognition model
voiceprint recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011526763.1A
Other languages
English (en)
Other versions
CN112466311B (zh
Inventor
王德勋
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011526763.1A priority Critical patent/CN112466311B/zh
Publication of CN112466311A publication Critical patent/CN112466311A/zh
Priority to PCT/CN2021/109597 priority patent/WO2022134587A1/zh
Application granted granted Critical
Publication of CN112466311B publication Critical patent/CN112466311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种声纹识别方法、装置、存储介质及计算机设备,主要在于通过构建余弦边缘损失函数,能够自动调整声纹识别模型的超参数,确保超参数设定的准确度,进而能够提升声纹识别模型的识别精度。其中方法包括:获取待识别用户的声纹数据;提取所述声纹数据对应的声纹特征;将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。本发明主要适用于声纹识别。

Description

声纹识别方法、装置、存储介质及计算机设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种声纹识别方法、装置、存储介质及计算机设备。
背景技术
声纹识别技术目前已逐渐应用在声纹锁、金融反欺诈、智能客服等多个领域中,并持续输出有作用的决策,为了得到识别精度较高的声纹识别模型,训练过程中除了必要的数据支撑,还需要对模型的超参数进行精细调整。
目前,在声纹识别的过程中,通常通过人为手动的方式对声纹识别模型的超参数进行调整,进而依据调整后的模型进行声纹识别。然而,这种超参数的设定方式过于依赖业务人员的人为经验,很可能会导致超参数的设定不够准确,进而影响声纹识别模型的识别精度。
发明内容
本发明提供了一种声纹识别方法、装置、存储介质及计算机设备,主要在于通过构建余弦边缘损失函数,能够自动调整声纹识别模型的超参数,确保超参数设定的准确度,进而能够提升声纹识别模型的识别精度。
根据本发明的第一个方面,提供一种声纹识别方法,包括:
获取待识别用户的声纹数据;
提取所述声纹数据对应的声纹特征;
将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
根据本发明的第二个方面,提供一种声纹识别装置,包括:
获取单元,用于获取待识别用户的声纹数据;
提取单元,用于提取所述声纹数据对应的声纹特征;
识别单元,用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待识别用户的声纹数据;
提取所述声纹数据对应的声纹特征;
将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待识别用户的声纹数据;
提取所述声纹数据对应的声纹特征;
将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
本发明提供的一种声纹识别方法、装置、存储介质及计算机设备,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种声纹识别方法流程图;
图2示出了本发明实施例提供的另一种声纹识别方法流程图;
图3示出了本发明实施例提供的关系曲线图;
图4示出了本发明实施例提供的一种声纹识别装置的结构示意图;
图5示出了本发明实施例提供的另一种视声纹识别装置的结构示意图;
图6示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在声纹识别的过程中,通常通过人为手动的方式对声纹识别模型的超参数进行调整,进而依据调整后的模型进行声纹识别。然而,这种超参数的设定方式过于依赖业务人员的人为经验,很可能会导致超参数的设定不够准确,进而影响声纹识别模型的识别精度。
为了解决上述问题,本发明实施例提供了一种视频帧语义信息的提取方法,如图1所示,所述方法包括:
101、获取待识别用户的声纹数据。
其中,待识别用户为需要通过声纹识别进行身份确认的用户,为了解决现有技术中人为手动调整声纹识别模型的超参数,造成声纹识别模型的识别精度较低的问题,本发明实施例通过构建余弦边缘损失函数,根据该余弦边缘损失函数,确定声纹识别模型在最佳收敛情况下的样本声纹数据与类别权重的向量夹角及其对应的分类概率,进而根据该向量夹角及其对应的分类概率,自动调整声纹识别模型中的超参数。
对于本发明实施例,声纹识别技术可以应用不同的场景中,例如,声纹锁对待识别用户的声纹数据进行识别,根据声纹识别结果判断其是否为有解锁权限的用户,如果待识别用户为有解锁权限的用户,则声纹锁会启动解锁指令;如果待识别用户是没有解锁权限的用户,则声纹锁不会启动解锁指令,具体地,在进行声纹识别之前,可以利用标准的声纹采集设备或者终端采集待识别用户的声纹数据,以便根据采集的声纹数据对待识别用户的身份进行确认。
102、提取所述声纹数据对应的声纹特征。
对于本发明实施例,可以将声纹数据对应的梅尔倒谱系数作为声纹数据对应的声纹特征,具体地,在对声纹数据进行特征提取之前需要对声纹数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得待识别用户的声纹数据变得平坦,即将声纹数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对待识别用户的声纹数据进行预处理之后,需要对预处理后的声纹数据进行快速傅里叶转换,得到转换后的声纹数据,之后将转换后的声纹数据输入Mel滤波器,计算转换后的声纹数据通过Mel滤波器后的声纹能量,接着根据声纹数据对应的声纹能量,计算声纹数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为待识别用户的声纹数据对应的声纹特征,以便依据声纹数据对应的声纹特征,进行声纹识别。
103、将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果。
其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,该预设声纹识别模型具体可以为神经网络模型,提取的声纹特征输入该声纹识别模型进行声纹识别,具体公式如下:
y=softmax(Wx+b)
其中,x为待识别用户对应的声纹特征,W和b为神经网络模型中的参数,y为待识别用户为不同权限用户的概率值,例如,有声纹锁解锁权限的用户分别为A、B和C,如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2,为用户B的概率值为0.1,为用户C的概率值为0.5,为其他用户的概率值为0.2,则可以认为待识别用户为用户C,其具有解锁权限,声纹锁会启动解锁指令;如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2,为用户B的概率值为0.1,为用户C的概率值为0.2,为其他用户的概率值为0.5,则可以认为待识别用户为没有权限的用户,声纹锁不会启动解锁指令。
此外,利用声纹识别模型进行声纹识别之前,需要对其进行训练,具体地,从样本声纹库中获取大量样本声纹数据,并根据样本声纹数据对应的用户进行样本标注,利用标注后的样本声纹数据对初始神经网络模型进行训练,构建预设声纹识别模型,在对模型训练的过程中,还需要不断优化调整预设声纹识别模型的超参数,以便提高预设声纹识别模型的识别精度,具体在设定超参数的过程中,可以构建余弦边缘损失函数,根据该预先边缘损失函数,确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的夹角向量及其对应的分类概率值,进而根据该夹角向量及其对应的分类概率值,自动调整预设声纹识别模型的超参数,确保超参数设置的准确度,提升预设声纹识别模型的识别精度。
本发明实施例提供的一种声纹识别方法,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。
进一步的,为了更好的说明上述声纹识别模型中超参数的设置过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种声纹识别方法,如图2所示,所述方法包括:
201、获取样本声纹数据,并根据所述样本声纹数据,构建所述预设声纹识别模型对应的余弦边缘损失函数。
对于本发明实施例,预设样本声纹库中存储有大量样本声纹数据,为了对预设声纹识别模型中的超参数进行优化调整,需要构建余弦边缘损失函数,以便根据余弦边缘损失函数和样本声纹数据,自动设定超参数的值,本发明实施例中余弦边缘损失函数的具体公式如下:
Figure BDA0002850824220000061
Figure BDA0002850824220000062
其中,Llmc为余弦边缘损失函数,yi为第i个样本的真实标签,Pi,yi为第i个样本被正确预测为yi的概率值,θj为输入的样本声纹数据与第j类参数权重的向量夹角,
Figure BDA0002850824220000063
为输入的样本声纹数据与真实标签yi参数权重的向量夹角,s和m分别为需要设定的超参数,为本发明实施例中主要的优化目标。
202、基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
对于本发明实施例,为了确定预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,步骤202具体包括:根据所述余弦边缘损失函数,绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线;基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。进一步地,所述基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,包括:计算样本声纹数据与类别权重之间的向量夹角的平均值;根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值;根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值。
具体地,根据构建的余弦边缘损失函数,分别绘制超参数s在不同取值情况下的关系曲线图,如图3所示,该关系曲线图中横坐标为
Figure BDA0002850824220000071
纵坐标为Pi,yi,根据该曲线图可以得知样本声纹数据与类别权重之间的向量夹角和分类概率值之间的关系,从图3中可知,当j不等于yi时,
Figure BDA0002850824220000072
基本维持在90°附近,且当
Figure BDA0002850824220000073
基本维持在0时,Pi,yi维持在1附近。与此同时,在预设声纹识别模型收敛状态达到最佳时,当
Figure BDA0002850824220000074
等于当前所有样本声纹数据的中位数或者均值θmed时,Pi,yi
Figure BDA0002850824220000075
处有最大的梯度值,从图3中可以得到,此时Pi,yi的值为0.5,即
Figure BDA0002850824220000078
进而可以将从关系曲线图中得到的结论代入至余弦边缘损失函数估算超参数s和m的值。
203、根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数。
对于本发明实施例,为了根据所述向量夹角和所述分类概率值,估算所述预设声纹识别模型对应的第一超参数s和第二超参数m,步骤203具体包括:将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第一超参数;将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第二超参数。
具体地,由上图可知,当j不等于yi时,
Figure BDA0002850824220000076
基本维持在90°附近,且当
Figure BDA0002850824220000077
基本维持在0时,Pi,yi维持在1附近,将该结论代入到上述公式中,得出:
Figure BDA0002850824220000081
其中,C为总类别数,将C-1记做Bi,此外,当
Figure BDA0002850824220000082
接近0时,Pi,yi接近1,代入上述公式,得到:
Figure BDA0002850824220000083
假设Pi,yi为接近1的浮点数,例如0.999或0.99,代入简化后得到s的表达式:
Figure BDA0002850824220000084
p=0.999
与此同时,在声纹识别模型收敛状态达到最佳时,当
Figure BDA0002850824220000085
等于当前所有样本声纹数据的中位数或者均值θmed时,Pi,yi
Figure BDA0002850824220000086
处有最大的梯度值,可以从图中得到,此时Pi,yi的值为0.5,即
Figure BDA0002850824220000088
简化后的m表达式如下:
Figure BDA0002850824220000087
综上所述推导出了超参数s和m自动赋值算法,其中,p为接近1的浮点数,也代表曲线的上界,一般设置为0.999,Bi与θmed皆与当前批次训练样本有关,可通过统计直接得到。需要说明的书,如果样本声纹数据量较大,则可以分批训练,逐渐调整超参数s和m的值,以达到最优效果。
204、获取待识别用户的声纹数据。
对于本发明实施例,在进行声纹识别之前,可以利用保准的声纹采集设备或者终端采集待识别用户的声纹数据,以便根据采集的声纹数据对待识别用户的身份进行确认。
205、提取所述声纹数据对应的声纹特征。
对于本发明实施例,为了待识别用户的声纹特征,步骤205具体包括:对所述声纹数据进行快速傅里叶转换,得到转换后的声纹数据,并对所述转换后的声纹数据进行滤波处理,得到所述声纹数据对应的声纹能量;根据所述声纹能量,计算所述声纹数据对应的梅尔倒谱系数,并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
具体地,在对声纹数据进行特征提取之前,需要对声纹数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得待识别用户的声纹数据变得平坦,即将声纹数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对待识别用户的声纹数据进行预处理之后,需要对预处理后的声纹数据进行快速傅里叶转换,得到转换后的声纹数据,之后将转换后的声纹数据输入Mel滤波器,计算转换后的声纹数据通过Mel滤波器后的语音能量,接着根据声纹数据对应的语音能量,计算声纹数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为待识别用户的声纹特征,梅尔倒谱系数的具体计算公式如下:
Figure BDA0002850824220000091
其中,s(m)代表声纹数据经过第m个滤波器后输出的语音能量,M为滤波器的总个数,C(n)为梅尔倒谱系数,n代表梅尔倒谱系数的阶数,L通常可取12-16,s(m)语音能量的具体计算公式如下:
Figure BDA0002850824220000092
其中,
Figure BDA0002850824220000093
为对声纹数据的频谱取模平方得到语音数据的功率谱,Hm(k)为滤波器的频率,K为傅里叶变换的点数。由此按照上述公式,能够计算出待识别用户的声纹数据对应的梅尔倒谱系数,并将其确定为声纹数据对应的声纹特征,以便根据该声纹数据对应的声纹特征,进行声纹识别。
206、将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果。
其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。对于本发明实施例,为了确定待识别用户的声纹识别结果,步骤206具体包括:将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户为不同权限用户的概率值;根据所述待识别用户为不同权限用户的概率值,确定所述待识别用户对应的声纹识别结果。
例如,有声纹锁解锁权限的用户分别为a、b和c,如果从预设声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.5,为用户b的概率值为0.1,为用户c的概率值为0.2,为其他用户的概率值为0.2,则可以认为待识别用户为用户a,其具有解锁权限,声纹锁会启动解锁指令;如果从声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.2,为用户b的概率值为0.1,为用户c的概率值为0.2,为其他用户的概率值为0.5,则可以认为待识别用户为没有权限的用户,声纹锁不会启动解锁指令。
本发明实施例提供的另一种声纹识别方法,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种声纹识别装置,如图4所示,所述装置包括:获取单元31、提取单元32和识别单元33。
所述获取单元31,可以用于获取待识别用户的声纹数据。所述获取单元31是本装置中获取待识别用户的声纹数据的主要功能模块。
所述提取单元32,可以用于提取所述声纹数据对应的声纹特征。所述提取单元32是本装置中提取所述声纹数据对应的声纹特征的主要功能模块,也是核心模块。
所述识别单元33,可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。所述识别单元33是本装置中将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果的主要功能模块,也是核心模块。
在具体应用场景中,为了提取所述声纹数据对应的声纹特征,如图5所示,所述提取单元32,包括:滤波模块321和计算模块322。
所述滤波模块321,可以用于对所述声纹数据进行快速傅里叶转换,得到转换后的声纹数据,并对所述转换后的声纹数据进行滤波处理,得到所述声纹数据对应的声纹能量。
所述计算模块322,可以用于根据所述声纹能量,计算所述声纹数据对应的梅尔倒谱系数,并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
在具体应用场景中,为了确定所述待识别用户对应的声纹识别结果,所述识别单元33,包括:识别模块331和确定模块332。
所述识别模块331,可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户为不同权限用户的概率值。
所述确定模块332,可以用于根据所述待识别用户为不同权限用户的概率值,确定所述待识别用户对应的声纹识别结果。
在具体应用场景中,为自动调整所述声纹识别模型中的超参数,所述装置还包括:确定单元34。
所述获取单元31,还可以用于获取样本声纹数据,并根据所述样本声纹数据,构建所述预设声纹识别模型对应的余弦边缘损失函数。
所述确定单元34,可以用于基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
所述确定单元34,还可以用于根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数。
进一步地,为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,所述确定单元34,包括:绘制模块341和确定模块342。
所述绘制模块341,可以用于根据所述余弦边缘损失函数,绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线。
所述确定模块342,可以用于基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
进一步地,为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,所述确定模块342,包括:计算子模块和确定子模块。
所述计算子模块,可以用于计算样本声纹数据与类别权重之间的向量夹角的平均值。
所述确定子模块,可以用于根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值。
所述确定子模块,还可以用于根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值。
进一步地,所述超参数包括第一超参数和第二超参数,为了自动设置预设声纹识别模型中的第一超参数和第二超参数,所述确定单元34还包括:第一估算模块343和第二估算模块344。
所述第一估算模块342,可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第一超参数。
所述第二估算模块344,可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第二超参数。
需要说明的是,本发明实施例提供的一种声纹识别装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待识别用户的声纹数据;提取所述声纹数据对应的声纹特征;将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图6所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待识别用户的声纹数据;提取所述声纹数据对应的声纹特征;将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
通过本发明的技术方案,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种声纹识别方法,其特征在于,包括:
获取待识别用户的声纹数据;
提取所述声纹数据对应的声纹特征;
将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
2.根据权利要求1所述的方法,其特征在于,所述提取所述声纹数据对应的声纹特征,包括:
对所述声纹数据进行快速傅里叶转换,得到转换后的声纹数据,并对所述转换后的声纹数据进行滤波处理,得到所述声纹数据对应的声纹能量;
根据所述声纹能量,计算所述声纹数据对应的梅尔倒谱系数,并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
3.根据权利要求1所述的方法,其特征在于,所述将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,包括:
将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户为不同权限用户的概率值;
根据所述待识别用户为不同权限用户的概率值,确定所述待识别用户对应的声纹识别结果。
4.根据权利要求1所述的方法,其特征在于,在所述获取待识别用户的声纹数据之前,所述方法还包括:
获取样本声纹数据,并根据所述样本声纹数据,构建所述预设声纹识别模型对应的余弦边缘损失函数;
基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值;
根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,包括:
根据所述余弦边缘损失函数,绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线;
基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,包括:
计算样本声纹数据与类别权重之间的向量夹角的平均值;
根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值;
根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值。
7.根据权利要求6所述的方法,其特征在于,所述超参数包括第一超参数和第二超参数,所述根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数,包括:
将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第一超参数;
将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第二超参数。
8.一种声纹识别装置,其特征在于,包括:
获取单元,用于获取待识别用户的声纹数据;
提取单元,用于提取所述声纹数据对应的声纹特征;
识别单元,用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011526763.1A 2020-12-22 2020-12-22 声纹识别方法、装置、存储介质及计算机设备 Active CN112466311B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011526763.1A CN112466311B (zh) 2020-12-22 2020-12-22 声纹识别方法、装置、存储介质及计算机设备
PCT/CN2021/109597 WO2022134587A1 (zh) 2020-12-22 2021-07-30 声纹识别方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526763.1A CN112466311B (zh) 2020-12-22 2020-12-22 声纹识别方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN112466311A true CN112466311A (zh) 2021-03-09
CN112466311B CN112466311B (zh) 2022-08-19

Family

ID=74804644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526763.1A Active CN112466311B (zh) 2020-12-22 2020-12-22 声纹识别方法、装置、存储介质及计算机设备

Country Status (2)

Country Link
CN (1) CN112466311B (zh)
WO (1) WO2022134587A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134587A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
US20190392842A1 (en) * 2016-09-12 2019-12-26 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
US20200294509A1 (en) * 2018-05-08 2020-09-17 Ping An Technology (Shenzhen) Co., Ltd. Method and apparatus for establishing voiceprint model, computer device, and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466311B (zh) * 2020-12-22 2022-08-19 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190392842A1 (en) * 2016-09-12 2019-12-26 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US20200294509A1 (en) * 2018-05-08 2020-09-17 Ping An Technology (Shenzhen) Co., Ltd. Method and apparatus for establishing voiceprint model, computer device, and storage medium
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134587A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
WO2022134587A1 (zh) 2022-06-30
CN112466311B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN109065028B (zh) 说话人聚类方法、装置、计算机设备及存储介质
CN111027378B (zh) 行人重识别的方法、装置、终端及存储介质
CN104239858B (zh) 一种人脸特征验证的方法和装置
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN108269254A (zh) 图像质量评估方法和装置
CN110334741A (zh) 基于循环神经网络的雷达一维距离像识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
WO2019237519A1 (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
CN113887538B (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN113449704B (zh) 人脸识别模型训练方法、装置、电子设备及存储介质
CN110265035B (zh) 一种基于深度学习的说话人识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN113221086B (zh) 离线人脸认证方法、装置、电子设备及存储介质
CN108154371A (zh) 电子装置、身份验证的方法及存储介质
CN108520752A (zh) 一种声纹识别方法和装置
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN111524524B (zh) 声纹识别方法、装置、设备及存储介质
CN110119746A (zh) 一种特征识别方法及装置、计算机可读存储介质
CN112466311B (zh) 声纹识别方法、装置、存储介质及计算机设备
CN110991554B (zh) 一种基于改进pca的深度网络图像分类方法
CN116994101A (zh) 模型训练方法、装置、电子设备及存储介质
CN111612161A (zh) 一种自动更新深度学习模型的方法、装置及存储介质
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
EP4006775A1 (en) Method and device for object recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045447

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant