CN109801636A - 声纹识别模型的训练方法、装置、电子设备及存储介质 - Google Patents

声纹识别模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109801636A
CN109801636A CN201910087459.2A CN201910087459A CN109801636A CN 109801636 A CN109801636 A CN 109801636A CN 201910087459 A CN201910087459 A CN 201910087459A CN 109801636 A CN109801636 A CN 109801636A
Authority
CN
China
Prior art keywords
audio data
vocal print
feature vector
print feature
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910087459.2A
Other languages
English (en)
Inventor
乔登科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910087459.2A priority Critical patent/CN109801636A/zh
Publication of CN109801636A publication Critical patent/CN109801636A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种声纹识别模型的训练方法、装置、电子设备及存储介质,所述方法包括:获取一个训练集,训练集中包括用户的音频数据;将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到训练集中每个音频数据对应的声纹特征向量和预测概率分布;根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布,计算交叉熵损失;根据训练集中每个音频数据对应的声纹特征向量和用户标识对应的参考声纹特征向量,计算中心损失;根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。本发明实施例的技术方案,能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标。

Description

声纹识别模型的训练方法、装置、电子设备及存储介质
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种声纹识别模型的训练方法、装置、电子设备及存储介质。
背景技术
传统的声纹识别模型的训练方法一般采用交叉熵损失的训练方法,其训练过程为:先提取训练用的音频数据的声学特征,将声学特征输入到深度学习网络,得到该音频数据属于哪个用户的预测结果,然后根据预测结果和真实结果(即音频数据上预先标注好的用户)的误差反向传播来更新模型参数。
交叉熵损失的训练方法只兼顾了声纹识别的一个目标,那就是尽量增加不同用户间的声纹特征间的距离,但是交叉熵损失的训练方法忽视了减少同一用户的声纹特征间距离这个目标,难以提高声纹识别模型的识别准确度。
发明内容
本发明实施例提供一种声纹识别模型的训练方法、装置、电子设备及存储介质,以解决现有技术中交叉熵损失的训练方法忽视了减少同一用户的声学特征间距离这个目标,难以提高声纹识别模型的识别准确度的问题。
第一方面,本发明一实施例提供了一种声纹识别模型的训练方法,包括:
获取训练集,训练集中包括用户的音频数据;
将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到训练集中每个音频数据对应的声纹特征向量和预测结果,预测结果为用于表征音频数据属于各用户的预测概率分布;
根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布,计算交叉熵损失,交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度,所述真实概率分布用于表征所述音频数据真实属于的用户;
根据训练集中每个音频数据对应的声纹特征向量和每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度;
根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。
第二方面,本发明一实施例提供了一种声纹识别模型的训练装置,包括:
数据获取模块,用于获取训练集,训练集中包括用户的音频数据;
识别模块,用于将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到训练集中每个音频数据对应的声纹特征向量和预测结果,预测结果为用于表征音频数据属于各用户的预测概率分布;
交叉熵损失模块,用于根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布,计算交叉熵损失,交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度,所述真实概率分布用于表征所述音频数据真实属于的用户;
中心损失模块,用于根据训练集中每个音频数据对应的声纹特征向量和每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度;
参数更新模块,用于根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。
第三方面,本发明一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述任一种方法的步骤。
第四方面,本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。
本发明实施例提供的技术方案,在训练声纹识别模型过程中,除了使用交叉熵损失,还引入了中心损失,提取已知用户的音频数据对应的声纹特征向量,将提取的声纹特征向量与该已知用户的参考声纹特征向量的差异度作为中心损失,结合交叉熵损失和中心损失更新声纹识别模型的模型参数。中心损失能够反映同一用户的声纹特征向量与参考声纹特征向量间的差异度,其优化目标是减少同一用户的音频数据之间的距离,基于中心损失训练得到的声纹识别模型,在识别同一用户的不同音频数据时,每次输出的声纹特征向量间的差异度更小,即能够提取到更加稳定的声纹特征。因此,结合了交叉熵损失和中心损失的训练方法,能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标,提高声纹识别模型的识别准确度。此外,本实施例的声纹识别模型的训练方法还具有模型训练容易收敛,训练速度快的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声纹识别模型的训练方法的应用场景示意图;
图2为本发明一实施例提供的声纹识别模型的训练方法的流程示意图;
图3为本发明一实施例提供的声纹识别模型的训练装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
在具体实践过程中,通常利用声纹识别模型提取未知用户的声纹特征,然后将提取的声纹特征与已通过身份认证的用户预存的声纹特征进行对比,以确认未知用户是否为已通过身份认证的用户。因此,从音频数据中提取声纹特征的准确度,直接影响着最终的比对结果,而基于交叉熵损失的声纹识别模型训练方法更关注增加不同用户间的声纹特征间的距离这一训练目标,而忽视了减少同一用户的声纹特征间距离这个目标,这会导致针对同一用户,每次提取到声纹特征间的差异度较大。因此,基于交叉熵损失的训练方法难以提高声纹识别模型的识别准确度。
为此,本发明的发明人考虑到,在训练声纹识别模型过程中,除了使用交叉熵损失,还引入了中心损失(center loss),提取已知用户的音频数据对应的声纹特征向量,将提取的声纹特征向量与该已知用户的参考声纹特征向量的差异度作为中心损失,根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。中心损失能够反映同一用户的声纹特征向量与参考声纹特征向量间的差异度,其优化目标是减少同一用户的音频数据之间的距离,基于中心损失训练得到的声纹识别模型,在识别同一用户的不同音频数据时,每次输出的声纹特征向量间的差异度更小,即能够提取到更加稳定的声纹特征。因此,结合了交叉熵损失和中心损失的训练方法,能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标,提高声纹识别模型的识别准确度。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
首先参考图1,其为本发明实施例提供的声纹识别模型的训练方法的一种应用场景示意图。数据库11中存储有大量已标注有用户标识的音频数据作为训练数据,服务器12从数据库11中获取训练数据,对声纹识别模型进行训练,完成声纹识别模型训练后,向智能设备13提供声纹识别服务。用户10与智能设备13交互时,智能设备13通过语音采集装置采集用户输入的语音,智能设备13将用户输入的语音发送给服务器12,由服务器12利用训练好的声纹识别模型对用户输入的语音进行声纹识别,并将声纹识别结果反馈给智能设备13。
这种应用场景下,智能设备13和服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。智能设备13可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,PersonalComputer),服务器12可以为任何能够提供声纹识别服务的设备,服务器12可以为任何能够进行模型训练的设备。
需要说明的是,上述应用场景仅为示例,并不用于限定本发明。
下面结合图1所示的应用场景,对本发明实施例提供的技术方案进行说明。
参考图2,本发明实施例提供一种声纹识别模型的训练方法,包括以下步骤:
S201、获取一个训练集,训练集中包括用户的音频数据。
本实施例中,一个音频数据为一个用户录制的一段语音。每一个训练用的音频数据已经预先标注好用户标识。对数据库中所有音频数据进行随机分组,得到多个训练集,每个训练集包含的音频数据的数量相同。训练集包含的音频数据的数量的大小可自由设定,例如可以是8、32、64、128等。分组后的训练集可存储在数据库中,在需要时从数据库中获取训练集进行对声纹模型进行训练。
具体实施时,在获取到一个训练集后,将训练集中的音频数据进行分帧处理,得到若干个音频帧,对各个音频帧进行声学特征提取,得到音频数据对应的声学特征向量。
本实施例中,分帧处理即是将不定长的音频切分成固定长度的小段,一般取10-30ms为一帧,可使用移动窗口函数实现分帧,相邻音频帧之间有重叠部分,以避免窗边界对信号的遗漏。具体实施时,提取的声学特征可以Fbank特征、MFCC(Mel Frequency CepstralCoefficents,梅尔频率倒谱系数)特征或语谱图特征等。声学特征向量的维度可以根据具体需要设定,例如,声学特征向量可以是80维的Fbank特征。Fbank特征、MFCC特征以及语谱图特征的提取方法为现有技术,不再赘述。
S202、将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到训练集中每个音频数据对应的声纹特征向量和预测结果,预测结果为用于表征音频数据属于各用户的预测概率分布。
具体实施时,声纹识别模型可以是深度神经网络(DNN,Deep Neural Network),该深度神经网络可包括一个输入层、至少一个隐层以及一个输出层,最后一个隐层与输出层之间采用全连接的方式连接,输入层与隐层、各个隐层之间可以采用全连接或其它可行的方式连接。输出层包含的节点的数量等于用户类别的总数,假设所有用于训练的音频数据来自于100个用户,则深度神经网络的输出层的节点数量为100。其中,深度神经网络的最后一个隐层输出的向量即为音频数据对应的声纹特征向量,假设最后一个隐层包含的节点数量为200个,则声纹特征向量为一个200维的向量。深度学习网络的输出层输出的向量即为预测结果,该预测结果用于表示最后一个隐层输出的声纹特征向量属于各个用户类别的预测概率分布。
S203、根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布,计算交叉熵损失,交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度。
本实施例中,真实概率分布用于表征音频数据真实属于哪个用户。具体实施时,音频数据的真实概率分布可根据音频数据对应的用户标识确定。例如,数据库中一共有10个用户的音频数据,则用户标识为1的用户的音频数据对应的真实概率分布可用向量(1,0,0,0,0,0,0,0,0,0)表示,该音频数据的预测概率分布为(p1,p2,p3,p4,p5,p6,p7,p8,p9,p10),其中,pi为该音频数据属于用户标识为i的用户的概率。
具体实施时,可通过以下公式计算交叉熵损失LS
其中,xi为训练集中第i条音频数据对应的声纹特征向量,为深度神经网络的输出层输出的向量,即预设结果,m等于训练集包含的音频数据的数量,n等于用户类别的数量,即输出层的节点数量,yi为第i条音频数据的用户标识,为深度神经网络的输出层中第j个节点输出的向量,为最后一个隐层和输出层的第j个节点之间的权重参数,bj为最后一个隐层和输出层的第j个节点之间的偏置参数。
S204、根据训练集中每个音频数据对应的声纹特征向量和每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度。
具体实施时,针对训练集中每个音频数据,计算音频数据对应的声纹特征向量与音频数据对应的用户标识对应的参考声纹特征向量之间的距离值;对训练集中所有音频数据对应的距离值进行求和,得到中心损失。
具体实施时,可通过以下公式计算中心损失(center loss)LC
其中,xi为训练集中第i条音频数据对应的声纹特征向量,yi为第i条音频数据的用户标识,cyi为用户yi的参考声纹特征向量,m等于训练集包含的音频数据的数量。上述公式就是希望一个训练集中的每个音频数据的声纹特征向量到该用户的参考声纹特征向量的距离越小越好,也就是同一用户的不同音频数据的声纹特征向量间的差异越小越好。
具体实施时,可通过以下方式确定用户标识对应的参考声纹特征向量:针对每个用户标识,从训练集中获取与用户标识对应的音频数据,根据获取的音频数据对应的声纹特征向量,确定用户标识对应的参考声纹特征向量。具体地,针对每个用户标识,从训练集中获取与用户标识对应的音频数据,对该用户标识对应的所有音频数据对应的声纹特征向量取平均,将取平均后得到的声纹特征向量作为该用户标识对应的参考声纹特征向量。例如,假设一个训练集中有8个音频数据,用户类别的数量为3,训练集中第1、2、4条音频数据的用户标识为1,第3、8条音频数据的用户标识2,第5、6、7条音频数据的用户标识3,则用户标识1对应的参考声纹特征向量为(x1+x2+x4)/3,用户标识2对应的参考声纹特征向量为(x3+x8)/2,用户标识3对应的参考声纹特征向量为(x5+x6+x7)/3。具体实施时,还可以通过取中值其它等方式,对用户标识对应的音频数据对应的声纹特征向量进行处理,确定该用户标识对应的参考声纹特征向量,具体过程不再赘述。
S205、根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。
进一步地,S205具体包括:将交叉熵损失和中心损失进行加权得到联合损失,根据联合损失更新所述声纹识别模型的模型参数。具体地,可通过以下公式计算联合损失L:
其中,λ为用来平衡交叉熵损失和中心损失的权重。λ可根据实际需求自由设定,本实施例不作限定。
本实施例中的模型参数为深度神经网络中输入层、隐层以及输出层之间的权重参数和偏置参数。
更新完模型参数后,可以获取下一个训练集,继续对更新完模型参数的声纹识别模型进行训练,继续更新声纹识别模型的模型参数,直至声纹识别模型的输出符合要求。
本实施例中,步骤S203和步骤S204之间没有必然的先后顺序,即可以先执行步骤S203再执行步骤S204,也可以先执行步骤S204再执行步骤S203,或者,同时步骤S203和步骤S204。
本实施例的声纹识别模型的训练方法,在训练声纹识别模型过程中,除了使用交叉熵损失,还引入了中心损失,提取已知用户的音频数据对应的声纹特征向量,将提取的声纹特征向量与该已知用户的参考声纹特征向量的差异度作为中心损失,结合交叉熵损失和中心损失得到联合损失,利用联合损失更新声纹识别模型的模型参数。中心损失能够反映同一用户的声纹特征向量与参考声纹特征向量间的差异度,其优化目标是减少同一用户的音频数据之间的距离,基于中心损失训练得到的声纹识别模型,在识别同一用户的不同音频数据时,每次输出的声纹特征向量间的差异度更小,即能够提取到更加稳定的声纹特征。因此,结合了交叉熵损失和中心损失的训练方法,能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标,提高声纹识别模型的识别准确度。此外,本实施例的声纹识别模型的训练方法还具有模型训练容易收敛,训练速度快的优点。
如图3所示,基于与上述声纹识别模型的训练方法相同的发明构思,本发明实施例还提供了一种声纹识别模型的训练装置30,包括:数据获取模块301、识别模块302、交叉熵损失模块303、中心损失模块304和参数更新模块305。
数据获取模块301,用于获取训练集,训练集中包括用户的音频数据;
识别模块302,用于将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到训练集中每个音频数据对应的声纹特征向量和预测结果,预测结果为用于表征音频数据属于各用户的预测概率分布;
交叉熵损失模块303,用于根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布,计算交叉熵损失,交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度,真实概率分布用于表征音频数据真实属于的用户;
中心损失模块304,用于根据训练集中每个音频数据对应的声纹特征向量和每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度;
参数更新模块305,用于根据交叉熵损失和中心损失,更新声纹识别模型的模型参数。
进一步地,参数更新模块305具体用于:将交叉熵损失和中心损失进行加权得到联合损失,根据联合损失更新声纹识别模型的模型参数。
基于上述任一实施例,中心损失模块304具体用于:针对训练集中每个音频数据,计算音频数据对应的声纹特征向量与音频数据对应的用户标识对应的参考声纹特征向量之间的距离值;对训练集中所有音频数据对应的距离值进行求和,得到中心损失。
基于上述任一实施例,中心损失模块304还用于:针对每个用户标识,从训练集中获取与用户标识对应的音频数据,根据获取的音频数据对应的声纹特征向量,确定用户标识对应的参考声纹特征向量。
基于上述任一实施例,声纹识别模型为深度神经网络,深度神经网络的输出层包含的节点的数量等于用户类别的总数;声纹特征向量为深度神经网络的输出层的前一层网络输出的向量;预测结果为深度学习网络的输出层输出的向量;模型参数为深度神经网络中各层网络之间的权重参数和偏置参数。
本发明实施例提的声纹识别模型的训练装置与上述声纹识别模型的训练方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述声纹识别模型的训练方法相同的发明构思,本发明实施例还提供了一种电子设备,该电子设备具体可以为计算机、服务器等具有较强运算能力的设备。如图4所示,该电子设备40可以包括处理器401、存储器402。
存储器402可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储声纹识别模型的训练方法的程序。
处理器401可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的声纹识别模型的训练方法。
本发明实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述声纹识别模型的训练方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。

Claims (10)

1.一种声纹识别模型的训练方法,其特征在于,包括:
获取训练集,所述训练集中包括用户的音频数据;
将所述训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到所述训练集中每个音频数据对应的声纹特征向量和预测结果,所述预测结果为用于表征所述音频数据属于各用户的预测概率分布;
根据所述训练集中每个音频数据对应的预测概率分布和所述每个音频数据对应的真实概率分布,计算交叉熵损失,所述交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度,所述真实概率分布用于表征所述音频数据真实属于的用户;
根据所述训练集中每个音频数据对应的声纹特征向量和所述每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,所述中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度;
根据所述交叉熵损失和所述中心损失,更新所述声纹识别模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述交叉熵损失和所述中心损失,更新所述声纹识别模型的模型参数,包括:
将所述交叉熵损失和所述中心损失进行加权得到联合损失,根据所述联合损失更新所述声纹识别模型的模型参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练集中每个音频数据对应的声纹特征向量和所述每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,包括:
针对所述训练集中每个音频数据,计算所述音频数据对应的声纹特征向量与所述音频数据对应的用户标识对应的参考声纹特征向量之间的距离值;
对所述训练集中所有音频数据对应的距离值进行求和,得到中心损失。
4.根据权利要求1所述的方法,其特征在于,确定所述用户标识对应的参考声纹特征向量的方法包括:
针对每个用户标识,从所述训练集中获取与所述用户标识对应的音频数据,根据获取的音频数据对应的声纹特征向量,确定所述用户标识对应的参考声纹特征向量。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述声纹识别模型为深度神经网络,所述深度神经网络的输出层包含的节点的数量等于用户类别的总数;
所述声纹特征向量为所述深度神经网络的输出层的前一层网络输出的向量;
所述预测结果为所述深度学习网络的输出层输出的向量;
所述模型参数为所述深度神经网络中各层网络之间的权重参数和偏置参数。
6.一种声纹识别模型的训练装置,其特征在于,包括:
数据获取模块,用于获取训练集,所述训练集中包括用户的音频数据;
识别模块,用于将所述训练集中各音频数据对应的声学特征向量分别输入声纹识别模型,得到所述训练集中每个音频数据对应的声纹特征向量和预测结果,所述预测结果为用于表征所述音频数据属于各用户的预测概率分布;
交叉熵损失模块,用于根据所述训练集中每个音频数据对应的预测概率分布和所述每个音频数据对应的真实概率分布,计算交叉熵损失,所述交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度,所述真实概率分布用于表征所述音频数据真实属于的用户;
中心损失模块,用于根据所述训练集中每个音频数据对应的声纹特征向量和所述每个音频数据对应的用户标识对应的参考声纹特征向量,计算中心损失,所述中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度;
参数更新模块,用于根据所述交叉熵损失和所述中心损失,更新所述声纹识别模型的模型参数。
7.根据权利要求6所述的装置,其特征在于,所述参数更新模块具体用于:
将所述交叉熵损失和所述中心损失进行加权得到联合损失,根据所述联合损失更新所述声纹识别模型的模型参数。
8.根据权利要求6所述的装置,其特征在于,所述中心损失模块具体用于:
针对所述训练集中每个音频数据,计算所述音频数据对应的声纹特征向量与所述音频数据对应的用户标识对应的参考声纹特征向量之间的距离值;
对所述训练集中所有音频数据对应的距离值进行求和,得到中心损失。
9.一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201910087459.2A 2019-01-29 2019-01-29 声纹识别模型的训练方法、装置、电子设备及存储介质 Pending CN109801636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910087459.2A CN109801636A (zh) 2019-01-29 2019-01-29 声纹识别模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910087459.2A CN109801636A (zh) 2019-01-29 2019-01-29 声纹识别模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109801636A true CN109801636A (zh) 2019-05-24

Family

ID=66559234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910087459.2A Pending CN109801636A (zh) 2019-01-29 2019-01-29 声纹识别模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109801636A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN110991496A (zh) * 2019-11-15 2020-04-10 北京三快在线科技有限公司 一种训练模型的方法及装置
CN111243576A (zh) * 2020-01-16 2020-06-05 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN111310836A (zh) * 2020-02-20 2020-06-19 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111667818A (zh) * 2020-05-27 2020-09-15 北京声智科技有限公司 一种训练唤醒模型的方法及装置
CN111785283A (zh) * 2020-05-18 2020-10-16 北京三快在线科技有限公司 一种声纹识别模型训练方法、装置、电子设备及存储介质
CN112466311A (zh) * 2020-12-22 2021-03-09 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
WO2021052163A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 语音合成模型的生成方法、装置、设备及计算机可读存储介质
CN112699668A (zh) * 2021-01-05 2021-04-23 广州楹鼎生物科技有限公司 一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN105573597A (zh) * 2015-12-10 2016-05-11 广东欧珀移动通信有限公司 一种列表的操作方法及移动终端
CN105869644A (zh) * 2016-05-25 2016-08-17 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108256450A (zh) * 2018-01-04 2018-07-06 天津大学 一种基于深度学习的人脸识别和人脸验证的监督学习方法
TW201832134A (zh) * 2017-06-02 2018-09-01 大陸商騰訊科技(深圳)有限公司 人臉辨識訓練方法、裝置、電子設備、電腦可讀儲存介質及電腦程式產品
CN108573232A (zh) * 2018-04-17 2018-09-25 中国民航大学 基于卷积神经网络的人体动作识别方法
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN105573597A (zh) * 2015-12-10 2016-05-11 广东欧珀移动通信有限公司 一种列表的操作方法及移动终端
CN105869644A (zh) * 2016-05-25 2016-08-17 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
TW201832134A (zh) * 2017-06-02 2018-09-01 大陸商騰訊科技(深圳)有限公司 人臉辨識訓練方法、裝置、電子設備、電腦可讀儲存介質及電腦程式產品
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108256450A (zh) * 2018-01-04 2018-07-06 天津大学 一种基于深度学习的人脸识别和人脸验证的监督学习方法
CN108573232A (zh) * 2018-04-17 2018-09-25 中国民航大学 基于卷积神经网络的人体动作识别方法
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EHSAN VARIANI ET AL: "《Deep neural networks for small footprint text-dependent speaker verification》", 《2014 ICASSP》 *
NA LI ET AL.: "《Deep Discriminative Embeddings for Duration Robust Speaker Verification》", 《INTERSPEECH 2018》 *
余成波等: "《中心损失与Softmax损失联合监督下的人脸识别》", 《重庆大学学报》 *
王会清等: "《声纹识别在虚拟仪器平台的实现》", 《武汉工程大学学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
WO2021052163A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 语音合成模型的生成方法、装置、设备及计算机可读存储介质
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110991496A (zh) * 2019-11-15 2020-04-10 北京三快在线科技有限公司 一种训练模型的方法及装置
CN110942777B (zh) * 2019-12-05 2022-03-08 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN111243576A (zh) * 2020-01-16 2020-06-05 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN111310836A (zh) * 2020-02-20 2020-06-19 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111785283A (zh) * 2020-05-18 2020-10-16 北京三快在线科技有限公司 一种声纹识别模型训练方法、装置、电子设备及存储介质
CN111667818A (zh) * 2020-05-27 2020-09-15 北京声智科技有限公司 一种训练唤醒模型的方法及装置
CN111667818B (zh) * 2020-05-27 2023-10-10 北京声智科技有限公司 一种训练唤醒模型的方法及装置
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
WO2022134587A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112466311A (zh) * 2020-12-22 2021-03-09 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112699668A (zh) * 2021-01-05 2021-04-23 广州楹鼎生物科技有限公司 一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109801636A (zh) 声纹识别模型的训练方法、装置、电子设备及存储介质
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
US9401148B2 (en) Speaker verification using neural networks
CN104036774B (zh) 藏语方言识别方法及系统
US11282503B2 (en) Voice conversion training method and server and computer readable storage medium
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN107924682A (zh) 用于说话者验证的神经网络
CN106297777A (zh) 一种唤醒语音服务的方法和装置
CN107195296A (zh) 一种语音识别方法、装置、终端及系统
CN103337241B (zh) 一种语音识别方法和装置
CN105590625A (zh) 声学模型自适应方法及系统
CN105096941A (zh) 语音识别方法以及装置
CN108694940A (zh) 一种语音识别方法、装置及电子设备
CN103956169A (zh) 一种语音输入方法、装置和系统
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN103794211B (zh) 一种语音识别方法及系统
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN108257608A (zh) 自动语音发音归属
CN106169295A (zh) 身份向量生成方法和装置
CN107104994A (zh) 语音识别方法、电子装置及语音识别系统
CN109256147A (zh) 音频节拍检测方法、装置及存储介质
CN110728991B (zh) 一种改进的录音设备识别算法
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN107507625A (zh) 声源距离确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524

RJ01 Rejection of invention patent application after publication