CN114141255A - 声纹识别模型的训练方法及装置、声纹识别方法及装置 - Google Patents

声纹识别模型的训练方法及装置、声纹识别方法及装置 Download PDF

Info

Publication number
CN114141255A
CN114141255A CN202111404478.7A CN202111404478A CN114141255A CN 114141255 A CN114141255 A CN 114141255A CN 202111404478 A CN202111404478 A CN 202111404478A CN 114141255 A CN114141255 A CN 114141255A
Authority
CN
China
Prior art keywords
voiceprint recognition
training
data set
voice
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111404478.7A
Other languages
English (en)
Inventor
沈浩
赵德欣
杨杰
郭耀光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111404478.7A priority Critical patent/CN114141255A/zh
Publication of CN114141255A publication Critical patent/CN114141255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches

Abstract

本公开涉及一种声纹识别模型的训练方法及装置、声纹识别方法及装置,涉及语音数据处理领域。声纹识别模型的训练方法包括:获取声纹识别数据集;根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;利用所述第二训练数据集,训练所述声纹识别模型。根据本公开,训练的声纹识别模型更精简有效,提高了声纹识别的效率和准确率。

Description

声纹识别模型的训练方法及装置、声纹识别方法及装置
技术领域
本公开涉及语音数据处理领域,特别涉及一种声纹识别模型的训练方法及声纹识别方法、装置、电子设备、计算机可存储介质。
背景技术
声纹识别是一种借助声音完成对语音用户身份识别的技术,是语音领域重要的研究方向之一。随着计算机技术的不断发展,声纹识别在近年来得到很大的发展,加上方便有效的特点,其已然成为一种高效的身份识别方法,在公安、银行、智能家居中都有着广泛地应用。
自2010年起,逐渐开始使用深度学习模型来提取声纹特征。但相关技术中,仍需要专家手工设计声纹识别所需要的模型结构,并通过试验对比模型效果的好坏。设计模型结构需要大量的专业知识与反复试验,随着模型结构日趋复杂,模型的使用和实现成本也逐渐提高。
发明内容
根据本公开的第一方面,提供了一种声纹识别模型的训练方法,包括:获取声纹识别数据集;根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;利用所述第二训练数据集,训练所述声纹识别模型。
在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集,包括:从声纹识别数据集中随机抽取出部分语音数据;从所述部分语音数据中,确定时长相近的多个语音数据;通过语音活性检测,去除所述时长相近的多个语音数据中的静默音;从所述时长相近的多个语音数据的每一个中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第一训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第二训练数据集,包括:通过语音活性检测,去除所述语音数据中的静默音;从每一条所述语音数据中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第二训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,包括:对所述语音数据做语音增强处理。
在一些实施例中,对所述语音数据做语音增强处理,包括在所述语音数据中添加以下干扰声中的至少一种:背景噪声、混响、背景音乐声或背景语音用户声。
在一些实施例中,所述神经网络架构搜索算法为可微结构搜索DARTS算法。
在一些实施例中,利用所述第二训练数据集,训练所述声纹识别模型,包括:使用至少两种损失函数训练所述声纹识别模型。
在一些实施例中,使用至少两种损失函数训练所述声纹识别模型,包括:在前T轮的训练中使用加性间隔归一化指数AM-Softmax损失函数,在T轮以后的训练中使用三元组Triplet损失函数,其中T为正整数。
根据本公开第二方面,提供了一种声纹识别方法,包括:根据上述任一实施例所述的声纹识别模型的训练方法,训练所述声纹识别模型;获取待识别语音数据和对比声纹特征;利用所述声纹识别模型,提取待识别语音数据的声纹特征;计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;根据所述余弦相似度,确定所述待识别语音数据的语音用户。
在一些实施例中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:若所述余弦相似度高于预设的阈值,确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
在一些实施例中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:从多个所述对比声纹特征中,选择与所述待识别语音数据的余弦相似度最高的对比声纹特征;确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
根据本公开第三方面,提供了一种声纹识别模型的训练装置,包括:获取模块,被配置为获取声纹识别数据集;生成模块,被配置为根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;搜索模块,被配置为利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;训练模块,被配置为利用所述第二训练数据集,训练所述声纹识别模型。
根据本公开第四方面,提供了一种声纹识别装置,包括:根据上述任一实施例的声纹识别模型的训练装置;获取模块,被配置为获取待识别语音数据和对比声纹特征;提取模块,被配置为利用所述声纹识别模型,提取待识别语音数据的声纹特征;计算模块,被配置为计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;确定模块,被配置为根据所述余弦相似度,确定所述待识别语音数据的语音用户。
根据本公开的第五方面,提供了一种电子设备,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据上述实施例所述的声纹识别模型的训练方法,或执行根据上述实施例所述的声纹识别方法。
在一些实施例中,所述电子设备,还包括:麦克风,用于获取所述待识别语音数据。
根据本公开的第六方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据以上实施例所述的声纹识别模型的训练方法,或根据以上实施例所述的声纹识别方法。
本公开实施例的声纹识别模型的训练方法,能够高效地生成声纹识别所需要的模型,提高了声纹识别模型的训练效率和性能,并能够将模型投入到实际的声纹识别任务中使用,提高了声纹识别的准确率。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出根据本公开一些实施例的声纹识别模型的训练方法的流程图;
图2示出根据本公开一些实施例的声纹识别方法的流程图;
图3示出根据本公开一些实施例的声纹识别模型训练装置的框图;
图4示出根据本公开一些实施例的声纹识别装置的框图。
图5示出根据本公开另一些实施例的电子设备的框图。
图6示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出根据本公开一些实施例的声纹识别模型训练方法的流程图。
如图1所示,声纹识别模型训练方法包括步骤S110-步骤S140。
在步骤S110中,获取声纹识别数据集。声纹识别数据集也称为声纹识别语音数据集,包括全量声纹数据,可以是VoxCeleb、CN-Celeb等数据集。
在步骤S120中,根据声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集。其中,第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,第二训练数据集为声纹识别数据集中的全部语音数据。
在一些实施例中,生成第一训练数据集包括以下步骤:
首先,从全量的声纹识别语音数据集中随机抽取部分语音数据,每条语音数据对应一个语音用户,即说话人。
其次,在随机抽取的部分语音数据中,确定时长相近的多个语音数据。在声纹识别数据集中,每个人的说话总时长会各有长短,而语音数据的时长可能会影响模型的训练。为了避免语音数据时长相差过大的情况,所以选择说话时长相差较少的N个说话人的语音数据,或选择时长相近(例如,时长的差值小于预设的阈值)的语音数据,用于生成第一训练数据集。
然后,可以对筛选出的时长相近的语音数据做数据处理,包括:
1、去除静默音。对每一条语音做语音活性检测,检测出语音中对识别没有意义的静默音。然后去除这些静默音,避免对模型训练形成干扰。
2、语音增强。在语音数据中添加以下干扰声中的至少一种:
(1)背景噪声,如鞭炮声、敲击声、汽笛声
(2)混响
(3)背景音乐声
(4)背景说话人声
3、提取语谱图。从时长相近的多个语音数据的每一个中,提取一个或多个语谱图。例如,对每条语音,每隔一定时间(例如,每3秒)切割为一个语音文件片段,再将这些语音文件片段转换为360dpi×360dpi的语谱图,可以设置帧长为25毫秒、帧移为10毫秒。每个语谱图的标签是对应的说话人。
最后,将数据处理得到的语谱图及其标签,添加到第一训练数据集中。
在一些实施例中,生成第二训练数据集,用于训练声纹识别模型。
首先,与第一训练数据集不同的是,无需随机抽取语音数据,将声纹识别语音数据集中的全部数据用于生成第二训练数据集。
然后,语音数据处理的步骤与第一训练数据集类似,包括:通过语音活性检测,去除语音数据中的静默音;对语音数据做语音增强处理;从每一条语音数据中提取语谱图。
最后,根据语谱图及其标签,生成第二训练数据集。第二训练数据集中包括全量的语音数据对应的语谱图和标签。
在步骤S130中,利用第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型。
神经网络架构搜索算法可以是基于梯度的神经网络架构搜索算法,例如,DARTS(Differentiable Architecture Search,可微结构搜索)算法。DARTS算法的核心思想是以可微分的方式进行模型架构搜索。与传统的在离散的、不可微的搜索空间上应用进化或强化学习的方法不同(这些方法需要在一堆离散的候选模型中间搜索),DARTS算法基于连续松弛的结构表示,允许在验证集上使用梯度下降对结构进行高效的搜索。
在声纹识别任务中,采用基于梯度的神经网络架构搜索方法,相比于其他的神经网络架构搜索方法具有更快的搜索速度、能获得更优的模型结构。在使用DARTS算法进行模型架构搜索时,还可以加入早停训练机制,当模型在验证集上的表现开始下降的时候,停止训练,这样就能避免继续训练导致过拟合的问题。
在使用DARTS算法搜索模型时,不需要使用全量的数据,只需要使用少量随机抽取出的部分数据(即,第一训练数据集)就可以找到性能最优的模型,能够减少搜索时间,提高搜索效率,减少需要占用的显卡计算资源。在模型效果方面,DARTS算法搜索获得的声纹识别模型,对数据集有更强的适应能力,具有更快的推理速度。在模型参数量层面,DARTS算法搜索获得的声纹识别模型,比一些经典的模型精简,使得模型部署至移动设备中成为可能。
在步骤S140中,利用第二训练数据集,对在步骤S130搜索得到的声纹识别模型进行后训练。
在一些实施例中,利用全量数据(即,第二训练数据集),训练在步骤S130中搜索得到的模型。在训练过程中,可以使用混合度量学习方法。例如,前T轮可以采用AM-Softmax(Additive Margin–Softmax,加性间隔归一化指数函数)损失函数训练,在T轮之后,每轮采用Triplet(三元组)损失函数训练。
先后使用两种不同的损失函数,联合训练搜索得到的模型,可以强化模型倒数第二层的特征表现力,强化模型提取声纹特征的能力,使模型更适用于声纹识别任务。
先使用少量训练数据搜索确定模型结构,再替换损失函数在全量数据上训练搜索得到的模型,能够更快地产生合适的模型与特征提取效果,后训练中依次使用不同的损失函数,可以扩大不同说话人声纹特征的差异性,增强同一说话人声纹特征的相似性。
图2示出根据本公开一些实施例的声纹识别方法的流程图。
如图2所示,声纹识别方法包括步骤S210-步骤S250。
步骤S210。在步骤S210中,根据上述步骤S110-步骤S140的声纹识别模型训练方法,训练得到声纹识别模型,可以将训练好的模型加入整个声纹识别系统中。
在步骤S220中,获取待识别语音数据和对比声纹特征。
在一些实施例中,待识别语音数据可以通过麦克风等收声设备获取。
在一些实施例中,通过语音识别模型,获取所有注册语音数据的声纹特征。注册语音数据对应的说话人是已知的。可以设置帧长为25毫秒、帧移为10毫秒,批量提取注册语音数据的语谱图。然后,将注册语音数据的语谱图,输入到在步骤S210中得到的声纹识别模型中,以声纹识别模型倒数第二个全连接层的输出向量作为声纹特征。最后,将声纹特征注册,作为对比声纹特征存入声纹库,并标记对应的说话人。
在步骤S230中,通过语音识别模型,获取待识别语音数据的声纹特征。首先提取待识别语音数据的语谱图。然后,将待识别语音数据的语谱图输入到声纹识别模型中,以声纹识别模型倒数第二个全连接层的输出向量作为待识别语音数据的声纹特征。
在步骤S240中,计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度。在步骤S250中,根据余弦相似度,确定待识别语音数据的语音用户。可以根据不同任务场景,对比声纹特征之间的余弦相似度,从而确定说话人的身份。
若任务为声纹确认(即,判断一段未知语音是否来自于特定说话人),计算待识别语音的声纹特征与特定说话人的注册声纹特征之间的余弦相似度。如果相似度高于预设的阈值,说明待识别语音的说话人是该特定说话人,则认证通过,否则拒绝。
若任务为声纹辨认(即,将待识别语音与已知集合内若干说话人比对,选取最为匹配的说话人),计算待识别语音的声纹特征与声纹库的所有声纹特征之间的余弦相似度,将相似度最高的说话人确定为待识别语音的说话人。
为验证声纹识别模型的效果,发明人进行了实验验证如下。
首先,在VoxCeleb1数据集上随机抽取语音用户,从中选出说话时长相差较小的100个人。
然后,进行数据处理。去除语音数据中的静默音。对每一个说话人的语音,每隔3秒提取一个360dpi×360dpi的语谱图并打说话人标签,设置帧长为25毫秒、帧移为10毫秒。
在基于梯度的神经网络架构搜索算法中,设置模型Softmax层的神经元数量为N,加入早停训练机制,利用语谱图进行搜索。
通过搜索确定模型结构后,将模型输出层的神经元数量设置为全量声纹数据说话人的数量,以上述格式的语谱图为输入,使用全量的声纹语音数据进行训练。模型前T轮的训练采用AM-Softmax损失函数,之后的训练采用Triplet损失函数。
对训练好的模型,评估其在数据集内的测试集上的效果。
表1示出了VGG16模型、ResNet18模型、DART搜索得到的模型的性能。
实验模型 测试正确率 参数量(M)
VGG16 87.30% 134.67
ResNet18 88.95% 11.23
DARTS 94.05% 1.10
表1
根据实验结果可以看出,通过梯度的神经网络架构搜索算法得到的模型,识别正确率更高,参数量更小,在数据集内的测试集上的总体效果优于传统的VGG16、ResNet18模型。
图3示出根据本公开一些实施例的声纹识别模型训练装置的框图。
如图3所示,声纹识别模型训练装置3包括获取模块31、生成模块32、搜索模块33和训练模块34。
获取模块31被配置为,获取声纹识别数据集,例如执行如图1所示的步骤S110。
生成模块32被配置为,根据声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,第二训练数据集为声纹识别数据集中的全部语音数据,例如执行如图1所示的步骤S120。
搜索模块33被配置为,利用第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型,例如执行如图1所示的步骤S130。
训练模块34被配置为,利用第二训练数据集,训练声纹识别模型,例如执行如图1所示的步骤S140。
图4示出根据本公开一些实施例的声纹识别装置的框图。
如图4所示,声纹识别装置4包括:声纹识别模型的训练装置41、获取模块42、提取模块43、计算模块44和确定模块45。
声纹识别模型训练装置41,包括如图3所示的获取模块31、生成模块32、搜索模块33和训练模块34,被配置为执行前述任一实施例所述的声纹识别方法,例如执行如图2所示的步骤S210。
获取模块42,被配置为获取待识别语音数据和对比声纹特征,例如执行如图2所示的步骤S220。
提取模块43,被配置为利用声纹识别模型,提取待识别语音数据的声纹特征,例如执行如图2所示的步骤S230。
计算模块44,被配置为计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度,例如执行如图2所示的步骤S240。
确定模块45,被配置为根据余弦相似度,确定待识别语音数据的语音用户,例如执行如图2所示的步骤S250。
图5示出根据本公开另一些实施例的电子设备的框图。
如图5所示,电子设备5包括存储器51;以及耦接至该存储器51的处理器52,存储器51用于存储执行声纹识别模型的训练方法或声纹识别方法对应实施例的指令。处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的声纹识别模型的训练方法或声纹识别方法。
在一些实施例中,电子设备还包括:麦克风,用于获取待识别语音数据。
图6示出用于实现本公开一些实施例的计算机系统的框图。
如图6所示,计算机系统60可以通用计算设备的形式表现。计算机系统60包括存储器610、处理器620和连接不同系统组件的总线600。
存储器610例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行声纹识别模型的训练方法或声纹识别方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器620可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线600可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统60还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间可以通过总线600连接。输入输出接口630可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
通过上述实施例中的声纹识别模型的训练方法、声纹识别方法、装置、电子设备、计算机可存储介质提高了声纹识别模型的训练效率和性能,并能够将模型投入到实际的声纹识别任务中使用,提高了声纹识别的准确率。
至此,已经详细描述了根据本公开的声纹识别模型的训练方法或声纹识别方法方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

Claims (16)

1.一种声纹识别模型的训练方法,包括:
获取声纹识别数据集;
根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;
利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;
利用所述第二训练数据集,训练所述声纹识别模型。
2.根据权利要求1所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集,包括:
从声纹识别数据集中随机抽取出部分语音数据;
从所述部分语音数据中,确定时长相近的多个语音数据;
通过语音活性检测,去除所述时长相近的多个语音数据中的静默音;
从所述时长相近的多个语音数据的每一个中,提取一个或多个语谱图;
根据所述一个或多个语谱图及其标签,生成第一训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
3.根据权利要求1所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第二训练数据集,包括:
通过语音活性检测,去除所述语音数据中的静默音;
从每一条所述语音数据中,提取一个或多个语谱图;
根据所述一个或多个语谱图及其标签,生成第二训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
4.根据权利要求1-3任一项所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,包括:
对所述语音数据做语音增强处理。
5.根据权利要求4所述的声纹识别模型的训练方法,其中,对所述语音数据做语音增强处理,包括在所述语音数据中添加以下干扰声中的至少一种:
背景噪声、混响、背景音乐声或背景语音用户声。
6.根据权利要求1所述的声纹识别模型的训练方法,其中,所述神经网络架构搜索算法为可微结构搜索DARTS算法。
7.根据权利要求1所述的声纹识别模型的训练方法,其中,利用所述第二训练数据集,训练所述声纹识别模型,包括:
使用至少两种损失函数训练所述声纹识别模型。
8.根据权利要求7所述的声纹识别模型的训练方法,其中,使用至少两种损失函数训练所述声纹识别模型,包括:
在前T轮的训练中使用加性间隔归一化指数AM-Softmax损失函数,在T轮以后的训练中使用三元组Triplet损失函数,其中T为正整数。
9.一种声纹识别方法,包括:
根据权利要求1-8任一项所述的声纹识别模型的训练方法,训练所述声纹识别模型;
获取待识别语音数据和对比声纹特征;
利用所述声纹识别模型,提取待识别语音数据的声纹特征;
计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;
根据所述余弦相似度,确定所述待识别语音数据的语音用户。
10.根据权利要求9所述的声纹识别方法,其中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:
若所述余弦相似度高于预设的阈值,确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
11.根据权利要求9所述的声纹识别方法,其中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:
从多个所述对比声纹特征中,选择与所述待识别语音数据的余弦相似度最高的对比声纹特征;
确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
12.一种声纹识别模型的训练装置,包括:
获取模块,被配置为获取声纹识别数据集;
生成模块,被配置为根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;
搜索模块,被配置为利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;
训练模块,被配置为利用所述第二训练数据集,训练所述声纹识别模型。
13.一种声纹识别装置,包括:
根据权利要求12所述的声纹识别模型的训练装置;
获取模块,被配置为获取待识别语音数据和对比声纹特征;
提取模块,被配置为利用所述声纹识别模型,提取待识别语音数据的声纹特征;
计算模块,被配置为计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;
确定模块,被配置为根据所述余弦相似度,确定所述待识别语音数据的语音用户。
14.一种电子设备,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据权利要求1至8任一项所述的声纹识别模型的训练方法,或执行根据权利要求9至11任一项所述的声纹识别方法。
15.根据权利要求14所述的电子设备,还包括:
麦克风,用于获取所述待识别语音数据。
16.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据权利要求1至8任一项所述的声纹识别模型的训练方法,或根据权利要求9至11任一项所述的声纹识别方法。
CN202111404478.7A 2021-11-24 2021-11-24 声纹识别模型的训练方法及装置、声纹识别方法及装置 Pending CN114141255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111404478.7A CN114141255A (zh) 2021-11-24 2021-11-24 声纹识别模型的训练方法及装置、声纹识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111404478.7A CN114141255A (zh) 2021-11-24 2021-11-24 声纹识别模型的训练方法及装置、声纹识别方法及装置

Publications (1)

Publication Number Publication Date
CN114141255A true CN114141255A (zh) 2022-03-04

Family

ID=80391237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111404478.7A Pending CN114141255A (zh) 2021-11-24 2021-11-24 声纹识别模型的训练方法及装置、声纹识别方法及装置

Country Status (1)

Country Link
CN (1) CN114141255A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017957A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 信号的识别方法、装置、电子设备及计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017957A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 信号的识别方法、装置、电子设备及计算机可读介质

Similar Documents

Publication Publication Date Title
Hidayat et al. Convolutional neural networks for scops owl sound classification
CN107610707A (zh) 一种声纹识别方法及装置
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN109408660B (zh) 一种基于音频特征的音乐自动分类的方法
CN110853648B (zh) 一种不良语音检测方法、装置、电子设备及存储介质
Massoudi et al. Urban sound classification using CNN
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
US20230162724A9 (en) Keyword spotting apparatus, method, and computer-readable recording medium thereof
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
Abrol et al. Learning hierarchy aware embedding from raw audio for acoustic scene classification
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Iqbal et al. General-purpose audio tagging from noisy labels using convolutional neural networks
CN106710588B (zh) 语音数据句类识别方法和装置及系统
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN114141255A (zh) 声纹识别模型的训练方法及装置、声纹识别方法及装置
Shen et al. Rars: Recognition of audio recording source based on residual neural network
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
Lai et al. DCASE report for task 3: Sound event detection in real life audio
CN116665649A (zh) 基于韵律特征的合成语音检测方法
CN113823326B (zh) 一种高效语音关键词检测器训练样本使用方法
Zeng et al. Deepfake Algorithm Recognition System with Augmented Data for ADD 2023 Challenge
CN114420136A (zh) 一种声纹识别模型训练的方法、装置以及存储介质
Chang et al. Intra-utterance similarity preserving knowledge distillation for audio tagging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination