CN111462761A

CN111462761A - 声纹数据生成方法、装置、计算机装置及存储介质

Info

Publication number: CN111462761A
Application number: CN202010139949.5A
Authority: CN
Inventors: 王德勋; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-28
Also published as: WO2021174760A1

Abstract

本发明提供一种声纹数据生成方法、装置、计算机装置及存储介质。所述声纹数据生成方法包括：使用声纹样本对多个声纹识别子模型进行训练；利用选择的声纹识别子模型对声纹样本提取声纹特征；确定候选声纹样本对及其同一说话人标签；利用非选择的声纹识别子模型对候选声纹样本对提取声纹特征；对分类器进行训练；利用选择的声纹识别子模型对无标签的语音数据提取声纹特征；确定候选语音数据对及其同一说话人标签；利用非选择的声纹识别子模型对候选语音数据对提取声纹特征；利用分类器对候选语音数据对进行预测；根据候选语音数据对的预测结果对语音数据进行说话人归类。本发明可以高效率、低成本地获得声纹数据。

Description

声纹数据生成方法、装置、计算机装置及存储介质

技术领域

本发明涉及语音处理技术领域，具体涉及一种声纹数据生成方法、装置、计算机装置及存储介质。

背景技术

人类的语音中包含了丰富的信息，其中一种重要的信息是表征说话人身份的声纹信息。由于不同人具有相异的声腔和发声方式，任何两个人的声纹信息都不相同。声纹识别就是利用机器自动提取语音中的声纹信息并鉴别说话人身份的过程，其在安防、审核和教育等场景中发挥着重要作用。

目前主流的声纹识别方法是基于深度学习的声纹识别，通过声纹样本对声纹识别模型进行训练，使声纹识别模型自动挖掘出说话人的声纹特征，根据声纹特征识别说话人身份。然而，不同于人脸数据，语音数据(如声纹数据)更具有隐私性也更难收集，并有口音、噪声、方言等多种可变因素，导致开源的声纹数据库在质量和数量上严重不足，不能得到足够的声纹样本，无法训练出高准确率的声纹识别模型。自行收集、标注声纹数据也需要投入大量的金钱和人力成本。声纹识别模型训练数据的不足很大程度上限制了声纹识别技术的发展和推广。

发明内容

鉴于以上内容，有必要提出一种声纹数据生成方法、装置、计算机装置及存储介质，其可以高效率、低成本地获得声纹数据。

本申请的第一方面提供一种声纹数据生成方法，所述方法包括：

使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练；

从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征；

根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签；

利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征；

根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练；

利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征；

根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签；

利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征；

将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果；

根据所有候选语音数据对的预测结果对所有候选语音数据对中的语音数据进行说话人归类，得到多个语音集合和每个语音集合对应的说话人标签。

另一种可能的实现方式中，所述多个声纹识别子模型包括多个不同类型的神经网络模型或多个相同类型不同参数的神经网络模型。

另一种可能的实现方式中，所述根据每个声纹样本的声纹特征确定候选声纹样本对包括：

计算每个声纹样本对的声纹特征的距离；

将所述距离小于或等于预设值的声纹样本对作为所述候选声纹样本对；或者

将所述距离较小的预设数量的声纹样本对作为所述候选声纹样本对。

另一种可能的实现方式中，所述使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练包括：

对不同的声纹识别子模型的输入数据进行不同的处理；和/或

对不同的声纹识别子模型使用不同的训练参数；和/或

对不同的声纹识别子模型使用不同的损失函数。

另一种可能的实现方式中，所述分类器包括感知器。

另一种可能的实现方式中，所述方法还包括：

判断每个语音集合中的语音数据的数量是否小于预设数量；

若该语音集合中的语音数据的数量小于预设数量，则删除该语音集合。

另一种可能的实现方式中，所述方法还包括：

将所述多个语音集合中的语音数据作为训练样本对声纹识别模型进行训练。

本申请的第二方面提供一种声纹数据生成装置，所述装置包括：

第一训练模块，用于使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练；

第一提取模块，用于从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征；

第一确定模块，用于根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签；

第二提取模块，用于利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征；

第二训练模块，用于根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练；

第三提取模块，用于利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征；

第二确定模块，用于根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签；

第四提取模块，用于利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征；

预测模块，用于将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果；

归类模块，用于根据所有候选语音数据对的预测结果对所有候选语音数据对中的语音数据进行说话人归类，得到多个语音集合和每个语音集合对应的说话人标签。

计算每个声纹样本对的声纹特征的距离；

对不同的声纹识别子模型的输入数据进行不同的处理；和/或

对不同的声纹识别子模型使用不同的训练参数；和/或

对不同的声纹识别子模型使用不同的损失函数。

另一种可能的实现方式中，所述分类器包括感知器。

另一种可能的实现方式中，所述装置还包括：

删除模块，用于判断每个语音集合中的语音数据的数量是否小于预设数量，若该语音集合中的语音数据的数量小于预设数量，则删除该语音集合。

另一种可能的实现方式中，所述装置还包括：

第三训练模块，用于将所述多个语音集合中的语音数据作为训练样本对声纹识别模型进行训练。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述声纹数据生成方法。

本申请的第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述声纹数据生成方法。

本发明使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练；从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征；根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签；利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征；根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练；利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征；根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签；利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征；将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果；根据所有候选语音数据对的预测结果对所有候选语音数据对中的语音数据进行说话人归类，得到多个语音集合和每个语音集合对应的说话人标签。本发明利用已有的声纹样本对无标签的语音数据进行打标，获得新的训练数据。该方法可以高效率、低成本地获得声纹识别模型的训练数据，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

附图说明

图1是本发明实施例提供的声纹数据生成方法的流程图。

图2是本发明实施例提供的声纹数据生成装置的结构图。

图3是本发明实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的声纹数据生成方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的声纹数据生成方法的流程图。所述声纹数据生成方法应用于计算机装置。

所述声纹数据生成方法利用已有的声纹样本对无标签的语音数据进行打标，获得声纹识别模型新的训练数据。

如图1所示，所述声纹数据生成方法包括：

101，使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练。

可以采用反向传播算法对所述多个声纹识别子模型进行训练。

所述声纹样本是小规模的语言数据(例如3万条语音数据)，所述说话人标签表示每个声纹样本对应的说话人。

在本实施例中，可以选取多个不同类型的神经网络模型作为声纹识别子模型。

可以选取ResNet模型、DenseNet模型、AlexNet模型、GoogLeNet、ZFNet模型、VGG模型等作为声纹识别子模型。

可以选取3-5个不同类型的神经网络模型作为声纹识别子模型。例如，选取一个ResNet模型、一个DenseNet模型和一个AlexNet模型作为声纹识别子模型。

选取多个不同类型的神经网络模型作为声纹识别子模型可以保证声纹识别子模型的多样性，提取出不同的声纹特征。

在其他的实施例中，可以选取多个相同类型不同参数的神经网络模型作为声纹识别子模型。例如选取3个不同参数的ResNet模型作为声纹识别子模型。

在本实施例中，在使用声纹样本对所述多个声纹识别子模型进行训练时，需要将所述声纹样本转换为声谱图，将所述声谱图输入所述声纹识别子模型进行训练。

在本实施例中，在使用声纹样本对所述多个声纹识别子模型进行训练时，可以对所述多个声纹识别子模型采用不同的训练策略：

(1)对不同的声纹识别子模型的输入数据进行不同的处理。

可以对所述声纹样本进行音量调节、背景噪声添加、语速调整、音高调整等处理。

还可以对所述声纹样本转换得到的声谱图进行不同的处理。例如，可以随机将所述声谱图中某些行、某些列的数值置为0，以去除所述声谱图中的少量信息。

(2)对不同的声纹识别子模型使用不同的训练参数。

对于不同的声纹识别子模型，可以使用不同的优化器(例如Adam、SGD)、不同的批样本大小(例如32、64、128)、不同的学习率调整方式(例如学习率预热(Warm Up)、学习率平滑衰减、学习率线性扩大等)。

(3)对不同的声纹识别子模型使用不同的损失函数。

例如，对不同的声纹识别子模型可以使用交叉熵、均方差等损失函数。

102，从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征。

可以从所述多个声纹识别子模型中任意选择一个声纹识别子模型。例如，选择的声纹识别子模型是ResNet模型。

或者，可以从所述多个声纹识别子模型中选择一个识别效果较佳的声纹识别子模型。可以利用测试样本对训练后的每个声纹识别子模型进行测试，获得每个声纹识别子模型的识别准确率，根据每个声纹识别子模型的识别准确率从所述多个声纹识别子模型中选择识别效果较佳的声纹识别子模型，如选择识别准确率最高的声纹识别子模型。例如，多个声纹识别子模型包括一个ResNet模型、一个DenseNet模型和一个AlexNet模型，DenseNet模型的识别准确率最高，选择的声纹识别子模型是DenseNet模型。

选择的声纹识别子模型对每个声纹样本提取出固定维度的特征向量。例如，选择的声纹识别子模型对每个声纹样本提取出512维的特征向量。

103，根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签。

在本实施例中，计算每个声纹样本对的声纹特征的距离，根据每个声纹样本对的声纹特征的距离确定所述候选声纹样本对。

可以将所述距离小于或等于预设值的声纹样本对作为所述候选声纹样本对。例如，将距离小于或等于0.1的声纹样本对作为所述候选声纹样本对。

或者，可以按照所述距离对声纹样本对进行排序，将所述距离较小的预设数量的声纹样本对作为所述候选声纹样本对。例如，将距离最小的100个声纹样本对作为所述候选声纹样本对。

所述距离可以是余弦距离、欧氏距离、曼哈顿距离、马氏距离等。

在其他的实施例中，可以根据每个声纹样本的声纹特征对所述声纹样本进行聚类，根据所述声纹样本的聚类结果确定所述候选声纹样本对。例如，对于每个聚类中心，将到该聚类中心的距离小于或等于预设距离的声纹样本与该聚类中心组成的声纹样本对作为所述候选声纹样本对。

所述同一说话人标签表示候选声纹样本对中的两个声纹样本是否对应同一说话人。若一个候选声纹样本对对应同一说话人，则该候选声纹样本对的同一说话人标签为1，若一个候选声纹样本对不对应同一说话人(即对应不同说话人)，则该候选声纹样本对的同一说话人标签为1。

104，利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征。

例如，声纹识别子模型包括ResNet模型、DenseNet模型、AlexNet模型、GoogLeNet、ZFNet模型、VGG模型。选择的声纹识别子模型是ResNet模型，非选择的声纹识别子模型包括DenseNet模型、AlexNet模型、GoogLeNet、ZFNet模型、VGG模型。

一个候选声纹样本对的联合声纹特征由所有非选择的声纹识别子模型对该候选声纹样本对提取的声纹特征拼接而成。例如，非选择的声纹识别子模型包括DenseNet模型、AlexNet模型、GoogLeNet、ZFNet模型、VGG模型，每个非选择的声纹识别子模型对该候选声纹样本对提取得到512维的声纹特征，则拼接得到该候选声纹样本对2048维的联合声纹特征。

105，根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练。

所述分类器根据候选声纹样本对的联合声纹特征对语音数据对进行预测，确定语音数据对中的两个语音数据是否对应同一说话人。

根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练，就是将每个候选声纹样本对的联合声纹特征作为训练数据(即训练样本)，将每个候选声纹样本对的同一说话人标签作为真实值对分类器进行训练，从而确定一个权向量，使感知器正确分类所有的训练数据。

感知器的训练可以参考现有技术，此处不再赘述。

可选的，所述分类器是感知器。

感知机是二分类的线性分类模型，属于监督学习算法。感知机对应于输入空间中将样本划分为两类的分离超平面。感知机旨在求出该超平面，为求得超平面导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化。

所述感知器可以是单层感知器。

在其他的实施例中，所述分类器可以是其他的二分类模型，例如支持向量机、决策树、贝叶斯分类器等。

106，利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征。

所述无标签的语音数据是大量的语音片段。

选择的声纹识别子模型对每个无标签的语音数据提取出固定维度的特征向量。例如，选择的声纹识别子模型对每个无标签的语音数据提取出512维的特征向量。

107，根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签。

107的具体实现方式可以参见103，此处不再赘述。

108，利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征。

108的具体实现方式可以参见104，此处不再赘述。

109，将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果。

例如，所述分类器是感知器，该感知器根据每个候选语音数据对的联合声纹特征对每个候选语音数据对进行预测，得到每个候选语音数据对是否为同一说话人的预测结果。

110，根据所有候选语音数据对的预测结果对所有候选语音数据对中的语音数据进行说话人归类，得到多个语音集合和每个语音集合对应的说话人标签。

每个语音集合代表同一说话人。

得到多个语音集合和每个语音集合对应的说话人标签也就是得到新的于声纹识别模型训练的训练样本集。

例如，候选语音数据对P1包括语音数据A1、A2，候选语音数据对P1的预测结果为1(表示同一说话人)，候选语音数据对P2包括语音数据A1、A3，候选语音数据对P2的预测结果为1，候选语音数据对P3包括语音数据A1、A4，候选语音数据对P3的预测结果为1，则A1、A2、A3、A4包含在说话人N1的语音集合S1，语音集合S1的说话人标签为N1(即语音集合S1中的每个语音数据的说话人标签为N1)。

所述声纹数据生成方法利用已有的声纹样本对无标签的语音数据进行打标，获得新的训练数据。该方法可以高效率、低成本地获得声纹识别模型的训练数据，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

在另一实施例中，所述方法还包括：

判断每个语音集合中的语音数据的数量是否小于预设数量；

所述预设数量例如为10。

在另一实施例中，所述方法还包括：

实施例二

图2是本发明实施例二提供的声纹数据生成装置的结构图。所述声纹数据生成装置20应用于计算机装置。所述声纹数据生成装置20利用已有的声纹样本对无标签的语音数据进行打标，获得声纹识别模型新的训练数据。

如图2所示，所述声纹数据生成装置20可以包括第一训练模块201、第一提取模块202、第一确定模块203、第二提取模块204、第二训练模块205、第三提取模块206、第二确定模块207、第四提取模块208、预测模块209、归类模块210。

第一训练模块201，用于使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练。

(1)对不同的声纹识别子模型的输入数据进行不同的处理。

(2)对不同的声纹识别子模型使用不同的训练参数。

(3)对不同的声纹识别子模型使用不同的损失函数。

第一提取模块202，用于从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征。

第一确定模块203，用于根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签。

第二提取模块204，用于利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征。

第二训练模块205，用于根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练。

感知器的训练可以参考现有技术，此处不再赘述。

可选的，所述分类器是感知器。

所述感知器可以是单层感知器。

第三提取模块206，用于利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征。

所述无标签的语音数据是大量的语音片段。

第二确定模块207，用于根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签。

第二确定模块207的具体实现方式可以参见第一确定模块203，此处不再赘述。

第四提取模块208，用于利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征。

第四提取模块208的具体实现方式可以参见第二提取模块204，此处不再赘述。

预测模块209，用于将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果。

归类模块210，用于根据所有候选语音数据对的预测结果对所有候选语音数据对中的语音数据进行说话人归类，得到多个语音集合和每个语音集合对应的说话人标签。

每个语音集合代表同一说话人。

所述声纹数据生成装置20利用已有的声纹样本对无标签的语音数据进行打标，获得新的训练数据。该装置可以高效率、低成本地获得声纹识别模型的训练数据，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

在另一实施例中，所述声纹数据生成装置20还包括：

所述预设数量例如为10。

在另一实施例中，所述声纹数据生成装置20还包括：

第三训练模块，用于用于将所述多个语音集合中的语音数据作为训练样本对声纹识别模型进行训练。

实施例三

本实施例提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述声纹数据生成方法实施例中的步骤，例如图1所示的101-110：

101，使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练；

102，从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征；

103，根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签；

104，利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征；

105，根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练；

106，利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征；

107，根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签；

108，利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征；

109，将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果；

或者，该计算机程序被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-210：

第一训练模块201，用于使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练；

第一提取模块202，用于从所述多个声纹识别子模型中选择一个声纹识别子模型，利用选择的声纹识别子模型对每个声纹样本提取声纹特征；

第一确定模块203，用于根据每个声纹样本的声纹特征确定候选声纹样本对，根据每个候选声纹样本对中的两个声纹样本的说话人标签确定每个候选声纹样本对的同一说话人标签；

第二提取模块204，用于利用每个非选择的声纹识别子模型对每个候选声纹样本对提取声纹特征，将所有非选择的声纹识别子模型对每个候选声纹样本对提取的声纹特征拼接为该候选声纹样本对的联合声纹特征；

第二训练模块205，用于根据每个候选声纹样本对的联合声纹特征和同一说话人标签对分类器进行训练；

第三提取模块206，用于利用所述选择的声纹识别子模型对多个无标签的语音数据提取声纹特征；

第二确定模块207，用于根据每个语音数据的声纹特征确定候选语音数据对，根据每个候选语音数据对中的两个语音数据的说话人标签确定每个候选语音数据对的同一说话人标签；

第四提取模块208，用于利用每个非选择的声纹识别子模型对每个候选语音数据对提取声纹特征，将所有非选择的声纹识别子模型对每个候选语音数据对提取的声纹特征拼接为该候选语音数据对的联合声纹特征；

预测模块209，用于将每个候选语音数据对的联合声纹特征输入所述分类器进行预测，得到每个候选语音数据对是否为同一说话人的预测结果；

实施例四

图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303，例如声纹数据生成程序。所述处理器302执行所述计算机程序303时实现上述声纹数据生成方法实施例中的步骤，例如图1所示的101-110。或者，该计算机程序被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-210。

示例性的，所述计算机程序303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如，所述计算机程序303可以被分割成图2中的第一训练模块201、第一提取模块202、第一确定模块203、第二提取模块204、第二训练模块205、第三提取模块206、第二确定模块207、第四提取模块208、预测模块209、归类模块210，各模块具体功能参见实施例二。

所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置30的示例，并不构成对计算机装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机装置30的控制中心，利用各种接口和线路连接整个计算机装置30的各个部分。

所述存储器301可用于存储所述计算机程序303，所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块，以及调用存储在存储器301内的数据，实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置30的使用所创建的数据。此外，存储器301可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种声纹数据生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述多个声纹识别子模型包括多个不同类型的神经网络模型或多个相同类型不同参数的神经网络模型。

3.如权利要求1所述的方法，其特征在于，所述根据每个声纹样本的声纹特征确定候选声纹样本对包括：

计算每个声纹样本对的声纹特征的距离；

4.如权利要求1所述的方法，其特征在于，所述使用给定多个带说话人标签的声纹样本对多个声纹识别子模型进行训练包括：

对不同的声纹识别子模型的输入数据进行不同的处理；和/或

对不同的声纹识别子模型使用不同的训练参数；和/或

对不同的声纹识别子模型使用不同的损失函数。

5.如权利要求1所述的方法，其特征在于，所述分类器包括感知器。

6.如权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

判断每个语音集合中的语音数据的数量是否小于预设数量；

7.如权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

8.一种声纹数据生成装置，其特征在于，所述装置包括：

9.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述声纹数据生成方法。

10.一种计算机存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述声纹数据生成方法。