CN111462760B

CN111462760B - 声纹识别系统、方法、装置及电子设备

Info

Publication number: CN111462760B
Application number: CN201910060740.7A
Authority: CN
Inventors: 郑斯奇; 索宏彬; 雷赟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2023-09-26
Anticipated expiration: 2039-01-21
Also published as: CN111462760A

Abstract

本申请公开了声纹识别方法和装置，声纹识别系统、方法和装置，以及，音箱和服务器。其中，声纹识别方法包括：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据。采用这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

Description

声纹识别系统、方法、装置及电子设备

技术领域

本申请涉及声纹识别技术领域，具体涉及声纹识别方法和装置，声纹识别系统、方法和装置，以及，音箱和服务器。

背景技术

声纹识别，属于生物识别技术的一种，也称为说话人识别。声纹识别就是把声信号转换成电信号，再用计算机通过声纹识别模型根据说话者的声学特征识别出说话者的身份。

一种典型的声纹识别方法是，通过机器学习的方式从训练数据中学习得到声纹识别模型，再基于声纹识别模型识别声纹数据。其中，训练数据包括声纹数据和标注好的说话者信息。目前，对于声纹数据的标注方式主要为人工标注方式，即：利用人工逐条对训练数据集中的每条声纹数据的说话者进行标注。

然而，在实现本发明过程中，发明人发现现有方案至少存在如下问题：由于需要大量人力和时间对训练数据的说话者信息进行标注，从而导致数据标注效率低，且人工成本高。此外，数据标注的准确率与标注人的经验有关，因而数据标注的准确率也无法保证。

发明内容

本申请提供声纹识别方法，以解决现有技术存在的数据标注准确度及效率低、且人工成本高的问题。本申请另外提供声纹识别装置，声纹识别系统、方法和装置，以及，音箱和服务器。

本申请提供一种声纹识别方法，包括：

获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

从所述第一声纹数据集中学习得到第一声纹识别模型；

至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；

至少基于所述第二声纹识别模型识别声纹数据。

可选的，所述至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，包括：

通过所述第一声纹识别模型，识别所述第二声纹数据的说话者信息；

从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型。

可选的，所述通过所述第一声纹识别模型，并识别所述第二声纹数据的说话者信息，包括：

将所述第二声纹数据集划分为多个第二声纹数据子集；

遍历所述多个第二声纹数据子集，针对各个所述第二声纹数据子集执行如下步骤：

通过所述第一声纹识别模型，识别所述第二声纹数据子集包括的第二声纹数据的说话者信息；

根据训练所述第一声纹识别模型依据的声纹数据集、及由所述第二声纹数据的说话者信息标注的第二声纹数据子集，更新所述第一声纹识别模型。

可选的，所述第一声纹数据和所述第二声纹数据包括唤醒词声纹数据；

所述方法还包括：

获取未标注说话者信息的第三声纹数据集；所述第三声纹数据集包括唤醒词以外内容的声纹数据；

所述至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，还包括：

通过所述第二声纹识别模型，识别所述第三声纹数据的说话者信息；

根据所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第三声纹数据的说话者信息标注的第三声纹数据集，更新第二声纹识别模型。

可选的，所述通过所述第二声纹识别模型，并识别所述第三声纹数据的说话者信息，包括：

将所述第三声纹数据集划分为多个第三声纹数据子集；

遍历所述多个第三声纹数据子集，针对各个所述第三声纹数据子集执行如下步骤：

通过所述第二声纹识别模型，识别所述第三声纹数据子集包括的第三声纹数据的说话者信息；

根据训练所述第二声纹识别模型依据的声纹数据集、及由所述第三声纹数据的说话者信息标注的第三声纹数据子集，更新所述第二声纹识别模型。

可选的，所述第一声纹数据集包括第一智能设备的第一声纹数据集；

所述第二声纹数据集包括第一智能设备的第二声纹数据集；

所述第二声纹识别模型包括用于所述第一智能设备的第二声纹识别模型。

可选的，还包括：

获取未标注说话者信息的第二智能设备的第四声纹数据集；

至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型；

至少基于所述第三声纹识别模型识别面向所述第二智能设备的声纹数据。

可选的，所述至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型，包括：

通过所述第二声纹识别模型，识别所述第四声纹数据的说话者信息；

从所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第四声纹数据的说话者信息标注的第四声纹数据集中，学习得到所述第二智能设备的第三声纹识别模型。

可选的，所述通过所述第二声纹识别模型，并识别所述第四声纹数据的说话者信息，包括：

将所述第四声纹数据集划分为多个第四声纹数据子集；

遍历所述多个第四声纹数据子集，针对各个所述第四声纹数据子集执行如下步骤：

通过所述第二声纹识别模型，识别所述第四声纹数据子集包括的第四声纹数据的说话者信息；

从训练所述第二声纹识别模型依据的声纹数据集、及由所述第四声纹数据的说话者信息标注的第四声纹数据子集中，更新所述第二声纹识别模型。

可选的，所述第一声纹数据、所述第二声纹数据和所述第四声纹数据包括唤醒词声纹数据；

所述方法还包括：

获取未标注说话者信息的第二智能设备的第五声纹数据集；所述第五声纹数据集包括唤醒词以外内容的声纹数据；

所述至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型，还包括：

通过所述第三声纹识别模型，识别所述第五声纹数据的说话者信息；

根据所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、由所述第四声纹数据的说话者信息标注的第四声纹数据集、及由所述第五声纹数据的说话者信息标注的第五声纹数据集，更新第三声纹识别模型。

可选的，所述通过所述第三声纹识别模型，并识别所述第五声纹数据的说话者信息，包括：

将所述第五声纹数据集划分为多个第五声纹数据子集；

遍历所述多个第五声纹数据子集，针对各个所述第五声纹数据子集执行如下步骤：

通过所述第三声纹识别模型，识别所述第五声纹数据子集包括的第五声纹数据的说话者信息；

根据训练所述第三声纹识别模型依据的声纹数据集、及由所述第五声纹数据的说话者信息标注的第五声纹数据子集，更新所述第三声纹识别模型。

可选的，所述第二智能设备是所述第一智能设备的换代设备，或者，所述第二智能设备与所述第一智能设备为不同类型的智能设备。

本申请还提供一种声纹识别装置，包括：

第一数据获取单元，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

第一模型学习单元，用于从所述第一声纹数据集中学习得到第一声纹识别模型；

第二模型学习单元，用于至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；

第一声纹识别单元，用于至少基于所述第二声纹识别模型识别声纹数据。

所述第二声纹数据集包括第一智能设备的第二声纹数据集；

所述第二声纹识别模型包括用于所述第一智能设备的第二声纹识别模型；

所述装置还包括：

第二数据获取单元，用于获取未标注说话者信息的第二智能设备的第四声纹数据集；

第三模型学习单元，用于至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型；

第二声纹识别单元，用于至少基于所述第三声纹识别模型识别面向所述第二智能设备的声纹数据。

本申请还提供一种音箱，该音箱使用上述声纹识别方法。

本申请还提供一种声纹识别系统，包括：

音箱，用于通过声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器；

服务器，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；以及，接收所述声纹数据，至少基于所述第二声纹识别模型识别所述声纹数据。

本申请还提供一种声纹识别方法，包括：

通过音箱的声音传感器采集说话者的声纹数据；

将所述声纹数据发送至服务器。

本申请还提供一种声纹识别方法，包括：

从所述第一声纹数据集中学习得到第一声纹识别模型；

接收音箱发送的声纹数据；

至少基于所述第二声纹识别模型识别所述声纹数据。

本申请还提供一种声纹识别装置，包括：

声纹数据采集单元，用于通过音箱的声音传感器采集说话者的声纹数据；

声纹数据发送单元，用于将所述声纹数据发送至服务器。

本申请还提供一种声纹识别装置，包括：

训练数据获取单元，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

声纹数据接收单元，用于接收音箱发送的声纹数据；

声纹识别单元，用于至少基于所述第二声纹识别模型识别所述声纹数据。

本申请还提供一种音箱，该音箱使用上述音箱侧的声纹识别方法。

本申请还提供一种服务器，该音箱使用上述服务器侧的声纹识别方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的声纹识别方法，通过获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

附图说明

图1是本申请提供的一种声纹识别方法的实施例的流程图；

图2是本申请提供的一种声纹识别方法的实施例的具体流程图；

图3是本申请提供的一种声纹识别方法的实施例的又一具体流程图；

图4是本申请提供的一种声纹识别方法的实施例的又一具体流程图；

图5是本申请提供的一种声纹识别方法的实施例的又一具体流程图；

图6是本申请提供的一种声纹识别方法的实施例的又一具体流程图；

图7是本申请提供的一种声纹识别方法的实施例的训练阶段示意图；

图8是本申请提供的一种声纹识别装置的实施例的示意图；

图9是本申请提供的一种声纹识别装置的实施例的具体示意图；

图10是本申请提供的一种声纹识别装置的实施例的具体示意图；

图11是本申请提供的一种声纹识别装置的实施例的具体示意图；

图12是本申请提供的音箱的实施例的示意图；

图13是本申请提供的一种声纹识别系统的实施例的示意图；

图14是本申请提供的一种声纹识别方法的实施例的流程图；

图15是本申请提供的一种声纹识别装置的实施例的示意图；

图16是本申请提供的音箱的实施例的示意图；

图17是本申请提供的一种声纹识别方法的实施例的流程图；

图18是本申请提供的一种声纹识别装置的实施例的示意图；

图19是本申请提供的服务器的实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了声纹识别方法和装置，声纹识别系统、方法和装置，以及，音箱和服务器。在下面的实施例中逐一对各种方案进行详细说明。

本申请实施例提供的技术方案，其核心的基本思想为：通过获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据。由于利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，有效降低人工成本。

第一实施例

请参考图1，其为本申请提供的一种声纹识别方法实施例的流程图，该方法的执行主体包括声纹识别装置，所述声纹识别装置可部署在服务器上。本申请提供的一种声纹识别方法包括：

步骤S101：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集。

所述声纹识别模型，可识别出与智能设备进行语音交互的说话者身份，模型的输入数据为待识别的声纹数据，输出数据为各个说话者的概率。所述声纹识别模型，可以采用现有技术下的各种声纹识别模型的网络结构。由于声纹识别模型属于较为成熟的现有技术，因此此处不再赘述。

所述智能设备，包括但不限于：智能机器人、智能电视、智能音箱等等。当说话者发出唤醒语音唤醒智能设备时，智能设备可通过声音传感器(如麦克风阵列)采集说话者的语音信号，将其采样后形成声纹数据，通过声纹识别模型识别出该声纹数据的说话者是谁。

通过实施本申请实施例提供的方法训练得到的第二声纹识别模型，其训练数据包括所述第一声纹数据集和所述第二声纹数据集中的声纹数据。

所述第一声纹数据集，包括多个已标注说话者信息的声纹数据。在所述第一声纹数据集中的已标注说话者信息，可以是由人工标注的说话者信息。所述第二声纹数据集，包括多个未标注说话者信息的声纹数据。在实施本申请实施例提供的方法的过程中，将为第二声纹数据集中的声纹数据自动标注说话者信息。为了便于描述，本申请实施例将第一声纹数据集包括的声纹数据称为第一声纹数据，将第二声纹数据集包括的声纹数据称为第二声纹数据。

在本实施例中，在获得所述第二声纹识别模型的全量训练数据后，由人工对其中少部分声纹数据进行说话者信息的标注，该部分声纹数据构成所述第一声纹数据集，其余未标注说话者信息的声纹数据构成所述第二声纹数据集。例如，全量训练数据为10万5000条声纹数据，其中所述第一声纹数据集包括5000条声纹数据，所述第二声纹数据集包括10万条声纹数据。

在获得已标注说话者信息的第一声纹数据集后，就可以进入下一步骤，从所述第一声纹数据集中学习得到第一声纹识别模型。

步骤S103：从所述第一声纹数据集中学习得到第一声纹识别模型。

本申请实施例提供的方法，通过两个阶段的训练得到第二声纹识别模型。第一阶段为从所述第一声纹数据集中学习得到第一声纹识别模型，第二阶段为至少从所述第一声纹数据集和所述第二声纹数据集的合集中学习得到第二声纹识别模型。

步骤S103对应第一阶段的训练过程，该阶段的训练数据为所述第一声纹数据集。由于所述第一声纹数据集具有说话者信息的标注数据，因此，就可以通过机器学习算法，直接从所述第一声纹数据集中学习得到第一声纹识别模型。

在获得第一声纹识别模型后，就可以进入下一步骤，至少通过所述第一声纹识别模型，获取所述第二声纹数据的说话者信息。

步骤S105：至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型。

本步骤对应第二阶段的训练过程，该阶段的训练数据不仅包括所述第一声纹数据集，还包括所述第二声纹数据集。其中，通过第一阶段得到的所述第一声纹识别模型，识别所述第二声纹数据的说话者信息，由此实现对第二声纹数据的自动标注，然后至少从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型。

请参考图2，其为本申请提供的一种声纹识别方法实施例的具体流程图。在一个示例中，步骤S105可包括如下子步骤：

步骤S1051：通过所述第一声纹识别模型，识别所述第二声纹数据的说话者信息。

本申请实施例提供的方法，通过所述第一声纹识别模型识别所述第二声纹数据的说话者信息，由此实现第二声纹数据说话者信息的自动标注。

在一个示例中，对于所有的第二声纹数据，均可直接通过步骤S103得到的所述第一声纹识别模型，识别所述第二声纹数据的说话者信息。具体实施时，是将第二声纹数据作为第一声纹识别模型的输入数据，通过第一声纹识别模型预测得到第二声纹数据的说话者信息。

在另一个示例中，步骤S1051可包括如下子步骤：1)将所述第二声纹数据集划分为多个第二声纹数据子集；2)遍历所述多个第二声纹数据子集，针对各个所述第二声纹数据子集执行如下步骤：2.1)通过所述第一声纹识别模型，识别所述第二声纹数据子集包括的第二声纹数据的说话者信息；2.2)根据训练所述第一声纹识别模型依据的声纹数据集、及由所述第二声纹数据的说话者信息标注的第二声纹数据子集，更新所述第一声纹识别模型。

1)将所述第二声纹数据集划分为多个第二声纹数据子集。

例如，所述第二声纹数据集包括10万条声纹数据，可将其划分为三个子集：第一子集包括2万条声纹数据，第二子集包括3万条声纹数据，第三子集包括5万条声纹数据。

2)遍历所述多个第二声纹数据子集，针对各个所述第二声纹数据子集执行如下步骤：2.1)通过所述第一声纹识别模型，识别所述第二声纹数据子集包括的第二声纹数据的说话者信息；2.2)根据训练所述第一声纹识别模型依据的声纹数据集、及由所述第二声纹数据的说话者信息标注的第二声纹数据子集，更新所述第一声纹识别模型。

例如，首先通过步骤S103得到的所述第一声纹识别模型(基于5000条训练数据训练得到)，获取第一子集包括的2万条第二声纹数据的说话者信息，再从所述第一声纹数据集(5000条)、及获得的2万条第二声纹数据的说话者信息标注的第一子集(2万条)中，学习得到更新的第一声纹识别模型；然后，通过更新的第一声纹识别模型，获取第二子集包括的3万条第二声纹数据的说话者信息，再从所述第一声纹数据集(5000条)、由获得的第二声纹数据的说话者信息标注的第一子集(2万条)和第二子集(3万条)中，学习得到进一步更新的第一声纹识别模型；最后，通过进一步更新的第一声纹识别模型，获取第三子集包括的5万条第二声纹数据的说话者信息，至此得到由获得的第二声纹数据的说话者信息标注的第一子集(2万条)、第二子集(3万条)和第三子集(5万条)，即：识别出所述第二声纹数据集包括的10万条第二声纹数据的说话者信息，实现自动标注第二声纹数据的说话者信息。

本申请实施例提供的方法，通过让第一声纹识别模型从学习简单的内容开始，通过逐步增加训练数据的复杂度，使得多次迭代更新第一声纹识别模型，逐步提升第一声纹识别模型的准确度，从而提升第二声纹数据自动标注的准确度。

在获得第二声纹数据的说话者信息后，就可以进入下一步骤，根据所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集，学习得到第二声纹识别模型。

步骤S1052：从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型。

至此，由于第一声纹数据集具有说话者信息的标注数据(如由人工标注的数据)，第二声纹数据集也具有说话者信息的标注数据(通过步骤S105获得)，因此就可以通过机器学习算法，从这些声纹数据构成的合集中学习得到第二声纹识别模型。

要从第一声纹数据集与第二声纹数据集的合集中学习得到第二声纹识别模型，可以基于步骤S1051最后更新的第一声纹识别模型进行训练，也可以基于一个随机初始化的声纹识别模型进行训练。

步骤S107：至少基于所述第二声纹识别模型识别声纹数据。

在获得第二声纹识别模型后，就可以将待识别的声纹数据作为该模型或训练该模型过程中的任一阶段的中间迭代模型的输入数据，通过模型预测得到该声纹数据的说话者信息。例如，当说话者发出唤醒语音唤醒智能设备时，智能设备可通过声音传感器采集说话者的语音信号，将其采样后形成待识别的声纹数据，通过第二声纹识别模型识别出该声纹数据的说话者是谁。

请参考图3，其为本申请提供的一种声纹识别方法实施例的具体流程图。在本实施例中，所述第一声纹数据和所述第二声纹数据包括唤醒词声纹数据。所述唤醒词声纹数据，包括说话者发出的唤醒智能设备的声纹数据，可以是包括智能设备名字的声纹数据。在这种情况下，所述方法还可包括如下步骤：

步骤S301：获取未标注说话者信息的第三声纹数据集。

所述第三声纹数据集包括唤醒词以外内容的声纹数据，如向智能机器人询问的具体问题。例如，第三声纹数据集包括1万条声纹数据。

相应的，步骤S105还可包括如下子步骤：

步骤S1053：通过所述第二声纹识别模型，识别所述第三声纹数据的说话者信息。

步骤S1054：根据所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第三声纹数据的说话者信息标注的第三声纹数据集，更新第二声纹识别模型。

例如，第一声纹数据集包括5000条由人工标注的声纹数据，第二声纹数据集包括10万条通过本申请实施例提供的方法自动标注的声纹数据，第三声纹数据集包括1万条通过步骤S1053自动标注的声纹数据；根据这些声纹数据的合集训练声纹识别模型，训练后的模型即为更新后的第二声纹识别模型。

在一个示例中，步骤S1053可包括如下子步骤：1)将所述第三声纹数据集划分为多个第三声纹数据子集；2)遍历所述多个第三声纹数据子集，针对各个所述第三声纹数据子集执行如下步骤：2.1)通过所述第二声纹识别模型，识别所述第三声纹数据子集包括的第三声纹数据的说话者信息；2.2)根据训练所述第二声纹识别模型依据的声纹数据集、及由所述第三声纹数据的说话者信息标注的第三声纹数据子集，更新第二声纹识别模型。采用这种处理方式，使得多次迭代更新第二声纹识别模型，逐步提升第二声纹识别模型的准确度，从而提升第三声纹数据自动标注的准确度。

本申请实施例提供的方法，通过获取未标注说话者信息的第三声纹数据集；所述第三声纹数据集包括唤醒词以外内容的声纹数据；通过所述第二声纹识别模型，识别所述第三声纹数据的说话者信息；从所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第三声纹数据的说话者信息标注的第三声纹数据集中，学习得到更新的第二声纹识别模型；这种处理方式，使得可训练得到还能够识别唤醒词以外的其他内容的声纹数据的说话者的第三声纹识别模型；因此，可以有效提升模型性能。

在一个示例中，所述第一声纹数据集包括第一智能设备的第一声纹数据集；所述第二声纹数据集包括第一智能设备的第二声纹数据集；所述第二声纹识别模型包括用于所述第一智能设备的声纹识别模型。也就是说，通过实施本申请实施例提供的方法，可根据第一智能设备的第一声纹数据集和第二声纹数据集，构建出用于所述第一智能设备的声纹识别模型。

请参考图4，其为本申请提供的一种声纹识别方法实施例的具体流程图。在本实施例中，所述方法还可包括如下步骤：

步骤S401：获取未标注说话者信息的第二智能设备的第四声纹数据集。

所述第二智能设备，可以是所述第一智能设备的换代设备，如第一智能设备为第一代产品，第二智能设备为第二代产品等等；所述第二智能设备，也可以是与所述第一智能设备为不同类型的智能设备，如第一智能设备为智能音箱，第二智能设备为智能电视等等。

所述第四声纹数据集包括第二智能设备的唤醒词声纹数据，如，第四声纹数据集包括4万条声纹数据。

步骤S403：至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型。

所述第三声纹识别模型包括用于所述第二智能设备的声纹识别模型。本申请实施例提供的方法，可根据第一智能设备的第一声纹数据集和第二声纹数据集，以及第二智能设备的第四声纹数据集，构建出用于所述第二智能设备的第三声纹识别模型。

例如，第一声纹数据集包括5000条由人工标注的声纹数据，第二声纹数据集包括10万条通过本申请实施例提供的方法自动标注的声纹数据，第四声纹数据集包括4万条通过第二声纹识别模型自动标注的声纹数据；根据这些声纹数据的合集训练声纹识别模型，训练后的模型即为第三声纹识别模型。

步骤S405：至少基于所述第三声纹识别模型识别面向所述第二智能设备的声纹数据。

在获得第三声纹识别模型后，就可以将第二智能设备的待识别声纹数据作为该模型的输入数据，通过模型预测得到面向所述第二智能设备的声纹数据的说话者信息。例如，当说话者发出唤醒语音唤醒第二智能设备时，第二智能设备可通过声音传感器采集说话者的语音信号，将其采样后形成待识别的声纹数据，通过第三声纹识别模型识别出该声纹数据的说话者是谁。

请参考图5，其为本申请提供的一种声纹识别方法实施例的具体流程图。在本实施例中，步骤S403可包括如下子步骤：

步骤S4031：通过所述第二声纹识别模型，识别所述第四声纹数据的说话者信息。

在一个示例中，步骤S4031可包括如下子步骤：1)将所述第四声纹数据集划分为多个第四声纹数据子集；2)遍历所述多个第四声纹数据子集，针对各个所述第四声纹数据子集执行如下步骤：2.1)通过所述第二声纹识别模型，识别所述第四声纹数据子集包括的第四声纹数据的说话者信息；2.2)从训练所述第二声纹识别模型依据的声纹数据集、及由所述第四声纹数据的说话者信息标注的第四声纹数据子集中，更新所述第二声纹识别模型。采用这种处理方式，使得多次迭代更新第二声纹识别模型，逐步提升第二声纹识别模型的准确度，从而提升第四声纹数据自动标注的准确度。

步骤S4032：从所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第四声纹数据的说话者信息标注的第四声纹数据集中，学习得到所述第二智能设备的第三声纹识别模型。

本申请实施例提供的方法，通过获取未标注说话者信息的第二智能设备的第四声纹数据集；通过所述第二声纹识别模型，获取所述第四声纹数据的说话者信息；从所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、及由所述第四声纹数据的说话者信息标注的第四声纹数据集中，学习得到所述第二智能设备的第三声纹识别模型；这种处理方式，使得采用无监督学习方式，将第一智能设备中积累的数据在无需人工标注的情况下移植到第二智能设备中，自动标注第二智能设备的声纹数据，进而训练得到能够识别出第二智能设备的声纹数据的说话者的第三声纹识别模型，即实现跨信道的声纹识别；因此，可以有效提升模型性能，从而适应新产品的功能快速上线。

请参考图6，其为本申请提供的一种声纹识别方法实施例的具体流程图。在本实施例中，所述第一声纹数据、所述第二声纹数据和所述第四声纹数据包括唤醒词声纹数据，在这种情况下，所述方法还可包括如下步骤：

步骤S601：获取未标注说话者信息的第五声纹数据集。

所述第五声纹数据集包括唤醒词以外内容的声纹数据，如向第二智能设备询问的具体问题。例如，第五声纹数据集包括1万条声纹数据。

相应的，步骤S403还可包括如下子步骤：

步骤S4033：通过所述第三声纹识别模型，获取所述第五声纹数据的说话者信息。

步骤S4034：根据所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、由所述第四声纹数据的说话者信息标注的第四声纹数据集、及由所述第五声纹数据的说话者信息标注的第五声纹数据集，更新第三声纹识别模型。

例如，第一声纹数据集包括5000条由人工标注的声纹数据，第二声纹数据集包括10万条通过本申请实施例提供的方法自动标注的声纹数据，第四声纹数据集包括4万条通过步骤S4031自动标注的声纹数据，第五声纹数据集包括1万条通过步骤S4034自动标注的声纹数据；根据这些声纹数据的合集训练声纹识别模型，训练后的模型即为更新后的第三声纹识别模型。

在一个示例中，步骤S4033可包括如下子步骤：1)将所述第五声纹数据集划分为多个第五声纹数据子集；2)遍历所述多个第五声纹数据子集，针对各个所述第五声纹数据子集执行如下步骤：2.1)通过所述第三声纹识别模型，识别所述第五声纹数据子集包括的第五声纹数据的说话者信息；2.2)根据训练所述第三声纹识别模型依据的声纹数据集、及由所述第五声纹数据的说话者信息标注的第五声纹数据子集，更新所述第三声纹识别模型。采用这种处理方式，使得多次迭代更新第三声纹识别模型，逐步提升第三声纹识别模型的准确度，从而提升第五声纹数据自动标注的准确度。

请参考图7，其为本申请提供的一种声纹识别方法实施例的训练阶段示意图。由图7可见，声纹识别模型的整个训练过程包括三个阶段：第一阶段为同信道训练阶段，即训练第一智能设备的声纹识别模型的阶段；第二阶段为跨信道训练阶段，同时训练第一智能设备和第二智能设备的声纹识别模型；第三阶段为根据唤醒词以外声纹数据进行模型训练的文本独立训练阶段。在第一阶段中，首先从人工标注的第一声纹数据集(Labeled)中学习得第一声纹识别模型，然后经过多次迭代更新第一声纹识别模型，多次迭代的训练数据包括：第二声纹数据集的第一子集X₁、…、第t个子集X_t，逐步提升第一声纹识别模型的准确度，从而逐步提升第二声纹数据自动标注的准确度。在第二阶段中，一方面，经过多次迭代继续更新第一声纹识别模型，包括：第二声纹数据集的第t+1个子集X_t+1、…、第t’个子集X_t’,得到第一智能设备的第二声纹识别模型；另一方面，经过多次迭代继续更新第一声纹识别模型，包括：第四声纹数据集的第1个子集C₁、…、第n个子集X_n,得到第二智能设备的第三声纹识别模型。在第三阶段中，一方面，经过多次迭代更新第二声纹识别模型，包括：第三声纹数据集的子集X_t’+1、…、子集X_T,最终得到第一智能设备的声纹识别模型；另一方面，经过多次迭代更新第三声纹识别模型，包括：第五声纹数据集的子集C_n+1、…、C_N,得到第二智能设备的声纹识别模型。

本申请实施例提供的方法，通过获取未标注说话者信息的第二智能设备的第五声纹数据集；所述第五声纹数据集包括唤醒词以外内容的声纹数据；通过所述第三声纹识别模型，获取所述第五声纹数据的说话者信息；从所述第一声纹数据集、由所述第二声纹数据的说话者信息标注的第二声纹数据集、由所述第四声纹数据的说话者信息标注的第四声纹数据集、及由所述第五声纹数据的说话者信息标注的第五声纹数据集中，学习得到更新的第三声纹识别模型；这种处理方式，使得可训练得到还能够识别唤醒词以外的其他内容的声纹数据的说话者的第二智能设备的第三声纹识别模型；因此，可以有效提升模型性能。

从上述实施例可见，本申请实施例提供的声纹识别方法，通过获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

在上述的实施例中，提供了一种声纹识别方法，与之相对应的，本申请还提供一种声纹识别装置。该装置是与上述方法的实施例相对应。

第二实施例

请参看图8，其为本申请的声纹识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声纹识别装置，包括：

第一数据获取单元801，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

第一模型学习单元803，用于从所述第一声纹数据集中学习得到第一声纹识别模型；

第二模型学习单元805，用于至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；

第一声纹识别单元807，用于至少基于所述第二声纹识别模型识别声纹数据。

请参看图9，其为本申请的声纹识别装置的实施例的具体示意图。在本实施例中，所述第一声纹数据集包括第一智能设备的第一声纹数据集；所述第二声纹数据集包括第一智能设备的第二声纹数据集；所述第二声纹识别模型包括用于所述第一智能设备的第二声纹识别模型；所述装置还包括：

第二数据获取单元901，用于获取未标注说话者信息的第二智能设备的第四声纹数据集；

第三模型学习单元902，用于至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型；

第二声纹识别单元903，用于至少基于所述第三声纹识别模型识别面向所述第二智能设备的声纹数据。

请参看图10，其为本申请的声纹识别装置的实施例的具体示意图。在本实施例中，所述第一声纹数据和所述第二声纹数据包括唤醒词声纹数据；所述装置还包括：

第三数据获取单元1001，用于获取未标注说话者信息的第三声纹数据集；所述第三声纹数据集包括唤醒词以外内容的声纹数据；

所述第二模型学习单元805，具体用于通过第一声纹识别模型、第二声纹数据集和第三声纹数据集训练得到第二声纹识别模型。

请参看图11，其为本申请的声纹识别装置的实施例的具体示意图。在本实施例中，所述第一声纹数据、所述第二声纹数据和所述第四声纹数据包括唤醒词声纹数据；所述装置还包括：

第四数据获取单元1101，用于获取未标注说话者信息的第二智能设备的第五声纹数据集；所述第五声纹数据集包括唤醒词以外内容的声纹数据；

所述第三模型学习单元902，具体用于通过第一声纹识别模型、第二声纹数据集和、第四声纹数据集和第五声纹数据集训练得到第三声纹识别模型。

第三实施例

请参考图12，其为本申请的音箱的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种音箱，使用本申请实施例提供的方法，以识别向音箱发出语音指令的说话者的身份。

在本实施例中，所述音箱可包括：声音传感器1200，处理器1201和存储器1202；所述存储器，用于存储实现声纹识别方法的程序，该设备通电并通过所述处理器运行该声纹识别方法的程序后，执行下述步骤：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；通过声音传感器采集说话者的声纹数据,至少基于所述第二声纹识别模型识别声纹数据。

从上述实施例可见，本申请实施例提供的音箱，通过获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

在上述的实施例中，提供了一种声纹识别方法，与之相对应的，本申请还提供一种声纹识别系统。该系统是与上述方法的实施例相对应。

第四实施例

请参看图13，其为本申请的声纹识别系统的实施例的示意图。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种声纹识别系统，包括：音箱1301和服务器1302。

音箱1301，用于通过声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器1302；服务器1302，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；以及，接收所述声纹数据，至少基于所述第二声纹识别模型识别所述声纹数据。

从上述实施例可见，本申请实施例提供的声纹识别系统，通过音箱的声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器；服务器获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；以及，接收所述声纹数据，至少基于所述第二声纹识别模型识别所述声纹数据；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

在上述的实施例中，提供了一种声纹识别系统，与之相对应的，本申请还提供一种声纹识别方法。该方法是与上述系统的实施例相对应。

第五实施例

请参看图14，其为本申请的声纹识别方法的实施例的示意图。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请另外提供一种声纹识别方法，包括：

步骤S1401：通过音箱的声音传感器采集说话者的声纹数据；

步骤S1403：将所述声纹数据发送至服务器。

从上述实施例可见，本申请实施例提供的声纹识别方法，通过音箱的声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器，以使得服务器至少基于第二声纹识别模型识别所述声纹数据，其中，服务器获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

第六实施例

请参看图15，其为本申请的声纹识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声纹识别装置，包括：

声纹数据采集单元1501，用于通过音箱的声音传感器采集说话者的声纹数据；

声纹数据发送单元1503，用于将所述声纹数据发送至服务器。

第七实施例

请参考图16，其为本申请的音箱的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种音箱，使用上述实施例五提供的方法，以通过音箱的声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器。

在本实施例中，所述音箱可包括：声音传感器1600，处理器1601和存储器1602；所述存储器，用于存储实现声纹识别方法的程序，该设备通电并通过所述处理器运行该声纹识别方法的程序后，执行下述步骤：通过音箱的声音传感器采集说话者的声纹数据；将所述声纹数据发送至服务器。

第八实施例

请参看图17，其为本申请的声纹识别方法的实施例的示意图。由于方法实施例基本相似于系统实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请另外提供一种声纹识别方法，包括：

步骤S1701：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

步骤S1703：从所述第一声纹数据集中学习得到第一声纹识别模型；

步骤S1705：至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；

步骤S1707：接收音箱发送的声纹数据；

步骤S1709：至少基于所述第二声纹识别模型识别所述声纹数据。

从上述实施例可见，本申请实施例提供的声纹识别方法，通过音箱的声音传感器采集说话者的声纹数据，将所述声纹数据发送至服务器；服务器获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；以及，接收所述声纹数据，至少基于所述第二声纹识别模型识别所述声纹数据；这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。

第九实施例

请参看图18，其为本申请的声纹识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声纹识别装置，包括：

训练数据获取单元1801，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；

第一模型学习单元1803，用于从所述第一声纹数据集中学习得到第一声纹识别模型；

第二模型学习单元1805，用于至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；

声纹数据接收单元1807，用于接收音箱发送的声纹数据；

声纹识别单元1809，用于至少基于所述第二声纹识别模型识别所述声纹数据。

第十实施例

请参考图19，其为本申请的服务器的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种服务器，使用本申请实施例八提供的方法，以识别向音箱发出语音指令的说话者的身份。

在本实施例中，所述服务器可包括：处理器1901和存储器1902；所述存储器，用于存储实现声纹识别方法的程序，该设备通电并通过所述处理器运行该声纹识别方法的程序后，执行下述步骤：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型；接收音箱发送的声纹数据；至少基于所述第二声纹识别模型识别所述声纹数据。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种声纹识别方法，包括：

从所述第一声纹数据集中学习得到第一声纹识别模型；

从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型；

至少基于所述第二声纹识别模型识别声纹数据。

2.根据权利要求1所述的方法，其特征在于，

所述通过所述第一声纹识别模型，并识别所述第二声纹数据的说话者信息，包括：

将所述第二声纹数据集划分为多个第二声纹数据子集；

3.根据权利要求1所述的方法，其特征在于，

所述第一声纹数据和所述第二声纹数据包括唤醒词声纹数据；

所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，

所述通过所述第二声纹识别模型，并识别所述第三声纹数据的说话者信息，包括：

将所述第三声纹数据集划分为多个第三声纹数据子集；

5.根据权利要求1所述的方法，其特征在于，

所述第一声纹数据集包括第一智能设备的第一声纹数据集；

所述第二声纹数据集包括第一智能设备的第二声纹数据集；

6.根据权利要求5所述的方法，其特征在于，还包括：

获取未标注说话者信息的第二智能设备的第四声纹数据集；

7.根据权利要求6所述的方法，其特征在于，所述至少通过第二声纹识别模型和第四声纹数据集训练得到所述第二智能设备的第三声纹识别模型，包括：

8.根据权利要求7所述的方法，其特征在于，

所述通过所述第二声纹识别模型，并识别所述第四声纹数据的说话者信息，包括：

将所述第四声纹数据集划分为多个第四声纹数据子集；

9.根据权利要求7所述的方法，其特征在于，

所述第一声纹数据、所述第二声纹数据和所述第四声纹数据包括唤醒词声纹数据；

所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，

所述通过所述第三声纹识别模型，并识别所述第五声纹数据的说话者信息，包括：

将所述第五声纹数据集划分为多个第五声纹数据子集；

11.根据权利要求6所述的方法，其特征在于，

所述第二智能设备是所述第一智能设备的换代设备，或者，所述第二智能设备与所述第一智能设备为不同类型的智能设备。

12.一种声纹识别装置，其特征在于，包括：

第二模型学习单元，用于通过所述第一声纹识别模型，识别所述第二声纹数据的说话者信息；从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型；

13.根据权利要求12所述的装置，其特征在于，

所述第一声纹数据集包括第一智能设备的第一声纹数据集；

所述第二声纹数据集包括第一智能设备的第二声纹数据集；

所述装置还包括：

14.一种音箱，其特征在于，使用包括如权利要求1-11任一项所述的方法。

15.一种声纹识别系统，其特征在于，包括：

服务器，用于获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集；从所述第一声纹数据集中学习得到第一声纹识别模型；通过所述第一声纹识别模型，识别所述第二声纹数据的说话者信息；从所述第一声纹数据集和由所述第二声纹数据的说话者信息标注的第二声纹数据集中，学习得到第二声纹识别模型；以及，接收所述声纹数据，至少基于所述第二声纹识别模型识别所述声纹数据。

16.一种声纹识别方法，其特征在于，包括：

通过音箱的声音传感器采集说话者的声纹数据；

将所述声纹数据发送至服务器，以使得所述服务器至少基于第二声纹识别模型识别所述声纹数据；所述第二声纹识别模型是从已标注说话者信息的第一声纹数据集和由第二声纹数据的说话者信息标注的第二声纹数据集中学习得到的；所述第二声纹数据的说话者信息是通过第一声纹识别模型识别的；所述第一声纹识别模型是从所述第一声纹数据集中学习得到的。

17.一种声纹识别方法，其特征在于，包括：

从所述第一声纹数据集中学习得到第一声纹识别模型；

接收音箱发送的声纹数据；

至少基于所述第二声纹识别模型识别所述声纹数据。

18.一种声纹识别装置，其特征在于，包括：

声纹数据发送单元，用于将所述声纹数据发送至服务器，以使得所述服务器至少基于第二声纹识别模型识别所述声纹数据；所述第二声纹识别模型是从已标注说话者信息的第一声纹数据集和由第二声纹数据的说话者信息标注的第二声纹数据集中学习得到的；所述第二声纹数据的说话者信息是通过第一声纹识别模型识别的；所述第一声纹识别模型是从所述第一声纹数据集中学习得到的。

19.一种声纹识别装置，其特征在于，包括：

声纹数据接收单元，用于接收音箱发送的声纹数据；

20.一种音箱，其特征在于，使用包括如权利要求16所述的方法。

21.一种服务器，其特征在于，使用包括如权利要求17所述的方法。