CN113948089B

CN113948089B - 声纹模型训练和声纹识别方法、装置、设备及介质

Info

Publication number: CN113948089B
Application number: CN202010622080.XA
Authority: CN
Inventors: 王岩全; 李宝祥
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-06-14
Anticipated expiration: 2040-06-30
Also published as: CN113948089A

Abstract

本发明公开了一种声纹模型的训练和声纹识别方法、装置、设备及介质。通过原始声纹模型，确定目标家庭样本集中语音样本中包含的每个语音帧对应的第一声纹向量，将每个第一声纹向量加权后的向量和确定为该语音样本的声纹特征向量，根据该声纹特征向量以及已注册的声纹特征向量，确定第二标识信息，根据第一标识信息和第二标识信息，对原始声纹模型进行训练，从而实现只需根据目标家庭样本集中的语音样本，即可训练出目标家庭对应的声纹模型，节省训练得到声纹模型的时间，由于该声纹模型只需对目标家庭中家庭成员的声纹特征向量进行识别，因此该声纹模型更加小型化。

Description

声纹模型训练和声纹识别方法、装置、设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及了一种声纹模型的训练和声纹识别方法、装置、设备及介质。

背景技术

随着智能家居和智能机器人进入家庭，智能语音交互成为一种更加便利，更加快捷的交互方式。语音交互技术在给用户带来便利的同时也带来了另一个需求，那就是声纹识别。声纹识别(Voiceprint Recognition,VPR)，也称为说话人识别(SpeakerRecognition)，其可以实现说话人辨认(Speaker Identification)或说话人确认(SpeakerVerification)的功能。说话人辨认是指判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而说话人确认是指确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

而对于大多应用于家庭内部的智能设备，在进行声纹识别时，往往只需要识别出家庭中的成员的声纹即可。但现有技术中，广泛应用的有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种声纹识别方法。对于文本相关的声纹识别方法，该方法由于要求用户必须按照规定的内容发音，才可以达到较好的声纹识别效果，因此用户进行声纹识别的过程繁琐，体验感较低。

对于文本无关的声纹识别方法，该方法是通用声纹模型识别出不同的人发出不同内容的语音信息的声纹特征向量之后，再基于plda判别模型对声纹特征向量打分，确定该语音信息对应的家庭成员。而该进行声纹特征向量识别的通用声纹模型，必须通过大量的语音样本进行训练，因此模型训练时间也会非常的长。然而一般家庭中的家庭成员并不多，智能设备无法采集到大量的家庭成员的语音信息，从而无法训练出识别率比较高的通用声纹模型，因此，该通用声纹模型也不适于对家庭内部的每个家庭成员的声纹识别。

发明内容

本发明实施例提供了一种声纹模型的训练和声纹识别方法、装置、设备及介质，用以解决现有对家庭成员进行检测的通用声纹模型需要大量的语音样本进行训练，且训练时间长的问题。

本发明实施例提供了一种声纹模型的训练方法，所述方法包括：

获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息；

通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息；

根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

本发明实施例还提供了一种声纹识别方法，所述方法包括：

通过预先训练完成的声纹模型，确定待识别语音信息中包含的每个语音帧对应的第二声纹向量，并根据每个第二声纹向量加权后的向量和，确定所述待识别语音信息的声纹特征向量，根据所述待识别语音信息的声纹特征向量以及已注册的声纹特征向量，确定所述待识别语音信息的第三标识信息；根据所述第三标识信息所归属的家庭成员，确定所述待识别语音信息的发音者。

本发明实施例还提供了一种声纹模型的训练装置，所述装置包括：

获取模块，用于获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息；

确定模块，用于通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息；

调参模块，用于根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

本发明实施例还提供了一种声纹识别装置，所述装置包括：

第一处理模块，用于通过预先训练完成的声纹模型，确定待识别语音信息中包含的每个语音帧对应的第二声纹向量，并根据每个第二声纹向量加权后的向量和，确定所述待识别语音信息的声纹特征向量，根据所述待识别语音信息的声纹特征向量以及已注册的声纹特征向量，确定所述待识别语音信息的第三标识信息；

第二处理模块，用于根据所述第三标识信息所归属的家庭成员，确定所述待识别语音信息的发音者。

本发明实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述声纹模型的训练方法的步骤，或者实现如上述所述声纹识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述声纹模型的训练方法的步骤，或者实现如上述所述声纹识别方法的步骤。

本发明实施例中只需根据目标家庭样本集中的语音样本，即可训练出可以识别目标家庭中家庭成员的声纹特征向量的声纹模型，节省了训练得到声纹模型的时间，由于该声纹模型只需对目标家庭中家庭成员的声纹特征向量进行识别，因此该声纹模型更加小型化，对应用该声纹模型的智能设备的硬件要求更低，该声纹模型更适于布局在智能设备端，以实现离线声纹识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种声纹模型的训练过程示意图；

图2为本发明实施例提供的具体的声纹模型结构示意图；

图3为本发明实施例提供的具体的声纹模型训练流程示意图；

图4为本发明实施例提供的一种声纹识别过程示意图；

图5为本发明实施例提供的一种声纹模型的训练装置结构示意图；

图6为本发明实施例提供的一种声纹识别装置；

图7为本发明实施例提供的一种电子设备结构示意图；

图8为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了实现可以根据目标家庭中每个家庭成员的语音信息训练声纹模型，节省声纹模型的训练时间，使声纹模型更小型化，本发明实施例提供了一种声纹模型的训练和声纹识别方法、装置、设备及介质。

实施例1：图1为本发明实施例提供的一种声纹模型的训练过程示意图，该过程包括以下步骤：

S101：获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息。

本发明实施例提供的声纹模型的训练方法应用于电子设备，该电子设备可以是智能设备，也可以是服务器。智能设备例如可以是智能机器人、智能手机、平板电脑等设备。

在本发明实施例中，可以预先采集目标家庭中每个家庭成员的多条语音信息，将采集的每个语音信息作为目标家庭样本集中的语音样本，并确定每个语音样本所归属的家庭成员的标识信息(为了便于描述，记为第一标识信息)，其中，第一标识信息用于唯一标识该目标家庭中的家庭成员的身份信息，第一标识信息可以为该家庭成员的姓名，比如，“张三”、“李四”等，也可以为该家庭成员在目标家庭中的身份，比如，“爸爸”、“妈妈”等，当然，还可以是其他标识，只要能唯一标识家庭成员的信息均可作为本发明实施例中的第一标识信息。为了方便后续训练出可以识别出目标家庭中家庭成员的声纹模型，可以将采集的每个语音信息以及分别对应的第一标识信息发送给服务器，通过服务器本地保存的通用声纹模型，对每个语音信息进行注册。其中，注册是指通过服务器本地保存的通用声纹模型，获取每个语音信息对应的声纹特征向量，并对应保存每个声纹特征向量以及对应的第一标识信息到该目标家庭的数据库中。

其中，通用声纹模型为预先根据海量的不同的人发出不同内容的语音样本训练得到的大型声纹模型，通过该通用声纹模型，可以获取不同的人发出不同内容的语音样本的声纹特征向量。

需要说明的是，上述每个语音信息对应的声纹特征向量，不仅可以通过上述的通用声纹模型获取，还可以其他方式获取，在此不做具体限定。

电子设备基于上述采集的目标家庭样本集中的每个语音样本及其对应的第一标识信息，以及服务器确定的声纹特征向量，进行相应的处理，从而实现对原始声纹模型进行训练。

若进行声纹模型训练的电子设备是智能设备，则智能设备获取服务器预先通过通用声纹模型确定的目标家庭的每个语音样本的声纹特征向量之后，基于本发明实施例提供的声纹模型的训练方法，根据目标家庭的每个语音样本以及上述的服务器确定的声纹特征向量，对原始声纹模型进行训练。

若进行声纹模型训练的电子设备是服务器，则直接基于本发明实施例提供的声纹模型的训练方法，根据目标家庭的每个语音样本以及上述的服务器确定的声纹特征向量，对原始声纹模型进行训练。

S102：通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息。

电子设备通过原始声纹模型，可以依次获取该语音样本中每个语音帧对应的声纹向量(为了方便描述，记为第一声纹向量)，根据每个第一声纹向量，以及分别对应的权重值，确定每个第一声纹向量加权后的向量和，然后将该每个第一声纹向量加权后的向量和，确定为该语音样本的声纹特征向量。

其中，每个第一声纹向量分别对应的权重值可以相同，也可以不同。可选的，若第一声纹向量对应的权重值相同时，可以根据当前识别的语音样本中包含的语音帧的数量N，确定每个第一声纹向量对应的权重值，即每个第一声纹向量对应的权重值为预设的总权重阈值的1/N。

需要说明的是，无论每个第一声纹向量分别对应的权重值是否相同，每个第一声纹向量分别对应的权重值的和应等于预设的总权重阈值，比如，1、10、100等。具体的，可以根据需求进行灵活设置总权重阈值以及每个第一声纹向量分别对应的权重值，在此不做限定。

为了方便对原始声纹模型进行训练，电子设备将上述服务器通过通用声纹模型，获取到的目标家庭中每个家庭成员的每个语音样本的声纹特征向量，作为已注册的声纹特征向量，对应保存每个已注册的声纹特征向量以及分别对应的第一标识信息。

当基于上述实施例，通过原始声纹模型，获取到语音样本的声纹特征向量之后，通过该原始声纹模型的输出层可以确定该语音样本的声纹特征向量与已注册的声纹特征向量的相似度，获取相似度最大值对应的已注册的声纹特征向量，将该相似度最大值对应的已注册的声纹特征向量对应的第一标识信息，作为输入该语音样本的家庭成员的标识信息(为了便于描述，记为第二标识信息)。

其中，语音样本的声纹特征向量与已注册的声纹特征向量的维数均是相同的。在确定语音样本的声纹特征向量与任一已注册的声纹特征向量的相似度时，可以用余弦值或者欧氏距离等方式进行表示。当然，本发明实施例中不限定计算语音样本的声纹特征向量与已注册的声纹特征向量的相似度的方式。

S103：根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

具体实施中，通过原始声纹模型，确定了语音样本的第二标识信息后，因为预先保存了该语音样本的第一标识信息，因此，电子设备可以根据每条语音样本对应的第一标识信息和第二标识信息，对原始声纹模型的参数进行不断地调整，以获得目标家庭对应的声纹模型。具体的，确定第二标识信息对应的已注册的声纹特征向量，根据该已注册的声纹特征向量与该语音信息的声纹特征向量的损失值，对原始声纹模型进行训练。

具体实施中，在根据损失值，对原始声纹模型中的参数进行更新时，可以采用梯度下降算法，对原始声纹模型的参数的梯度进行反向传播，从而对原始声纹模型进行训练。

对目标家庭样本集中包含的每个语音样本都进行上述操作，当满足预设的收敛条件时，确定该原始声纹模型训练完成。

其中，满足预设的收敛条件可以为语音样本的声纹特征向量与第二标识信息对应的已注册的声纹特征向量的损失值小于设定的损失值阈值、对原始声纹模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

由于本发明实施例中只需根据目标家庭样本集中的语音样本，即可训练出可以识别目标家庭中家庭成员的声纹特征向量的声纹模型，节省了训练得到声纹模型的时间，由于该声纹模型只需对目标家庭中家庭成员的声纹特征向量进行识别，因此该声纹模型更加小型化，对应用该声纹模型的设备的硬件要求更低，该声纹模型更适于布局在智能设备端，以实现离线声纹识别，即在断网或网络信号不好的情况下，智能设备也可以进行声纹识别，不依赖于网络信号，提高了用户体验。当然，本发明实施例中训练得到的声纹模型也可以布局在云端服务器。

实施例2：为了准确地获取语音样本的声纹特征向量，在上述实施例的基础上，在本发明实施例中，根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，包括：

通过当前的声纹模型，基于每个第一声纹向量包含的元素的元素值，分别对每个第一声纹向量对应的第一权重值进行迭代更新，根据更新后的每个第一权重值，确定每个第一声纹向量加权后的向量和，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量。

由于该语音样本中的每个语音帧所对应的发音内容的不同，以及采集的语音样本中可能存在噪声等干扰因素，对后续识别该语音样本中每个语音帧的第一声纹向量均有影响，从而导致确定的该语音样本的声纹特征向量会不准确，影响对原始声纹模型的训练。

因此，为了消除噪声以及不同发音内容等干扰因素对确定的语音样本的声纹特征向量的影响，在本发明实施例中，声纹模型中设置有归纳层(Induction)，通过声纹模型的归纳层，可以对每个语音帧的第一声纹向量对应的权重值(为了方便描述，记为第一权重值)进行调整，从而将一些受干扰因素影响比较大的语音帧对应的第一声纹向量对应的第一权重值调小，将一些受干扰因素影响比较小的语音帧的声纹特征向量对应的第一权重值调大。

具体的，当基于当前的声纹模型中的特征提取层，获取到语音样本包含的每个语音帧对应的第一声纹向量之后，可以通过当前的声纹模型中的归纳层，基于每个第一声纹向量包含的元素的元素值，分别对每个第一声纹向量对应的第一权重值进行迭代更新。根据最后一次迭代更新后的每个第一权重值以及上述获取的语音样本的每个语音帧对应的第一声纹向量，确定每个第一声纹向量加权后的向量和，将该每个第一声纹向量加权后的向量和确定为语音样本的声纹特征向量。其中，当前的声纹模型表征的是声纹模型在训练过程中的状态，其可以是原始声纹模型，也可以是对原始声纹模型训练过程中，获取到的某一中间态的声纹模型。

在一种可能的实施方式中，基于每个第一声纹向量包含的元素的元素值，分别对每个第一声纹向量对应的第一权重值进行迭代更新，包括：

获取当前的声纹模型对应的第一迭代次数；

在每次迭代中，对于每个第一声纹向量，根据该第一声纹向量以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权后的第一声纹向量；根据每个加权后的第一声纹向量，确定所述语音样本的样本声纹特征向量；对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新。

在具体实施中，当前的声纹模型的归纳层中配置有迭代参数(为了方便描述，记为第一迭代参数)，以表征每个语音帧对应的第一权重值进行迭代更新的次数。在对声纹模型进行训练的过程中，在对声纹模型中的参数进行调整时，也会对该第一迭代参数的参数值进行调整，当声纹模型训练完成时，可以认为该第一迭代参数达到一个最佳的迭代次数。

因此，不同状态的声纹模型中的第一迭代参数的参数值可能是不同的。当基于上述实施例获取到语音样本包含的每个语音帧对应的第一声纹向量之后，首先获取当前的声纹模型对应的第一迭代参数，根据该第一迭代参数的参数值确定当前的声纹模型中的归纳层对每个第一声纹向量对应的第一权重值进行迭代更新的次数(为了方便描述，每个第一声纹向量对应的第一权重值进行迭代更新的次数记为第一迭代次数)。其中，第一迭代参数的参数值为正整数，初始时可以预先配置该第一迭代参数的初始值，后续根据上述声纹模型训练过程调整该第一迭代参数的参数值，若在对声纹模型的参数的参数值进行调整时，确定出的该第一迭代参数的参数值为非正整数，则可以进行取整运算从而得到正整数，例如向上取整，向下取整等运算。

声纹模型的归纳层在每次迭代时，对于每个第一声纹向量，根据该第一声纹向量、以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权和的第一声纹向量。然后根据每个加权后的第一声纹向量，确定该语音样本的样本声纹特征向量。先分别获取该语音样本中包含的每个语音帧对应的第一声纹向量分别与该语音样本的样本声纹特征向量的相似度(为了方便描述，记为第一相似度)，然后针对每个第一声纹向量，根据上述获取的每个第一相似度，对该第一声纹向量对应的第一权重值进行更新。

其中，第一相似度的确定方法与上述实施例中的相似度的确定方法相同，在此不做赘述。

由于第一声纹向量与该样本声纹特征向量的第一相似度越大，说明该第一声纹向量越贴近该语音样本的声纹特征向量，后续根据第一相似度高的第一声纹向量确定该语音样本的声纹特征向量也更准确，有利于后续对声纹模型的训练；而第一声纹向量与该样本声纹特征向量的第一相似度越小，说明该第一声纹向量有可能受噪声、或者不同发音内容等干扰因素的影响较大，后续根据第一相似度小的第一声纹向量确定该语音样本的声纹特征向量也会不准确。因此，在每次迭代中，针对每个第一声纹向量，根据上述确定的每个第一声纹向量与样本声纹特征向量的第一相似度，确定该第一声纹向量对应的第一权重值时，若该第一声纹向量对应的第一相似度越大，则第一声纹向量对应的第一权重值越大；若该第一声纹向量对应的第一相似度越小，则第一声纹向量对应的第一权重值越小。

当归纳层确定当前迭代为最后一次迭代时，则针对每个第一声纹向量，根据该第一声纹向量以及该第一声纹向量对应的最后一次迭代确定的第一权重值，确定加权后的第一声纹向量；将每个加权后的第一声纹向量求和，获取每个第一声纹向量的加权后的向量和，将每个第一声纹向量的加权后的向量和作为该语音样本的声纹特征向量。

需要说明的是，针对目标家庭样本集中的任一语音样本，归纳层在第一次迭代时，上次迭代确定的第一声纹向量对应的第一权重值，可以是根据当前语音样本中包含的语音帧的数量N确定的，即该语音样本对应的每个第一声纹向量对应的第一权重值均相同，每个第一声纹向量对应的第一权重值均为预设的总权重阈值的1/N，比如，当前识别的语音样本包含的语音帧的数量为10，预设的总权重阈值为1，则在第一次迭代时，对于每个语音帧对应的第一声纹向量，上次迭代确定的该第一声纹向量对应的第一权重值为1/10＝0.1。

在另一种可能的实施方式中，对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新，包括：

分别确定每个第一声纹向量与所述样本声纹特征向量的第一相似度，并确定出每个第一声纹向量对应的第一相似度之和；以及

针对每个第一声纹向量，根据该第一声纹向量对应的第一相似度以及所述第一相似度之和，确定该第一声纹向量对应更新后的第一权重值。

当基于上述实施例获取到样本声纹特征向量之后，分别确定每个第一声纹向量与该样本声纹特征向量的第一相似度，然后将每个第一相似度相加，确定每个第一声纹向量对应的第一相似度之和。在确定每个第一声纹向量对应的更新后的第一权重值时，基于该第一声纹向量与样本声纹特征向量的第一相似度、以及上述确定的第一相似度之和，进行相应的处理，从而确定该第一声纹向量对应的更新后的第一权重值。

在一种可能的实施方式中，针对每个第一声纹向量，根据该第一声纹向量与样本声纹特征向量的第一相似度、以及上述确定的第一相似度之和，确定该第一声纹向量对应的更新后的第一权重值，可以通过如下公式确定：

其中，w_k为第一声纹向量k对应的更新后的第一权重值，α_i为第一声纹向量i与样本声纹特征向量的第一相似度,α_k为第一声纹向量k与样本声纹特征向量的第一相似度，第一声纹向量k为语音样本中包含的n个语音帧中的任一第一声纹向量。

由于本发明实施例声纹模型的归纳层通过不断迭代地更新每个第一声纹向量对应的第一权重值，从而使根据每个第一声纹向量、以及最后一次迭代确定的更新后的每个第一声纹向量对应的第一权重值，确定的语音样本的声纹特征向量更具代表性，且减小了受干扰因素影响大的语音帧对语音样本的声纹特征向量的干扰。

实施例3：为了使每个语音帧的第一声纹向量充分学习到其他语音帧的第一声纹向量中的信息，在上述各实施例的基础上，通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，包括：

通过当前的声纹模型，获取所述语音样本中包含的每个语音帧对应的中间态声纹向量；针对每个语音帧对应的中间态声纹向量，基于所述语音样本对应的每个中间态声纹向量包含的元素的元素值，对该中间态声纹向量进行迭代更新，将更新后的中间态声纹向量确定为该语音帧对应的第一声纹向量。

由于一般语音样本中包含的每个语音帧与每个语音帧之间有一定的相关性，即该语音帧以及该语音帧的前后语音帧，均会对该语音帧的第一声纹向量有影响，而一般与该语音帧相关性大的语音帧对该语音帧的第一声纹向量的影响比较大，与该语音帧相关性小的语音帧对该语音帧的第一声纹向量的影响比较小。因此，为了充分考虑每个语音帧与任一语音帧的相关性，对该语音帧的第一声纹向量的影响，在本发明实施例中，声纹模型中还设置有自注意力层(Self-attention)。

基于上述各实施例，通过当前的声纹模型的特征提取层，可以获取到语音样本中每个语音帧对应的中间态声纹向量，然后通过当前的声纹模型中的自注意力层，针对每个语音帧对应的中间态声纹向量，基于每个中间态声纹向量包含的元素的元素值，对该中间态声纹向量进行迭代更新；最后，将最后一次迭代获取的每个更新后的中间态声纹向量，分别确定为该语音样本包含的每个语音帧对应的第一声纹向量。

在一种可能的实施方式中，针对每个语音帧对应的中间态声纹向量，基于所述语音样本对应的每个中间态声纹向量包含的元素的元素值，对该中间态声纹向量进行迭代更新，包括：

获取当前的声纹模型对应的第二迭代次数；

在每次迭代中，针对上次迭代确定的每个中间态声纹向量，确定每个中间态声纹向量分别与该中间态声纹向量的第二相似度，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值；根据每个中间态声纹向量及其分别对应的第二权重值，确定每个中间态声纹向量加权后的向量和，并根据所述每个中间态声纹向量加权后的向量和，对该中间态声纹向量进行更新。

在具体实施中，当前的声纹模型的自注意力层中配置有迭代参数(为了方便描述，并与上述的第一迭代参数进行区分，记为第二迭代参数)，以表征对每个语音帧对应的中间态声纹向量进行迭代更新的次数。在对声纹模型进行训练的过程中，在对声纹模型中的参数进行调整时，也会对该第二迭代参数的参数值进行调整，当声纹模型训练完成时，可以认为该第二迭代参数达到一个最佳的迭代次数。

因此，不同状态的声纹模型中的第二迭代参数的参数值可能是不同的。当基于上述实施例，获取到语音样本包含的每个语音帧对应的中间态声纹向量之后，获取当前的声纹模型对应的第二迭代参数，根据该第二迭代参数的参数值确定当前的声纹模型中的自注意力层对每个语音帧对应的中间态声纹向量进行更新的次数(为了方便描述，对每个语音帧对应的中间态声纹向量进行更新的次数记为第二迭代次数)。其中，第二迭代参数的参数值为正整数，初始时可以预先配置的第二迭代参数的初始值，后续根据上述声纹模型训练过程调整该第二迭代参数的参数值，若在对声纹模型的参数的参数值进行调整时，确定出的该第二迭代参数的参数值为非正整数，则可以进行取整运算从而得到正整数，例如向上取整，向下取整等运算。

由于语音样本中一般包括多个语音帧，通过上述实施例可以获取到该多个语音帧对应的中间态声纹向量，后续通过当前的声纹模型的自注意力层对每个语音帧对应的中间态声纹向量进行迭代更新，为了方便说明，以当前声纹模型在每次迭代时，对语音样本中任一个语音帧对应的中间态声纹向量进行迭代更新的具体过程进行说明：

通过当前的声纹模型的自注意力层，确定上次迭代确定的每个中间态声纹向量分别与该中间态声纹向量的相似度(为了方便描述，并与上述实施例中的相似度进行区分，记为第二相似度)。比如，以语音样本中包含3个语音帧为例进行说明，语音样本包含其他数量的语音帧的情况与此类似，此处不再一一举例说明。假设该语音样本的每个语音帧分别对应中间态声纹向量A、中间态声纹向量B、中间态声纹向量C，针对中间态声纹向量A，确定中间态声纹向量A与该中间态声纹向量A的第二相似度α_AA，中间态声纹向量B与该中间态声纹向量A的第二相似度α_BA，中间态声纹向量C与该中间态声纹向量A的第二相似度α_CA。

然后对于每个中间态声纹向量，根据每个第二相似度，分别确定每个中间态声纹向量相对该中间态声纹向量的权重值(为了方便描述，并与上述的第一权重值进行区分，记为第二权重值)。

接着，根据每个中间态声纹向量相对该中间态声纹向量的第二权重值，确定每个中间态声纹向量加权后的向量，并对每个中间态声纹向量加权后的向量进行求和处理，得到加权后的向量和，根据该加权后的向量和，对该中间态声纹向量进行更新。

通过当前的声纹模型的自注意力层在每次迭代时，对每个语音帧对应的中间态声纹向量进行更新时，均执行上述的步骤。

例如，仍以上述为例，分别获取了第二相似度α_AA、α_BA、α_CA之后，对于中间态声纹向量A，根据上述确定的第二相似度α_AA、α_BA、α_CA，确定中间态声纹向量A相对中间态声纹向量A的第二权重值ω_AA，对于中间态声纹向量B，根据上述确定的第二相似度α_AA、α_BA、α_CA，确定中间态声纹向量B相对中间态声纹向量A的第二权重值ω_BA，对于中间态声纹向量C，根据上述确定的第二相似度α_AA、α_BA、α_CA，确定中间态声纹向量C相对中间态声纹向量A的第二权重值ω_CA。然后，根据中间态声纹向量A及其对应的第二权重值ω_AA，确定加权后的中间态声纹向量A，根据中间态声纹向量B及其对应的第二权重值ω_BA，确定加权后的中间态声纹向量B，根据中间态声纹向量C及其对应的第二权重值ω_CA，确定加权后的中间态声纹向量C。接着，将加权后的中间态声纹向量A，加权后的中间态声纹向量B，加权后的中间态声纹向量C进行求和处理，确定加权后的向量和A’，根据该加权后的向量和A’，对该中间态声纹向量A进行更新。

在对中间态声纹向量B进行更新时，通过上述的实施例，分别确定中间态声纹向量A、B、C与该中间态声纹向量B的第二相似度α_AB、α_BB、α_CB之后，根据确定的第二相似度α_AB、α_BB、α_CB，分别确定每个中间态声纹向量A、B、C相对该中间态声纹向量B的第二权重值，即分别获取中间态声纹向量A、B、C分别对应的第二权重值ω_AB、ω_BB、ω_CB。然后基于上述的过程，根据中间态声纹向量A、B、C及其分别对应的第二权重值ω_AB、ω_BB、ω_CB，确定加权后的向量和B’，根据该加权后的向量和B’，对该中间态声纹向量B进行更新。

在对中间态声纹向量C进行更新时，通过上述的实施例，分别确定中间态声纹向量A、B、C与该中间态声纹向量C的第二相似度α_AC、α_BC、α_CC之后，根据确定的第二相似度α_AC、α_BC、α_CC，分别确定每个中间态声纹向量A、B、C相对该中间态声纹向量C的第二权重值，即分别获取中间态声纹向量A、B、C分别对应的第二权重值ω_AC、ω_BC、ω_CC。然后基于上述的过程，根据中间态声纹向量A、B、C及其分别对应的第二权重值ω_AC、ω_BC、ω_CC，确定加权后的向量和C’，根据该加权后的向量和C’，对该中间态声纹向量C进行更新。

其中，第二相似度的确定方法与上述相似度的确定方法相同，不做赘述。

在对于每个中间态声纹向量，根据上述确定的每个第二相似度，确定该中间态声纹向量对应的第二权重值时，若该中间态声纹向量对应的第二相似度越大，则该中间态声纹向量对应的第二权重值越大；若该中间态声纹向量对应的第二相似度越小，则该中间态声纹向量对应的第二权重值越小。

仍以上述为例进行说明，分别获取了第二相似度α_AA、α_BA、α_CA之后，对于中间态声纹向量C，如果该中间态声纹向量C与中间态声纹向量A的第二相似度α_CA越大，说明该中间态声纹向量C对该中间态声纹向量A影响较大，可以将该中间态声纹向量C对应的第二权重值ω_CA设置的大一些。而如果该中间态声纹向量C与中间态声纹向量A的第二相似度α_CA越小，说明该中间态声纹向量C对该中间态声纹向量A影响较小，则可以将该中间态声纹向量C对应的第二权重值ω_CA设置的小一些，对于中间态声纹向量B和中间态声纹向量A，在分别设置其对应的第二权重值时，也基于上述的原理进行设置。

若自注意力层确定当前迭代为最后一次迭代，将最后一次迭代确定的更新后的每个中间态声纹向量，分别确定为语音样本中包含的每个语音帧的第一声纹向量，并将每个语音帧对应的第二权重值重置为初始值，比如，初始值为1。

在另一种可能的实施方式中，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值，包括：

根据确定的每个中间态声纹向量分别与该中间态声纹向量的第二相似度，确定该中间态声纹向量对应的第二相似度之和；对于每个中间态声纹向量，根据该中间态声纹向量对应的第二相似度以及所述第二相似度之和，确定该中间态声纹向量对应的第二权重值。

当基于上述实施例确定了每个中间态声纹向量与该中间态声纹向量的第二相似度之后，根据确定的每个第二相似度，确定对该中间态向量对应的第二相似度之和。然后对于每个中间态声纹向量，基于该中间态声纹向量对应的第二相似度以及上述的第二相似度之和，进行相应的处理，确定该中间态声纹向量对应的第二权重值。

在一种可能的实施方式中，根据该中间态声纹向量对应的第二相似度以及所述第二相似度之和，确定该中间态声纹向量对应的第二权重值，可以通过如下公式确定：

其中，w_jk为中间态声纹向量j相对于中间态声纹向量k对应的第二权重值，α_ik为中间态声纹向量i与中间态声纹向量k的第二相似度,α_jk为中间态声纹向量j与中间态声纹向量k的第二相似度,中间态声纹向量k和j均为语音样本中包含的n个语音帧中的任一语音帧对应的中间态声纹向量。

需要说明的是，第二权重值与上述实施例中的第一权重值的确定方法类似。

基于上述任一实施例，确定了语音样本中包含的每个语音帧的第一声纹向量之后，可以直接确定每个第一声纹向量加权后的向量和，也可以是通过当前的声纹模型中的归纳层，对每个第一声纹向量分别对应的第一权重值进行迭代更新后，根据更新后的第一权重值以及每个第一声纹向量，确定每个第一声纹向量加权后的向量和。

实施例4：图2为本发明实施例提供的具体的声纹模型结构示意图，图3为本发明实施例提供的具体的声纹模型训练流程示意图。下面结合图3，针对图2中的每个结构层进行说明：

首先，在采集到用于训练目标家庭声纹模型的每个家庭成员的语音样本后，为了进一步提高声纹模型的鲁棒性，可以预先对采集到的目标家庭的每个语音样本进行加噪处理。具体的，目标家庭样本集中包含的语音样本包括采集的目标家庭中的每个家庭成员的原始语音样本，和/或对原始语音样本进行加噪后的加噪语音样本。

针对智能设备的每种工作场景，采集的目标家庭的每个家庭成员的任一语音样本中可能会出现的噪声，比如，电视正在播放，窗外有飞机飞过等噪声，根据这些噪声的种类，对采集到的目标家庭的每个家庭成员的每个语音样本进行加噪处理。据统计，在智能设备的工作场景中，比较常见的噪声种类包括：白噪声、高斯噪声、椒盐噪声等。在加噪处理过程中所使用的噪声种类还应尽可能的多，以使目标家庭的每个家庭成员的语音样本更加多样化，从而提高声纹模型识别目标家庭的每个家庭成员的声纹特征向量的准确性。

作为一种可能的实施方式，在对原始声纹模型进行训练时，也可以加入一些非家庭成员的语音样本用于训练目标家庭的声纹模型的误识别率。

其次，通过当前的声纹模型的预处理层，将目标家庭样本集中的任一语音样本进行分帧，并针对每帧语音帧均提取设定维数的语音特征，方便后续当前的声纹模型的特征提取层对每个语音帧进行声纹特征识别，获取每个语音帧对应的中间态声纹向量。

其中，在设置提取的语音特征的维数时，可以根据场景的不同，设置的不同的值，如果对识别的每个语音帧的中间态声纹向量有严格的要求，可以将该维数设置的大一些，比如100维、500维等；如果为了减少提取语音帧的语音特征占用的运行内存，可以将该维数设置的小一些，比如13维、50维。

再次，参见图3中的S301，通过当前的声纹模型中的特征提取层，获取语音样本中包含的每个语音帧对应的中间态声纹向量。

其中，该当前的声纹模型是一种神经网络，该神经网络可以是卷积神经网络CNN、动态神经网络DNN等神经网络中的一种，也可以是至少两种神经网络的组合，比如，CNN+DNN。具体的，可以根据实际需求进行灵活设置。

其次，当获取到语音样本的每个语音帧对应的中间态声纹向量后，当前的声纹模型中的自注意力层对每个语音帧对应的中间态声纹向量进行迭代更新，将每个更新后的中间态声纹向量确定为语音样本的每个语音帧对应的第一声纹向量。通过当前声纹模型的自注意力层确定每个语音帧对应的第一声纹向量的过程，参见图3中的S302～S304，具体过程如下：

S302：通过当前的声纹模型中的自注意力层获取当前的声纹模型对应的第二迭代次数。

S303：通过当前的声纹模型中的自注意力层在每次迭代中，针对上次迭代确定的每个中间态声纹向量，确定每个中间态声纹向量分别与该中间态声纹向量的第二相似度，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值；根据每个中间态声纹向量及其分别对应的第二权重值，确定每个中间态声纹向量加权后的向量和，并根据每个中间态声纹向量加权后的向量和，对该中间态声纹向量进行更新。

S304：通过当前的声纹模型的自注意力层，确定当前迭代为最后一次迭代，则将最后一个迭代周期更新后的每个中间态声纹向量，确定为语音样本中包含的每个语音帧对应的第一声纹向量。

接着，确定了语音样本对应的每个第一声纹向量之后，当前的声纹模型的归纳层对每个第一声纹向量对应的第一权重值进行迭代更新，根据每个第一声纹向量及其分别对应的更新后的每个第一权重值，确定每个第一声纹向量加权后的向量和，并根据每个第一声纹向量加权后的向量和，确定语音样本的声纹特征向量。通过当前声纹模型的归纳层确定语音样本的声纹特征向量，参见图3中的S305～S307，具体过程如下：

S305：通过当前的声纹模型的归纳层获取当前的声纹模型对应的第一迭代次数。

S306：通过当前的声纹模型的归纳层在每次迭代中，对于每个第一声纹向量，根据该第一声纹向量、以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权后的第一声纹向量；根据每个加权后的第一声纹向量，确定语音样本的识别声纹特征向量；对于每个第一声纹向量，根据语音样本对应的每个第一声纹向量分别与识别声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新。

S307：通过当前的声纹模型的归纳层确定当前迭代为最后一次迭代，则根据每个第一声纹向量及其对应的最后一次迭代确定的更新后的每个第一权重值，确定每个第一声纹向量加权后的向量和，并根据每个第一声纹向量加权后的向量和，确定语音样本的声纹特征向量。

最后，参见图3中的S308～S309，通过当前的声纹模型中的输出层，根据语音样本的声纹特征向量以及已注册的声纹特征向量，确定语音样本的第二标识信息。根据语音样本对应的第一标识信息和第二标识信息，对当前的声纹模型的参数进行调整，得到目标家庭对应的声纹模型。

具体的确定语音样本的第二标识信息的过程，包括如下：

通过当前的声纹模型中的输出层分别确定该语音样本的声纹特征向量与已注册的声纹特征向量的第一相似度，根据第一相似度的最大值对应的已注册的声纹特征向量对应的第一标识信息，确定该语音样本对应的第二标识信息。

需要说明的是，可以将上述目标家庭样本集中的语音样本分为两部分，即训练样本子集和测试样本子集，先基于训练样本子集对声纹模型进行训练，再基于测试样本子集对上述已训练的声纹模型的可靠程度进行验证。

实施例5：图4为本发明实施例提供的一种基于上述声纹模型的训练方法的声纹识别过程示意图，该过程包括：

S401：通过预先训练完成的声纹模型，确定待识别语音信息中包含的每个语音帧对应的第二声纹向量，并根据每个第二声纹向量加权后的向量和，确定所述待识别语音信息的声纹特征向量，根据所述待识别语音信息的声纹特征向量以及已注册的声纹特征向量，确定所述待识别语音信息的第三标识信息。

S402：根据所述第三标识信息所归属的家庭成员，确定所述待识别语音信息的发音者。

为了更好的实现目标家庭的声纹识别，在本发明实施例中，该声纹识别过程是基于上述实施例中的声纹模型的训练方法训练完成的声纹模型实现的，基于上述实施例的描述，本领域技术人员可以确定具体的声纹识别过程，在此不再赘述。

由于本发明实施例中的声纹模型是根据上述实施例中的声纹模型的训练方法获得的，该声纹模型是根据目标家庭的每个家庭成员的语音样本进行训练的，因此，该声纹模型中包含的参数更少，该声纹模型更加小型化，对应用该声纹模型进行声纹识别的设备的硬件要求更低，通过该声纹模型进行声纹识别的方法更适于智能设备端，以实现离线声纹识别，即在断网或网络信号不好的情况下，智能设备也可以进行声纹识别，不依赖于网络信号，提高了用户体验。当然，通过上述实施例训练得到的声纹模型进行声纹识别的设备也可以是云端服务器。

实施例6：图5为本发明实施例的一种声纹模型的训练装置结构示意图，该装置包括：

获取模块51，用于获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息；

确定模块52，用于通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息；

调参模块53，用于根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

在一种可能的实施方式中，确定模块52，具体用于：

获取当前的声纹模型对应的第一迭代次数；在每次迭代中，对于每个第一声纹向量，根据该第一声纹向量、以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权后的第一声纹向量；根据每个加权后的第一声纹向量，确定所述语音样本的样本声纹特征向量；对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新。

在一种可能的实施方式中，确定模块52，具体用于：

分别确定每个第一声纹向量与所述样本声纹特征向量的第一相似度，并确定出每个第一声纹向量对应的第一相似度之和；以及针对每个第一声纹向量，根据该第一声纹向量对应的第一相似度以及所述第一相似度之和，确定该第一声纹向量更新后的第一权重值。

在一种可能的实施方式中，确定模块52，具体用于：

在一种可能的实施方式中，确定模块52，具体用于：获取当前的声纹模型对应的第二迭代次数；在每次迭代中，针对上次迭代确定的每个中间态声纹向量，确定每个中间态声纹向量分别与该中间态声纹向量的第二相似度，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值；根据每个中间态声纹向量及其分别对应的第二权重值，确定每个中间态声纹向量加权后的向量和，并根据所述每个中间态声纹向量加权后的向量和，对该中间态声纹向量进行更新。

在一种可能的实施方式中，确定模块52，具体用于：根据确定的每个中间态声纹向量分别与该中间态声纹向量的第二相似度，确定该中间态声纹向量对应的第二相似度之和；对于每个中间态声纹向量，根据该中间态声纹向量对应的第二相似度以及所述第二相似度之和，确定该中间态声纹向量对应的第二权重值。

实施例7：图6为本发明实施例提供的一种声纹识别装置，所述装置包括：

第一处理模块61，用于通过预先训练完成的声纹模型，确定待识别语音信息中包含的每个语音帧对应的第二声纹向量，并根据每个第二声纹向量加权后的向量和，确定所述待识别语音信息的声纹特征向量，根据所述待识别语音信息的声纹特征向量以及已注册的声纹特征向量，确定所述待识别语音信息的第三标识信息；

第二处理模块62，用于根据所述第三标识信息所归属的家庭成员，确定所述待识别语音信息的发音者。

实施例8：图7为本发明实施例提供的一种电子设备结构示意图，该电子设备包括：处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信。

所述存储器73中存储有计算机程序，当所述程序被处理器71执行时，使得处理器71执行如下步骤：

获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息；通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息；根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

在一种可能的实施方式中，处理器71，具体执行通过当前的声纹模型，基于每个第一声纹向量包含的元素的元素值，分别对每个第一声纹向量对应的第一权重值进行迭代更新，根据更新后的每个第一权重值，确定每个第一声纹向量加权后的向量和，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量。

在一种可能的实施方式中，处理器71，具体执行获取当前的声纹模型对应的第一迭代次数；在每次迭代中，对于每个第一声纹向量，根据该第一声纹向量、以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权后的第一声纹向量；根据每个加权后的第一声纹向量，确定所述语音样本的样本声纹特征向量；对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新。

在一种可能的实施方式中，处理器71，具体执行分别确定每个第一声纹向量与所述样本声纹特征向量的第一相似度，并确定出每个第一声纹向量对应的第一相似度之和；以及针对每个第一声纹向量，根据该第一声纹向量对应的第一相似度以及所述第一相似度之和，确定该第一声纹向量更新后的第一权重值。

在一种可能的实施方式中，处理器71，具体执行通过当前的声纹模型，获取所述语音样本中包含的每个语音帧对应的中间态声纹向量；针对每个语音帧对应的中间态声纹向量，基于所述语音样本对应的每个中间态声纹向量包含的元素的元素值，对该中间态声纹向量进行迭代更新，将更新后的中间态声纹向量确定为该语音帧对应的第一声纹向量。

在一种可能的实施方式中，处理器71，具体执行获取当前的声纹模型对应的第二迭代次数；在每次迭代中，针对上次迭代确定的每个中间态声纹向量，确定每个中间态声纹向量分别与该中间态声纹向量的第二相似度，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值；根据每个中间态声纹向量及其分别对应的第二权重值，确定每个中间态声纹向量加权后的向量和，并根据所述每个中间态声纹向量加权后的向量和，对该中间态声纹向量进行更新。

在一种可能的实施方式中，处理器71，具体执行根据确定的每个中间态声纹向量分别与该中间态声纹向量的第二相似度，确定该中间态声纹向量对应的第二相似度之和；对于每个中间态声纹向量，根据该中间态声纹向量对应的第二相似度以及所述第二相似度之和，确定该中间态声纹向量对应的第二权重值。

由于上述电子设备解决问题的原理与声纹模型的训练方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口72用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：图8为本发明实施例提供的一种电子设备结构示意图，该电子设备包括：处理器81、通信接口82、存储器83和通信总线84，其中，处理器81，通信接口82，存储器83通过通信总线84完成相互间的通信；所述存储器83中存储有计算机程序，当所述程序被所述处理器81执行时，使得所述处理器81执行如下步骤：

由于上述电子设备解决问题的原理与上述声纹识别方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是PCI总线或EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口82用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括NVM，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器等；还可以是DSP、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取目标家庭样本集中的语音样本以及所述语音样本所归属的家庭成员的第一标识信息；通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，并根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息；以及根据所述语音样本对应的第一标识信息和第二标识信息，对所述原始声纹模型的参数进行调整，得到所述目标家庭对应的声纹模型。

由于计算机可读存储介质解决问题的原理与上述声纹模型的训练方法相似，因此具体实施可以参见声纹模型的训练方法的实施，重复之处不再赘述。

实施例11：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种声纹模型的训练方法，其特征在于，所述方法包括：

其中，所述根据所述语音样本的声纹特征向量以及已注册的声纹特征向量，确定所述语音样本的第二标识信息包括：

通过原始声纹模型的输出层确定所述语音样本的声纹特征向量与已注册的声纹特征向量的相似度；将相似度最大值对应的已注册的声纹特征向量对应的第一标识信息，作为所述语音样本的第二标识信息；

2.根据权利要求1所述的方法，其特征在于，所述根据每个第一声纹向量加权后的向量和，确定所述语音样本的声纹特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于每个第一声纹向量包含的元素的元素值，分别对每个第一声纹向量对应的第一权重值进行迭代更新，包括：

获取当前的声纹模型对应的第一迭代次数；

在每次迭代中，对于每个第一声纹向量，根据该第一声纹向量、以及上次迭代确定的该第一声纹向量对应的第一权重值，确定加权后的第一声纹向量；根据每个加权后的第一声纹向量，确定所述语音样本的样本声纹特征向量；对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新。

4.根据权利要求3所述的方法，其特征在于，所述对于每个第一声纹向量，根据所述语音样本对应的每个第一声纹向量分别与所述样本声纹特征向量的第一相似度，对该第一声纹向量对应的第一权重值进行更新，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述通过原始声纹模型，确定所述语音样本中包含的每个语音帧对应的第一声纹向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述针对每个语音帧对应的中间态声纹向量，基于所述语音样本对应的每个中间态声纹向量包含的元素的元素值，对该中间态声纹向量进行迭代更新，包括：

获取当前的声纹模型对应的第二迭代次数；

7.根据权利要求6所述的方法，其特征在于，所述对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值，包括：

8.一种基于权利要求1-7任一项所述的方法训练得到的声纹模型的声纹识别方法，其特征在于，所述方法包括：

通过预先训练完成的声纹模型，确定待识别语音信息中包含的每个语音帧对应的第二声纹向量，并根据每个第二声纹向量加权后的向量和，确定所述待识别语音信息的声纹特征向量，根据所述待识别语音信息的声纹特征向量以及已注册的声纹特征向量，确定所述待识别语音信息的第三标识信息；

根据所述第三标识信息所归属的家庭成员，确定所述待识别语音信息的发音者。

9.一种声纹模型的训练装置，其特征在于，所述装置包括：

所述确定模块，具体用于通过原始声纹模型的输出层确定所述语音样本的声纹特征向量与已注册的声纹特征向量的相似度；将相似度最大值对应的已注册的声纹特征向量对应的第一标识信息，作为所述语音样本的第二标识信息；

10.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述确定模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述确定模块具体用于：

13.根据权利要求9或10所述的装置，其特征在于，所述确定模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述确定模块具体用于：

获取当前的声纹模型对应的第二迭代次数；在每次迭代中，针对上次迭代确定的每个中间态声纹向量，确定每个中间态声纹向量分别与该中间态声纹向量的第二相似度，对于每个中间态声纹向量，根据每个第二相似度，确定该中间态声纹向量对应的第二权重值；根据每个中间态声纹向量及其分别对应的第二权重值，确定每个中间态声纹向量加权后的向量和，并根据所述每个中间态声纹向量加权后的向量和，对该中间态声纹向量进行更新。

15.根据权利要求14所述的装置，其特征在于，所述确定模块具体用于：

16.一种基于权利要求1-7任一项所述的方法训练得到的声纹模型的声纹识别装置，其特征在于，所述装置包括：

17.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现根据权利要求1-7中任一所述声纹模型的训练方法的步骤，或者实现根据权利要求8中所述声纹识别方法的步骤。

18.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-7中任一所述声纹模型的训练方法的步骤，或者实现根据权利要求8中所述声纹识别方法的步骤。