CN114822558A

CN114822558A - 声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN114822558A
Application number: CN202210414731.5A
Authority: CN
Inventors: 孟庆林; 蒋宁; 吴海英; 王洪斌; 刘敏; 陈燕丽
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-29

Abstract

本申请公开了声纹识别方法、装置、电子设备及存储介质。涉及人工智能领域。本方法利用声纹识别网络对初始音频数据集提取得到多个声纹特征向量，根据声纹特征向量是否来源于同一个人将其划分为至少一个向量集。根据向量集内每个声纹特征向量与向量集的均值向量之间的相似度对初始音频数据集进行数据筛选，因此通过控制相似度即可得到更加精准的说话人标注数据。在对用户进行声纹识别时，可使用经过数据筛选的目标音频数据集训练得到的声纹识别模型来提取声纹特征。经过上述数据筛选方法筛选得到目标音频数据集是精准的说话人标注数据，因此在利用目标音频数据集训练的声纹识别模型识别用户的声纹特征数据时，能更加准确地识别出用户的身份。

Description

声纹识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术

声纹识别是用户身份识别的一个重要方向，具有唯一性、短期不变性、不会遗失、不会遗忘、难以仿冒、非接触等优秀特征；声纹识别技术日益成熟，越来越多的应用在门禁、金融、社保、汽车、家电、公共安全等领域。声纹识别训练往往依靠大量的精确标注说话人的数据，而在线上所拉取的数据中，很难获取到精确的说话人标注数据。

发明内容

鉴于上述问题，本申请提出了一种声纹识别方法、装置、电子设备及存储介质，能解决上述问题。

第一方面，本申请实施例提供了一种数据筛选方法，所述方法包括：S1：利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络；S2：利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量；S3：将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人；S4：计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度；S5：基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

可以看出，在本申请实施例中，可以利用声纹识别网络对初始音频数据集提取得到多个声纹特征向量，并根据声纹特征向量是否来源于同一个人将其划分为至少一个向量集。接着根据向量集内每个声纹特征向量与向量集的均值向量之间的相似度对初始音频数据集进行数据筛选，因此通过控制相似度即可得到更加精准的说话人标注数据。

第二方面，本申请实施例提供了一种声纹识别模型的训练方法，所述方法包括：利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，所述目标音频数据集按照的上述数据筛选方法筛选得到。

可以看出，在本申请实施例中，经过上述数据筛选方法筛选得到目标音频数据集是精准的说话人标注数据，因此使用目标音频数据集进行模型训练，能够得到识别结果更加准确的声纹识别模型。

第三方面，本申请实施例提供了一种声纹识别方法，所述方法包括：获取待识别用户的声纹特征数据；将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型按照上述声纹识别模型的训练方法训练得到；根据所述语音特征向量对所述待识别用户进行身份识别。

可以看出，在本申请实施例中，经过上述数据筛选方法筛选得到目标音频数据集是精准的说话人标注数据，因此在利用目标音频数据集训练的声纹识别模型识别用户的声纹特征数据时，能够更加准确地识别出用户的身份。

第四方面，本申请实施例提供了一种数据筛选装置，所述装置包括：第一训练模块、第一提取模块、特征划分模块、相似度计算模块以及数据筛选模块。其中，第一训练模块，用于利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络；第一提取模块，用于利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量；特征划分模块，用于将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人；相似度计算模块，用于计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度；数据筛选模块，用于基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

第五方面，本申请实施例提供了一种声纹识别模型的训练装置，所述装置包括：第二训练模块。其中，第二训练模块，用于利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，所述目标音频数据集按照上述数据筛选方法筛选得到。

第六方面，本申请实施例提供了一种声纹识别装置，所述装置包括：第二获取模块、第二提取模块以及身份识别模块。其中，第二获取模块，用于获取待识别用户的声纹特征数据；第二提取模块，用于将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型按照上述数据筛选方法训练得到；身份识别模块，用于根据所述语音特征向量对所述待识别用户进行身份识别。

第七方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述任一方面的方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述任一方面的方法。

第九方面，本申请实施例提供了一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现上述任一方面的方法。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的声纹识别方法的一种应用环境示意图；

图2示出了本申请一实施例提供的一种终端设备的页面示意图；

图3示出了本申请一实施例提供的数据筛选方法的流程示意图；

图4示出了本申请又一实施例提供的数据筛选方法的流程示意图；

图5示出了本申请一实施例提供的初始音频数据集的示意图；

图6示出了本申请一实施例提供的训练好的待训练模型的模型架构图；

图7示出了本申请一实施例提供的声纹识别模型的模型架构图；

图8示出了本申请一实施例提供的声纹识别模型训练方法的流程示意图；

图9示出了本申请另一实施例提供的训练好的待训练模型的模型架构图；

图10示出了本申请一实施例提供的第一残差块的更新过程中的模型架构示意图；

图11示出了本申请另一实施例提供的第一残差块的更新过程中的模型架构示意图；

图12示出了本申请一实施例提供的声纹识别方法的流程示意图；

图13示出了本申请一实施例提供的声纹注册页面的示意图；

图14示出了本申请一实施例提供的初始音频数据集的筛选过程示意图；

图15示出了本申请一实施例提供的声纹识别模型的应用阶段的处理过程示意图；

图16示出了本申请一实施例提供的数据筛选装置的模块框图；

图17示出了本申请一实施例提供的声纹识别模型的训练装置的模块框图；

图18示出了本申请一实施例提供的声纹识别装置的模块框图；

图19示出了本申请一实施例提供的电子设备的结构框图；

图20示出了本申请一实施例提供的计算机可读存储介质的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

声纹特征是人体重要生物特征之一，具有较强的个体特殊性，常用于声纹识别、声纹认证等领域作为身份认证的一种特征。以消费场景为例，在客服与客户沟通的过程中就存在着欺诈的可能性，因此在资金流动时往往需要对双方的身份进行校验。同时，市场上的黑中介已经有了许多种伪造用户身份的办法，任何单一的身份识别手段都无法有效地解决身份伪造的问题。因此，亟需一种更加可靠的身份识别手段。

声纹识别，也称为说话人识别，包括说话人辨认和说话人确认。其中，声纹是人体重要的生物特征之一，具有较强的个体特殊性，常用于声纹识别、声纹认证等领域作为身份认证的一种特征。理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。声纹的独特性主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等；第二个是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间的协作方式是人通过后天与周围人的交流中随机学习到的，会逐渐形成自己的特征。目前利用声纹来区分不同说话人这项技术已经被广泛认可，并且在广泛的应用于各个领域，在金融场景反欺诈领域中，也有非常强的应用前景。

本申请发明人经过仔细研究后发现，声纹识别训练往往依靠大量的精确标注说话人的数据，而在训练时，往往很难获取到精确的说话人标注数据，由此对声纹识别技术的准确性能造成了一定制约。基于此，发明人提出了一种可以有效筛选音频数据集的方案，在对用户进行声纹识别时，可以使用经过数据筛选的音频数据集训练得到的声纹识别模型来提取声纹特征。经过数据筛选可以剔除掉标注不准确的音频数据，筛选后得到的目标音频数据集中的音频数据能够准确地体现说话人的声纹特征，因此，训练得到的声纹识别模型也能够更加精确地提取出用户的声纹特征，最终根据该声纹特征进行声纹识别时，可以得到更加准确的识别结果。

为了更好理解本申请实施例提供的一种声纹识别方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了本申请一实施例提供的声纹识别方法的一种应用环境示意图。作为一种实施方式，本申请实施例提供的数据筛选方法、声纹识别模型的训练方法及声纹识别方法可以应用于同一个电子设备中。其中，该电子设备可以是如图1中所示的服务器110，服务器110可以通过网络与终端设备120相连。其中，网络用以在服务器110和终端设备120之间提供通信链路的介质。网络可以包括各种连接类型，例如有线通信链路、无线通信链路等等，本申请实施例对此不作限制。可选地，在另一些实施例中，电子设备也可以是智能手机、笔记本电脑等等。

应该理解，图1中的服务器110、网络和终端设备120仅仅是示意性的。根据实现需要，可以具有任意数目的服务器、网络和终端设备。示例性地，服务器110可以是物理服务器，也可以是由多个服务器组成的服务器集群等，终端设备120可以是手机、平板、台式电脑、笔记本电脑等等设备。可以理解的是，本申请的实施例还可以允许多台终端设备120同时接入服务器110。

在一些实施例中，终端设备120可以对用户的声音进行录取，得到用户的音频数据。进一步地，终端设备120通过网络向服务器110发送用户的音频数据，在服务器110接收到用户的音频数据后，可以通过本申请实施例所述的声纹识别方法对这些音频数据进行处理。

作为另一种实施方式，本申请实施例提供的数据筛选方法、声纹识别模型的训练方法及声纹识别方法可以应用于不同的电子设备中。例如数据筛选方法应用于电子设备A，声纹识别模型的训练方法应用于电子设备B，声纹识别方法应用于电子设备C等等。除此之外，本申请实施例提供的数据筛选方法、声纹识别模型的训练方法及声纹识别方法中的任两种方法可以应用于同一个电子设备中。例如数据筛选方法、声纹识别模型的训练方法应用于电子设备A，而声纹识别方法应用于电子设备B，或者数据筛选方法、声纹识别方法应用于电子设备A，而声纹识别模型的训练方法应用于电子设备B，或者声纹识别模型的训练方法、声纹识别方法应用于电子设备A，而数据筛选方法应用于电子设备B等等。本申请实施例对上述三种方法所应用的电子设备不作限制。

需要说明的是，本申请实施例中的声纹识别方法可以应用于终端设备。在一些实施方式中，可以在服务器等电子设备中训练得到本申请实施例所述的声纹识别模型，然后，可以将训练完成的声纹识别模型移植到终端设备中。以图2所示的终端设备200为例，终端设备200可以使用声纹识别模型对用户进行声纹识别。因此，在获取到用户的音频数据后，终端设备200可以直接在本地对用户的音频数据进行声纹识别，而无需将用户的音频数据传输给服务器。此时，在本地进行声纹识别无需依赖于网络，更加方便、快捷。

示例性地，当用户输入的音频数据的声纹与用于预先注册的声纹一致时，声纹识别成功。在一些实施方式中，声纹识别成功即可判定用户通过身份认证，可以进行下一步操作，例如进入支付页面进行资金转移等等。在另一些实施方式中，可以将声纹识别与其他身份识别手段结合，实现对用户身份的多重认证，例如可以先后通过人脸识别和声纹识别来验证用户是否为本人，只有所有身份识别手段均通过时，才可判定用户通过身份认证。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的声纹识别方法、装置、电子设备及存储介质进行详细说明。

请参阅图3，其示出了本申请一实施例提供的数据筛选方法的流程示意图。下面将针对图3所示的流程进行详细的阐述，所述数据筛选方法具体可以包括如下步骤：

S1：利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络。

在本申请的实施例中，初始音频数据集可以包含多条音频数据，每条音频数据对应一个说话人。初始音频数据集内的每条音频数据可以对应一个说话人标签，例如线上获取的标注音频数据；也可以是用户的历史音频数据，例如用户的通话录音、语音聊天记录等等。其中，未经过筛选处理的初始音频数据集会包含模糊不清或标注错误的音频数据，致使通过初始音频数据集中的音频数据无法准确地辨别出该音频数据的说话人，例如某条音频数据的实际说话人为A，而说话人标签为B等等。因此，在使用初始音频数据集进行声纹识别模型之前，可以对初始音频数据集进行筛选，使用筛选后得到的目标音频数据集进行模型训练。

在一些实施方式中，在对初始音频数据集进行筛选之前，可以使用初始音频数据集对预先构建的初始声纹识别网络进行训练以得到声纹识别网络。该声纹识别网络可以用于对初始音频数据集中每个音频数据进行特征提取，以得到多个声纹特征向量，再根据这些声纹特征向量对初始音频数据集进行筛选。

其中，初始声纹识别网络可以为ResNet-FPN网络。可选地，还可以对ResNet-FPN网络的结构进行修改以构建本申请实施例的初始声纹识别网络，例如可以对ResNet-FPN网络添加残差结构得到初始声纹识别网络等等。

可选地，在使用初始音频数据集对预先构建的初始声纹识别网络进行训练以得到声纹识别网络之前，还可以先对初始音频数据集中的每个音频数据提取fbank特征，然后使用初始声纹识别网络对每个音频数据的fbank特征进行处理，得到每个音频数据的初始声纹特征向量。具体地，可以对每个音频数据提取fbank80特征，即对每个音频数据提取80维的fbank特征。其中，对音频数据提取fbank特征可以实现对音频数据的非线性处理，可以提高声纹识别的性能。

可选地，还可以对初始音频数据集中的每个音频数据进行预处理操作之后再提取每个音频数据的fbank特征。示例性地，预处理操作可以包括：去噪、分帧、预增强、加窗等等中的一个或多个处理操作。其中，去噪可以去除每个音频数据中的环境噪声；分帧可以将不定长的每个音频数据切分成固定长度的小段；预增强以帧为单位进行，目的在于加强高频段的音频数据；语音在长范围内是不停变动的，没有固定的特性无法做处理，加窗操作可以将每一帧音频数据代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性。

可选地，还可以逐帧对初始音频数据集中的每个音频数据进行短时傅立叶变换STFT，得到短时幅度谱，最后短时幅度谱通过Mel滤波器组得到fbank特征。需要说明的是，在一些实施方式中，不仅可以使用kaldi提取fbank特征，还可以使用espnet或者librosa等工具包进行特征提取得到fbank特征，还可以直接使用python写fbank特征提取的算法。

在使用初始声纹识别网络对初始音频数据集内的每个音频数据提取得到初始声纹特征向量后，可以将每个音频数据的初始声纹特征向量输入到分类器中，接着使分类器根据每个音频数据的初始声纹特征向量对每个音频数据的说话人进行预测，可以根据预测的每个音频数据的说话人与说话人标签之间的误差不断调整初始声纹识别网络及分类器的参数，得到将初始音频数据集中每个音频数据的说话人的误差在一定误差范围内，将此时的初始声纹识别网络作为训练后的声纹识别网络。具体地，可以根据预测的每个音频数据的说话人与说话人标签之间的误差构建第一损失函数，根据第一损失函数调整初始声纹识别网络及分类器的参数，直至第一损失函数收敛，可以将第一损失函数收敛时的初始声纹识别网络作为训练后的声纹识别网络。

S2：利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量。

在本申请的实施例中，声纹特征向量可以表示初始音频数据集中每个音频数据对应的说话人的声纹特征，因此基于该用户声纹特征可以识别出每个音频数据的说话人。

在一些实施方式中，可以先对初始音频数据集中每个音频数据提取fbank特征，再使用上述训练后的声纹识别网络对每个音频数据对应的fbank特征进行处理，得到每个音频数据对应的声纹特征向量。可选地，可以对每个音频数据提取fbank80特征，即对每个音频数据提取80维的fbank特征。可选地，可以预处理之后提取每个音频数据的fbank特征，此时，在预处理之后，可以逐帧对每个音频数据进行短时傅立叶变换STFT，得到短时幅度谱，最后短时幅度谱通过Mel滤波器组得到fbank特征。可以理解的是，对初始音频数据集中的每个音频数据提取fbank特征的过程可以参考上述过程，本申请实施例再此不再赘述。

S3：将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人。

在本申请的实施例中，可以将来源于同一个人的声纹特征向量划分到同一个向量集。可选地，可以根据每个音频数据对应的说话人标签，将每个音频数据对应的声纹特征向量进行划分，例如可以将同一个说话人标签对应的声纹特征向量划分到同一个向量集。

在将初始音频数据集的多个声纹特征向量按照说话人划分为至少一个向量集后，每个向量集可以对应一个说话人，但由于初始音频数据集会包含模糊不清或标注错误的音频数据，因此每个向量集内可能存在不是该向量集对应的说话人的声纹特征向量。例如某条音频数据的实际说话人为用户A，而说话人标签为用户B，根据说话人标签可以将该音频数据的声纹特征向量划分到用户B对应的向量集中，而该音频数据的实际说话人为用户A。

进一步地，每个音频数据的声纹特征向量可以表示该音频数据的说话人的声纹特征，因此根据每个声纹特征向量可以从每个向量集中筛选出说话人标注错误的音频数据。具体地，可以根据每个向量集中的所有声纹特征向量计算该向量集的均值向量，每个向量集的均值向量可以表示该向量集所对应的说话人的声纹特征。示例性地，可以对每个向量集中的所有声纹特征向量进行平均池化处理，得到该向量集的均值向量。

S4：计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度。

S5：基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

作为一种实施方式，每个声纹特征向量与该声纹特征向量所属的向量集的均值向量之间的相似度越大，说明该声纹特征向量所表示的说话人的声纹特征越接近于所属向量集的说话人的声纹特征；相似度越小，说明该声纹特征向量所表示的说话人的声纹特征与所属向量集的说话人的声纹特征之间差异越大，该声纹特征向量的音频数据的说话人标签可能存在错误，也就是说，该音频数据的实际说话人与标注的说话人标签不同。因此，通过相似度即可从初始音频数据集中筛选出说话人标注错误的音频数据。可选地，可以对每个声纹向量与所述声纹特征向量所属的向量集均值向量之间计算余弦相似度，得到多个相似度。

示例性地，数据筛选操作可以包括：可以从初始音频数据集中剔除相似度不满足预设条件的音频数据，而保留相似度满足预设条件的音频数据。将数据筛选操作完成后的初始音频数据集作为目标音频数据集。此外，除了可以从初始音频数据集中剔除相似度不满足预设条件的音频数据，还可以从每个向量集中剔除相似度小于预设阈值的声纹特征向量。

综上所述，在本申请实施例中，可以利用声纹识别网络对初始音频数据集提取得到多个声纹特征向量，并根据声纹特征向量是否来源于同一个人将其划分为至少一个向量集。接着根据向量集内每个声纹特征向量与向量集的均值向量之间的相似度对初始音频数据集进行数据筛选，因此通过控制相似度即可得到更加精准的说话人标注数据。

在一些实施方式中，目标音频数据集包括的音频数据对应的相似度均大于或等于预设阈值。即是说，上述数据筛选操作具体可以包括：从初始音频数据集中剔除相似度小于预设阈值的音频数据，而保留相似度大于或等于预设阈值的音频数据。从而通过数据筛选操作后，目标音频数据集中的音频数据对应的相似度均大于或等于预设阈值。

在另一些实施方式中，在将初始音频数据集中相似度小于预设阈值的音频数据剔除，并从每个向量集中剔除相似度小于预设阈值的声纹特征向量之后，可以重新计算每个向量集的均值向量，计算初始音频数据集中剩余的每条声纹特征向量与所属向量集的均值向量之间的相似度，再次比较每个相似度与预设阈值之间的大小关系，并初始音频数据集中存在相似度小于预设阈值的音频数据的情况下重复执行数据筛选操作，直到经过数据筛选操作后得到的目标音频数据集中不存在相似度小于预设阈值的音频数据，则停止数据筛选。

具体地，请参阅图4，其示出了本申请又一实施例提供的数据筛选方法的流程示意图。具体可以包括如下步骤：

在本申请的实施例中，步骤S1-S4的内容可以参考前述实施例的对应内容，本申请实施例在此不再赘述。

S51：初始音频数据集中是否存在相似度小于预设阈值的音频数据。若是，执行步骤S52；若否，执行步骤S7。

由前述实施例可知，相似度越大，该声纹特征向量所表示的说话人的声纹特征越接近于所属向量集的说话人的声纹特征；相似度越小，该声纹特征向量所表示的说话人的声纹特征与所属向量集的说话人的声纹特征之间差异越大。在本申请的实施例中，可以设置一个预设阈值来衡量每个声纹特征向量与所属的向量集的均值向量之间的相似度是否达到标准，即通过预设阈值来确定每个声纹特征向量对应的说话人是否与所属的向量集对应的说话人一致，进而确定每个音频数据是否标注正确。

具体地，若初始音频数据集中存在相似度小于预设阈值的音频数据，则判定初始音频数据集中存在标注错误的音频数据。因此，在初始音频数据集中存在相似度小于预设阈值的音频数据的情况下，可以根据初始音频数据集对应的多个相似度对初始音频数据集进行数据筛选操作，得到目标音频数据集，即执行步骤S52。而在初始音频数据集中不存在相似度小于预设阈值的音频数据的情况下，也就是说，初始音频数据集中每个音频数据的相似度均大于或等于预设阈值，可以确定此时初始音频数据集中不存在标注错误的音频数据，此时可以将初始音频数据集作为目标音频数据集并停止数据筛选，即执行步骤S7。

S52：基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

S6：将本次得到的所述目标音频数据集作为新的所述初始音频数据集，将本次训练后的所述声纹识别网络作为新的所述初始声纹识别网络。

作为一种实施方式，若初始音频数据集中存在相似度小于预设阈值的音频数据，则基于多个相似度对初始音频数据集进行数据筛选操作，得到目标音频数据集。具体地，数据筛选操作可以包括：从初始音频数据集中剔除相似度小于预设阈值的音频数据，而保留相似度大于或等于预设阈值的音频数据。可以将经常数据筛选操作后的初始音频数据集作为目标音频数据集。

进一步地，从初始音频数据集中剔除相似度小于预设阈值的音频数据之后，每个向量集中的声纹特征向量发生了改变，每个向量集的均值向量也发生了变化，因此，为了使数据筛选更加准确，可以重新计算每个向量集的均值向量并重新计算剩余的每条声纹特征向量与所属向量集的均值向量之间的相似度。即是说，根据多个相似度对初始音频数据集进行数据筛选操作，得到目标音频数据集之后，可以将本次得到的目标音频数据集作为新的初始音频数据集，将本次训练后的声纹识别网络作为新的初始声纹识别网络，并返回执行步骤S1-S4以及S51。若新的初始音频数据集中仍旧存在相似度小于预设阈值的音频数据，则执行步骤S52，基于多个相似度对新的初始音频数据集进行数据筛选操作，得到目标音频数据集；若新的初始音频数据集中不存在相似度小于预设阈值的音频数据，则执行步骤S7，停止数据筛选，并将新的初始音频数据集作为目标音频数据集。

S7：停止数据筛选。

可以理解的是，经过上述数据筛选过程，最后目标音频数据集包括的音频数据对应的相似度均大于或等于预设阈值。

在另一实施例中，若初始音频数据集由带有说话人标签的音频数据组成，则可以对同一说话人标签对应的向量集内的声纹特征向量作均值计算，得到每一个说话人标签对应的均值向量。然后分别计算每个声纹特征向量与所属的向量集的均值向量之间的相似度，然后根据该相似度筛选音频数据，直到将每个声纹特征向量与所属向量集对应的均值向量之间的相似度都大于预设阈值。

示例性地，如图5所示，在筛选时，初始音频数据集如图所示，使用初始音频数据集对初始声纹识别网络训练得到的声纹识别网络对这4条音频进行特征提取，得到音频1的声纹特征向量1、音频2的声纹特征向量2、音频3的声纹特征向量3以及音频4的声纹特征向量4。接着，可以将说话人标签A对应的声纹特征向量1、声纹特征向量4划分到向量集1，将说话人标签B对应的声纹特征向量2划分到向量集2，将说话人标签C对应的声纹特征向量3划分到向量集3。分别计算向量集1、向量集2和向量集3的均值向量。例如，可以对向量集1中的声纹特征向量1、声纹特征向量4进行平均池化处理，得到向量集1的均值向量1；对声纹特征向量2进行平均池化处理，得到向量集2的均值向量2；对声纹特征向量3进行平均池化处理，得到向量集3的均值向量3。分别对4条声纹特征向量1与所属的向量集的均值向量计算相似度，如对音频1，计算声纹特征向量1与均值向量1之间的余弦相似度等等。接着根据4个相似度对这四条音频进行数据筛选操作，例如若音频1对应的相似度小于预设阈值，其余均大于或等于预设阈值，则将音频1删除，得到目标音频数据集包括音频2、音频3、音频4；将本次得到的目标音频数据集(3条音频)作为新的初始音频数据集，本次训练后的声纹识别网络作为新的初始音频数据集，重复上述特征提取到计算相似度的过程，若此次计算得到音频2、音频3、音频4中存在相似度小于预设阈值的音频，则继续进行数据筛选；若此次计算得到音频2、音频3、音频4的相似度均大于或等于预设阈值，则停止数据筛选，将此时包括音频2、音频3、音频4的新的初始音频数据集作为目标音频数据集。

可选地，预设阈值可以预先设置。在一些实施方式中，预设阈值可以根据初始音频数据集获取的场景而设置。例如，可以将音频时长较长的通话场景的预设阈值设置为第一阈值，将音频时长较短的声纹识别场景的预设阈值设置为第二阈值，其中，第一阈值可以大于第二阈值。

应当了解，在相似度小于预设阈值的情况下，通过迭代计算每次筛选后的初始音频数据集中音频数据的相似度，并且基于相似度重复执行上述数据筛选操作，可以准确地从初始音频数据集筛选出标注错误的音频数据，从而使得数据筛选后的目标音频数据集中音频数据对应的相似度均大于或等于预设阈值，为标注准确地音频数据。

在本申请的实施例中，可以利用上述任一方法实施例中筛选得到的目标音频数据集对待训练模型进行训练，得到声纹识别模型。

由前述实施例可知，目标音频数据集中的音频数据为标注准确的音频数据，即目标音频数据集中的每条音频数据对应的说话人标签为真实的说话人，因此使用这些标注准确的音频数据训练待训练模型，能够得到识别结果更加准确的声纹识别模型。

在一些实施方式中，使用目标音频数据集对待训练模型进行训练之前，可以对目标音频数据集进行预设处理以增加音频干扰项，然后使用预设处理后的目标音频数据集训练待训练模型，以得到声纹识别模型。可选地，预设处理例如可以是对目标音频数据集中的音频数据执行增加噪声、加快语速、增加数据扰动等一项或多项操作。这样在目标音频数据集中音频数据较少时，通过预设处理增加音频干扰项的方式可以使训练用的音频变得难以辨认，而通过上述数据筛选后，目标音频数据集中每条音频数据对应的说话人标签的准确的，因此使用难以辨认但准确标注的音频数据对待训练模型进行训练，能够使训练得到的声纹识别模型具有更强的辨识能力，对干扰环境下的音频也可准确识别出说话人，从而达到增加模型的鲁棒性的目的。

在一些实施方式中，在训练过程中，可以使用待训练模型对目标音频数据集中的每个音频数据提取声纹特征，以得到待训练声纹特征向量。可选地，首先可以对目标音频数据集中的每个音频数据提取fbank特征，再利用待训练模型对fbank特征提取待训练声纹特征向量。可选地，还可以预先将提取得到的fbank特征保存到特征文件中，接着在训练过程中分批次地读取该特征文件得到fbank特征。其中，若目标音频数据集中包括说话人标签，则可以读取特征文件，形成data-label的特征数据组合，然后将该特征数据组合输入待训练模型中提取得到待训练声纹特征向量。

接着，可以使用待训练模型根据待训练声纹特征向量确定对应音频数据的说话人。可选地，可以使用待训练模型根据待训练声纹特征向量对音频数据的说话人标签进行预测，根据预测的每个音频数据的说话人与说话人标签之间的误差构建第二损失函数，根据第二损失函数调整待训练模型的参数，直至第二损失函数收敛，可以将第二损失函数收敛时的待训练模型作为训练后的声纹识别模型。

在一些实施方式中，待训练模型可以由上述数据筛选过程中训练得到的声纹识别网络和分类器组成。可选地，上述分类器例如可以为am-softmax分类器。其中，声纹识别网络用于对目标音频数据集中的每个音频数据提取声纹特征，以得到待训练声纹特征向量；分类器用于根据待训练声纹特征向量确定对应音频数据的说话人。声纹识别网络是由数据筛选过程中的音频数据集训练得到的，在数据筛选操作停止之前，数据筛选过程中的音频数据集中仍旧可能包括标注错误的音频数据，因此训练得到的声纹识别网络可能无法得到准确的声纹特征向量，则通过分类器预测得到的说话人也不准确。因此，可以使用筛选完成的目标音频数据集再次训练声纹识别网络和分类器。此时，由于目标音频数据集所包含的音频数据是标注准确的，因此可以使训练后得到的声纹识别模型也可准确预测说话人。可选地，此时第二损失函数可以与第一损失函数一致。

在一些实施例中，待训练模型可以包括残差结构。在一些神经网络中，为了提取到多个层次的特征信息，会逐渐增加神经网络的网络深度。但是，随着网络深度的增加，神经网络训练误差会越来越多，这被描述为网络退化。而残差结构可以采用恒等映射的方式使得增加网络深度，而不用担心网络退化的问题。残差结构主要包括以下2个网络结构：跳连连接和激活函数。其中，通过跳连连接可以将待训练模型的卷积层的输入数据与该卷积层的输出结果相加，再将相加后的数据输入激活函数，将经过激活函数计算得到的数据作为该卷积层的输出结果。

具体地，待训练模型可以包括多个依次连接的第一残差块，每个第一残差块包括跳连连接及多条支路，每条支路包括至少一个第一卷积层。可选地，待训练模型中的多个第一残差块可以通过激活函数相连接。可选地，第一卷积层可以由卷积单元组成，可以对输入第一卷积层的音频数据作卷积运算，从而对音频数据提取到多个维度的声纹特征。

在一些实施方式中，在训练过程中对包括多个第一残差块的待训练模型进行训练，可以提升网络的性能，有效的缓解因层数过多而易出现的梯度弥散现象。进一步地，还可以在训练完成后，从训练好的待训练模型中去掉第一残差块，得到声纹识别模型。

具体地，可以将训练好的待训练模型的每个第一残差块更新为第二卷积层，从而得到声纹识别模型。其中，第二卷积层的输出结果与第二卷积层对应的第一残差块的输出结果一致。

可以理解的是，多个依次连接的第一残差块组成了残差结构。与第一卷积层类似，第二卷积层也可以由卷积单元组成，同样可以对输入第二卷积层的音频数据作卷积运算，从而对音频数据提取到多个维度的声纹特征。其中，第一卷积层的结构可以与第二卷积层的结构相同，也可以不相同，本申请实施例对此不作限制。

为了保证第二卷积层的输出结果与第二卷积层对应的第一残差块的输出结果一致，进而使第一残差块去掉后的声纹识别模型的识别结果与训练好的所述待训练模型的识别结果保持不变，在输入相同的音频数据的情况下，可以基于训练好的待训练模型的每个第一残差块的输出结果确定更新后的第二卷积层的权重参数和偏置参数，从而得到声纹识别模型。

示例性地，如图6所示，训练好的待训练模型包括2个第一残差块，2个第一残差块通过激活函数相连，每个第一残差块包括跳连连接和2个支路，每个支路包括2个第一卷积层。经过更新后，如图7所示，声纹识别模型包括2个第二卷积层，分别对应待训练模型的2个第一残差块。其中，声纹识别模型中激活函数之前的第二卷积层的输出结果，与训练好的待训练模型中激活函数之前的第一残差块的输出结果一致；声纹识别模型中激活函数之后的第二卷积层的输出结果，与训练好的待训练模型中激活函数之后的第一残差块的输出结果一致。

应当说明，在待训练模型中，每个第一残差块所包括的支路数量可以相同，也可以不相同，而每个支路所包括的第一卷积层的数量可以相同，也可以不相同。

本申请实施例中，将训练好的待训练模型中的每个第一残差块更新为第二卷积层，得到声纹识别模型，可以加速声纹识别模型的推理过程，提升声纹识别的识别效率。

进一步地，在上述实施例的基础上，每个第一残差块的每条支路上的第一卷积层的卷积尺寸各有不同，若强行将第一残差块更新为第二卷积层，则无法得出第二卷积层应当使用多大的卷积尺寸。因此，在一些实施方式中，对于每个第一残差块，可以基于第一残差块所包括的至少一个第一卷积层的卷积尺寸更新为同一个卷积尺寸后，再将第一残差块更新为第二卷积层。

具体地，请参阅图8，其示出了本申请一实施例提供的声纹识别模型训练方法的流程示意图。具体可以包括如下步骤：

S810：基于所述第一残差块包括的至少一个第一卷积层的卷积尺寸得到目标尺寸。

在本申请的实施例中，可以对每个第一残差块分别更新第一卷积层的卷积尺寸，因此最终得到的每个第一残差块对应的第二卷积层的卷积尺寸可以相同，也可以不同。

可选地，对于每个第一残差块，目标尺寸可以为该第一残差块中任一个第一卷积层的卷积尺寸。为方便计算，目标尺寸例如可以为该第一残差块中最大的卷积尺寸或最小的卷积尺寸等等。

S820：将所有的所述第一卷积层中卷积尺寸与目标尺寸不一致的第一卷积层作为待处理卷积层。

S830：将所述待处理卷积层的卷积尺寸更新为所述目标尺寸。

S840：将所述跳连连接等效为具有目标尺寸的第三卷积层。

S850：将所有具有目标尺寸的所述第一卷积层以及所述第三卷积层融合为所述第二卷积层。

接着，可以将第一残差块中，与目标尺寸不一致的第一卷积层的卷积尺寸更新为目标尺寸，并且将跳连连接等效为具有目标尺寸的第三卷积层。示例性地，可以将所有的第一卷积层中卷积尺寸与目标尺寸不一致的第一卷积层作为待处理卷积层，将待处理卷积层的卷积尺寸更新为目标尺寸。

示例性地，如图9所示，训练好的待训练模型包括2个第一残差块，2个第一残差块通过激活函数相连，每个第一残差块包括跳连连接和2个支路，2个支路中一个支路包括2个卷积尺寸为3X3的第一卷积层，另一个支路包括1个卷积尺寸为3X3的第一卷积层以及1个卷积尺寸为1X1的第一卷积层。其中，跳连连接可以将第一残差块的输入通过BN(Batchnormalization，批标准化)进行归一化后在与第一残差块的所有支路的输出结果相加，得到第一残差块的输出结果。可选地，激活函数可以为ReLU函数(Rectified Linear Unit，线性整流函数)。

以激活函数之前的第一残差块为例，在该第一残差块的更新过程中，可以将卷积尺寸3X3作为目标尺寸，则其中卷积尺寸为1X1的第一卷积层为待处理卷积层。如图10所示，可以将待处理卷积层的卷积尺寸从1X1更新为目标尺寸3X3，由此每个支路内2个第一卷积层的卷积尺寸均为目标尺寸3X3，同时还可以将跳连连接等效为具有3X3的卷积尺寸的第三卷积层。

此时，同一个第一残差块中所有卷积层的卷积尺寸均为目标尺寸，因此可以将同一个第一残差块中具有目标尺寸的第一卷积层和第三卷积层融合，得到第二卷积层。可以理解的是，第二卷积层的卷积尺寸也为目标尺寸。

可选地，在同一个第一残差块中，首先可以将每条支路上具有目标尺寸的第一卷积层融合为一个具有目标尺寸的第四卷积层，其中，第四卷积层的输出结果与该支路的输出结果一致，再将每个支路对应的第四卷积层及第三卷积层相加得到上述第二卷积层。示例性地，可以将图10中每个支路内的2个3X3第一卷积层融合为图11所示的一个3X3第四卷积层，再将每个支路对应的第四卷积层和所述第三卷积层相加，即可得到第二卷积层。通过上述过程，可以将每个第一残差块等效为一个第二卷积层，同时每个第一残差块的输出结果与对应的第二卷积层一致。

在上述将每个支路上具有目标尺寸的第一卷积层融合为一个具有目标尺寸的第四卷积层的过程中，可以基于训练好的待训练模型的每个第一残差块中每个支路的输出结果确定融合后的第四卷积层的权重参数和偏置参数。接着，在将每个支路对应的第四卷积层及第三卷积层相加得到上述第二卷积层时，可以将每个支路对应的第四卷积层的权重参数与第三卷积层的权重参数相加，得到第二卷积层的权重参数，其中，第三卷积层的权重参数为0；将每个支路对应的第四卷积层的偏置参数与第三卷积层的偏置参数相加，得到第二卷积层的偏置参数。

经过上述卷积层的尺寸更新、融合、相加后，可以将训练好的待训练模型的每个第一残差块均等效为一个第二卷积层，其中，第二卷积层不包含残差结构，保证识别结果不变的前提下完成了残差结构的去除。通过对训练好的待训练模型的网络结构的优化，可以提升声纹识别模型的识别效率。

可以理解的是，从训练好的待训练模型中去掉残差结构后，声纹识别模型中仅有第二卷积层存在，若需要将声纹识别模型移植到移动终端中，则可以更好地兼容移植工具。

在本申请的实施例还提供了一种声纹识别方法，可以利用上述任一声纹识别模型的训练方法对应的方法实施例训练得到的声纹识别模型对待识别用户进行身份识别。请参阅图12，其示出了本申请一实施例提供的声纹识别方法的流程示意图。下面将针对图12所示的流程进行详细的阐述，所述声纹识别方法具体可以包括如下步骤：

S1210：获取待识别用户的声纹特征数据。

在本申请的实施例中，可以通过声纹识别的方式对用户进行身份认证，在身份认证时，可以获取用户的待识别音频。

在一些实施例中，可以通过嵌入到电子设备中的麦克风采集用户的语音。在另一些实施例中，也可以通过电子设备外接的音频采集设备采集环境语音，例如电子设备外接耳机，包括有线耳机、蓝牙耳机等，通过嵌入到耳机中的麦克风采集环境语音。还可以通过其他音频采集设备如话筒、拾音器等采集环境语音。本实施例中的电子设备可以包含一个或多个麦克风，或者麦克风阵列，也可以外接一个或多个音频采集设备，可以仅通过麦克风采集语音，也可以仅使用外接的音频采集设备采集语音，还可以对麦克风及外接的音频采集设备同时采集到多通道语音进行处理后得到用户的语音。在又一些实施例中，还可以通过终端设备获取用户的语音。此时，终端设备在采集得到用户的语音后，可以该语音通过传输给电子设备，由电子设备对该语音进行声纹识别，传输方式可以是蓝牙、有线网络、无线网络等等，本申请实施例对此不做限制。

在一些实施方式中，在一些保密级别较高的场景下，还可以每间隔预设时间获取用户的待识别音频。示例性地，可以每间隔预设时间自动监听用户的语音，而无需用户操作，然后对监听到用户的语音进行声纹识别。

在另一些实施方式中，还可以设置一个语音激活阈值，当检测到所处环境的用户语音强度大于该语音激活阈值时，获取该环境下用户的语音，然后对将该语音作为待识别语音进行声纹识别。其中，语音激活阈值可以为系统默认值，例如5db，也可以由用户设置。

在一些实施方式中，可以对待识别音频提取声纹特征数据。例如可以对待识别音频提取fbank特征，然后将该fbank特征作为待识别用户的声纹特征数据。可选地，对待识别音频提取fbank特征的过程可参考前述实施例中对初始音频数据集中的每个音频数据提取fbank特征的过程，在此不再赘述。

S1220：将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型为目标音频数据集对待训练模型进行训练而得到。

接着，可以利用上述任一声纹识别模型的训练方法对应的方法实施例训练得到的声纹识别模型对声纹特征数据进行特征提取，得到待识别用户的语音特征向量。其中，声纹识别模型可以是使用上述数据筛选后得到的目标音频数据集训练得到。经过前述实施例的训练过程，声纹识别模型能够准确地提取出用户的声纹特征，即上述语音特征向量能够准确地体现待识别用户的声纹特征。

S1230：根据所述语音特征向量对所述待识别用户进行身份识别。

在一些实施方式中，在进行身份识别之前，可以预先根据用户录入的音频进行声纹注册。示例性地，在声纹注册时，也可以使用上述声纹识别模型对用户录入的音频进行特征提取，得到用户声纹向量并存储该用户声纹向量。可选地，声纹注册页面可以如图13所示，用户可以根据提示录入音频，若对音频成功提取到用户声纹向量，则用户可以点击提交，将该用户声纹向量保存。此外，用户还可以通过点击重录重新录入音频。在一些实施方式中，还可以选择口音，例如选择使用普通话或方言进行录音等等。

在一些实施方式中，在提取得到用户的语音特征向量后，可以将该语音特征向量与预先存储的用户声纹向量进行匹配，若两者匹配，则判断身份识别成功；若两者不匹配，则输出身份识别失败。

可选地，可以将语音特征向量与预先存储的用户声纹向量进行概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)，确定语音特征向量与用户声纹向量是否属于同一说话人的声纹。若属于同一说话人的声纹，表示两者匹配，身份识别成功；若不属于同一说话人的声纹，表示两者不匹配，身份识别失败。

可以理解的是，预先存储的用户声纹向量可以为多个，即电子设备可以存储多个说话人的用户声纹向量。取待识别用户进行声纹识别时，可以将提取到的语音特征向量与每个用户声纹向量进行匹配，若存在匹配成功的用户声纹向量，则判断身份识别成功；若不存在匹配成功的用户声纹向量，则判断身份识别失败。进一步地，还可以存储用户声纹向量对应的说话人，在身份识别成功时，还可以输出匹配成功的用户声纹向量对应的说话人，从而可以识别出取待识别用户的身份信息。

可选地，若对待识别用户的身份识别失败，即检测到电子设备内未预先存储待识别用户的用户声纹向量，则可以提醒用户进行声纹注册。

在本实施例中，在对用户进行身份识别时，可以使用经过数据筛选的目标音频数据集训练得到的声纹识别模型来提取声纹特征。数据筛选可以剔除初始音频数据集中标注错误的音频数据，因此经过数据筛选的目标音频数据集能够准确地体现说话人的声纹特征，因此，训练得到的声纹识别模型也能够更加精确地提取出用户的声纹特征，最终根据该声纹特征进行声纹识别时，可以得到更加准确的身份识别结果。

在一些具体的实施方式中，请参见图14，在获取得到原始线上数据后，可以将该原始线上数据作为初始音频数据集H1。使用数据集H1对预先构建的初始声纹识别网络进行训练，以得到声纹识别网络。接着，使用数据集H1训练的声纹识别网络计算数据集H1中的每条音频数据进行特征提取，得到与每条音频数据对应的声纹特征向量x-vector。

其中，原始线上数据由已标注的音频数据组成，也就是说，该数据集H1包括多个说话人的音频数据，且每个音频数据对应一个说话人标签。因此，在对数据集H1进行数据筛选时，可以将同一个说话人标签对应的声纹特征向量x-vector划分为一个向量集，然后根据同一个向量集下的x-vector计算书均值向量，。从而完成对每个说话人下面的所有音频数据计算均值，上述均值向量即为每个说话人下面的声纹x-vector计算得到的均值特征。使用均值特征和同一个说话人的每条音频进行打分，当打分小于预设阈值时，删除该音频。示例性地，可以数据集H1内，对每个说话人计算每条x-vector和均值特征的余弦相似度，将余弦相似度小于预设阈值的音频删除，得到数据集H2。对数据集H2作为新的初始音频数据集，并将本次训练得到的声纹识别网络作为初始声纹识别网络，重复上述数据筛选过程，即训练声纹识别网络到计算均值特征并进行打分的过程，直到经过n轮迭代，得到筛选后的数据集Hn，其中，数据集Hn中对应于同一个说话人的x-vector与均值特征的相似度均大于预设阈值。可以将数据集Hn作为目标音频数据集，数据筛选完毕。

进一步地，可以使用目标音频数据集对上述数数据筛选完毕得到的声纹识别网络进行训练，从而得到声纹识别模型。

可选地，可以将目标音频数据集中的音频数据通过增加噪声、加快语速、增加数据扰动方式进行预设处理后，再使用预设处理后的目标音频数据集训练声纹识别网络。

可选地，还可以按照预设比例将目标音频数据集划分为训练集和测试集。在进行划分时，可以根据同一个说话人对应的所有音频数据同时划分到训练集或测试集中，也就是说，划分后的训练集与测试集中音频数据分别对应不同的说话人。接着，在训练阶段，使用训练集训练声纹识别网络；在测试阶段，使用测试集对声纹识别模型进行测试。示例性地，预设比例例如可以为8:2，即按照8:2的比例将目标音频数据集划分为训练集和测试集。

进一步地，还可以对训练集中的每个音频数据提取fbank特征后，再将音频数据对应fbank特征输入声纹识别网络中进行训练。

可以理解的是，上述初始音频数据集的数据筛选过程以及声纹识别模型的训练过程均可以参考前述实施例中的对应内容，本申请实施例在此不再赘述。

其中，为了提升网络的训练能力，上述声纹识别网络可以包括残差结构。可选地，在声纹识别模型的测试阶段以及应用阶段，可以按照前述实施例对应的方式，可以从训练好的声纹识别网络中去除该残差结构，并且将去除了残差结构的网络作为声纹识别模型，这样可以加速声纹识别过程，提高识别效率。

进一步地，声纹识别模型的应用阶段，以客服与客户对话的场景为例，如图15所示，首先可以对客户进行声纹注册。例如，在客户声音呼入时，对呼入的声音进行录取，然后在录音得到的音频中对客服与客户的声音进行声道分离，以获取到客户声道的声音。接着，可以使用声纹识别模型对客户声道的声音提取声纹特征，得到客户声道特征。此时，可以将客户声道特征作为该客户的用户声纹向量保存下来，由此完成声纹注册。当该客户再次呼入时，可以使用声纹识别模型对本次客户声道的声音提取特征，得到待识别声纹特征。进一步地，可以待识别声纹特征与预先注册完成的用户声纹向量进行匹配，例如可以将待识别声纹特征与用户声纹向量进行PLDA分类，判断两者是否为同一个说话人。若判断两者为同一个说话人，则匹配成功，表示客户的身份识别成功。

综上所述，本实施例提供的声纹识别方法，在对用户进行身份识别时，可以使用经过数据筛选的目标音频数据集训练得到的声纹识别模型来提取声纹特征。经过数据筛选可以剔除掉相似度较低的音频数据，筛选后得到的目标音频数据集中的音频数据能够准确地体现说话人的声纹特征，因此，训练得到的声纹识别模型也能够更加精确地提取出用户的声纹特征，最终根据该声纹特征进行声纹识别时，可以得到更加准确的身份识别结果。

请参阅图16，示出了本申请一实施例提供的数据筛选装置的模块框图。具体地，该数据筛选装置可以包括：第一训练模块1610、第一提取模块1620、特征划分模块1630、相似度计算模块1640以及数据筛选模块1650。

第一训练模块1610，用于利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络；第一提取模块1620，用于利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量；特征划分模块1630，用于将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人；相似度计算模块1640，用于计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度；数据筛选模块1650，用于基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

其中，上述数据筛选装置中目标音频数据集包括的音频数据对应的相似度均大于或等于预设阈值。

可选地，上述数据筛选模块1650可以包括：第一数据筛选子模块，用于若所述初始音频数据集中存在相似度小于所述预设阈值的音频数据，基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

上述数据筛选模块1650还可以包括：第二数据筛选子模块，用于将本次得到的所述目标音频数据集作为新的所述初始音频数据集，将本次训练后的所述声纹识别网络作为新的所述初始声纹识别网络，并返回执行第一训练模块1610、第一提取模块1620、特征划分模块1630、相似度计算模块1640以及数据筛选模块1650的内容，直至经过数据筛选操作后得到的目标音频数据集中不存在相似度小于所述预设阈值的音频数据，则停止数据筛选。

请参阅图17，示出了本申请一实施例提供的声纹识别模型的训练装置的模块框图。具体地，该训练装置可以包括：第二训练模块1710。

其中，第二训练模块用于利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，所述目标音频数据集为上述数据筛选装置筛选得到。

可选地，上述待训练模型包括多个依次连接的第一残差块，每个所述第一残差块包括跳连连接及多条支路，每条支路包括至少一个第一卷积层。则上述第二训练模块可以包括：第二训练子模块，用于利用所述目标音频数据集对所述待训练模型进行训练；结构更新模块，用于将训练好的所述待训练模型的每个所述第一残差块更新为第二卷积层，得到所述声纹识别模型，其中，所述第二卷积层的输出结果与所述第二卷积层对应的第一残差块的输出结果一致。

可选地，针对每个所述第一残差块，上述结构更新模块还可以用于基于所述第一残差块包括的至少一个第一卷积层的卷积尺寸得到目标尺寸，将所有的所述第一卷积层中卷积尺寸与目标尺寸不一致的第一卷积层作为待处理卷积层，将所述待处理卷积层的卷积尺寸更新为所述目标尺寸，将所述跳连连接等效为具有目标尺寸的第三卷积层，将所有具有目标尺寸的所述第一卷积层以及所述第三卷积层融合为所述第二卷积层。

可选地，在上述实施方式的基础上，结构更新模块还可以包括：融合模块，用于将每条支路上具有目标尺寸的第一卷积层融合为一个具有目标尺寸的第四卷积层，所述第四卷积层的输出结果与该支路的输出结果一致；相加模块，用于将每条支路对应的第四卷积层及所述第三卷积层相加得到所述第二卷积层。

可选地，上述第二训练模块还可以用于对所述目标音频数据集进行预设处理以增加音频干扰项，利用处理后的所述目标音频数据集对所述待训练模型进行训练，得到所述声纹识别模型。

请参阅图18，示出了本申请一实施例提供的声纹识别装置的模块框图。具体地，该声纹识别装置可以包括：第二获取模块1810、第二提取模块1820及身份识别模块1830。

第二获取模块1810，用于获取待识别用户的声纹特征数据；第二提取模块1820，用于将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型按照如权利要求4-9任一项所述的方法训练得到；身份识别模块1830，用于根据所述语音特征向量对所述待识别用户进行身份识别。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图19，其示出了本申请一实施例提供的电子设备的结构框图。本实施例中的所述电子设备可以包括一个或多个如下部件：处理器1910、存储器1920以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1920中并被配置为由一个或多个处理器1910执行，一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。

其中，电子设备可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的，电子设备可以为移动电话或智能电话(例如，基于iPhone TM，基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM，PlayStation PortableTM，Gameboy Advance TM，iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备，其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等，电子设备还可以为其他的可穿戴设备(例如，诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。

电子设备还可以是多个电子设备中的任何一个，多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，便携式医疗设备以及数码相机及其组合。

在一些情况下，电子设备可以执行多种功能(例如，播放音乐，显示视频，存储图片以及接收和发送电话呼叫)。如果需要，电子设备可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。

可选地，电子设备也可以是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，还可以是提供人脸识别、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。

处理器1910可以包括一个或者多个处理核。处理器1910利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器1920内的指令、应用程序、代码集或指令集，以及调用存储在存储器1920内的数据，执行电子设备的各种功能和处理数据。可选地，处理器1910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1910可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1910中，单独通过一块通信芯片进行实现。

存储器1920可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1920可用于存储指令、应用程序、代码、代码集或指令集。存储器1920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的处理器1910、存储器1920的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参考图20，其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质2000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质2000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质2000包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质2000具有执行上述方法中的任何方法步骤的程序代码2010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码2010可以例如以适当形式进行压缩。其中，计算机可读存储介质2000可以是如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory，简称EEPROM)或快闪存储器(Flash Memory，简称Flash)等。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据筛选方法，其特征在于，所述方法包括：

S1：利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络；

S2：利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量；

S3：将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人；

S4：计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度；

2.根据权利要求1所述的方法，其特征在于，所述目标音频数据集包括的音频数据对应的相似度均大于或等于预设阈值。

3.根据权利要求1所述的方法，其特征在于，步骤S5包括：若所述初始音频数据集中存在相似度小于所述预设阈值的音频数据，基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集；

步骤S5之后还包括：

将本次得到的所述目标音频数据集作为新的所述初始音频数据集，将本次训练后的所述声纹识别网络作为新的所述初始声纹识别网络，并返回执行步骤S1-S5，直至经过数据筛选操作后得到的目标音频数据集中不存在相似度小于所述预设阈值的音频数据，则停止数据筛选。

4.一种声纹识别模型的训练方法，其特征在于，所述方法包括：

利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，所述目标音频数据集按照如权利要求1-3中任一项所述的数据筛选方法筛选得到。

5.根据权利要求4所述的方法，其特征在于，所述待训练模型包括多个依次连接的第一残差块，每个所述第一残差块包括跳连连接及多条支路，每条支路包括至少一个第一卷积层；所述利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，包括：

利用所述目标音频数据集对所述待训练模型进行训练；

将训练好的所述待训练模型的每个所述第一残差块更新为第二卷积层，得到所述声纹识别模型，其中，所述第二卷积层的输出结果与所述第二卷积层对应的第一残差块的输出结果一致。

6.根据权利要求5所述的方法，其特征在于，针对每个所述第一残差块，将所述第一残差块更新为第二卷积层的具体实现方式均有：

基于所述第一残差块包括的至少一个第一卷积层的卷积尺寸得到目标尺寸；

将所有的所述第一卷积层中卷积尺寸与目标尺寸不一致的第一卷积层作为待处理卷积层；

将所述待处理卷积层的卷积尺寸更新为所述目标尺寸；

将所述跳连连接等效为具有目标尺寸的第三卷积层；

将所有具有目标尺寸的所述第一卷积层以及所述第三卷积层融合为所述第二卷积层。

7.根据权利要求6所述的方法，其特征在于，所述将所有具有目标尺寸的所述第一卷积层以及所述第三卷积层融合为所述第二卷积层，包括：

将每条支路上具有目标尺寸的第一卷积层融合为一个具有目标尺寸的第四卷积层，所述第四卷积层的输出结果与该支路的输出结果一致；

将每条支路对应的第四卷积层及所述第三卷积层相加得到所述第二卷积层。

8.根据权利要求4所述的方法，其特征在于，所述利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，包括：

对所述目标音频数据集进行预设处理以增加音频干扰项，利用处理后的所述目标音频数据集对所述待训练模型进行训练，得到所述声纹识别模型。

9.一种声纹识别方法，其特征在于，所述方法还包括：

获取待识别用户的声纹特征数据；

将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型按照如权利要求4-8任一项所述的方法训练得到；

根据所述语音特征向量对所述待识别用户进行身份识别。

10.一种数据筛选装置，其特征在于，所述装置包括：

第一训练模块，用于利用初始音频数据集对初始声纹识别网络进行训练，得到训练后的声纹识别网络；

第一提取模块，用于利用训练后的声纹识别网络对所述初始音频数据集包括的每个音频数据进行特征提取，得到多个声纹特征向量；

特征划分模块，用于将所述多个声纹特征向量进行划分，得到至少一个向量集，计算每个向量集的均值向量，其中，同一向量集中的声纹特征向量均来源同一个人；

相似度计算模块，用于计算每个所述声纹特征向量与所述声纹特征向量所属的向量集的均值向量之间的相似度，得到多个相似度；

数据筛选模块，用于基于所述多个相似度对所述初始音频数据集进行数据筛选操作，得到目标音频数据集。

11.一种声纹识别模型的训练装置，其特征在于，所述方法包括：

第二训练模块，用于利用目标音频数据集对待训练模型进行训练，得到声纹识别模型，所述目标音频数据集按照如权利要求1-3中任一项所述的数据筛选方法筛选得到。

12.一种声纹识别装置，其特征在于，所述装置包括：

第二获取模块，用于获取待识别用户的声纹特征数据；

第二提取模块，用于将所述声纹特征数据输入声纹识别模型中进行特征提取，输出所述待识别用户的语音特征向量；其中，所述声纹识别模型按照如权利要求4-9任一项所述的方法训练得到；

身份识别模块，用于根据所述语音特征向量对所述待识别用户进行身份识别。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至9任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至9任一项所述的方法。