CN109584887B

CN109584887B - 一种声纹信息提取模型生成、声纹信息提取的方法和装置

Info

Publication number: CN109584887B
Application number: CN201811583016.4A
Authority: CN
Inventors: 李晋
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2022-12-02
Anticipated expiration: 2038-12-24
Also published as: CN109584887A

Abstract

本申请公开了一种声纹信息提取模型生成、声纹信息提取的方法和装置，该方法包括：获得表征训练语音数据时域与频域特性的第一训练语谱序列；打乱第一训练语谱序列的时序获得第二训练语谱序列；基于训练用户标识利用卷积神经网络对第一训练语谱序列和对应的第二训练语谱序列进行训练，生成声纹向量提取模型。可见，采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练，充分挖掘时序变化对声纹特征的干扰，卷积神经网络可联合分析训练语谱序列的时域和频域特性，较短时长训练语音数据也可进行充分的声纹特征训练，得到更加精准、稳定的声纹向量提取模型，利用该模型可提取获得精确、稳定的声纹向量，提高识别认证的准确率。

Description

一种声纹信息提取模型生成、声纹信息提取的方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种声纹信息提取模型生成、声纹信息提取的方法和装置。

背景技术

随着智能识别技术的快速发展，越来越多的场景需要应用生物识别技术进行识别认证，例如，金融安全、国家安全、智能家居和行政司法等场景。而声纹识别技术是生物识别技术的关键技术之一，具有安全、高效、便捷和用户无感知等特点。由于在某些应用场景中对基于声纹识别的识别认证准确度要求较高，而识别认证准确的前提是获得准确的声纹信息作为声纹识别标准。

目前，作为声纹识别标准的声纹信息获得方法采用基于全变量的因子分析法，具体地，利用大量的语音数据预先训练得到覆盖各种环境和信道的全变量空间；提取语音数据中反映声纹信息的特征；通过前向-后向算法(Baum-Welch算法)按时序计算每帧语音数据对应的特征在混合高斯模型每个高斯成分中的后验占有率；通过全变量空间进行线性投影获得该段语音数据对应的声纹向量。

对于上述声纹信息提取的方法，当语音数据时长较短时提取特征量不够充分，即使采用其他方式获得较为充分的特征量，由于目前声纹信息提取模型不够精准、稳定，导致提取获得的作为识别标准的声纹向量不精确、不稳定，从而影响识别认证的准确率。

发明内容

本申请所要解决的技术问题是，提供一种声纹信息提取模型生成、声纹信息提取的方法和装置，以得到更加精准、稳定的声纹向量提取模型，利用该模型可提取获得精确、稳定的声纹向量，从而提高识别认证的准确率。

第一方面，本申请实施例提供了一种声纹信息提取模型生成的方法，该方法包括：

获得训练语音数据对应的第一训练语谱序列；

对所述第一训练语谱序列的时序进行调整，获得对应的第二训练语谱序列；

基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型。

可选的，所述对所述第一训练语谱序列的时序进行调整，获得对应的第二训练语谱序列，具体为：

按照预设概率对所述第一训练语谱序列的时序进行随机调整，获得所述第二训练语谱序列。

可选的，基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型，具体为：

根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型；所述N为正整数，所述第一训练语谱片段和所述第二训练语谱片段的长度为预设窗长。

可选的，所述根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型，包括：

分别将所述N个第一训练语谱片段输入第一卷积神经网络结构，获得N个第一向量V₁；分别将所述N个第二训练语谱片段输入第二卷积神经网络结构，获得N个第二向量V₂；

对应拼接所述N个第一向量V₁和所述N个第二向量V₂，获得N个第三向量V′；

利用线性变换压缩所述N个第三向量V′的维度，获得N个训练声纹向量V；

基于所述N个训练声纹向量V，获得对应的预测用户标识；

基于所述预测用户标识和所述训练用户标识，迭代训练所述初始卷积神经网络生成声纹向量提取模型。

可选的，所述N个第一训练语谱片段的获得步骤，包括：

若所述第一训练语谱序列的长度小于所述预设窗长，对所述第一训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第三训练语谱序列；

基于所述预设窗长切分所述第三训练语谱序列，获得所述N个第一训练语谱片段；

对应地，所述N个第二训练语谱片段的获得步骤，包括：

若所述第二训练语谱序列的长度小于所述预设窗长，对所述第二训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第四训练语谱序列；

基于所述预设窗长切分所述第四训练语谱序列，获得所述N个第二训练语谱片段。

可选的，所述预设窗长为至少两个语谱序列平均有效长度的二分之一。

可选的，还包括：

获得所述声纹向量提取模型的训练样本，所述训练样本包括训练用户标识和对应的训练语谱片段；

基于所述训练用户标识对应的训练语谱片段，预测获得对应的预测用户标识；

根据所述预测用户标识和所述训练用户标识，获得所述训练用户标识对应的训练用户的预测准确率；

若所述预测准确率低于预设准确率阈值，从所述训练样本中删除所述训练用户标识和对应的训练语谱片段；

根据删除后的训练用户标识和对应的训练语谱片段对所述声纹向量提取模型进行训练，更新所述声纹向量提取模型。

可选的，所述根据删除后的训练用户标识和对应的训练语谱片段对所述声纹向量提取模型进行训练，更新所述声纹向量提取模型，包括：

删除所述声纹向量提取模型中连接层的连接权重；

在所述连接层生成对应所述删除后的训练用户标识数量的初始连接权重；

根据删除后的训练用户标识和对应的训练语谱片段训练所述初始连接权重，更新所述声纹向量提取模型。

第二方面，本申请实施例提供了一种声纹信息提取的方法，利用上述第一方面任一项所述的声纹信息提取模型，该方法包括：

获得目标语音数据对应的目标语谱序列；

基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量。

可选的，所述基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量，包括：

基于所述目标语谱序列，切分获得N个目标语谱片段，所述N为正整数，所述目标语谱片段的长度为预设窗长；

将2N个所述目标语谱片段对应输入所述声纹信息提取模型，提取N个目标声纹子向量；

综合所述N个目标声纹子向量，获得对应所述目标语音数据的目标声纹向量。

可选的，所述综合所述N个目标声纹子向量，获得对应所述目标语音数据的目标声纹向量，具体为：

对所述N个目标声纹子向量进行算数平均处理，获得所述目标声纹向量。

第三方面，本申请实施例提供了一种声纹信息提取模型生成的装置，该装置包括：

第一获得单元，用于获得训练语音数据对应的第一训练语谱序列；

第二获得单元，用于对所述第一训练语谱序列的时序进行调整，获得对应的第二训练语谱序列；

生成单元，用于基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型。

第四方面，本申请实施例提供了一种声纹信息提取的装置，利用上述第三方面所述的声纹信息提取模型，该装置包括：

第三获得单元，用于获得目标语音数据对应的目标语谱序列；

第四获得单元，用于基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，获得表征训练语音数据时域与频域特性的第一训练语谱序列；打乱第一训练语谱序列的时序获得第二训练语谱序列；基于训练用户标识利用卷积神经网络对第一训练语谱序列和对应的第二训练语谱序列进行训练，生成声纹向量提取模型。可见，采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练，充分挖掘时序变化对声纹特征的干扰，且卷积神经网络可联合分析训练语谱序列的时域和频域特性，较短时长训练语音数据也可进行充分的声纹特征训练，得到更加精准、稳定的声纹向量提取模型，利用该模型可提取获得精确、稳定的声纹向量，从而提高识别认证的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对本申请实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种声纹信息提取模型生成的方法的流程示意图；

图3为本申请实施例提供的一种获得第二训练语谱序列的示意图；

图4为本申请实施例提供的一种由第一训练语谱片段和第二训练语谱序列训练获得训练声纹向量的结构示意图；

图5为本申请实施例提供的一种声纹向量提取模型的调整方法的流程示意图；

图6为本申请实施例提供的一种声纹信息提取的方法的流程示意图；

图7为本申请实施例提供的一种由目标语谱片段提取目标声纹子向量的结构示意图；

图8为本申请实施例提供的一种声纹信息提取模型生成的装置的结构示意图；

图9为本申请实施例提供的一种声纹信息提取的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，在某些利用声纹识别技术进行识别认证、识别认证准确度要求较高的应用场景中，作为声纹识别标准的声纹信息的准确性尤其重要。一般的，通常基于全变量的因子分析法获得声纹信息作为声纹识别标准，具体地，在预先利用大量的语音数据训练得到全变量空间后；首先，提取语音数据中反映声纹信息的梅尔频率倒谱系数(MFCC)或感知线性预测倒谱系数(PLP)等特征；然后，通过Baum-Welch算法按时序计算每帧语音数据对应特征在混合高斯模型的每个高斯成分的后验占有率；最后，通过全变量空间进行线性投影获得声纹向量作为声纹识别标准。但是，语音数据时长较短时，采用上述方法无法提取充分的特征量，即使采用其他方式得到较为充分的特征量，由于目前声纹信息提取模型不够精准、稳定，获得的声纹向量仍然不精确、不稳定，将其作为声纹识别标准导致识别认证的准确率降低。

为了解决这一问题，在本申请实施例中，基于训练语音数据获得表征时域与频域特性的第一训练语谱序列；由第一训练语谱序列获得时序打乱的第二训练语谱序列；基于第一训练语谱序列对应第二训练语谱序列，结合训练用户标识利用卷积神经网络训练生成声纹向量提取模型。可见，采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练，充分挖掘时序变化对声纹特征的干扰，且卷积神经网络可联合分析训练语谱序列的时域和频域特性，较短时长训练语音数据也可进行充分的声纹特征训练，得到更加精准、稳定的声纹向量提取模型，利用该模型可提取获得精确、稳定的声纹向量，从而提高识别认证的准确率。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括用户终端101和处理器102，其中，用户终端101可以是个人计算机，也可以是其它的移动终端，如手机或平板电脑等。用户在用户终端101进行操作确定训练语音数据，由用户终端101将训练语音数据发送至处理器102。处理器102基于第一训练语谱序列、第二训练语谱序列和对应训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型。当用户在用户终端101输入目标语音数据后，用户终端101将语音数据发送至处理器102，处理器102基于目标语音数据获得对应的目标语谱序列。处理器102基于目标语谱序列和声纹信息提取模型，获得对应目标语音数据的目标声纹向量。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由处理器101执行，但是这些动作也可以由用户终端101执行，或者还可以部分由用户终端101执行、部分由处理器101执行。本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中提取声纹信息的方法及相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种声纹信息提取模型生成的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：获得训练语音数据对应的第一训练语谱序列。

首先需要说明的是，目前的声纹信息提取模型存在不够精准、不够稳定的问题，则需要通过大量的训练语音数据进行处理、训练得到较为精准、稳定的声纹信息提取模型，由于每个训练语音数据的处理、训练方式是一致的，在本申请实施例中以一个训练语音数据为例进行说明。其次需要说明的是，当语音数据时长较短时，采用现有的声纹信息提取方法，存在提取的、反映声纹信息的特征量不够充分的问题，即使对语音数据复制拼接得到时长较长的语音数据，其反映声纹信息的特征量与原有的语音数据反映声纹信息的特征量一致，并没有增加新的特征，则需要跳出语音数据的时域特征，考虑增加语音数据的频域特征，在本申请实施例中首先需要将训练语音数据进行处理获得训练语谱序列，记为第一训练语谱序列。

可以理解的是，考虑到需要重点关注训练语音数据中不同局部时域数据对应的局部频域特征，则可以对训练语音数据进行加窗处理，其中，加窗处理是指是采用预设时域窗口进行窗移。常见的基于时域转换频域的方法为傅里叶变换，则对上述加窗处理后的训练语音数据需要采用傅里叶变换实现时域至频域的转换。因此，在本申请实施例的一些实施方式中，所述步骤201例如可以包括以下步骤：

步骤A：对所述训练语音数据进行加窗处理和傅里叶变换处理，获得多个训练傅里叶变换特征；

步骤B：连接所述多个训练傅里叶变换特征获得第一训练语谱序列。

其中，步骤A实现了训练语音数据的时域局域化，步骤B中每个训练傅里叶变换特征表示步骤A加窗处理后对应窗口所包括部分训练语音数据时域与频域交织的特征；多个训练傅里叶变换特征按照时序连接可以形成一个傅里叶变换特征序列，即，第一训练语谱序列。

步骤202：对所述第一训练语谱序列的时序进行调整，获得对应的第二训练语谱序列。

需要说明的是，考虑训练语音数据的时序变化对构建声纹信息提取模型的干扰影响，造成声纹信息提取模型存在不够精准、不够稳定的问题，在步骤201之后，可以打乱第一训练语谱序列的时序，得到对应训练语音数据的另一个训练语谱序列，记为第二训练语谱序列。

需要说明的是，在实际应用中，由大量训练语音数据可以获得大量第一训练语谱序列，若是调整每个第一训练语谱序列的时序，需要耗费大量时间，可以只调整其中一部分第一训练语谱序列的时序。则对于每个第一训练语谱序列而言，其时序具有一定概率需要进行调整；再考虑到训练语音数据时序变化的随机性，对第一训练语谱序列的时序进行调整时也采用随机调整方式。因此，在本申请实施例的一些实施方式中，所述步骤202例如具体可以为：按照预设概率对所述第一训练语谱序列的时序进行随机调整，获得所述第二训练语谱序列。

其中，按照预设概率对第一训练语谱序列的时序进行随机调整，表示第一训练语谱序列只有预设概率的可能性需要随机调整其时序。比如预设概率为0.2时，表示第一训练语谱序列有20％可能性需要随机调整其时序，有80％可能性保持原有的时序。例如，如图3所示的一种获得第二训练语谱序列的示意图，箭头左侧为第一训练语谱序列，经过时序随机调整之后，获得箭头右侧为时序打乱后的第二训练语谱序列。

需要说明的是，在本申请实施例的实施方式中，并不限定对第一训练语谱序列的时序调整条件，既可以采用上述预设概率条件，也可以采用其他预设调整条件；同理，也并不限定对第一训练语谱序列的时序调整方式，既可以采用上述的随机调整方式，也可以采用其他预设调整方式。

步骤203：基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型。

可以理解的是，步骤202中的第二训练语谱序列与步骤201中的第一训练语谱序列对应，且均对应训练语音数据，可以将第一训练语谱序列对应第二训练语谱序列，结合训练语音数据的训练用户标识基于初始卷积神经网络进行训练，提取时域和频域交织第一训练语谱序列和第二训练语谱序列的声纹特征，基于训练用户标识训练调整初始卷积神经网络中的参数，最终训练生成声纹向量提取模型。步骤203在保持正常时序的基础上提取声纹特征之外，又充分挖掘时序对提取声纹特征训练声纹向量提取模型造成的干扰，生成的声纹信息提取模型更加精准、更加稳定。

需要说明的是，在步骤201获得第一训练语谱序列后，直接采用第一训练语谱序列进行步骤203训练生成声纹向量提取模型，容易出现占用较多处理器资源、训练速度较慢和训练效率较低等问题，则需要在步骤203前切分第一训练语谱序列，考虑切分获得固定长度便于后续训练，可以采用预设窗长进行切分，在本申请实施例中，需要基于第一训练语谱序列进行切分获得多个预设窗长的第一训练语谱片段再进行训练。同理，在步骤202获得第二训练语谱序列后，在步骤203训练生成声纹向量提取模型前，需要基于第二训练语谱序列进行切分获得多个预设窗长的第二训练语谱片段再进行训练。因此，在本申请实施例的一些实施方式中，所述步骤203例如具体为：根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型；所述N为正整数，所述第一训练语谱片段和所述第二训练语谱片段的长度为预设窗长。对N个第一训练语谱片段以及N个第二训练语谱片段进行训练，可以降低处理器资源占用率，加快训练速度并提高训练效率。

其中，需要说明的是，步骤201获得的第一训练语谱序列的长度可能大于等于预设窗长，也可能小于预设窗长；然而，需要获得的第一训练语谱片段的长度为预设窗长，则需要进行“多弃少补”的切分方式，具体实施方式如下所示：

当第一训练语谱序列的长度大于预设窗长时，可直接利用预设窗长对切分第一训练语谱序列，获得多个连续的部分特征序列。需要注意的是，若获得的最后一个部分特征序列的长度小于预设窗长则直接丢弃，其等于预设窗长的部分特征序列分别作为第一训练语谱片段。即，第一训练语谱序列的长度并非预设窗长的整数倍时，利用预设窗长切分获得的最后一个部分特征序列通常被丢弃。因此，在本申请实施例的一些实施方式中，所述N个第一训练语谱片段的获得步骤，例如具体可以为：若所述第一训练语谱序列的长度大于等于所述预设窗长，基于所述预设窗长切分所述第一训练语谱序列，获得所述N个第一训练语谱片段。

作为一种示例，假设第一训练语谱序列的长度为120帧，预设窗长为50帧。利用预设窗长切分第一训练语谱序列，第一个部分特征序列的长度为50帧，第二个部分特征序列的长度为50帧，第三个部分特征序列的长度仅仅为20帧，小于预设窗长50帧，则第三个部分特征序列需要被丢弃，第一个部分特征序列和第二个部分特征序列分别作为第一训练语谱片段，最终，切分获得2个50帧的第一训练语谱片段。

当第一训练语谱序列的长度小于预设窗长时，不能直接利用预设窗长切分第一训练语谱序列，需要增加第一训练语谱序列的长度，使得增加后长度大于等于预设窗长。具体地，首先，可以复制第一训练语谱序列得到第一复制序列，然后，将第一复制序列与第一训练语谱序列进行拼接直至长度大于等于预设窗长，将其记为第三训练语谱序列，该第三训练语谱序列可直接利用预设窗长切分。因此，在本申请实施例的一些实施方式中，所述N个第一训练语谱片段的获得步骤，例如可以包括以下步骤：

步骤C：若所述第一训练语谱序列的长度小于所述预设窗长，对所述第一训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第三训练语谱序列；

步骤D：基于所述预设窗长切分所述第三训练语谱序列，获得所述N个第一训练语谱片段。

同理，所述N个第二训练语谱片段的获得步骤，例如具体可以为：若所述第二训练语谱序列的长度大于等于所述预设窗长，基于所述预设窗长切分所述第二训练语谱序列，获得所述N个第二训练语谱片段。

同理，所述N个第二训练语谱片段的获得步骤，例如可以包括以下步骤：

步骤E：若所述第二训练语谱序列的长度小于所述预设窗长，对所述第二训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第四训练语谱序列；

步骤F：基于所述预设窗长切分所述第四训练语谱序列，获得所述N个第二训练语谱片段。

其中，还需要说明的是，预设窗长不易过大也不易过小，若预设窗长过大，则切分获得的第一训练语谱片段和第二训练语谱片段的长度过大，在后续训练时处理器资源占用率升高，训练速度和训练效率降低；若预设窗长过小，则切分获得的第一训练语谱片段和第二训练语谱片段数量较多，导致第一训练语谱序列和第二训练语谱序列呈现碎片化现象，且各个第一训练语谱片段之间以及各个第二训练语谱片段之间的连续信息丢失较多。基于此，为了既能够降低处理器资源占用率，提高训练速度和训练效率，且避免碎片化现象，减少连续信息丢失，尽量切分获得两个第一训练语谱片段和两个第二训练语谱片段。因此，在本申请实施例的一些实施方式中，所述预设窗长为至少两个语谱序列平均有效长度的二分之一。例如，基于大量语谱序列，预设窗长可以为大量语谱序列平均有效长度的二分之一。当然，本申请实施例中预设窗长并非一定是至少两个语谱序列平均有效长度的二分之一，也可以是两个语谱序列平均有效长度的三分之一或四分之一等。

可以理解的是，由第一训练语谱序列切分获得的N个第一训练语谱片段和由第二训练语谱序列切分获得的N个第二训练语谱片段一一对应，且均对应训练语音数据，可以将N个第一训练语谱片段对应N个第二训练语谱片段，结合训练语音数据的训练用户标识基于初始卷积神经网络进行训练，提取时域和频域交织第一训练语谱片段和第二训练语谱片段的声纹特征，基于训练用户标识训练调整初始卷积神经网络中的参数，最终训练生成声纹向量提取模型。步骤203在保持正常时序的基础上提取声纹特征之外，又充分挖掘时序对提取声纹特征训练声纹向量提取模型造成的干扰，生成的声纹信息提取模型更加精准、更加稳定。

其中，需要说明的是，初始卷积神经网络包括第一卷积神经网络结构和第二卷积神经网络结构，第一卷积神经网络结构用于接收N个第一训练语谱片段进行卷积运算、激励运算等获得N个高维向量，记为第一向量V₁；第二卷积神经网络结构用于接收对应的N个第二训练语谱片段进行卷积运算、激励运算等获得N个高维向量，记为第二向量V₁。将N个第一向量V₁和N个第二向量V₁对应拼接以减弱时序变化的干扰，拼接后得到N个高维超向量，记为第三向量V′；将N个第三向量V′进行降维处理，即可得到表征N个第一训练语谱片段和对应的N个第二训练语谱片段的声纹特征的向量，记为训练声纹向量V；其中，常见的降维处理方式为线性变换压缩方式。再利用N个训练声纹向量V预测用户身份得到预测用户标识与训练用户标识对比进行迭代训练，得到更加精准、更加稳定的模型，记为声纹向量提取模型。因此，在本申请实施例的一些实施方式中，所述步骤203例如可以包括以下步骤：

步骤G：分别将所述N个第一训练语谱片段输入第一卷积神经网络结构，获得N个第一向量V₁；分别将所述N个第二训练语谱片段输入第二卷积神经网络结构，获得N个第二向量V₂；

步骤H：对应拼接所述N个第一向量V₁和所述N个第二向量V₂，获得N个第三向量V′；

步骤I：利用线性变换压缩所述N个第三向量V′的维度，获得N个训练声纹向量V；

步骤J：基于所述N个训练声纹向量V，获得对应的预测用户标识；

步骤K：基于所述预测用户标识和所述训练用户标识，迭代训练所述初始卷积神经网络生成声纹向量提取模型。

需要说明的是，第一训练语谱片段输入第一卷积神经网络结构进行卷积运算和激励运算等，实际上是将第一训练语谱片段映射成多个第一训练语谱子片段，多个第一训练语谱子片段展开拼接可得到对应第一训练语谱片段的高维向量，即第一向量V₁。第二训练语谱片段输入第二卷积神经网络结构进行卷积运算和激励运算等也同上所述。因此，在本申请实施例的一些实施方式中，所述步骤G例如可以包括以下步骤：

步骤G1：基于所述第一卷积神经网络结构将所述N个第一训练语谱片段中每个第一训练语谱片段映射成C个第一训练语谱子片段，所述C为正整数；

步骤G2：对应所述N个第一训练语谱片段，将所述每个第一训练语谱片段映射的C个第一训练语谱子片段展开拼接，获得N个第一向量V₁；

步骤G3：基于所述第二卷积神经网络结构将所述N个第二训练语谱片段中每个第二训练语谱片段映射成C个第二训练语谱子片段；

步骤G4：对应所述N个第二训练语谱片段，将所述每个第二训练语谱片段映射的C个第二训练语谱子片段展开拼接，获得N个第二向量V₂。

还需要说明的是，在本申请实施例中，并不限定步骤G1-步骤G2和步骤G3-步骤G4的执行顺序，既可以先执行步骤G1-步骤G2，再执行步骤G3-步骤G4；也可以先执行步骤G3-步骤G4，再执行步骤G1-步骤G2；还可以同时执行步骤G1-步骤G2和步骤G3-步骤G4。

作为一种示例，如图4所示的由第一训练语谱片段和第二训练语谱序列训练获得训练声纹向量的结构示意图，其中，基于第一训练语谱序列time domain original切分获得的一个第一训练语谱片段为Seg_original，基于第二训练语谱序列time domain random切分获得的一个第二训练语谱片段为Seg_random，基于第一卷积神经网络结构将第一训练语谱片段Seg_original映射成C个第一训练语谱子片段，展开拼接获得第一向量V₁；基于第二卷积神经网络结构将第二训练语谱片段Seg_random映射成C个第二训练语谱子片段，展开拼接获得第一向量V₂；对应拼接第一向量V₁和第二向量V₂，并利用线性变换压缩维度获得训练声纹向量V。

通过本实施例提供的各种实施方式，获得表征训练语音数据时域与频域特性的第一训练语谱序列；打乱第一训练语谱序列的时序获得第二训练语谱序列；基于训练用户标识利用卷积神经网络对第一训练语谱序列和对应的第二训练语谱序列进行训练，生成声纹向量提取模型。可见，采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练，充分挖掘时序变化对声纹特征的干扰，且卷积神经网络可联合分析训练语谱序列的时域和频域特性，较短时长训练语音数据也可进行充分的声纹特征训练，得到更加精准、稳定的声纹向量提取模型，利用该模型可提取获得精确、稳定的声纹向量，从而提高识别认证的准确率。

需要说明的是，在基于多个训练用户对应的训练语谱片段训练生成的声纹向量提取模型后，虽然多个训练用户对应的训练语谱片段经过声纹向量提取模型后预测训练用户的准确率较高，但该准确率仅仅表示一个均值，并不代表每个训练用户对应的训练语谱片段经过声纹向量提取模型后预测训练用户的准确率，因此，该声纹向量提取模型还可以基于每个训练用户对应的训练语谱片段经过声纹向量提取模型后预测训练用户的准确率进一步进行调整，使得声纹向量提取模型更加精准、稳定。下面结合附图5，通过实施例来详细说明本申请上述方法实施例中声纹向量提取模型的调整方法的具体实现方式。

参见图5，示出了本申请实施例中一种声纹向量提取模型的调整方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤501：获得所述声纹向量提取模型的训练样本，所述训练样本包括训练用户标识和对应的训练语谱片段。

可以理解的是，调整声纹向量提取模型的前提应该获取该声纹向量提取模型的训练样本。基于上述方法实施例可知，声纹向量提取模型的训练样本包括训练用户标识和对应的训练语谱片段。

步骤502：基于所述训练用户标识对应的训练语谱片段，预测获得对应的预测用户标识。

可以理解的是，每个训练语谱片段经过声纹向量提取模型可以获得用于预测训练用户的训练声纹向量，基于该训练声纹向量进行预测训练用户可以获得对应的预测用户标识。需要说明的是，若预测用户标识和训练用户标识相同，则认为该训练语谱片段经过声纹向量提取模型后预测训练用户是正确的，若预测用户标识和训练用户标识不相同，则认为该训练语谱片段经过声纹向量提取模型后预测训练用户是错误的。

步骤503：根据所述预测用户标识和所述训练用户标识，获得所述训练用户标识对应的训练用户的预测准确率。

需要说明的是，基于步骤502可以得到每个训练语谱片段对应的预测用户标识，基于每个训练语谱片段对应的预测用户标识和训练用户标识，统计训练用户标识对应的训练语谱片段中预测训练用户正确的训练语谱片段数量，基于该数量与训练用户标识对应的训练语谱片段总数量的比值，获得训练用户标识对应的训练用户的预测准确率。

步骤504：若所述预测准确率低于预设准确率阈值，从所述训练样本中删除所述训练用户标识和对应的训练语谱片段。

可以理解的是，预先设置一个准确率阈值，即，预设准确率阈值，表示训练用户标识对应的训练用户的预测准确率应该达到的最低值，将步骤503中获得的预测准确率与该预设准确率阈值进行比较。当预测准确率高于预设准确率阈值，表示训练用户标识对应的训练用户的预测准确率满足准确率最低值，声纹向量提取模型与该训练用户标识和对应的训练语谱片段较为匹配。当准确率低于预设准确率阈值，表示训练用户标识对应的训练用户的预测准确率无法满足准确率最低值，声纹向量提取模型与该训练用户标识和对应的训练语谱片段不够匹配。则需要从用于训练声纹向量提取模型的训练样本中删除该训练用户标识和对应的训练语谱片段。

步骤505：根据删除后的训练用户标识和对应的训练语谱片段对所述声纹向量提取模型进行训练，更新所述声纹向量提取模型。

可以理解的是，在步骤504执行完成后，删除后的训练样本所包括的训练用户标识和对应的训练语谱片段均与声纹向量提取模型较为匹配，基于此，可以对声纹向量提取模型进一步优化，调整声纹向量提取模型的参数，完成声纹向量提取模型的更新。

需要说明的是，调整声纹向量提取模型的参数主要是指删除后的训练用户标识数量发生变化，调整声纹向量提取模型中连接层的连接权重，获得符合删除后的训练用户标识数量的连接权重。具体地，先删除声纹向量提取模型中连接层的连接权重，确定删除后的训练用户标识数量，随机生成对应训练用户标识数量的初始连接权重，再次进行训练调整该初始连接权重，以更新声纹向量提取模型。因此，在本申请实施例的一些实施方式中，所述步骤505例如可以包括以下步骤：

步骤L：删除所述声纹向量提取模型中连接层的连接权重；

步骤M：在所述连接层生成对应所述删除后的训练用户标识数量的初始连接权重；

步骤N：根据删除后的训练用户标识和对应的训练语谱片段训练所述初始连接权重，更新所述声纹向量提取模型。

通过本实施例提供的各种实施方式，获得声纹向量提取模型的包括训练用户标识和对应的训练语谱片段的训练样本；基于训练用户标识对应的训练语谱片段预测获得对应的预测用户标识；根据预测用户标识和训练用户标识，获得训练用户标识对应的训练用户的预测准确率；若预测准确率低于预设准确率阈值，从训练样本中删除训练用户标识和对应的训练语谱片段；再次对声纹向量提取模型进行训练，更新声纹向量提取模型。由此可见，基于训练用户的预测准确率，从训练样本中删除与声纹向量提取模型不够匹配的训练用户标识和对应的训练语谱片段，保留与声纹向量提取模型较为匹配的训练用户标识和对应的训练语谱片段，基于此再次调整声纹向量提取模型的参数，更新声纹向量提取模型，使得更新后的声纹向量提取模型的精准性、鲁棒性更高。

需要说明的是，基于上述方法实施例训练生成的声纹向量提取模型或调整后的声纹向量提取模型，用于对语音数据进行声纹信息提取。下面结合附图6，通过实施例来详细说明本申请应用上述方法实施例中声纹信息提取模型进行声纹信息提取的具体实现方式。

参见图6，示出了本申请实施例中一种声纹向量提取模型的训练方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤601：获得目标语音数据对应的目标语谱序列。

在本申请实施例的一种实施方式中，所述步骤601例如可以包括以下步骤：

步骤O：对所述目标语音数据进行加窗处理和傅里叶变换处理，获得多个目标傅里叶变换特征；

步骤P：连接多个目标傅里叶变换特征获得目标语谱序列。

步骤602：基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量。

在本申请实施例的一种实施方式中，所述步骤602例如可以包括以下步骤：

步骤6021：基于所述目标语谱序列，切分获得N个目标语谱片段，所述N为正整数，所述目标语谱片段的长度为预设窗长。

可选的，所述步骤6021例如具体可以为：若所述目标语谱序列的长度大于等于所述预设窗长，基于所述预设窗长切分所述目标语谱序列获得所述N个目标语谱片段。

可选的，所述步骤6021例如可以包括以下步骤：

步骤Q：若所述目标语谱序列的长度小于所述预设窗长，对所述目标语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的复制拼接目标语谱序列；

步骤R：基于所述预设窗长切分所述复制拼接目标语谱序列，获得所述N个目标语谱片段。

步骤6022：将2N个所述目标语谱片段对应输入所述声纹信息提取模型，提取N个目标声纹子向量。

可选的，所述步骤6022例如可以包括以下步骤：

步骤S：分别将所述N个目标语谱片段输入第一卷积神经网络结构，获得N个第一向量V₁；分别将所述N个目标语谱片段输入第二卷积神经网络结构，获得N个第二向量V₂；

步骤T：对应拼接所述N个第一向量V₁和所述N个第二向量V₂，获得N个第三向量V′；

步骤U：利用线性变换压缩所述N个第三向量V′的维度，获得所述N个目标声纹子向量V。

其中，所述步骤S例如可以包括以下步骤：

步骤S1：基于所述第一卷积神经网络结构将所述N个目标语谱片段中每个目标训练语谱片段映射成C个第一目标语谱子片段，所述C为正整数；

步骤S2：对应所述N个目标语谱片段，将所述每个目标语谱片段映射的C个第一目标语谱子片段展开拼接，获得N个第一向量V₁；

步骤S3：基于所述第二卷积神经网络结构将所述N个目标语谱片段中每个目标语谱片段映射成C个第二目标语谱子片段；

步骤S4：对应所述N个目标语谱片段，将所述每个目标语谱片段映射的C个第二目标语谱子片段展开拼接，获得N个第二向量V₂。

还需要说明的是，在本申请实施例中，并不限定步骤S1-步骤S2和步骤S3-步骤S4的执行顺序，既可以先执行步骤S1-步骤S2，再执行步骤S3-步骤S4；也可以先执行步骤S3-步骤S4，再执行步骤S1-步骤S2；还可以同时执行步骤S1-步骤S2和步骤S3-步骤S4。

作为一种示例，如图7所示的由目标语谱片段提取目标声纹子向量的结构示意图，其中，基于目标语谱序列time domain target切分获得的一个目标语谱片段为Seg_target，基于第一卷积神经网络结构将目标语谱片段Seg_target映射成C个目标语谱子片段，展开拼接获得第一向量V₁；基于第二卷积神经网络结构将目标语谱片段Seg_target映射成C个第二训练语谱子片段，展开拼接获得第一向量V₂；对应拼接第一向量V₁和第二向量V₂，并利用线性变换压缩维度获得目标声纹向量V。

步骤6023：综合所述N个目标声纹子向量，获得对应所述目标语音数据的目标声纹向量。

可以理解的是，步骤6022获得的N个目标声纹子向量对应2N个目标语谱片段，而N个目标语谱片段是基于目标语谱序列进行切分得到的，每个目标声纹子向量表示对应目标语音数据的目标语谱序列的局部特征，需要将这些局部特征进行综合，获得表征目标语音数据全局特征的目标声纹向量。

需要说明的是，综合N个目标声纹子向量可以采取对应每个目标声纹子向量预先设置权重系数，基于N个目标声纹子向量和对应的N个预设权重系数进行加权平均处理，获得目标声纹向量。其中，若对应每个目标声纹子向量并未预先设置权重系数，则可默认每个目标声纹子向量对应的权重系数为N分之一，即，将N个目标声纹子向量之和乘以N分之一可获得对应目标语音数据的目标声纹向量。因此，在本申请实施例的一些实施方式中，所述步骤6023例如具体可以为：对所述N个目标声纹子向量进行算数平均处理，获得所述目标声纹向量。

通过本实施例提供的各种实施方式，获得表征目标语音数据时域与频域特性的目标语谱序列；基于该目标语谱序列利用声纹向量提取模型提取时域和频域交织的声纹向量；将其作为目标语音数据的目标声纹向量。由此可见，采用较为准确、稳定的声纹向量提取模型对目标语谱序列进行声纹特征提取，可联合分析目标语谱序列的时域和频域特性，较短时长目标语音数据也可进行充分的声纹特征提取，且该声纹向量提取模型可减少时序变化的干扰，获得对应目标语音数据的精确、稳定的目标声纹向量，从而提高识别认证的准确率。

示例性装置

参见图8，示出了本申请实施例中一种声纹信息提取模型生成的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一获得单元801，用于获得训练语音数据对应的第一训练语谱序列；

第二获得单元802，用于对所述第一训练语谱序列的时序进行调整，获得对应的第二训练语谱序列；

生成单元803，用于基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹向量提取模型。

在本申请实施例的一种实施方式中，所述第二获得单元802具体用于：

在本申请实施例的一种实施方式中，所述生成单元803具体用于：

在本申请实施例的一种实施方式中，所述生成单元803包括：

第一获得子单元，用于分别将所述N个第一训练语谱片段输入第一卷积神经网络结构，获得N个第一向量V₁；分别将所述N个第二训练语谱片段输入第二卷积神经网络结构，获得N个第二向量V₂；

第二获得子单元，用于对应拼接所述N个第一向量V₁和所述N个第二向量V₂，获得N个第三向量V′；

第三获得子单元，用于利用线性变换压缩所述N个第三向量V′的维度，获得N个训练声纹向量V；

第四获得子单元，用于基于所述N个训练声纹向量V，获得对应的预测用户标识；

第一生成子单元，用于基于所述预测用户标识和所述训练用户标识，迭代训练所述初始卷积神经网络生成声纹向量提取模型。

在本申请实施例的一种实施方式中，所述第一获得子单元包括：

第一映射模块，用于基于所述第一卷积神经网络结构将所述N个第一训练语谱片段中每个第一训练语谱片段映射成C个第一训练语谱子片段，所述C为正整数；

第一获得模块，用于对应所述N个第一训练语谱片段，将所述每个第一训练语谱片段映射的C个第一训练语谱子片段展开拼接，获得N个第一向量V₁；

第二映射模块，用于基于所述第二卷积神经网络结构将所述N个第二训练语谱片段中每个第二训练语谱片段映射成C个第二训练语谱子片段；

第二获得模块，用于对应所述N个第二训练语谱片段，将所述每个第二训练语谱片段映射的C个第二训练语谱子片段展开拼接，获得N个第二向量V₂。

在本申请实施例的一种实施方式中，所述N个第一训练语谱片段的获得单元，包括：

第五获得子单元，用于若所述第一训练语谱序列的长度小于所述预设窗长，对所述第一训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第三训练语谱序列；

第六获得子单元，用于基于所述预设窗长切分所述第三训练语谱序列，获得所述N个第一训练语谱片段；

对应地，所述N个第二训练语谱片段的获得单元，包括：

第七获得子单元，用于若所述第二训练语谱序列的长度小于所述预设窗长，对所述第二训练语谱序列进行复制拼接处理，获得长度大于或等于所述预设窗长的第四训练语谱序列；

第八获得子单元，用于基于所述预设窗长切分所述第四训练语谱序列，获得所述N个第二训练语谱片段。

在本申请实施例的一种实施方式中，所述预设窗长为至少两个语谱序列平均有效长度的二分之一。

在本申请实施例的一种实施方式中，所述装置还包括：

训练样本获得单元，用于获得所述声纹向量提取模型的训练样本，所述训练样本包括训练用户标识和对应的训练语谱片段；

用户标识预测单元，用于基于所述训练用户标识对应的训练语谱片段，预测获得对应的预测用户标识；

准确率获得单元，用于根据所述预测用户标识和所述训练用户标识，获得所述训练用户标识对应的训练用户的预测准确率；

训练样本删除单元，用于若所述预测准确率低于预设准确率阈值，从所述训练样本中删除所述训练用户标识和对应的训练语谱片段；

模型更新单元，用于根据删除后的训练用户标识和对应的训练语谱片段对所述声纹向量提取模型进行训练，更新所述声纹向量提取模型。

在本申请实施例的一种实施方式中，所述模型更新单元包括：

删除子单元，用于删除所述声纹向量提取模型中连接层的连接权重；

第二生成子单元，用于在所述连接层生成对应所述删除后的训练用户标识数量的初始连接权重；

更新子单元，用于根据删除后的训练用户标识和对应的训练语谱片段训练所述初始连接权重，更新所述声纹向量提取模型。

参见图9，示出了本申请实施例中一种声纹信息提取的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第三获得单元901，用于获得目标语音数据对应的目标语谱序列；

第四获得单元902，用于基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量。

在本申请实施例的一种实施方式中，所述第四获得单元902包括：

第九获得子单元，用于基于所述目标语谱序列，切分获得N个目标语谱片段，所述N为正整数，所述目标语谱片段的长度为预设窗长；

提取子单元，用于将2N个所述目标语谱片段对应输入所述声纹信息提取模型，提取N个目标声纹子向量；

第十获得子单元，用于综合所述N个目标声纹子向量，获得对应所述目标语音数据的目标声纹向量。

在本申请实施例的一种实施方式中，所述第十获得子单元具体用于：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种声纹信息提取模型生成的方法，其特征在于，包括：

获得训练语音数据对应的第一训练语谱序列；

按照预设概率对所述第一训练语谱序列的时序进行随机调整，获得对应的第二训练语谱序列；

根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹信息提取模型；所述N为正整数，所述第一训练语谱片段和所述第二训练语谱片段的长度为预设窗长。

2.根据权利要求1所述的方法，其特征在于，所述根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹信息提取模型，包括：

基于所述N个训练声纹向量V，获得对应的预测用户标识；

基于所述预测用户标识和所述训练用户标识，迭代训练所述初始卷积神经网络生成声纹信息提取模型。

3.根据权利要求1所述的方法，其特征在于，所述N个第一训练语谱片段的获得步骤，包括：

对应地，所述N个第二训练语谱片段的获得步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设窗长为至少两个语谱序列平均有效长度的二分之一。

5.根据权利要求1所述的方法，其特征在于，还包括：

获得所述声纹信息提取模型的训练样本，所述训练样本包括训练用户标识和对应的训练语谱片段；

根据删除后的训练用户标识和对应的训练语谱片段对所述声纹信息提取模型进行训练，更新所述声纹信息提取模型。

6.根据权利要求5所述的方法，其特征在于，所述根据删除后的训练用户标识和对应的训练语谱片段对所述声纹信息提取模型进行训练，更新所述声纹信息提取模型，包括：

删除所述声纹信息提取模型中连接层的连接权重；

根据删除后的训练用户标识和对应的训练语谱片段训练所述初始连接权重，更新所述声纹信息提取模型。

7.一种声纹信息提取的方法，其特征在于，利用权利要求1-6任一项所述的声纹信息提取模型生成的方法所生成的声纹信息提取模型，包括：

获得目标语音数据对应的目标语谱序列；

8.根据权利要求7所述的方法，其特征在于，所述基于所述目标语谱序列和所述声纹信息提取模型，获得对应所述目标语音数据的目标声纹向量，包括：

9.根据权利要求8所述的方法，其特征在于，所述综合所述N个目标声纹子向量，获得对应所述目标语音数据的目标声纹向量，具体为：

10.一种声纹信息提取模型生成的装置，其特征在于，包括：

第二获得单元，用于按照预设概率对所述第一训练语谱序列的时序进行随机调整，获得对应的第二训练语谱序列；

生成单元，用于根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识，对初始卷积神经网络进行训练生成声纹信息提取模型；所述N为正整数，所述第一训练语谱片段和所述第二训练语谱片段的长度为预设窗长。

11.一种声纹信息提取的装置，其特征在于，利用权利要求10所述的声纹信息提取模型生成的装置所生成的声纹信息提取模型，包括：