CN116705034A

CN116705034A - 声纹特征提取方法、说话人识别方法、模型训练方法及装置

Info

Publication number: CN116705034A
Application number: CN202310571244.4A
Authority: CN
Inventors: 陈亚峰; 郑斯奇; 王绘; 程路遥
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-09-05

Abstract

本申请实施例公开了一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。主要技术方案包括：获取包含语音的音频段；提取音频段的频谱特征；将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征；其中，声纹提取模型包括卷积神经网络层和池化全连接层；卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征；池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。通过本申请能够提升提取的声纹特征的准确性，提高声纹提取模型的泛化性能。

Description

声纹特征提取方法、说话人识别方法、模型训练方法及装置

技术领域

本申请涉及人工智能和音频处理技术领域，特别是涉及一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。

背景技术

声纹特征是指语音中所蕴含的能表示说话人身份的语音特征。由于人的生理和性格等多重因素决定了每个人在说话的过程中都会有自己的不同的发音特点，因此声纹特征提取技术被广泛地应用在安防、信息安全和多人对话等场景下。不管用于哪种场景，提升声纹特征提取的准确性都至关重要。

发明内容

有鉴于此，本申请提供了一种提取声纹特征的方法、说话人识别方法、模型训练方法及装置，以便于提升声纹特征提取的准确性。

本申请提供了如下方案：

第一方面，提供了一种声纹特征提取方法，所述方法包括：

获取包含语音的音频段；

提取所述音频段的频谱特征；

将所述音频段的频谱特征输入声纹提取模型，获取所述声纹提取模型输出的声纹特征；其中，所述声纹提取模型包括卷积神经网络层和池化全连接层；

所述卷积神经网络层包括一个以上串连的基础模块，所述基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到所述卷积神经网络层输出的特征；

所述池化全连接层对所述卷积神经网络层输出的特征进行池化和全连接处理，得到所述声纹特征。

根据本申请实施例中一可实现的方式，所述基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征包括：

所述基础模块对输入该基础模块的特征进行第一卷积处理，得到第一特征；

将所述第一特征分成N个第一子特征分别用以执行N个分支的处理，所述N为大于1的正整数；在第一个分支中对第一子特征进行第二卷积处理，得到第一个分支的第二子特征；在其他分支中分别将当前分支的第一子特征与上一个分支得到的第二子特征进行融合，对融合后得到的特征进行第二卷积处理，得到当前分支的第二子特征；

将N个分支得到的第二子特征在通道维度上进行拼接后，对拼接得到的特征进行第三卷积处理，得到该基础模块输出的特征。

根据本申请实施例中一可实现的方式，所述卷积神经网络层采用残差网络，所述基础模块为残差块。

根据本申请实施例中一可实现的方式，所述一个以上串连的基础模块被划分为M个阶段，所述M为大于1的正整数，每个阶段包含一个以上串连的基础模块；

所述方法还包括：将第一阶段中最后一个基础模块输出的特征作为第一阶段得到的特征；对除第一阶段之外的其他各阶段分别执行：将上一阶段得到的特征进行下采样，将下采样得到的特征与当前阶段中最后一个基础模块输出的特征进行融合，将融合得到的特征作为当前阶段得到的特征；

所述利用最后一个基础模块输出的特征得到所述卷积神经网络层输出的特征包括：将最后一个阶段得到的特征作为所述卷积神经网络层输出的特征。

根据本申请实施例中一可实现的方式，所述融合包括：利用注意力特征融合AFF模块进行的基于注意力的融合处理。

根据本申请实施例中一可实现的方式，所述利用注意力特征融合AFF模块进行的基于注意力的融合处理包括：

所述AFF模块将输入该AFF模块的两个特征进行拼接，得到第三特征；

将所述第三特征经过卷积归一化和激活函数的处理后，得到第四特征；

利用双曲正切函数对所述第四特征进行处理，得到注意力权重；

利用所述注意力权重对所述输入该AFF模块的两个特征进行加权求和，得到所述AFF模块输出的特征。

第二方面，提供了一种说话人识别方法，所述方法包括：

将包含语音的音频切分为多个音频段；

利用如上第一方面所述的方法针对所述多个音频段分别提取各音频段的声纹特征；

确定相邻音频段的声纹特征之间的相似度；

依据所述相似度确定对应的相邻音频段是否属于同一说话人。

第三方面，提供了一种说话人识别方法，由云端服务器执行，所述方法包括：

获取来自终端设备的包含语音的音频；

将所述音频切分为多个音频段；

确定相邻音频段的声纹特征之间的相似度，依据所述相似度确定对应的相邻音频段是否属于同一说话人；

将不属于同一说话人的相邻音频段之间的分割点作为说话人转换点，利用所述说话人转换点对所述音频或所述音频的语音识别结果标注说话人标识；

将所述说话人标识返回给所述终端设备。

第四方面，提供了一种训练声纹提取模型的方法，所述方法包括：

获取包含多个训练样本的训练数据，所述训练样本包括音频段样本及其对应的说话人标签；

利用所述训练数据训练声纹提取模型和分类模型，其中提取所述音频段样本的频谱特征后输入所述声纹提取模型，所述声纹提取模型利用所述频谱特征得到声纹特征并输出至所述分类模型，所述分类模型利用所述声纹特征进行分类得到说话人信息；所述训练的目标包括：最小化所述分类模型得到的说话人信息与对应说话人标签之间的差异；

训练结束后，获取训练得到的声纹提取模型；其中，所述声纹提取模型包括卷积神经网络层和池化全连接层；所述卷积神经网络层包括一个以上串连的基础模块，所述基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到所述卷积神经网络层输出的特征；所述池化全连接层对所述卷积神经网络层输出的特征进行池化和全连接处理，得到所述声纹特征。

第五方面，提供了一种声纹特征提取装置，所述装置包括：

音频获取单元，被配置为获取包含语音的音频段；

频谱提取单元，被配置为提取所述音频段的频谱特征；

声纹提取单元，被配置为将所述音频段的频谱特征输入声纹提取模型，获取所述声纹提取模型输出的声纹特征；其中，所述声纹提取模型包括卷积神经网络层和池化全连接层；

第六方面，提供了一种说话人识别装置，所述装置包括：音频切分单元、相似度计算单元和如上第五方面所述的声纹特征提取装置；

所述音频切分单元，被配置为将包含语音的音频切分为多个音频段；

所述声纹特征提取装置，被配置为针对所述多个音频段分别提取各音频段的声纹特征；

所述相似度计算单元，被配置为确定相邻音频段的声纹特征之间的相似度，依据所述相似度确定对应的相邻音频段是否属于同一说话人。

第七方面，提供了一种训练声纹提取模型的装置，所述装置包括：

样本获取单元，被配置为获取包含多个训练样本的训练数据，所述训练样本包括音频段样本及其对应的说话人标签；

模型训练单元，被配置为利用所述训练数据训练声纹提取模型和分类模型，其中提取所述音频段样本的频谱特征后输入所述声纹提取模型，所述声纹提取模型利用所述频谱特征得到声纹特征并输出至所述分类模型，所述分类模型利用所述声纹特征进行分类得到说话人信息；所述训练的目标包括：最小化所述分类模型得到的说话人信息与对应说话人标签之间的差异；训练结束后，获取训练得到的声纹提取模型；

其中，所述声纹提取模型包括卷积神经网络层和池化全连接层；所述卷积神经网络层包括一个以上串连的基础模块，所述基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到所述卷积神经网络层输出的特征；所述池化全连接层对所述卷积神经网络层输出的特征进行池化和全连接处理，得到所述声纹特征。

根据第八方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面至第四方面中任一项所述的方法的步骤。

根据第九方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面至第四方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请通过在声纹提取模型的基础模块中对输入的特征进行多个通道维度的特征提取和融合，即通过局部的多尺度特征融合充分考虑局部特征之间的影响，在更细粒度上增强对局部特征的感知，以提升提取的声纹特征的准确性。

2)更进一步地，本申请将基础模块划分为多个阶段，在多个阶段之间进行全局的多尺度特征融合。通过全局多尺度特征融合和局部多尺度特征融合，来提高声纹提取模型的多尺度表征能力，从而提高声纹提取模型的准确性和鲁棒性，且具有很高的泛化性能。

3)本申请中采用了注意力特征融合方式，根据特征的重要性动态的进行加权求和，能够显式地增强特征交互，提高声纹提取模型从音频中提取声纹特征的能力。

4)本申请提供了一种增强的残差网络架构，即在残差网络中增加了局部多尺度特征融合机制和全局多尺度特征融合机制，扩大了感受野来提高声纹提取模型的多尺度表征能力，进而提高说话人识别的准确性和鲁棒性。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的声纹特征提取方法的流程图；

图3为本申请实施例提供的声纹提取模型的原理性示意图；

图4为本申请实施例提供的一种基础模块的示意性结构图；

图5a和图5b为本申请实施例提供的AFF模块的原理性示意图；

图6为本申请实施例提供的一种卷积神经网络层的原理性示意图；

图7为本申请实施例提供的一种训练声纹提取模型的方法流程图；

图8为本申请实施例提供的说话人识别的原理性示意图；

图9为本申请实施例提供的声纹特征提取装置的示意性框图；

图10为本申请实施例提供的说话人识别装置的示意性框图；

图11为本申请实施例提供的训练声纹提取模型的装置的示意性框图；

图12为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构可以包括：模型训练装置、声纹特征提取装置和说话人识别装置。

其中，模型训练装置在离线阶段获取多个训练样本构成的训练数据后，可以采用本申请实施例提供的方法训练声纹提取模型。

声纹特征提取装置可以在线采用本申请实施例提供的方法对输入的音频段进行声纹特征的提取。基于提取的声纹特征可以进行多种类型的下游说话人识别任务。例如由说话人识别装置利用提取的声纹特征识别该音频段对应的说话人信息。再例如由说话人识别装置利用声纹特征提取装置针对多段音频段提取的声纹特征，识别该多段音频段是否对应相同的说话人。

模型训练装置、声纹特征提取装置和说话人识别装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，VirtualPrivateServer)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置、声纹特征提取装置和说话人识别装置还可以设置于具有较强计算能力的计算机终端。

需要说明的是，上述声纹特征提取装置和说话人识别装置除了在线进行声纹特征的提取和说话人识别之外，也可以采用离线的方式进行声纹特征的提取和说话人识别。

应该理解，图1中的声纹提取模型、模型训练装置、声纹特征提取装置和说话人识别装置的数目仅仅是示意性的。根据实现需要，可以具有任意数目的声纹提取模型、模型训练装置、声纹特征提取装置和说话人识别装置。

图2为本申请实施例提供的声纹特征提取方法的流程图，该方法可以由图1所示系统中的声纹特征提取装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取包含语音的音频段。

步骤204：提取音频段的频谱特征。

步骤206：将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征；其中，声纹提取模型包括卷积神经网络层和池化全连接层；卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征；池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。

由上述流程可以看出，本申请通过在声纹提取模型的基础模块中对输入的特征进行多尺度的特征提取和融合，即通过局部特征的融合充分考虑局部特征之间的影响，在更细粒度上增强对局部特征的感知，以提升提取的声纹特征的准确性。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分。例如“第一子特征”和“第二子特征”用以在名称上区分两个子特征表示。再例如“第一特征”、“第二特征”和“第三特征”等用以在名称上区分三个特征表示。

下面分别对上述流程中的各步骤进行详细描述。上述步骤202中获取的音频段通常为包含一个说话人的语音的音频段，需要从该音频段中提取该说话人的声纹特征。

上述步骤204中，从音频段提取的频谱特征可以是诸如FBank(FilterBank，滤波器组)特征或者MFCC(Mel-scaleFrequencyCepstralCoefficients，梅尔倒谱系数)特征等。

其中，FBank是对音频段进行分帧后，对各帧进行傅里叶变换后得到的。MFCC特征是在FBank的基础上做了DCT(DiscreteCosineTransform，离散余弦变换)后得到。鉴于这些频谱特征为目前比较常见的特征，在此不做详述。

下面重点结合实施例对上述步骤206即“将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征”进行详细描述。

本申请实施例提供了一种全新的声纹提取模型的结构，如图3中所示，该声纹提取模型可以包括卷积神经网络层和池化全连接层。

其中，卷积神经网络可以包括一个以上串连的基础模块，图3中以K个基础模块为例，K为大于1的正整数。

每个基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合，得到该基础模块输出的特征。由于基础模块是串连的，因此输入第一个基础模块的特征为步骤204得到的频谱特征。输入后续其他基础模块的特征均为上一个基础模块输出的特征。然后利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征。

池化全连接层对卷积神经网络层输出的特征进行池化和全连接(fullconnection)处理，得到声纹特征。

在本申请实施例中，卷积神经网络层可以采用多种类型，例如可以采用ResNet(残差网络)、TDNN(TimeDelayNeuralNetwork，时延神经网络)、Res2Net(ResNet的一种变体)等。其中，当采用残差网络时，上述基础模块为残差块，后续实施例中将以Res2Net为例进行描述。

所谓多尺度特征指的是对信号进行不同粒度的特征采样。在基础模块中进行的多尺度特征提取和融合是在不同通道维度上提取细粒度的特征和融合，从而加强局部细粒度特征之间的信息交互。不同通道维度代表了不同的尺度，即对应不同的特征表达。

作为其中一种可实现的方式，基础模块可以对输入该基础模块的特征进行第一卷积处理，得到第一特征。然后将第一特征分成N个第一子特征分别用以执行N个分支的处理，N为大于1的正整数。在第一个分支中对第一子特征进行第二卷积处理，得到第一个分支的第二子特征。在其他分支中分别将当前分支的第一子特征与上一个分支得到的第二子特征进行融合，对融合后得到的特征进行第二卷积处理，得到当前分支的第二子特征。最后将N个分支得到的第二子特征在通道维度上进行拼接后，对拼接得到的特征进行第三卷积处理，得到该基础模块输出的特征。

其中，可以将第一特征按照通道划分成N个第一子特征，也就是说，每一个第一子特征的维度与第一特征相同，但通道数是第一特征的N分之一。相当于通过N个分支得到不同尺度的特征且在不同尺度的特征之间进行了融合。上述实现方式是将相邻分支的第一子特征之间的融合，除了这种融合方式之外，也不排除可以使用其他方式来实现基础模块内部的多尺度特征融合。

上述过程中，若得到的第i个第一子特征表示为x_i，则第i个分支的第二子特征y_i可以采用如下公式确定：

其中，K_i()为第i个分支中进行的第二卷积处理的函数，AFF()为融合处理的函数。

针对该实现方式举例说明。图4为本申请实施例提供的一种基础模块的示意性结构图，如图4中所示，输入基础模块的特征x首先经过1×1卷积处理后得到第一特征，将第一特征按照通道划分为3个第一子特征x₁、x₂和x₃。也就是说，若x具有n个通道的特征，则x₁、x₂和x₃分别为n/3个通道的特征。

在第一个分支中，将x₁首先经过3×3卷积处理，得到的第二子特征为y₁。

在第二个分支中，通过AFF模块对x₂和y₁进行融合处理，再将融合处理得到的特征进行3×3卷积处理，得到的第二子特征为y₂。图4中以采用AFF(AttentionalFeatureFusion，注意力特征融合)模块进行融合为例，也可以采用其他融合模块。

在第三个分支中，通过AFF模块对x₃和y₂进行融合处理，再将融合处理得到的特征进行3×3卷积处理，得到的第二子特征为y₃。

然后再将y₁、y₂和y₃进行通道上的合并后，对合并得到的特征进行1×1卷积处理后，得到该基础模块输出的特征，该特征又作为x输入下一个基础模块。

作为其中一种可实现的方式，AFF模块可以首先将输入AFF模块的两个特征进行拼接，得到第三特征。然后将第三特征经过卷积归一化、激活函数的处理后，得到第四特征。再利用双曲正切函数对第四特征进行处理，得到注意力权重。最后利用注意力权重对两个输入该AFF模块的特征进行加权求和，得到AFF模块输出的特征。

其中，AFF模块的原理性示意图可以如图5a或如图5b中所示，将输入AFF模块的两个特征进行拼接即图中的⊙，然后经过1×1卷积后进行归一化处理，再经过诸如SiLU等激活函数的处理。再经过双曲正切函数处理，假设经过双曲正切函数处理后得到α，将1-α和1+α分别作为输入AFF模块的两个特征的注意力权重，利用该注意力权重对输入AFF模块的两个特征进行加权求和(即图中的和/>)，得到AFF模块输出的特征。

更进一步地，除了在局部进行基础模块内部的多尺度特征融合之外，本申请还可以在全局上进行基础模块外部的特征融合。作为其中一种可实现的方式，K个基础模块可以被划分为M个阶段，M为大于1的正整数，每个阶段包含一个以上串连的基础模块。

例如图6中所示，假设卷积神经网络层包括16个基础模块，可以将第1～3个基础模块作为第一阶段，第4～7个基础模块作为第二阶段，第8～13个基础模块作为第三个阶段，第14～16个基础模块作为第四个阶段。

将第一阶段中最后一个基础模块输出的特征作为第一阶段得到的特征。对除第一阶段之外的其他各阶段分别执行：将上一阶段得到的特征进行下采样，将下采样得到的特征与当前阶段中最后一个基础模块输出的特征进行融合，将融合得到的特征作为当前阶段得到的特征。

如图6中所示，基础模块3输出的特征作为第一阶段得到的特征。将第一阶段得到的特征进行下采样后，与第二阶段最后一个基础模块7输出的特征进行AFF模块的融合处理，得到第二阶段的特征。将第二阶段的特征进行下采样后，与第三阶段最后一个基础模块13输出的特征进行AFF模块的融合处理，得到第三阶段的特征。再将第三阶段的特征进行下采样后，与第四阶段最后一个基础模块16输出的特征进行AFF模块的融合处理，得到第四阶段的特征。其中，AFF模块的结构原理可以参见上面实施例中的记载，在此不做赘述。

在这种情况下，将最后一个阶段的特征(图6中为第四阶段得到的特征)作为卷积神经网络层输出的特征，该特征输出给池化全连接层。

若不在全局上进行上述基础模块外部的特征融合，则可以直接将卷积神经网络层最后一个基础模块的输出作为卷积神经网络层输出的特征。

在局部进行基础模块内部的多尺度特征融合，能够在更细粒度的级别上增强对局部特征的感知，是在不同通道上进行多尺度特征的融合。而在全局上进行基础模块外部的特征融合是在不同的时间和频率尺度上进行的特征融合。这种思路的启发在于，人类的左脑关注局部细节，而右脑更关注全局内容。本申请模拟人脑学习的机理，通过全局多尺度特征融合和局部多尺度特征融合，来提高声纹提取模型的多尺度表征能力，从而提高声纹提取模型的准确性和鲁棒性，且具有很高的泛化性能。经验证，本申请实施例提供的方式在短时语音的说话人识别上具有非常好的效果。

池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。其中，池化处理可以有效的缩小特征矩阵的尺寸，加快计算速度和防止过拟合的作用。全连接处理是将特征矩阵转化为特征向量，为了减少特征位置对于下游任务的影响，增加模型的非线性表达能力。该部分为已有技术，在此不做详述。

图7为本申请实施例提供的一种训练声纹提取模型的方法流程图，该方法可以由图1所示系统中的模型训练装置执行。如图7中所示，该方法可以包括：

步骤702：获取包含多个训练样本的训练数据，训练样本包括音频段样本及其对应的说话人标签。

本申请实施例在训练声纹提取模型时，可以获取多个仅包含一个说话人语音的音频段作为音频段样本，各音频段样本可以包含不同说话人语音。然后针对各音频段分别标注说话人标签，例如标注说话人ID。

步骤704：利用训练数据训练声纹提取模型和分类模型，其中提取音频段样本的频谱特征后输入声纹提取模型，声纹提取模型利用频谱特征得到声纹特征并输出至分类模型，分类模型利用声纹特征进行分类得到说话人信息；训练的目标包括：最小化分类模型得到的说话人信息与对应说话人标签之间的差异。

本申请实施例中在训练声纹提取模型时，下游接一个说话人的分类任务。声纹提取模型的结构和处理可以参见声纹提取方法实施例中的相关记载。在此不做赘述。

在提取音频段样本的频谱特征后输入声纹提取模型，声纹提取模型输出声纹特征至分类模型，由分类模型依据声纹特征进行分类，即将声纹特征映射至说话人ID对应的空间，得到说话人ID。

可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数(包括声纹提取模型和分类模型的参数)，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。其中损失函数可以采用诸如交叉熵损失函数等。

步骤706：训练结束后，获取训练得到的声纹提取模型。

本申请上述实施例提供的声纹提取方法可以应用于多种应用场景：

例如在安防应用场景中，通过从包含用户语音的音频中提取声纹特征后，与合法用户的声纹特征进行比对，从而确定是否为合法用户。

再例如在音频或视频中进行说话人识别，确定其中的说话人转换点，即确定一段多人对话音频中的说话人信息以及各时间段对应的说话人。目前在多人会议场景、客服电话场景、销售场景中被广泛应用。以多人会议场景为例，智能语音识别系统更能够快速识别出会议音频对应的文字信息并依据不同说话人进行分段，确定出说话人转换点的位置，这将极大地提高使用者的工作效率。下面以该应用场景为例进行描述。

如图8中所示，首先将包含语音的音频切分为多个音频段。可以将包含语音的音频按照预设时长进行切分，使得每个音频段均为预设时长。具体时长可以根据实际需求进行设置。例如可以按照1.5秒的时长对音频进行切分，从而得到两个以上的音频段。

然后按照本申请实施例中提供的方式，首先针对各音频段分别提取各音频段的频谱特征，然后将频谱特征输入声纹提取模型，从而得到声纹提取模型针对多个音频段分别提取的各音频段的声纹特征。

再分别针对相邻音频段计算声纹特征之间的相似度，依据相似度确定相邻音频段是否属于同一说话人。例如，如果相邻音频段的声纹特征之间的相似度大于或等于预设的相似度阈值，则认为该相邻音频段属于同一说话人；否则认为该相邻音频段不属于同一说话人，可以将该相邻音频段之间的分割点作为说话人转换点，用以针对音频或语音识别结果标注说话人标识。

作为其中一种可实现的方式，上述说话人识别方法可以由云端服务器执行。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，VirtualPrivateServer)服务中存在的管理难度大，服务扩展性弱的缺陷。

云端服务器获取到用户通过终端设备发送的包含语音的音频后，通过本申请实施例提供的上述方法进行说话人识别，即将所述音频切分为多个音频段；利用图2所示实施例中的方法针对所述多个音频段分别提取各音频段的声纹特征；确定相邻音频段的声纹特征之间的相似度，依据相似度确定对应的相邻音频段是否属于同一说话人；将不属于同一说话人的相邻音频段之间的分割点作为说话人转换点，利用说话人转换点对音频或音频的语音识别结果标注说话人标识；将说话人标识返回给终端设备。

其中上述终端设备可以包括但不限于诸如：智能移动终端、智能家居设备、可穿戴式设备、PC(PersonalComputer，个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(PersonalDigitalAssistant，个人数字助理)、互联网汽车等。智能家居设备可以包括智能电视、智能音箱、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种声纹特征提取装置。图9示出根据一个实施例的声纹特征提取装置的示意性框图。如图9所示，该装置900包括：音频获取单元901、频谱提取单元902和声纹提取单元903。其中各组成单元的主要功能如下：

音频获取单元901，被配置为获取包含语音的音频段。

频谱提取单元902，被配置为提取音频段的频谱特征。

声纹提取单元903，被配置为将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征。

其中，声纹提取模型包括卷积神经网络层和池化全连接层。

卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征。

池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。

作为其中一种可实现的方式，基础模块对输入该基础模块的特征进行第一卷积处理，得到第一特征。

将第一特征分成N个第一子特征分别用以执行N个分支的处理，N为大于1的正整数；在第一个分支中对第一子特征进行第二卷积处理，得到第一个分支的第二子特征；在其他分支中分别将当前分支的第一子特征与上一个分支得到的第二子特征进行融合，对融合后得到的特征进行第二卷积处理，得到当前分支的第二子特征。

作为其中一种可实现的方式，卷积神经网络层可以采用残差网络，例如Res2Net，基础模块为残差块，例如Res2Net块。

更进一步地，上述一个以上串连的基础模块被划分为M个阶段，M为大于1的正整数，每个阶段包含一个以上串连的基础模块。

声纹提取模型可以将第一阶段中最后一个基础模块输出的特征作为第一阶段得到的特征；对除第一阶段之外的其他各阶段分别执行：将上一阶段得到的特征进行下采样，将下采样得到的特征与当前阶段中最后一个基础模块输出的特征进行融合，将融合得到的特征作为当前阶段得到的特征。

这种情况下，可以将最后一个阶段得到的特征作为卷积神经网络层输出的特征。

作为其中一种可实现的方式，上述融合可以为：利用AFF模块进行的基于注意力的融合处理。

作为其中一种可实现的方式，AFF模块可以将两个输入该AFF模块的特征进行拼接，得到第三特征；然后将第三特征经过卷积归一化、激活函数的处理后，得到第四特征；再利用双曲正切函数对第四特征进行处理，得到注意力权重；最后利用注意力权重对两个输入该AFF模块的特征进行加权求和，得到AFF模块输出的特征。

根据再一方面的实施例，提供了一种说话人识别装置。图10示出根据一个实施例的说话人识别装置的示意性框图。如图10所示，该装置1000包括：音频切分单元1001、声纹提取装置900和相似度计算单元1002。其中各组成单元的主要功能如下：

音频切分单元1001，被配置为将包含语音的音频切分为多个音频段。

声纹特征提取装置900，被配置为针对多个音频段分别提取各音频段的声纹特征。

声纹特征提取装置900的具体结构和功能可以参见上述实施例中针对图9的相关记载，在此不做赘述。

相似度计算单元1002，被配置为确定相邻音频段的声纹特征之间的相似度，依据相似度确定对应的相邻音频段是否属于同一说话人。

例如，如果相邻音频段的声纹特征之间的相似度大于或等于预设的相似度阈值，则认为该相邻音频段属于同一说话人；否则认为该相邻音频段不属于同一说话人，可以将该相邻音频段之间的分割点作为说话人转换点，用以针对音频或语音识别结果标注说话人表示。

根据再一方面的实施例，提供了一种训练声纹提取模型的装置。图11示出根据一个实施例的训练声纹提取模型的装置的示意性框图。如图11所示，该装置1100包括：样本获取单元1101和模型训练单元1102。其中各组成单元的主要功能如下：

样本获取单元1101，被配置为获取包含多个训练样本的训练数据，训练样本包括音频段样本及其对应的说话人标签。

模型训练单元1102，被配置为利用训练数据训练声纹提取模型和分类模型，其中提取音频段样本的频谱特征后输入声纹提取模型，声纹提取模型利用频谱特征得到声纹特征并输出至分类模型，分类模型利用声纹特征进行分类得到说话人信息；训练的目标包括：最小化分类模型得到的说话人信息与对应说话人标签之间的差异；训练结束后，获取训练得到的声纹提取模型；

其中，声纹提取模型可以包括卷积神经网络层和池化全连接层；卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征；池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。

声纹提取模型的具体原理和结构可以参见方法实施例中的相关记载，在此不做赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图12示例性的展示出了电子设备的架构，具体可以包括处理器1210，视频显示适配器1211，磁盘驱动器1212，输入/输出接口1213，网络接口1214，以及存储器1220。上述处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，与存储器1220之间可以通过通信总线1230进行通信连接。

其中，处理器1210可以采用通用的CPU、微处理器、应用专用集成电路(Application SpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1220可以采用ROM(ReadOnlyMemory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1220可以存储用于控制电子设备1200运行的操作系统1221，用于控制电子设备1200的低级别操作的基本输入输出系统(BIOS)1222。另外，还可以存储网页浏览器1223，数据存储管理系统1224，以及声纹提取装置/说话人识别装置/模型训练装置1225等等。上述声纹提取装置/说话人识别装置/模型训练装置1225就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1220中，并由处理器1210来调用执行。

输入/输出接口1213用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1214用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1230包括一通路，在设备的各个组件(例如处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，与存储器1220)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1212、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，存储器1220，总线1230等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声纹特征提取方法，其特征在于，所述方法包括：

获取包含语音的音频段；

提取所述音频段的频谱特征；

2.根据权利要求1所述的方法，其特征在于，所述基础模块对输入该基础模块的特征进行多个通道维度的特征提取和融合，得到该基础模块输出的特征包括：

3.根据权利要求1或2所述的方法，其特征在于，所述卷积神经网络层采用残差网络，所述基础模块为残差块。

4.根据权利要求1所述的方法，其特征在于，所述一个以上串连的基础模块被划分为M个阶段，所述M为大于1的正整数，每个阶段包含一个以上串连的基础模块；

5.根据权利要求1或4所述的方法，其特征在于，所述融合包括：利用注意力特征融合AFF模块进行的基于注意力的融合处理。

6.根据权利要求5所述的方法，其特征在于，所述利用注意力特征融合AFF模块进行的基于注意力的融合处理包括：

7.一种说话人识别方法，其特征在于，所述方法包括：

将包含语音的音频切分为多个音频段；

利用如权利要求1至6中任一项所述的方法针对所述多个音频段分别提取各音频段的声纹特征；

确定相邻音频段的声纹特征之间的相似度；

8.一种说话人识别方法，由云端服务器执行，其特征在于，所述方法包括：

获取来自终端设备的包含语音的音频；

将所述音频切分为多个音频段；

将所述说话人标识返回给所述终端设备。

9.一种训练声纹提取模型的方法，其特征在于，所述方法包括：

10.一种声纹特征提取装置，其特征在于，所述装置包括：

音频获取单元，被配置为获取包含语音的音频段；

频谱提取单元，被配置为提取所述音频段的频谱特征；

11.一种说话人识别装置，其特征在于，所述装置包括：音频切分单元、相似度计算单元和如权利要求10中所述的声纹特征提取装置；

12.一种训练声纹提取模型的装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至9中任一项所述的方法的步骤。