CN111833884A

CN111833884A - 一种声纹特征提取方法、装置、电子设备及存储介质

Info

Publication number: CN111833884A
Application number: CN202010463600.7A
Authority: CN
Inventors: 邹佳宏
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-10-27

Abstract

本申请实施例提供了一种声纹特征提取方法、装置、电子设备及存储介质，该方法包括：获取待识别语音数据；提取待识别语音数据的时域特征和频域特征；对时域特征和频域特征进行特征聚合，得到聚合后的特征，其中，在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；对聚合后的特征进行向量嵌入，得到声纹特征。可见，通过本申请实施例提供的技术方案，提取待识别语音数据的特征更加全面，并且，可以实现将同一用户的语音数据的时域特征和频域特征聚合在一起，增加聚合后的特征的区分度，从而提取的声纹特征的区分度更高，有利于提高声纹识别的准确率。

Description

一种声纹特征提取方法、装置、电子设备及存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种声纹特征提取方法、装置、电子设备及存储介质。

背景技术

声纹识别又叫说话人识别，是一种根据说话人声音特征，来识别说话人身份的生物识别技术。可广泛应用于安防、金融、反欺诈等领域。其关键技术在于如何提取具有足够区分度的声纹特征，声纹特征的提取效果，直接影响了声纹识别的准确率。

目前，声纹特征提取主要有基于高斯超向量因子分析的传统方法，在利用该方法提取声纹特征的过程中，由于将高维特征映射到低维向量过程中，因子选取的不确定性即无法确定哪些因子有效，以及低维向量包含的无关信道信息，严重影响了声纹特征的提取效果，直接影响了声纹识别的准确率。

发明内容

为解决相关技术中存在的因声纹特征的提取效果较差而导致声纹识别的准确率，本申请实施例提供了一种声纹特征提取方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种声纹特征提取方法，所述方法包括：

获取待识别语音数据；

提取所述待识别语音数据的时域特征和频域特征；

对所述时域特征和所述频域特征进行特征聚合，得到聚合后的特征，其中，在对所述时域特征和所述频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；

对所述聚合后的特征进行向量嵌入，得到声纹特征。

可选的，所述提取所述待识别语音数据的时域特征和频域特征，包括：

将所述待识别语音数据进行短时傅里叶变换，得到所述待识别语音数据的频谱图信息，所述频谱图信息包括：时域信息和频域信息；

将所述频谱图信息的时域信息和频域信息输入到二维卷积神经网络，得到所述待识别语音数据的时域特征和频域特征。

可选的，所述对所述时域特征和所述频域特征进行特征聚合，得到聚合后的特征，包括：

将所述时域特征和所述频域特征输入到局部向量聚合层，以使得所述局部向量聚合层对时域信息或者频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。

可选的，所述对所述聚合后的特征进行向量嵌入，得到声纹特征，包括：

将所述聚合后的特征输入到全连接层，得到声纹特征。

可选的，在所述对所述聚合后的特征进行向量嵌入，得到声纹特征之后，所述方法还包括：

将所述声纹特征输入到分类器中，以使得所述分类器计算所述声纹特征与预先存储的预设声纹特征之间的相似度，并通过计算得到的相似度确定所述待识别语音数据对应的用户标识；

其中，所述预设声纹特征对应预设用户的用户标识。

第二方面，本申请实施例提供了一种声纹特征提取装置，所述装置包括：

语音数据获取模块，用于获取待识别语音数据；

特征提取模块，用于提取所述待识别语音数据的时域特征和频域特征；

特征聚合模块，用于对所述时域特征和所述频域特征进行特征聚合，得到聚合后的特征，其中，在对所述时域特征和所述频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；

声纹特征获取模块，用于对所述聚合后的特征进行向量嵌入，得到声纹特征。

可选的，所述特征提取模块，具体用于：

可选的，所述特征聚合模块，具体用于：

可选的，所述声纹特征获取模块，具体用于：

将所述聚合后的特征输入到全连接层，得到声纹特征。

可选的，所述装置还包括：

用户标识获取模块，用于在所述对所述聚合后的特征进行向量嵌入，得到声纹特征之后，将所述声纹特征输入到分类器中，以使得所述分类器计算所述声纹特征与预先存储的预设声纹特征之间的相似度，并通过计算得到的相似度确定所述待识别语音数据对应的用户标识；

其中，所述预设声纹特征对应预设用户的用户标识。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现第一方面所述的声纹特征提取方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的声纹特征提取方法的步骤。

本申请实施例提供的技术方案，在提取待识别语音数据的声纹特征时，获取待识别语音数据；提取待识别语音数据的时域特征和频域特征；对时域特征和频域特征进行特征聚合，得到聚合后的特征，其中，在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；对聚合后的特征进行向量嵌入，得到声纹特征。可见，通过本申请实施例提供的技术方案，提取待识别语音数据的特征更加全面，即包括待识别语音数据的时域特征和频域特征，并且，通过将相似度大于预设相似度的时域特征和频域特征聚合在一起，可以实现将同一用户的语音数据的时域特征和频域特征聚合在一起，增加聚合后的特征的区分度，从而提取的声纹特征的区分度更高，有利于提高声纹识别的准确率。

附图说明

图1是本申请实施例提供的一种声纹特征提取方法的步骤流程图；

图2是本申请实施例提供的另一种声纹特征提取方法的步骤流程图；

图3是本申请实施例提供的一种声纹特征提取装置的结构框图；

图4是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

第一方面，对本申请实施例提供的一种声纹特征提取方法进行详细介绍。

如图1所示，本申请实施例提供的一种声纹特征提取方法，可以包括如下步骤：

S110，获取待识别语音数据。

具体的，待识别语音数据可以是任一用户的语音数据，本申请实施例对待识别语音数据不做具体限定。

S120，提取待识别语音数据的时域特征和频域特征。

在获取到待识别语音数据之后，为了使得所提取的待识别语音的特征更加全面，可以提取待识别语音数据的时域特征和频域特征。而不像现有技术那样，只提取待识别语音数据的时域特征。

其中，时域特征可以是用于表征待识别语音数据的频谱图的时域相关信息的向量；频域特征可以是用于表征待识别语音数据的频谱图的频域相关信息的向量。

在一种实施方式中，提取待识别语音数据的时域特征和频域特征，可以包括如下步骤，分别为步骤a1和步骤a2：

步骤a1，将待识别语音数据进行短时傅里叶变换，得到待识别语音数据的频谱图信息。

其中，频谱图信息包括：时域信息和频域信息。

在提取待识别语音数据的时域特征和频域特征时，可以先提取待识别语音数据的频谱图信息。因此，可以将待识别语音数据进行短时傅里叶变换处理STFT，得到待识别语音数据的频谱图信息，该频谱图信息可以包括时域信息和频域信息。

步骤a2，将频谱图信息的时域信息和频域信息输入到二维卷积神经网络，得到待识别语音数据的时域特征和频域特征。

在得到包括时域信息和频域信息的频谱图信息后，可以将频谱图信息的时域信息和频域信息输入到二维卷积神经网络Resnet中，二维卷积神经网络在接收时域信息和频域信息后，通过频域信息提取得到待识别语音数据的时域特征，通过时域信息提取得到待识别语音数据的频域特征。

S130，对时域特征和频域特征进行特征聚合，得到聚合后的特征。

其中，在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起。

具体的，在得到待识别语音数据的时域特征和频域特征之后，对待识别语音数据的时域特征和频域特征进行特征聚合，得到聚合后的特征。

需要说明的是，不同用户的语音数据的频谱图信息所包括的时域信息和频域信息是不同的，且不同用户的语音数据的时域特征和频域特征也是不同的。同一用户的语音数据的频谱图信息所包括的时域信息和频域信息是相同的，且同一用户的语音数据的时域特征和频域特征也是相同的。

为了将同一用户的语音数据的时域特征和频域特征聚合在一起，以增加聚合后的特征的区分度。在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起。预设相似度可以根据实际情况进行设定，例如，预设相似度可以为90％，本申请实施例对预设相似度的大小不做具体限定。

由上述描述可知，通过本方案可以将频谱信息相似的待识别语音数据对应的时域特征和频域特征聚合在一起，即将同一用户的语音数据的时域特征和频域特征聚合在一起，从而增加聚合后的特征的区分度。而不像现有技术那样，无法将同一用户的语音数据的时域特征和频域特征聚合在一起，导致聚合后的特征的区分度不高。

在一种实施方式中，对时域特征和频域特征进行特征聚合，得到聚合后的特征，可以包括如下步骤：

将时域特征和频域特征输入到局部向量聚合层，以使得局部向量聚合层对时域信息或者频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。

为了方案描述清楚，下面首先对局部向量聚合层进行简单介绍。

其中，局部向量聚合层即为VLAD层，VLAD是vector of locally aggregateddescriptors的简称。具体的，VLAD层是基于语音数据库中的大量语音数据的时域特征和频域特征训练得到的。在训练VLAD层时，输入为语音数据的时域特征和频域特征，目标输出为聚合后的特征，且该聚合后的特征为将相似度大于预设相似度的时域特征和频域特征聚合所得到的特征。当从VLAD层输出的特征为该聚合后的特征时，确定VLAD层的聚合参数，此时，得到训练好的VLAD层。

因此，在对待识别语音数据的时域特征和频域特征进行特征聚合时，可以将待识别语音数据的时域特征和频域特征输入到VLAD层中，VLAD层可以准确地将频谱图信息相似度大于预设相似度的语音数据的时域特征和频域特征聚合在一起，即将同一用户的语音数据的时域特征和频域特征聚合在一起，进而提高了聚合后的特征的区分度。

S140，对聚合后的特征进行向量嵌入，得到声纹特征。

具体的，在得到聚合后的特征后，可以对聚合后的特征进行向量嵌入，得到声纹特征。对聚合后的特征进行向量嵌入的作用是：每个聚合后的特征本来是离散变量，通过对聚合后的特征进行向量嵌入，可以将离散变量转变为连续向量，即得到声纹特征。

在一种实施方式中，对聚合后的特征进行向量嵌入，得到声纹特征，可以包括如下步骤：

将聚合后的特征输入到全连接层，得到声纹特征。

为了方案描述清楚，下面首先对全连接层进行简单介绍。

其中，全连接embeding层可以用于为对特征进行降维和向量化，从而将离散的特征转换为连续的向量。

在该实施方式中，在获得声纹特征时，可以将聚合后的输入embeding层中，embeding层在接收到聚合后的特征后，可以将离散变量转变为连续向量，即得到声纹特征。

为了得到待识别语音数据对应的用户标识，本申请实施例还提供了一种声纹特征提取方法，如图2所述，该声纹特征提取方法可以包括如下步骤：

S210，获取待识别语音数据。

由于步骤S210和步骤S110相同，在图1所示实施例中已经对步骤S110进行了详细阐述，在此，不再对步骤S210进行赘述。

S220，提取待识别语音数据的时域特征和频域特征。

由于步骤S220和步骤S120相同，在图1所示实施例中已经对步骤S120进行了详细阐述，在此，不再对步骤S220进行赘述。

S230，对时域特征和频域特征进行特征聚合，得到聚合后的特征，其中，在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起。

由于步骤S230和步骤S130相同，在图1所示实施例中已经对步骤S130进行了详细阐述，在此，不再对步骤S230进行赘述。

S240，对聚合后的特征进行向量嵌入，得到声纹特征。

由于步骤S240和步骤S140相同，在图1所示实施例中已经对步骤S140进行了详细阐述，在此，不再对步骤S240进行赘述。

S250，将声纹特征输入到分类器中，以使得分类器计算声纹特征与预先存储的预设声纹特征之间的相似度，并通过计算得到的相似度确定待识别语音数据对应的用户标识。

其中，预设声纹特征对应预设用户的用户标识。

具体的，在得到待识别语音数据的声纹特征后，可以将待识别语音数据的声纹特征输入到分类器中，分类器可以计算声纹特征与预先存储的预设声纹特征之间的相似度，其中，每个预设声纹特征对应一个预设用户的用户标识。

可以理解的是，如果待识别语音数据的声纹特征与一个预设声纹特征之间的相似度较高，说明待识别语音数据对应的用户标识，与该预设声纹特征对应的预设用户的用户标识相同，因此，将该预设声纹特征对应的预设用户的用户标识确定为待识别语音数据对应的用户标识。相反的，如果待识别语音数据的声纹特征与一个预设声纹特征之间的相似度较低，说明待识别语音数据对应的用户标识，与该预设声纹特征对应的预设用户的用户标识不同。可见，通过本申请实施例提供的技术方案，可以准确地确定待识别语音数据对应的用户标识。

本申请实施例提供的技术方案，在提取待识别语音数据的声纹特征时，获取待识别语音数据；提取待识别语音数据的时域特征和频域特征；对时域特征和频域特征进行特征聚合，得到聚合后的特征，其中，在对时域特征和频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；对聚合后的特征进行向量嵌入，得到声纹特征。可见，通过本申请实施例提供的技术方案，提取待识别语音数据的特征更加全面，即包括待识别语音数据的时域特征和频域特征，并且，通过将相似度大于预设相似度的时域特征和频域特征聚合在一起，可以实现将同一用户的语音数据的时域特征和频域特征聚合在一起，增加聚合后的特征的区分度，从而提取的声纹特征的区分度更高，有利于提高声纹识别的准确率。并且，可以准确地确定待识别语音数据对应的用户标识。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

第二方面，本申请实施例提供了一种声纹特征提取装置，如图3所示，所述装置包括：

语音数据获取模块310，用于获取待识别语音数据；

特征提取模块320，用于提取所述待识别语音数据的时域特征和频域特征；

特征聚合模块330，用于对所述时域特征和所述频域特征进行特征聚合，得到聚合后的特征，其中，在对所述时域特征和所述频域特征进行特征聚合的过程中，将相似度大于预设相似度的时域特征和频域特征聚合在一起；

声纹特征获取模块340，用于对所述聚合后的特征进行向量嵌入，得到声纹特征。

可选的，所述特征提取模块，具体用于：

可选的，所述特征聚合模块，具体用于：

可选的，所述声纹特征获取模块，具体用于：

将所述聚合后的特征输入到全连接层，得到声纹特征。

可选的，所述装置还包括：

其中，所述预设声纹特征对应预设用户的用户标识。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种声纹特征提取方法和一种声纹特征提取装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声纹特征提取方法，其特征在于，所述方法包括：

获取待识别语音数据；

提取所述待识别语音数据的时域特征和频域特征；

对所述聚合后的特征进行向量嵌入，得到声纹特征。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待识别语音数据的时域特征和频域特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述时域特征和所述频域特征进行特征聚合，得到聚合后的特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述聚合后的特征进行向量嵌入，得到声纹特征，包括：

将所述聚合后的特征输入到全连接层，得到声纹特征。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述对所述聚合后的特征进行向量嵌入，得到声纹特征之后，所述方法还包括：

其中，所述预设声纹特征对应预设用户的用户标识。

6.一种声纹特征提取装置，其特征在于，所述装置包括：

语音数据获取模块，用于获取待识别语音数据；

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述特征聚合模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述声纹特征获取模块，具体用于：

将所述聚合后的特征输入到全连接层，得到声纹特征。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：

其中，所述预设声纹特征对应预设用户的用户标识。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的声纹特征提取方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的声纹特征提取方法的步骤。