CN109801635A

CN109801635A - 一种基于注意力机制的声纹特征提取方法及装置

Info

Publication number: CN109801635A
Application number: CN201910101750.0A
Authority: CN
Inventors: 冯大航; 陈孝良; 苏少炜; 常乐
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-24

Abstract

本公开提供了一种基于注意力机制的声纹特征提取方法及装置，所述声纹特征提取方法包括：将目标说话人的语音频谱特征输入深度神经网络，并在深度神经网络中加入注意力层，通过注意力机制来估计不同语音帧的权重；从深度神经网络的最后一个隐层中抽取出激活值，经过加权得到声纹特征d‑vector。本公开通过引入了注意力机制来估计语音帧的权重，提升了声纹特征的区分性，能够在保证在声纹认证的情况下，提高目标说话人的通过率，降低非目标说话人的误识率，提升个性化的用户体验。

Description

一种基于注意力机制的声纹特征提取方法及装置

技术领域

本公开涉及自动语音识别领域，尤其涉及一种基于注意力机制的声纹特征提取方法及装置。

背景技术

目前随着信息技术的普及，自动语音识别技术越来越发挥着重要的作用，其应用前景也更加广阔。语音信号中主要包含三个方面的信息：是谁说的、说的语言是什么以及说的内容是什么，其中涉及到的自动语音识别技术分别为：说话人识别、语种识别和语义识别。说话人识别技术，又叫做声纹识别，主要研究的是根据输入的语音信号对说话人的身份进行认证的技术。说话人识别同其他识别技术一样，通过一定的特征，对输入的说话人音频进行识别，从而达到对于输入语音身份的确认。声纹识别因其不涉及用户隐私问题，往往用户接受程度较高。另一方面声纹的获取可以说是最方便的，只需要手机就可以采集用户声纹特征信息，完成身份认证。在声纹识别系统中，通常需要提取能够表达目标说话人身份的声纹特征。

声纹特征的提取方法是采用训练好的模型来抽取能够有效表达说话人特性的声纹特征，但是，不同的语音帧对于声纹认证的贡献是不一样的。目前，通常采用的声纹特征提取方法是利用训练好的深度神经网络模型进行计算得到声纹特征，该方法在声纹的计算过程同等对待目标说话人的语音帧，并没有考虑不同的语音帧对于声纹认证的贡献是不一样的。

发明内容

(一)要解决的技术问题

本公开提供了一种基于注意力机制的声纹特征提取方法及装置，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种基于注意力机制的声纹特征提取方法，包括：

将目标说话人的语音频谱特征输入深度神经网络，并在深度神经网络中加入注意力层，通过注意力机制来估计不同语音帧的权重；

从深度神经网络的最后一个隐层中抽取出激活值，经过加权得到声纹特征d-vector：

其中，所述α_t即为第t帧语音帧的权重，h_t为第t帧的隐层输出。

在一些实施例中，估计不同语音帧的权重的过程包括：

定义一个标量分数e_t：

e_t＝f(h_t)，t＝1，2，...，T

其中，h_t为第t帧的隐层输出，对于非线性的注意力机制，函数f可以表示为：

e_t＝f(h_t)＝v^Ttan(Wh_t+b)

其中，W为m×m矩阵，b和v是m维向量，通过标量分数计算归一化的权重α_t：

其中，所述α_t即为第t帧语音帧的权重，α_t∈[0，1]，

在一些实施例中，所述语音频谱特征为梅尔频率倒谱系数特征。

在一些实施例中，所述将目标说话人的语音频谱特征输入深度神经网络之前，还包括步骤：

对获取目标说话人的语音采样，利用语音端点检测算法，截取出所述目标说话人的语音采样中的实际语音数据；

从所述实际语音数据中，提取梅尔频率倒谱系数特征。

在一些实施例中，所述经过加权得到声纹特征d-vector之后还包括：

基于概率线性判别分析完成信道补偿，并得到信道补偿后的声纹特征。

在一些实施例中，所述利用语音端点检测算法，截取出所述目标说话人的语音采样中的实际语音数据之前还包括：

通过音频输入模块，得到目标说话人的语音采样；

所述基于概率线性判别分析完成信道补偿，并得到信道补偿后的声纹特征之后还包括：

对信道补偿后的声纹特征进行输出。

根据本公开的另一个方面，提供了一种基于注意力机制的声纹特征提取装置，包括：

DNN模块，所述DNN模块将目标说话人的语音频谱特征作为输入，并与最后一个隐层中抽取出激活值，经过加权得到声纹特征d-vector；

注意力层加入模块，连接到所述DNN模块，用于向所述DNN模块的深度神经网络中加入注意力层，所述注意力层加入在所述深度神经网络的输出层。

在一些实施例中，所述的声纹特征提取装置，还包括：

语音端点检测模块，用于对获取的目标说话人的语音采样数据进行处理，采用语音端点检测算法，截取出所述目标说话人的语音采样中的实际语音数据；

语音频谱特征提取模块，连接到所述语音端点检测模块，用于从所述实际语音数据中，提取梅尔频率倒谱系数特征作为所述目标说话人的语音频谱特征。

在一些实施例中，所述的声纹特征提取装置，还包括：

信道补偿模块，连接到所述DNN模块，用于采用PLDA算法进行声纹识别的信道补偿。

在一些实施例中，所述的声纹特征提取装置，还包括：

音频输入模块，用于对目标说话人的声音进行采样；

声纹特征输出模块，连接到所述信道补偿模块，用于将提取的声纹特征进行输出。

(三)有益效果

从上述技术方案可以看出，本公开基于注意力机制的声纹特征提取方法及装置至少具有以下有益效果其中之一：

(1)通过引入了注意力机制来估计语音帧的权重，提升了声纹特征的区分性，能够在保证在声纹认证的情况下，提高目标说话人的通过率，降低非目标说话人的误识率，提升个性化的用户体验；

(2)采用PLDA算法进行声纹识别的信道补偿，能够更好地提取声纹特征。

附图说明

图1为本公开实施例基于注意力机制的声纹特征提取方法的流程图。

图2为本公开实施例基于注意力机制的声纹特征提取装置的结构示意图。

具体实施方式

为了解决声纹特征提取中不同语音帧贡献的问题，本公开提供了一种基于注意力机制的声纹特征提取方法及装置，引入注意力机制来估计不同语音帧的权重，再通过加权隐层激活值的方式得到声纹特征，改变上述语音帧贡献相同的状况。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以由许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中，提供了一种基于注意力机制的声纹特征提取方法，在声纹特征的提取阶段，通过利用注意力机制估计的不同语音帧的权重来加权各帧的最后一个隐层的激活值，达到了改变语音帧对声纹认证贡献相同的目的，保证了说话人认证(SV，Speaker Verification)的性能。

图1为本公开实施例基于注意力机制的声纹特征提取方法的流程图。如图1所示，本公开基于注意力机制的声纹特征提取方法包括：

S1、获取目标说话人的语音采样，利用语音端点检测算法(VAD，Voice ActivityDetection)，截取出所述目标说话人的语音采样中的实际语音数据；

具体地，语音采样时通过音频输入模块，得到目标说话人的语音采样。其中，所述输入音频模块可以为麦克风等语音收集装置。

在获取目标说话人的语音数据后，采用VAD算法进行语音边界检测，从语音数据中识别和消除长时间的静音期，获取采样语音数据中的实际语音数据。

S2、从所述实际语音数据中，提取梅尔频率倒谱系数(MFCC，Mel-frequencycepstral coefficients)特征；

其中，MFCC特征是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，本实施例采用MFCC特征对目标语音数据进行声纹特征提取。所述MFCC特征包括18维的基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征，所述特征补偿包括高阶差分、倒谱均值减、倒谱方差规整、相关频谱滤波，所述MFCC特征的维数为36维。

S3、在深度神经网络(DNN，Deep Neural Networks)中加入注意力(attention)层，通过注意力机制来估计不同语音帧的权重，并将提取的梅尔频率倒谱系数特征输入深度神经网络。

所述深度神经网络为事先采用训练数据集训练好的DNN网络。

其中不同语音帧的权重的估计过程包括：

定义一个标量分数e_t，公式如下：

e_t＝f(h_t)，t＝1，2，...，T

e_t＝f(h_t)＝v^Ttan(Wh_t+b)

其中，W为m×m矩阵，b和v是m维向量。接下来，通过标量分数计算归一化的权重α_t，所述α_t即为第t帧语音帧的权重，公式如下：

其中，α_t∈[0，1]，

S4、从深度神经网络(DNN)的最后一个隐层中抽取出激活值，然后经过加权得到新的d-vector特征，公式如下：

S5、基于概率线性判别分析(PLDA，Probabilistic Linear DiscriminantAnalysis)完成信道补偿；并得到声纹特征。

所述PLDA是一种采用概率形式的LDA算法，该算法基于d-vector特征，所述d-vector特征除说话人信息之外还包括了信道信息，因此采用PLDA算法进行声纹识别的信道补偿后，能够更好地提取声纹特征。

进一步地，本实施例基于注意力机制的声纹特征提取方法中，所述步骤S1之前还包括：

S0，通过音频输入模块，得到目标说话人的语音采样。

进一步地，本实施例基于注意力机制的声纹特征提取方法中，所述步骤S5之后还包括：

S6，对提取得到的声纹特征进行输出。

本公开的基于注意力机制的声纹特征提取方法引入了注意力机制来改变语音帧对于声纹认证贡献相同的状况，由于注意力机制的存在，提高了从语音帧中选出对声纹认证贡献更大的语音帧的能力，而抑制了不重要的语音帧的作用。

在本公开的又一个实施例中，提供了一种基于注意力机制的声纹特征提取的装置。

图2为本公开实施例基于注意力机制的声纹特征提取装置的结构示意图。如图2所示，本公开基于注意力机制的声纹特征提取装置包括：

语音端点检测模块，用于对获取的目标说话人的语音采样数据进行处理，采用语音端点检测算法(VAD，Voice Activity Detection)，截取出所述目标说话人的语音采样中的实际语音数据。

语音频谱特征提取模块，连接到所述语音端点检测模块，用于从所述实际语音数据中，提取梅尔频率倒谱系数(MFCC)特征。

DNN模块，连接到所述语音频谱特征提取模块。一般地，所述DNN网络包括输入层、多个隐层及输出层。所述DNN模块将语音频谱特征提取模块得到的MFCC特征作为输入，并与最后一个隐层中抽取出激活值，经过加权得到新的d-vector特征。

注意力层加入模块，连接到所述DNN模块，用于向所述DNN模块的深度神经网络中加入注意力层，所述注意力层加入在所述深度神经网络的输出层。由于加入了注意力层，因此可以通过注意力机制来估计不同语音帧的权重，所述不同语音帧的权重由不同语音帧贡献确定。

进一步地，本实施例基于注意力机制的声纹特征提取装置还包括：

音频输入模块，用于对目标说话人的声音进行采样。具体地，所述输入音频模块可以为麦克风等语音收集装置。

声纹特征输出模块，连接到所述信道补偿模块，用于将信道补偿后的声纹特征进行输出。

本公开基于注意力机制的声纹特征提取装置能够在保证在声纹认证的情况下，提高目标说话人的通过率，降低非目标说话人的误识率，提升个性化的用户体验。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的没备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于注意力机制的声纹特征提取方法，包括：

2.根据权利要求1所述的声纹特征提取方法，其中，所述估计不同语音帧的权重的步骤包括：

定义一个标量分数e_t：

e_t＝f(h_t)，t＝1，2，...，T

e_t＝f(h_t)＝v^Ttan(Wh_t+b)

其中，所述α_t即为第t帧语音帧的权重，α_t∈[0，1]，

3.根据权利要求2所述的声纹特征提取方法，所述语音频谱特征为梅尔频率倒谱系数特征。

4.根据权利要求3所述的声纹特征提取方法，所述将目标说话人的语音频谱特征输入深度神经网络之前，还包括步骤：

从所述实际语音数据中，提取梅尔频率倒谱系数特征。

5.根据权利要求4所述的声纹特征提取方法，所述经过加权得到声纹特征d-vector之后还包括：

6.根据权利要求5所述的声纹特征提取方法，所述利用语音端点检测算法，截取出所述目标说话人的语音采样中的实际语音数据之前还包括：

通过音频输入模块，得到目标说话人的语音采样；

对信道补偿后的声纹特征进行输出。

7.一种基于注意力机制的声纹特征提取装置，包括：

8.根据权利要求7所述的声纹特征提取装置，还包括：

9.根据权利要求8所述的声纹特征提取装置，还包括：

10.根据权利要求9所述的声纹特征提取装置，还包括：

音频输入模块，用于对目标说话人的声音进行采样；