CN110570870A

CN110570870A - 一种文本无关的声纹识别方法、装置及设备

Info

Publication number: CN110570870A
Application number: CN201910895047.1A
Authority: CN
Inventors: 王健宗; 赵峰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-13

Abstract

本申请属于生物识别领域，公开了一种文本无关的声纹识别方法、装置及设备，其中，所述方法包括：获取待识别的语音；利用MFCC对待识别的语音进行特征提取，得到待识别的语音特征；将待识别的语音特征输入神经网络模型进行识别处理；神经网络模型对待识别的语音特征处理后得到对应的待识别的序列，并将待识别的序列与至少一个嵌入序列进行匹配，判断从嵌入序列中是否存在与待识别的序列相匹配的嵌入序列；若存在，确定待识别的语音的发音者是与相匹配的嵌入序列对应的目标发音者，语音识别成功，否则，语音识别失败。利用attention‑LSTM网络结构对语音进行学习训练，降低训练语音的要求，训练得到的神经网络模型能够提高语音识别的速度和效率。

Description

一种文本无关的声纹识别方法、装置及设备

技术领域

本申请涉及生物识别技术领域，特别是涉及一种文本无关的声纹识别方法、装置及设备。

背景技术

声纹识别是基于一些语音信号和注册的说话者录音来验证说话者身份的。通常，针对注册和测试语音提取富有说话者信息的低维特征，并使用一些算法操作将其映射到验证分数。变体包括文本相关的声纹识别，其语音内容固定为某个短语，以及文本无关的声纹识别，其语音内容随机。

语音识别目前被广泛应用于诸多领域，在银行、非银金融、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。现阶段主流的技术实现方法都是基于i-vector,RNN模型,LSTM模型等这些传统的技术方法需要较大的训练数据规模才能达到理想的训练效果且对噪声的敏感性较高,要求训练数据的录音质量较高,这在实际的生产环境中往往较难达到传统方法训练用数据质量的要求即使达到也会大大提高整体系统的成本。

发明内容

有鉴于此，本申请提供了一种文本无关的声纹识别方法、装置及设备。主要目的在于解决目前的声纹识别模型对训练样本要求过高，且训练成本过高的技术问题。

依据本申请的第一方面，提供了一种文本无关的声纹识别方法，所述方法包括：

获取待识别的语音；

利用MFCC对所述待识别的语音进行特征提取，得到待识别的语音特征；

将所述待识别的语音特征输入神经网络模型进行识别处理，其中，通过训练attention-LSTM网络结构得到神经网络模型；

所述神经网络模型对所述待识别的语音特征处理后得到对应的待识别的序列，并将所述待识别的序列与至少一个嵌入序列进行匹配，判断从所述嵌入序列中是否存在与所述待识别的序列相匹配的嵌入序列；

若存在，确定所述待识别的语音的发音者是与所述相匹配的嵌入序列对应的目标发音者，语音识别成功，否则，语音识别失败。

依据本申请的第二方面，提供了一种文本无关的声纹识别装置，所述装置包括：

获取模块，用于获取待识别的语音；

特征提取模块，用于利用MFCC对所述待识别的语音进行特征提取，得到待识别的语音特征；

处理模块，用于将所述待识别的语音特征输入神经网络模型进行识别处理，其中，通过训练attention-LSTM网络结构得到神经网络模型；

匹配模块，用于所述神经网络模型对所述待识别的语音特征处理后得到对应的待识别的序列，并将所述待识别的序列与至少一个嵌入序列进行匹配，判断从所述嵌入序列中是否存在与所述待识别的序列相匹配的嵌入序列；若存在，确定所述待识别的语音的发音者是与所述相匹配的嵌入序列对应的目标发音者，语音识别成功，否则，语音识别失败。

依据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述文本无关的声纹识别方法的步骤。

依据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述文本无关的声纹识别的步骤。

借由上述技术方案，本申请提供的一种文本无关的声纹识别方法、装置及设备，利用attention机制和LSTM网络进行结合后得到的attention-LSTM网络结构对语音进行学习训练，能够降低对训练集中的语音的要求，并且经过训练后能够得到与每个目标发音者一一对应的嵌入序列，这样可以直接根据嵌入序列进行语音识别判断，进而能够提高语音识别的速度和效率，加快语音识别的过程。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的文本无关的声纹识别方法的一个实施例的流程图；

图2为本申请的attention-LSTM网络结构示意图；

图3为本申请的嵌入attention机制的LSTM网络示意图；

图4为本申请的文本无关的声纹识别装置的一个实施例的结构框图；

图5为本申请的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种文本无关的声纹识别方法，获取需要识别的人的语音，并组成训练集对attention-LSTM网络结构进行学习训练，得到能够识别上述需要识别的人的声音的神经网络模型，利用神经网络模型对待识别的进行处理，确定该待识别的语音是否属于需要识别的人中的某一个人，若属于证明识别成功，否则识别失败，利用attention-LSTM网络结构对语音进行学习训练，能够降低对训练集中的语音的要求，并且得到的神经网络模型能够加快语音识别的过程。

如图1所示，本申请实施例提供了一种文本无关的声纹识别方法，包括如下步骤：

步骤101，获取待识别的语音。

在该步骤中，该待识别的语音是利用录音装置进行获取，并且在获取之前会进行语音提示，提示用户说预定时间的话，或者说预定数量的字作为待识别的语音，在获取结束后，会对获取的语音进行判断，判断获取的语音的时长是否大于等于预定时间，或者判断获取的语音中的文字的数量是否大于等于预定数量，若判断通过，则提示“获取成功”若判断未通过，则提示“重新录入语音”。

如果获取的语音的时长等于预定时间，则直接将该获取的语音作为待识别的语音，如果获取的语音的时长大于预定时间，则对该获取的语音截取预定时间的时长作为待识别的语音。

如果获取的语音的文字数量等于预定数量，则直接将该获取的语音作为待识别的语音，如果获取的语音的文字数量大于预定数量，则对该获取的语音截取预定数量的文字作为待识别的语音。

步骤102，利用MFCC对待识别的语音进行特征提取，得到待识别的语音特征。

在该步骤中，MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)是在Mel标度频率域提取出来的倒谱参数，用于对语音进行特征提取。

由于神经网络模型的输入口无法直接将待识别的语音输入进去，因此，需要利用MFCC对该待识别的语音进行特征提取，得到能够输入神经网络的待识别的语音特征。

步骤103，将待识别的语音特征输入神经网络模型进行识别处理，其中，通过训练attention-LSTM网络结构得到神经网络模型。

在该步骤中，将至少一个目标发音者的语音输入attention-LSTM网络结构中进行训练，得到与至少一个目标发音者中的每个目标发音者一一对应的嵌入序列，将嵌入序列保存至attention-LSTM网络结构中得到神经网络模型。

attention-LSTM网络结构是由attention机制和LSTM(Long Short-Term Memory，长短期记忆算法)网络结合在一起得到的，然后再利用需要进行语音识别的人的语音作为训练集，对该attention-LSTM网络结构进行学习训练，训练结束后，得到嵌入序列，一个嵌入序列对应一个需要识别的人(即发音者)，如果有N个需要识别的人则对应有N个嵌入序列。

步骤104，神经网络模型对待识别的语音特征处理后得到对应的待识别的序列，并将待识别的序列与至少一个嵌入序列进行匹配，判断从嵌入序列中是否存在与待识别的序列相匹配的嵌入序列，若存在进入步骤105，否则进入步骤106。

步骤105，确定待识别的语音的发音者是与相匹配的嵌入序列对应的目标发音者，语音识别成功。

步骤106，语音识别失败。

在该步骤中，经过MFCC处理后得到的待识别的语音特征有T个，组合成一个特征组合，然后将该特征组合输入神经网络模型处理后，每个语音特征对应输出一个数值，进而T个语音特征对应输出一组待识别的序列，在神经网络的最后一层中存储有标记各个目标发音者的标签的嵌入序列。将该待识别的序列与这些嵌入序列进行一一比对。

若有一个嵌入序列与该待识别的序列的相似度超过预定值(例如90％)，则确定该嵌入序列对应的目标发音者为识别出的说话人。

若没有嵌入序列与该待识别的序列的相似度超过预定值，则语音识别失败。

若有多个嵌入序列与该待识别的序列的相似度超过预定值，则证明该神经网络模型的语音识别错误，需要重新对该神经网络进行学习训练。

通过上述技术方案，利用attention机制和LSTM网络进行结合后得到的attention-LSTM网络结构对语音进行学习训练，能够降低对训练集中的语音的要求，并且经过训练后能够得到与每个目标发音者一一对应的嵌入序列，这样可以直接根据嵌入序列进行语音识别判断，进而能够提高语音识别的速度和效率，加快语音识别的过程。

在具体实施例中，在步骤103之前，方法还包括：

步骤A，将attention机制分别嵌入至正反两个LSTM网络中，再将嵌入后的正反两个LSTM网络进行组合，得到attention-LSTM网络结构。

在该步骤中，正LSTM网络和反LSTM网络能够对语音进行双向特征处理，使得语音处理的更加全面准确，保证训练过程中训练的准确度，进而有效减少训练时间。保证能够得到一个与发音者一一对应的序列。

步骤B，获取至少一个目标发音者的多段语音作为训练语音。

在该步骤中，该训练语音是将目标发音者存储在数据库中的和/或现场录制的语音进行搜集，搜集的训练语音的数量根据实际需要进行选择，保证每个目标发音者的训练语音的数量相同。

步骤C，将训练语音输入至attention-LSTM网络结构中进行训练，得到至少一个嵌入序列，其中，每个嵌入序列对应一个目标发音者。

在该步骤中，attention-LSTM网络结构对目标发音者的训练语音进行训练之后，能够得到与该目标发音者一一对应的嵌入序列。

另外，还可以按照上述方式搜集测试集，利用测试集检测同一个人的测试语音输出的嵌入序列是否唯一，若否，则重新搜集训练语音进行重新训练，若是则进行下一步。

步骤D，将至少一个嵌入序列标注对应的目标发音者，并保存至attention-LSTM网络结构中得到神经网络模型。

在该步骤中，为了避免嵌入序列混淆，需要为每一个嵌入序列进行标注，标注对应目标发音者的标签(标签中包括目标发音者的姓名、联系方式、身份信息等)，以供根据该标签确定识别语音的说话人的姓名以及其他信息。

如果用户想要增加神经网络模型的识别人数，则需要获取增加人的语音作为训练语音对该神经网络模型进行再次训练，以得到与增加人相对应的嵌入序列，并将该嵌入序列标注增加人对应的标识后保存在该神经网络模型中，得到新的神经网络模型。该新的神经网络能够识别上述目标发音者和增加人的语音。

在具体实施例中，步骤A具体包括：

步骤A1，在正LSTM网络和反LSTM网络的输出层之后添加相似性度量计算层，在相似度量计算层中设有attention函数。

步骤A2，在相似性度量计算层之后添加指数函数比例计算层。

步骤A3，在指数函数比例计算层之后添加求和计算层，形成新的正LSTM网络和新的反LSTM网络。

步骤A4，将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构。

通过上述技术方案，利用新的正LSTM网络和新的反LSTM网络对训练语音中的每段语音进行依次学习训练，如果同一个目标发音者的训练语音中后一段训练语音输出的嵌入序列与上一段训练语音输出的嵌入序列不同，则对后一个训练语音输出的嵌入序列进行修改，修改为上一段训练语音输出嵌入序列，进而保证每个目标发音者得到的嵌入序列只有一个。这样能够保证训练得到的神经网络模型对语音识别的准确性。

在具体实施例中，步骤C具体包括：

步骤C1，将MFCC对所述训练语音进行特征提取的语音特征，输入至新的正LSTM网络和新的反LSTM网络中进行处理后，从输出层输出。

步骤C2，将输出层输出的结果输入相似度量计算层中利用attention函数进行计算。

步骤C3，将相似度量计算层输出的结果输入指数函数比例计算层进行指数函数比例计算。

步骤C4，将指数函数比例计算层输出的结果输入求和计算层进行求和计算。

步骤C5，将新的正LSTM网络的求和计算层输出的结果和新的反LSTM网络的求和计算层输出的结果进行结合得到至少一个嵌入序列。

在上述技术方案中，得到的训练语音特征为{x1，x2，…，xT}。将该训练语音特征分别从正反两个LSTM网络输入，得到正反两个LSTM网络的输出层输出的结果{h1，h2，…，hT}。然后将该输出结果进行相似度量计算：

e_t＝f(h_t)，t＝1，..，T。其中，f表示线性attention函数：f(h_t)=w_t ^Th_t+b_t其中，w_t是m维的矢量，b_t是标量。

将得到的e_t输入指数函数比例计算层，利用公式αt＝[exp(e_t)]/[Σexp(e_t)’]进行指数函数比例计算，得出结果{α1，α2，…，αT}。

然后将得到的α_t和h_t输入求和计算层，利用公式ω＝Σα_th_t进行求和计算，这样正LSTM网络和反LSTM网络分别对应输出一个ω，将两个ω值进行结合就会得到嵌入序列。

通过上述技术方案，能够得到相应的嵌入序列，使得根据该嵌入序列进行语音识别，使得语音识别过程方便快捷。

在具体实施例中，步骤A4具体包括：

步骤A41，将新的正LSTM网络的输出层和新的反LSTM网络的输出层进行组合得到组合后的输出层。

步骤A42，在组合后的输出层的后面添加第一全连接层，用于全连接处理；

步骤A43，在第一全连接层后面添加第二全连接层，用于再次全连接处理；

步骤A44，在第二全连接层后面添加归一化层，用于归一化处理，形成attention-LSTM网络结构。

通过上述技术方案，能够利用两个全连接层对嵌入序列进行两次全连接处理，然后再利用归一化层进行归一化处理，使得得到的嵌入序列便于识别比对，进而有效降低神经网络模型的语音识别时间，提高效率。

在具体实施例中，步骤C5具体包括：

步骤C51，将新的正LSTM网络的求和计算层输出的结果和新的反LSTM网络的求和计算层输出的结果在组合后的输出层进行组合，输出至第一全连接层。

步骤C52，第一全连接层对组合后的输出结果进行全连接处理，得到第一次全连接结果。

步骤C53，将第一次全连接结果输入至第二全连接层，进行再次全连接处理，得到再次全连接结果。

步骤C54，将再次全连接结果输入至归一化层，进行归一化处理得到至少一个嵌入序列，嵌入序列与获取的训练语音的发音者一一对应。

通过上述技术方案，新的正反LSTM网络输出的结果经过两次全连接，和一次归一化处理之后，得到的嵌入序列更加便于识别，这样有利于节省神经网络的语音识别时间。

在具体实施例中，步骤102具体包括：

步骤1021，对待识别的语音利用高通滤波器进行预加重处理。

步骤1022，将预加重处理后的待识别的语音进行分帧处理。

步骤1023，将待识别的语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的待识别的语音帧。

步骤1024，对加窗后的待识别的语音帧进行快速傅里叶变换，得到对应的能量谱。

步骤1025，将能量谱通过三角带通滤波器，对频谱进行平滑化，并消除谐波的作用，突显待识别的语音的共振峰。

步骤1026，对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征。

步骤1027，对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到待识别的语音特征。

通过上述技术方案，利用MFCC对语音进行预处理，得到能够输入神经网络模型的语音特征，这样从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

另外，在训练过程中，为了保证需要训练集中的训练语音能够输入attention-LSTM网络结构，按照上述步骤对训练语音进行MFCC的特征提取过程。

通过上述实施例的文本无关的声纹识别方法，利用attention机制和LSTM网络进行结合后得到的attention-LSTM网络结构对语音进行学习训练，能够降低对训练集中的语音的要求，并且经过训练后能够得到与每个目标发音者一一对应的嵌入序列，这样可以直接根据嵌入序列进行语音识别判断，进而能够提高语音识别的速度和效率，加快语音识别的过程。

在本申请的另一个实施例的文本无关的声纹识别方法中，包括如下步骤：

一、获取训练样本

获取目标人的多段语音数据作为训练样本，并利用MFCC(Mel FrequencyCepstral Coefficents，梅尔频率倒谱系数)提取训练集中并抽取语音特征，具体过程如下：

1、将训练集中的语音利用高通滤波器进行预加重处理。

2、对训练集进行分帧处理，训练集中语音的每一个字都有N个采样点，将N个采样点集合成一个观测单位，称为帧，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

3、对训练集进行加窗处理，将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

4、对加窗后的训练集进行快速傅里叶变换，得到对应的能量谱。

5、将能量谱通过三角带通滤波器，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。(因此一段语音的音调或音高，是不会呈现在MFCC参数内，换句话说，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响)此外，还可以降低运算量。

6、对三角带通滤波器的输出结果进行计算对数能量，然后再经离散余弦变换(DCT)得到语音特征，每段语音均对应多段语音特征。

二、构建attention-LSTM网络结构并进行训练

1、构建attention-LSTM网络结构

attention-LSTM网络结构主要基于LSTM神经网络，在LSTM的基础改进原结构使用了正反向的两个LSTM层结构(正向LSTM捕获了上文的特征信息，而反向LSTM捕获了下文的特征信息，这样相对单向LSTM来说能够捕获更多的特征信息)，如图2所示：

Attention机制嵌入到LSTM结构中得到如下图b，将下图中的结构作为上图中forward LSTM或backward LSTM的具体网络结构，具体如图3所示：

2、将上述步骤一得到的语音特征输入attention-LSTM网络结构进行处理。

(1)、上图中x表示步骤一得到的语音特征(一段语音有T个语音特征)，经过LSTM网络计算后得到输出层结构{h1,h2,…,hT}。

(2)、对输出层结构中的{h1,h2,…,hT}进行相似性度量计算，若h与目标状态越相似则权值越大(说明输出越依赖该输入，需要更多注意力)。

相似性度量计算如下：

e_t＝f(h_t)，t＝1，...，T

f表示线性attention函数：

f(h_t)＝w_t ^Th_t+b_t

其中w_t是m维的矢量，b_t是标量。

(3)ω由如下的公式求得：

α_t＝[exp(e_t)]/[Σexp(e_t)’]

ω＝Σα_th_t

ω即为图3中正LSTM或反LSTM的两个子网络的输出。

(4)如图2所示，将forward LSTM和backward LSTM输出的ω输入全连接层d2进行处理，然后将处理结果输入全连接层d进行再次处理，将处理结果输入神经网络模型的最后一层归一化层(softmax层)进行归一化处理后，得到代表目标说话人的嵌入序列sequenceembeddings f(x)并将代表目标说话人的嵌入序列保存在归一化层中。softmax层可以得到多个嵌入序列，每个嵌入序列代表一个说话人，将每个嵌入序列与对应的说话人进行关联后存储。进而完成训练过程，训练之后得到的attention-LSTM网络结构即神经网络模型。

在改进网络结构的基础上模型融合了新型的attention机制，其中，Attention机制思想源自人类的视觉特有的注意力机制，人类利用有限的注意力资源快速得从大量信息中筛选出高价值的信息，将视觉焦点聚集在这些信息上。Attention机制本质上与人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择对当前任务目标更关键的信息。

三、利用神经网络模型进行语音检测

获取待处理的语音，并对语音同理步骤一的训练样本中的语音进行特征提取得到待处理语音特征；

将待处理语音特征输入神经网络模型按照上述步骤(1)-(4)进行处理，将归一化层得到的待处理嵌入序列与存储的多个嵌入序列进行比对，若与某一嵌入序列比对成功则证明该待处理的语音属于该某一嵌入序列对应的说话人，语音识别成功，如果多个嵌入序列中均没有与待处理嵌入序列匹配的嵌入序列，证明待处理语音的说话人不符合要求，语音识别失败。

例如，在手机中将A、B、C三个人的语音按照上述步骤一、二训练得到神经网络模型后，该手机就可以根据步骤三识别A、B、C三个人的语音了，可以根据设定权限A、B、C三个人可以对手机进行语音控制，如果是D人物发出的语音，则神经网络模型就会识别失败，这样D就不可以对手机进行语音控制。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种文本无关的声纹识别装置，如图4所示，装置包括：依次连接的获取模块41、特征提取模块42、处理模块43和匹配模块44。

获取模块41，用于获取待识别的语音；

特征提取模块42，用于利用MFCC对待识别的语音进行特征提取，得到待识别的语音特征；

处理模块43，用于将待识别的语音特征输入神经网络模型进行识别处理，其中，通过训练attention-LSTM网络结构得到神经网络模型；

匹配模块44，用于所述神经网络模型对所述待识别的语音特征处理后得到对应的待识别的序列，并将所述待识别的序列与至少一个嵌入序列进行匹配，判断从嵌入序列中是否存在与所述待识别的序列相匹配的嵌入序列；若存在，确定所述待识别的语音的发音者是与所述相匹配的嵌入序列对应的目标发音者，语音识别成功，否则，语音识别失败。

在具体实施例中，装置还包括：

组合模块，用于将attention机制分别嵌入至正反两个LSTM网络中，再将嵌入后的正反两个LSTM网络进行组合，得到attention-LSTM网络结构；

获取模块，还用于获取至少一个目标发音者的多段语音作为训练语音；

训练模块，用于将训练语音输入至attention-LSTM网络结构中进行训练，得到至少一个嵌入序列，其中，每个嵌入序列对应一个目标发音者；

保存模块，用于将至少一个嵌入序列标注对应的目标发音者，并保存至attention-LSTM网络结构中得到神经网络模型。

在具体实施例中，组合模块具体包括：

添加单元，用于在正LSTM网络和反LSTM网络的输出层之后添加相似性度量计算层，在相似度量计算层中设有attention函数；在相似性度量计算层之后添加指数函数比例计算层；在指数函数比例计算层之后添加求和计算层，形成新的正LSTM网络和新的反LSTM网络；

组合单元，用于将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构。

在具体实施例中，训练模块具体包括：

处理单元，用于将MFCC对所述训练语音进行特征提取的语音特征，输入至新的正LSTM网络和新的反LSTM网络中进行处理后，从输出层输出；

计算单元，用于将输出层输出的结果输入相似度量计算层中利用attention函数进行计算；将相似度量计算层输出的结果输入指数函数比例计算层进行指数函数比例计算；将指数函数比例计算层输出的结果输入求和计算层进行求和计算；

输出结合单元，用于将新的正LSTM网络的求和计算层输出的结果和新的反LSTM网络的求和计算层输出的结果进行结合得到至少一个嵌入序列。

在具体实施例中，组合单元，还用于将新的正LSTM网络的输出层和新的反LSTM网络的输出层进行组合得到组合后的输出层；在组合后的输出层的后面添加第一全连接层，用于全连接处理；在第一全连接层后面添加第二全连接层，用于再次全连接处理；在第二全连接层后面添加归一化层，用于归一化处理，形成attention-LSTM网络结构。

在具体实施例中，输出结合单元，还用于将新的正LSTM网络的求和计算层输出的结果和新的反LSTM网络的求和计算层输出的结果在组合后的输出层进行组合，输出至第一全连接层；第一全连接层对组合后的输出结果进行全连接处理，得到第一次全连接结果；将第一次全连接结果输入至第二全连接层，进行再次全连接处理，得到再次全连接结果；将再次全连接结果输入至归一化层，进行归一化处理得到至少一个嵌入序列，嵌入序列与获取的训练语音的发音者一一对应。

在具体实施例中，特征提取模块42具体包括：

加重单元，用于对待识别的语音利用高通滤波器进行预加重处理；

分帧单元，用于将预加重处理后的待识别的语音进行分帧处理；

加窗单元，用于将待识别的语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的待识别的语音帧；

变换单元，用于对加窗后的待识别的语音帧进行快速傅里叶变换，得到对应的能量谱；

滤波单元，用于将能量谱通过三角带通滤波器，对频谱进行平滑化，消除能量谱的谐波的作用；

对数转换单元，用于对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征；

归一化单元，用于对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到待识别的语音特征。

基于上述图1所示方法和图4所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，如图5所示，包括存储器52和处理器51，其中存储器52和处理器51均设置在总线53上存储器52存储有计算机程序，处理器51执行计算机程序时实现图1所示的文本无关的声纹识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述如图1所示方法和图4所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的文本无关的声纹识别方法。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，利用attention机制和LSTM网络进行结合后得到的attention-LSTM网络结构对语音进行学习训练，能够降低对训练集中的语音的要求，并且经过训练后能够得到与每个目标发音者一一对应的嵌入序列，这样可以直接根据嵌入序列进行语音识别判断，进而能够提高语音识别的速度和效率，加快语音识别的过程。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种文本无关的声纹识别方法，其特征在于，所述方法包括：

获取待识别的语音；

2.根据权利要求1所述的方法，其特征在于，通过训练attention-LSTM网络结构得到神经网络模型包括：

将attention机制分别嵌入至正反两个LSTM网络中，再将嵌入后的正反两个LSTM网络进行组合，得到attention-LSTM网络结构；

获取至少一个目标发音者的多段语音作为训练语音；

将所述训练语音输入至attention-LSTM网络结构中进行训练，得到至少一个嵌入序列，其中，每个嵌入序列对应一个目标发音者；

将所述至少一个嵌入序列标注对应的目标发音者，并保存至所述attention-LSTM网络结构中得到神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述将attention机制分别嵌入至正反两个LSTM网络中，再将嵌入后的正反两个LSTM网络进行组合，得到attention-LSTM网络结构，具体包括：

在正LSTM网络和反LSTM网络的输出层之后添加相似性度量计算层，在所述相似度量计算层中设有attention函数；

在所述相似性度量计算层之后添加指数函数比例计算层；

在所述指数函数比例计算层之后添加求和计算层，形成新的正LSTM网络和新的反LSTM网络；

将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构。

4.根据权利要求3所述的方法，其特征在于，将所述训练语音输入至attention-LSTM网络结构中进行训练，得到至少一个嵌入序列，具体包括：

将MFCC对所述训练语音进行特征提取的语音特征，输入至新的正LSTM网络和新的反LSTM网络中进行处理后，从输出层输出；

将所述输出层输出的结果输入所述相似度量计算层中利用attention函数进行计算；

将所述相似度量计算层输出的结果输入指数函数比例计算层进行指数函数比例计算；

将所述指数函数比例计算层输出的结果输入求和计算层进行求和计算；

将新的正LSTM网络的所述求和计算层输出的结果和新的反LSTM网络的所述求和计算层输出的结果进行结合得到至少一个嵌入序列。

5.根据权利要求4所述的方法，其特征在于，所述将新的正LSTM网络和新的反LSTM网络进行组合得到attention-LSTM网络结构，具体包括：

将新的正LSTM网络的输出层和新的反LSTM网络的输出层进行组合得到组合后的输出层；

在所述组合后的输出层的后面添加第一全连接层，用于全连接处理；

在所述第一全连接层后面添加第二全连接层，用于再次全连接处理；

在所述第二全连接层后面添加归一化层，用于归一化处理，形成attention-LSTM网络结构。

6.根据权利要求5所述的方法，其特征在于，将新的正LSTM网络的所述求和计算层输出的结果和新的反LSTM网络的所述求和计算层输出的结果进行结合得到至少一个嵌入序列，具体包括：

将新的正LSTM网络的所述求和计算层输出的结果和新的反LSTM网络的所述求和计算层输出的结果在所述组合后的输出层进行组合，输出至所述第一全连接层；

所述第一全连接层对组合后的输出结果进行全连接处理，得到第一次全连接结果；

将所述第一次全连接结果输入至第二全连接层，进行再次全连接处理，得到再次全连接结果；

将所述再次全连接结果输入至归一化层，进行归一化处理得到至少一个嵌入序列，所述嵌入序列与获取的训练语音的发音者一一对应。

7.根据权利要求1所述的方法，其特征在于，所述利用MFCC对所述待识别的语音进行特征提取，得到待识别的语音特征，具体包括：

对所述待识别的语音利用高通滤波器进行预加重处理；

将预加重处理后的待识别的语音进行分帧处理；

将待识别的语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的待识别的语音帧；

对所述加窗后的待识别的语音帧进行快速傅里叶变换，得到对应的能量谱；

将所述能量谱通过三角带通滤波器，对频谱进行平滑化，并消除谐波的作用，突显待识别的语音的共振峰；

对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征；

对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到待识别的语音特征。

8.一种文本无关的声纹识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的语音；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述文本无关的声纹识别方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述文本无关的声纹识别方法的步骤。