CN110120223A

CN110120223A - 一种基于时延神经网络tdnn的声纹识别方法

Info

Publication number: CN110120223A
Application number: CN201910323405.1A
Authority: CN
Inventors: 司马华鹏; 唐翠翠
Original assignee: Nanjing Silicon Base Intelligent Technology Co Ltd
Current assignee: Nanjing Silicon Base Intelligent Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-08-13

Abstract

本发明公开了一种基于时延神经网络TDNN的声纹识别方法，解决了声纹识别算法复杂、数据庞杂的问题，其技术方案要点是基于神经网络极强的特征提取能力，本公开使用时延神经网络TDNN提取说话人语音段的特征向量，再经过池化层和softmax层获取说话人语音段的后验概率，并通过损失函数进行训练得到交叉熵，训练完成后去掉softmax层得到最终用于训练PLDA模型的特征向量，不需要转录训练数据，且计算简单，有较好的识别效果。

Description

一种基于时延神经网络TDNN的声纹识别方法

技术领域

本公开涉及一种声纹识别方法,尤其涉及一种基于时延神经网络TDNN的声纹识别方法。

背景技术

利用数据增强技术提高了深度神经网络（DNN）嵌入语音识别的性能，DNN被训练来区分说话者，它将可变长度的话语映射到固定维度的嵌入中，我们称之为x-vector。之前的研究已经发现嵌入比i-vector能更好地利用大规模训练数据集，然而，为培训收集大量的标记数据具有挑战性。使用由附加噪声和混响组成的数据增强作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x-vector和NIST SRE 2016粤语使用者的i-vector基线进行比较，我们发现，虽然扩增在概率线性判别分析（PLDA）分类器中是有益的，但在i-vector提取器中是无益的。

大多数说话人识别系统都是基于i-vector的，该标准方法由一个通用背景模型（universal background model，UBM）和一个大型投影矩阵T组成。投影将来自UBM的高维统计信息映射为低维表示，即i-vector，采用PLDA分类器对i-vector进行比较，实现同说话人或不同说话人的决策。

说话人识别中DNN常被用来训练作为声学模型，在i-vectorUBM中用来增强声学模：要么使用DNN的后验概率代替高斯模型（GMM）的后验概率，要么提取DNN的瓶颈特征与声学特征相结合使用。在这两张情况下，如果DNN在域内数据上进行训练，相对于传统的i-vector声学的改进是显著的，但是其相比于传统的i-vectors模型是需要大量的训练数据，且计算复杂性也大大增加。

发明内容

本公开的目的是提供一种基于时延神经网络TDNN的声纹识别方法，达到声音识别更精确的效果，本公开提供了以下技术方案：

一种基于时延神经网络TDNN的声纹识别方法，包括以下步骤：（1）收集说话人语音段X₁、X₂、...X_T，向TDNN中输入说话人语音段X₁、X₂、...X_T，T为正整数，TDNN每次取任意帧数；

（2）池化层将TDNN语音段的每个输出向量集合，获取所述集合的均值和标准差作为所述池化层输出的特征向量P；

（3）所述池化层之后连接至少两层全连接层，所述全连接层之后为softmax层，所述特征向量P输入到所述全连接层集合后再输入至softmax层，softmax层的输出为每个说话人的后验概率，即；

（4）将所述后验概率用于训练的损失函数，训练完成后，去掉所述softmax层，导出每段语音的特征向量S，用所述特征向量S训练PLDA模型，使用所述PLDA模型完成声纹识别。

由于神经网络不仅仅是一个分类器，而是一个特征提取器和分类器的结合，每一层都有极强的特征提取能力，为了高度利用时延神经网络TDNN的这种能力，将softmax层之前的至少两个全连接层的输出作为softmax层的输入。

作为具体实施例地，所述后验概率用于训练的损失函数的交叉熵为：，其中，n为要输入TDNN的语音，k为各个说话人，所述d_nk的值为1或0。

作为具体实施例地，所述说话人语音段X₁、X₂、...X_T为20维梅尔频率倒谱系数特征，且其帧长为25ms，帧移为10ms。

优选地，所述说话人语音段在3s内进行归一化处理，目的是减弱声音强度对特征向量的影响。

作为具体实施例地，所述全连接层为两层。

作为具体实施例地，当且仅当所述语音n的标记为说话人k时，d_nk的值为1，由公式可知，靠里的求和只有一项，靠外的求和是对所有语音的求和。

作为具体实施例地，对所述的特征向量S进行归一化处理，即对特征向量S的一种投影，减弱其非高斯表现，归一化处理完成后训练PLDA模型。

作为具体实施例地，所述步骤（4）中的PLDA模型训练完成后对其进行归一化处理。

本公开的有益效果在于：由于神经网络具有极强的特征提取能力，本公开使用时延神经网络TDNN提取说话人语音段的特征向量，再经过池化层和softmax层获取说话人语音段的后验概率，并通过损失函数进行训练得到交叉熵，训练完成后去掉softmax层得到最终用于训练PLDA模型的特征向量，不需要转录训练数据，且计算简单，有较好的识别效果。

附图说明

图1为本公开流程图。

具体实施方式

以下结合附图对本公开作进一步详细说明。

在进行声纹识别前，先要对声音进行收集，本公开提供两种数据收集的方法，一是开发具有本地录音和计时功能的手机APP，录音后部署到阿里云，数据保存到本地，整合成发布版，音频的存储格式为WAV，采样率为16000Hz。第二是开发电话录音，使用简单的后台调度，用户端可通过url调用php拨打电话，同时支持拨打32路（涉及端口空闲监测），支持不间断自由录音，并保存长音频到本地。

收集声音时，可以制定一些测试要求和条例，例如:1.环境安静，无尖锐嘈杂噪音，无他人大声干扰，本人声音保持清晰；2.需本人阅读文字持续录制，不得和他人对话或其他音频外放；3.统一测试内容为AI语音测试和阅读任意文字材料5分钟；4.此次测试为脱敏测试，不涉及任何人的相关隐私等。

数据收集完成后，不同说话人语音段分别为X₁、X₂、...X_T，向TDNN中输入说话人语音段X₁、X₂、...X_T，并且TDNN每次都取任意帧数，T为正整数。如图1所示，池化层将每个TDNN的输出向量集合后，计算均值和标准差作为池化层的输出，得到特征向量P。池化层之后至少连接两层全连接层，一般全连接层为两层，全连接层之后为softmax层，全连接层可以将提取到的所有特征综合起来，特征向量P输入到全连接层进行综合后再输入到softmax层，softmax层的输出则为每个说话人的后验概率。

后验概率用于训练的损失函数可以计算出交叉熵：，其中，n为要输入TDNN的语音，k为各个说话人，所述d_nk的值为1或0，当且仅当语音n的标记为说话人k时，d_nk的值为1，否则d_nk的值为0。训练完成后，去掉softmax层，导出每段语音的特征向量S，用特征向量S训练PLDA模型，能更精准的完成声纹识别。

一般地，说话人语音段X₁、X₂、...X_T为20维梅尔频率倒谱系数，且其帧长为25ms，帧移为10ms，并在3s内对X₁、X₂、...X_T进行归一化处理。

作为优选地实施例之一地，对特征向量S进行归一化处理，减弱其非高斯表现，归一化处理后训练PLDA模型。

同样地，PLDA模型训练完成后进行归一化处理。

本公开基于12133人数据，其中包含121330条音频，每条音频时长10秒，训练PLDA基础模型。用采集的1000人双信道数据（手机APP和电话），包含64930条音频数据，对PLDA基础模型进行finetune,得到最终模型。

基于最终模型，采用另外146人双信道的数据，分别做单信道注册验证和双信道交叉验证，包括电话注册电话识别、APP注册APP识别、电话注册APP识别、APP注册电话识别，注册时长10秒，验证时长10秒，文本内容为自由说方式，如表1：

VPR模型	训练数据（人数/音频）	测试集	阈值	ERR
					xvector（单信道电话-电话）	1000/64930	学校采集音频146人	0.60	0.58%
xvector（单信道 app-app）	1000/64930	学校采集音频146人	0.60	0.14%
					xvector（双信道电话-app）	1000/64930	学校采集音频146人	0.50	0.51%
xvector（双信道 app-电话）	1000/64930	学校采集音频146人	0.50	0.46%

表1

表1中，ERR是等错误率，从数据可以看出，通过最终模型所得到的声纹识别结果，在单信道和双信道的识别率都比较高，效果较好。

以上为本公开示范实施例之一，本公开的保护范围由权利要求及其等效物限定。

Claims

1.一种基于时延神经网络TDNN的声纹识别方法，其特征在于，包括以下步骤：（1）收集说话人语音段X₁、X₂、...X_T，向TDNN中输入说话人语音段X₁、X₂、...X_T，T为正整数，TDNN每次取任意帧数；

2.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，所述后验概率用于训练的损失函数的交叉熵为：，其中，n为要输入TDNN的语音，k为各个说话人，所述d_nk的值为1或0。

3.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，所述说话人语音段X₁、X₂、...X_T为20维梅尔频率倒谱系数特征，且其帧长为25ms，帧移为10ms。

4.如权利要求3所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，所述说话人语音段在3s内进行归一化处理。

5.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，所述全连接层为两层。

6.如权利要求2所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，当且仅当所述语音n的标记为说话人k时，d_nk的值为1。

7.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，对所述特征向量S进行归一化处理，归一化处理完成后训练PLDA模型。

8.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法，其特征在于，所述步骤（4）中的PLDA模型训练完成后对其进行归一化处理。