CN110120223A - 一种基于时延神经网络tdnn的声纹识别方法 - Google Patents

一种基于时延神经网络tdnn的声纹识别方法 Download PDF

Info

Publication number
CN110120223A
CN110120223A CN201910323405.1A CN201910323405A CN110120223A CN 110120223 A CN110120223 A CN 110120223A CN 201910323405 A CN201910323405 A CN 201910323405A CN 110120223 A CN110120223 A CN 110120223A
Authority
CN
China
Prior art keywords
tdnn
neural network
time
speaker
delay neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910323405.1A
Other languages
English (en)
Inventor
司马华鹏
唐翠翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Base Intelligent Technology Co Ltd
Original Assignee
Nanjing Silicon Base Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Silicon Base Intelligent Technology Co Ltd filed Critical Nanjing Silicon Base Intelligent Technology Co Ltd
Priority to CN201910323405.1A priority Critical patent/CN110120223A/zh
Publication of CN110120223A publication Critical patent/CN110120223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于时延神经网络TDNN的声纹识别方法,解决了声纹识别算法复杂、数据庞杂的问题,其技术方案要点是基于神经网络极强的特征提取能力,本公开使用时延神经网络TDNN提取说话人语音段的特征向量,再经过池化层和softmax层获取说话人语音段的后验概率,并通过损失函数进行训练得到交叉熵,训练完成后去掉softmax层得到最终用于训练PLDA模型的特征向量,不需要转录训练数据,且计算简单,有较好的识别效果。

Description

一种基于时延神经网络TDNN的声纹识别方法
技术领域
本公开涉及一种声纹识别方法,尤其涉及一种基于时延神经网络TDNN的声纹识别方法。
背景技术
利用数据增强技术提高了深度神经网络(DNN)嵌入语音识别的性能,DNN被训练来区分说话者,它将可变长度的话语映射到固定维度的嵌入中,我们称之为x-vector。之前的研究已经发现嵌入比i-vector能更好地利用大规模训练数据集,然而,为培训收集大量的标记数据具有挑战性。使用由附加噪声和混响组成的数据增强作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x-vector和NIST SRE 2016粤语使用者的i-vector基线进行比较,我们发现,虽然扩增在概率线性判别分析(PLDA)分类器中是有益的,但在i-vector提取器中是无益的。
大多数说话人识别系统都是基于i-vector的,该标准方法由一个通用背景模型(universal background model,UBM)和一个大型投影矩阵T组成。投影将来自UBM的高维统计信息映射为低维表示,即i-vector,采用PLDA分类器对i-vector进行比较,实现同说话人或不同说话人的决策。
说话人识别中DNN常被用来训练作为声学模型,在i-vectorUBM中用来增强声学模:要么使用DNN的后验概率代替高斯模型(GMM)的后验概率,要么提取DNN的瓶颈特征与声学特征相结合使用。在这两张情况下,如果DNN在域内数据上进行训练,相对于传统的i-vector声学的改进是显著的,但是其相比于传统的i-vectors模型是需要大量的训练数据,且计算复杂性也大大增加。
发明内容
本公开的目的是提供一种基于时延神经网络TDNN的声纹识别方法,达到声音识别更精确的效果,本公开提供了以下技术方案:
一种基于时延神经网络TDNN的声纹识别方法,包括以下步骤:(1)收集说话人语音段X1、X2、...XT,向TDNN中输入说话人语音段X1、X2、...XT,T为正整数,TDNN每次取任意帧数;
(2)池化层将TDNN语音段的每个输出向量集合,获取所述集合的均值和标准差作为所述池化层输出的特征向量P;
(3)所述池化层之后连接至少两层全连接层,所述全连接层之后为softmax层,所述特征向量P输入到所述全连接层集合后再输入至softmax层,softmax层的输出为每个说话人的后验概率,即
(4)将所述后验概率用于训练的损失函数,训练完成后,去掉所述softmax层,导出每段语音的特征向量S,用所述特征向量S训练PLDA模型,使用所述PLDA模型完成声纹识别。
由于神经网络不仅仅是一个分类器,而是一个特征提取器和分类器的结合,每一层都有极强的特征提取能力,为了高度利用时延神经网络TDNN的这种能力,将softmax层之前的至少两个全连接层的输出作为softmax层的输入。
作为具体实施例地,所述后验概率用于训练的损失函数的交叉熵为:,其中,n为要输入TDNN的语音,k为各个说话人,所述dnk的值为1或0。
作为具体实施例地,所述说话人语音段X1、X2、...XT为20维梅尔频率倒谱系数特征,且其帧长为25ms,帧移为10ms。
优选地,所述说话人语音段在3s内进行归一化处理,目的是减弱声音强度对特征向量的影响。
作为具体实施例地,所述全连接层为两层。
作为具体实施例地,当且仅当所述语音n的标记为说话人k时,dnk的值为1,由公式可知,靠里的求和只有一项,靠外的求和是对所有语音的求和。
作为具体实施例地,对所述的特征向量S进行归一化处理,即对特征向量S的一种投影,减弱其非高斯表现,归一化处理完成后训练PLDA模型。
作为具体实施例地,所述步骤(4)中的PLDA模型训练完成后对其进行归一化处理。
本公开的有益效果在于:由于神经网络具有极强的特征提取能力,本公开使用时延神经网络TDNN提取说话人语音段的特征向量,再经过池化层和softmax层获取说话人语音段的后验概率,并通过损失函数进行训练得到交叉熵,训练完成后去掉softmax层得到最终用于训练PLDA模型的特征向量,不需要转录训练数据,且计算简单,有较好的识别效果。
附图说明
图1为本公开流程图。
具体实施方式
以下结合附图对本公开作进一步详细说明。
在进行声纹识别前,先要对声音进行收集,本公开提供两种数据收集的方法,一是开发具有本地录音和计时功能的手机APP,录音后部署到阿里云,数据保存到本地,整合成发布版,音频的存储格式为WAV,采样率为16000Hz。第二是开发电话录音,使用简单的后台调度,用户端可通过url调用php拨打电话,同时支持拨打32路(涉及端口空闲监测),支持不间断自由录音,并保存长音频到本地。
收集声音时,可以制定一些测试要求和条例,例如:1.环境安静,无尖锐嘈杂噪音,无他人大声干扰,本人声音保持清晰;2.需本人阅读文字持续录制,不得和他人对话或其他音频外放;3.统一测试内容为AI语音测试和阅读任意文字材料5分钟;4.此次测试为脱敏测试,不涉及任何人的相关隐私等。
数据收集完成后,不同说话人语音段分别为X1、X2、...XT,向TDNN中输入说话人语音段X1、X2、...XT,并且TDNN每次都取任意帧数,T为正整数。如图1所示,池化层将每个TDNN的输出向量集合后,计算均值和标准差作为池化层的输出,得到特征向量P。池化层之后至少连接两层全连接层,一般全连接层为两层,全连接层之后为softmax层,全连接层可以将提取到的所有特征综合起来,特征向量P输入到全连接层进行综合后再输入到softmax层,softmax层的输出则为每个说话人的后验概率
后验概率用于训练的损失函数可以计算出交叉熵:,其中,n为要输入TDNN的语音,k为各个说话人,所述dnk的值为1或0,当且仅当语音n的标记为说话人k时,dnk的值为1,否则dnk的值为0。训练完成后,去掉softmax层,导出每段语音的特征向量S,用特征向量S训练PLDA模型,能更精准的完成声纹识别。
一般地,说话人语音段X1、X2、...XT为20维梅尔频率倒谱系数,且其帧长为25ms,帧移为10ms,并在3s内对X1、X2、...XT进行归一化处理。
作为优选地实施例之一地,对特征向量S进行归一化处理,减弱其非高斯表现,归一化处理后训练PLDA模型。
同样地,PLDA模型训练完成后进行归一化处理。
本公开基于12133人数据,其中包含121330条音频,每条音频时长10秒,训练PLDA基础模型。用采集的1000人双信道数据(手机APP和电话),包含64930条音频数据,对PLDA基础模型进行finetune,得到最终模型。
基于最终模型,采用另外146人双信道的数据,分别做单信道注册验证和双信道交叉验证,包括电话注册电话识别、APP注册APP识别、电话注册APP识别、APP注册电话识别,注册时长10秒,验证时长10秒,文本内容为自由说方式,如表1:
VPR模型 训练数据(人数/音频) 测试集 阈值 ERR
xvector(单信道 电话-电话) 1000/64930 学校采集音频146人 0.60 0.58%
xvector(单信道 app-app) 1000/64930 学校采集音频146人 0.60 0.14%
xvector(双信道 电话-app) 1000/64930 学校采集音频146人 0.50 0.51%
xvector(双信道 app-电话) 1000/64930 学校采集音频146人 0.50 0.46%
表1
表1中,ERR是等错误率,从数据可以看出,通过最终模型所得到的声纹识别结果,在单信道和双信道的识别率都比较高,效果较好。
以上为本公开示范实施例之一,本公开的保护范围由权利要求及其等效物限定。

Claims (8)

1.一种基于时延神经网络TDNN的声纹识别方法,其特征在于,包括以下步骤:(1)收集说话人语音段X1、X2、...XT,向TDNN中输入说话人语音段X1、X2、...XT,T为正整数,TDNN每次取任意帧数;
(2)池化层将TDNN语音段的每个输出向量集合,获取所述集合的均值和标准差作为所述池化层输出的特征向量P;
(3)所述池化层之后连接至少两层全连接层,所述全连接层之后为softmax层,所述特征向量P输入到所述全连接层集合后再输入至softmax层,softmax层的输出为每个说话人的后验概率,即;
(4)将所述后验概率用于训练的损失函数,训练完成后,去掉所述softmax层,导出每段语音的特征向量S,用所述特征向量S训练PLDA模型,使用所述PLDA模型完成声纹识别。
2.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,所述后验概率用于训练的损失函数的交叉熵为:,其中,n为要输入TDNN的语音,k为各个说话人,所述dnk的值为1或0。
3.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,所述说话人语音段X1、X2、...XT为20维梅尔频率倒谱系数特征,且其帧长为25ms,帧移为10ms。
4.如权利要求3所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,所述说话人语音段在3s内进行归一化处理。
5.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,所述全连接层为两层。
6.如权利要求2所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,当且仅当所述语音n的标记为说话人k时,dnk的值为1。
7.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,对所述特征向量S进行归一化处理,归一化处理完成后训练PLDA模型。
8.如权利要求1所述的一种基于时延神经网络TDNN的声纹识别方法,其特征在于,所述步骤(4)中的PLDA模型训练完成后对其进行归一化处理。
CN201910323405.1A 2019-04-22 2019-04-22 一种基于时延神经网络tdnn的声纹识别方法 Pending CN110120223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910323405.1A CN110120223A (zh) 2019-04-22 2019-04-22 一种基于时延神经网络tdnn的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910323405.1A CN110120223A (zh) 2019-04-22 2019-04-22 一种基于时延神经网络tdnn的声纹识别方法

Publications (1)

Publication Number Publication Date
CN110120223A true CN110120223A (zh) 2019-08-13

Family

ID=67521324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910323405.1A Pending CN110120223A (zh) 2019-04-22 2019-04-22 一种基于时延神经网络tdnn的声纹识别方法

Country Status (1)

Country Link
CN (1) CN110120223A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524525A (zh) * 2020-04-28 2020-08-11 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN112037800A (zh) * 2020-09-22 2020-12-04 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN112259105A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112382298A (zh) * 2020-11-17 2021-02-19 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113409794A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 声纹识别模型的优化方法、装置、计算机设备及存储介质
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张竞丹: "基于深度学习的说话人识别系统", 《中国优秀硕士学位论文全文数据库》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111524525A (zh) * 2020-04-28 2020-08-11 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
WO2021174883A1 (zh) * 2020-09-22 2021-09-10 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN112037800A (zh) * 2020-09-22 2020-12-04 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN112259105B (zh) * 2020-10-10 2022-09-20 西南政法大学 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112259105A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112382298A (zh) * 2020-11-17 2021-02-19 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法
CN112382298B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113409794A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 声纹识别模型的优化方法、装置、计算机设备及存储介质
CN113409794B (zh) * 2021-06-30 2023-05-23 平安科技(深圳)有限公司 声纹识别模型的优化方法、装置、计算机设备及存储介质
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN113763966B (zh) * 2021-09-09 2024-03-19 武汉理工大学 一种端到端的文本无关声纹识别方法及系统

Similar Documents

Publication Publication Date Title
CN110120223A (zh) 一种基于时延神经网络tdnn的声纹识别方法
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN105405439B (zh) 语音播放方法及装置
Campbell et al. Forensic speaker recognition
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN108520753B (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN105374352B (zh) 一种语音激活方法及系统
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN106409298A (zh) 一种声音重录攻击的识别方法
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
Ramashini et al. Robust cepstral feature for bird sound classification
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
CN107103913A (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Jin et al. End-to-end dnn-cnn classification for language identification
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190813

RJ01 Rejection of invention patent application after publication