CN112992157A - 一种基于残差和批量归一化的神经网络带噪声纹识别方法 - Google Patents
一种基于残差和批量归一化的神经网络带噪声纹识别方法 Download PDFInfo
- Publication number
- CN112992157A CN112992157A CN202110182588.7A CN202110182588A CN112992157A CN 112992157 A CN112992157 A CN 112992157A CN 202110182588 A CN202110182588 A CN 202110182588A CN 112992157 A CN112992157 A CN 112992157A
- Authority
- CN
- China
- Prior art keywords
- residual error
- neural network
- network
- training
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 238000010276 construction Methods 0.000 claims abstract description 3
- 230000004913 activation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007306 functionalization reaction Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 230000015556 catabolic process Effects 0.000 abstract description 3
- 238000006731 degradation reaction Methods 0.000 abstract description 3
- 230000008034 disappearance Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于残差和批量归一化的神经网络带噪声纹识别方法,包括:准备带噪环境下的数据集,对所述语音信号分别提取相应的梅尔倒谱系数;构建ResTDNN网络结构:构建完成之后,利用自然梯度随机下降法对网络进行训练,训练完成后,通过降维提取的x‑vector利用10s左右的语音信息捕捉说话人声纹信息,采用交叉熵损失函数;用线性判别分析进行降维,降维后对x‑vector进行长度归一化,训练线性概率分析后,分别计算两条语音分别来自不同空间的似然函数,采用等错误率和最小检测代价来评价识别系统。本发明能提高噪声环境下时延神经网络的鲁棒性,缓解神经网络退化和梯度消失现象需求,提高声纹识别率。
Description
技术领域
本发明属声纹识别领域,具体来说涉及一种基于残差和批量归一化的神经网络带噪声纹识别方法。
背景技术
传统声纹识别技术大多数都基于身份识别因子(Identity Vector,I-Vector),但该方法的建模能力还有待优化。近年来,使用深度神经网络(Deep neural network,DNN)来捕捉说话人的语音特征是一大热潮,但该方法在满足训练要求的同时增大了计算复杂度。采用时延神经网络(Time Delayed Neural Network,TDNN)嵌入,并用深层神经网络来训练说话人识别器提取说话人信息的方法可以有效改良DNN。TDNN算法在各方面的性能都强于I-Vector,但当识别环境中出现较强的噪音干扰时,鲁棒性效果不佳,并且随着网络深度的增加,网络容易出现梯度消失和退化现象。
发明内容
本发明的目的在于克服上述缺点而提供的一种能提高噪声环境下时延神经网络的鲁棒性,缓解神经网络退化和梯度消失现象需求,提高声纹识别率的基于残差和批量归一化的神经网络带噪声纹识别方法。
本发明的一种基于残差和批量归一化的神经网络带噪声纹识别方法,包括以下步骤:
(1)数据准备:准备带噪环境下的数据集,对所述语音信号分别提取相应的梅尔倒谱系数(Mel Frequency Cepstral Coefficents,MFCC);
(2)构建ResTDNN(残差时延神经网络)网络结构:设置TDNN1的输出维度和TDNN4的维度一致,均为512维,使其满足恒等跳跃连接映射的要求,在此加入残差模块,残差模块直接在TDNN网络上进行引入,选择两层残差块,设计残差模块结构;
残差模块引入完成后,在ResTDNN中设置5层TDNN层,设置TDNN1的输出维度和TDNN4的维度一致,均为512维,为使其满足恒等跳跃连接映射的要求,在此加入残差模块,在每一个TDNN层之前均设置Relu激活函数和归一化处理,其中TDNN2和TDNN3层是残差模块的卷积层,信息聚合在统计池层后传递到全连接层,在全连接层的处提取映射降至512维的x-vector信息;
(3)ResTDNN构建完成之后,利用自然梯度随机下降法对网络进行训练,训练完成后,通过降维提取的x-vector利用10s左右的语音信息捕捉说话人声纹信息,采用交叉熵损失函数;
(4)用线性判别分析(LDA)进行降维,降维后对x-vector进行长度归一化,训练线性概率分析(PLDA)后,分别计算两条语音分别来自不同空间的似然函数,采用等错误率(EER)和最小检测代价(minDCF)来评价识别系统。
本发明与现有技术相比,具有明显的有益效果,从以上技术方案可知:本发明利用残差神经网络的输入层能对输出层进行不断修正以减少信息损失的特点,以及批量归一化能使每一层的平均值和方差限制在一定范围内,进而提高网络泛化的能力。直接在TDNN的网络中引入残差神经网络和批量归一化处理,形成新的网络框架,从而使声纹识别率在无噪声环境下提高到了96.811%,在有噪声环境下声纹识别率提高到了96.768%,相比TDNN网络提升明显。
附图说明
图1是本发明的流程图。
图2是本发明的残差模块结构图。
图3是本发明的ResTDNN网络模型结构。
具体实施方式
以下结合附图及较佳实施例,对依据本发明提出的一种基于残差和批量归一化的神经网络带噪声纹识别方法的具体实施方式、结构、特征及其功效,详细说明如后。
参见图1,本发明的一种基于残差和批量归一化的神经网络带噪声纹识别方法,包括以下步骤:
(1)数据准备:将混响、噪音以及音乐随机加入到数据集中,得到带噪环境下的数据集,分别对训练集和测试集相关语音文本进行数据预处理、加噪、删除静音和小于5s语音的过程,对所述语音信号分别提取相应的梅尔倒谱系数;
(2)构建ResTDNN网络:
其中,拉升参数γk和偏移参数βk为模型的可学习参数;基于卷积神经网络设计残差模块,TDNN网络为一维的CNN网络,直接在TDNN网络上进行残差网络的引入,选择两层残差块,卷积核大小选择3*3,卷积核数量分别设置为128,256;
添加残差单元设计ResTDNN:ResTDNN网络共5层TDNN层。图2为残差模块结构图,特征输入后经过一个卷积层,在每一个卷积层之前均设置Relu激活函数和归一化处理。本实例中,TDNN2和TDNN3层是残差模块的卷积层,将TDNN1的输出维度和TDNN4的维度均设为512维,在此加入残差模块,残差模块直接在TDNN网络上进行引入,选择两层残差块。
图3为ResTDNN网络模型结构。设置ResTDNN网络中的mfcc为23维mfcc,帧长为25ms,在长达3s的滑动窗口处进行平均归一化,采用VAD过滤非语音帧。ResTDNN网络配置如下:
主要功能分成三组,第一组1-5层,在帧级对语音进行上下文拼接处理,TDNN的输入为F维的T个语音帧组成的序列,把以当前t帧为中心输出的5帧拼接成一个新的帧集合t,再以t为中心的上下文4帧为一个新的帧集合t,作为tdnn2层的输入,即在前一层的上下文基础上进行拼接输出,tdnn2的可看到9帧的上下文,tdnn3可看到15帧的上下文,采用恒等短路连接,加入残差,tdnn3的输出与tdnn1的输出进行拼接作为tdnn4的输入。tdnn5无任何附加时间上下文。第二组,第6层,统计池层接收tdnn5的输出作为输入,捕获第5层的信息并计算每个维度的平均值和标准差,统计信息连接在一起来生成3000维向量。第三组,第7-9层,在Relu激活之前,在全连接层实现嵌入提取映射至512维的x-vector,最后,用softmax作为输出层,L为输出层的输出维度;
(3)利用自然梯度随机下降法对网络进行训练。通过降维提取的x-vector利用10s左右的语音信息捕捉说话人声纹信息,采用交叉熵作为损失函数。
(4)训练PLDA进行打分估计,判定系统识别性能。用线性判别分析(LDA)进行降维到150维,降维后对x-vector进行长度归一化,训练PLDA后,通过计算两条语音分别来自不同空间的似然函数来衡量两条语音是否属于同一说话人,采用等错误率(EER)和最小检测代价(minDCF)来评价识别系统的性能。
经测试,在本实施例中,ResTDNN系统在有噪声环境下的声纹识别率高于同噪声条件下的TDNN网络,其中等错误率相对降低
8.9%,minDCF相对下降了19.6%,ResTDNN在有噪声情况下和无噪声环境下的等错误率相差不大,表明了使用ResTDNN的方法使系统的鲁棒性得到了提升,且声纹识别准确率提升明显。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (2)
1.一种基于残差和批量归一化的神经网络带噪声纹识别方法,包括以下步骤:
(1)数据准备:准备带噪环境下的数据集,对所述语音信号分别提取相应的梅尔倒谱系数;
(2)构建ResTDNN网络结构:设置TDNN1的输出维度和TDNN4的维度一致,均为512维,使其满足恒等跳跃连接映射的要求,在此加入残差模块,残差模块直接在TDNN网络上进行引入,选择两层残差块,设计残差模块结构;
残差模块引入完成后,在ResTDNN中设置5层TDNN层,设置TDNN1的输出维度和TDNN4的维度一致,均为512维,为使其满足恒等跳跃连接映射的要求,在此加入残差模块,在每一个TDNN层之前均设置Relu激活函数和归一化处理;
(3)ResTDNN构建完成之后,利用自然梯度随机下降法对网络进行训练,训练完成后,通过降维提取的x-vector利用10s左右的语音信息捕捉说话人声纹信息,采用交叉熵损失函数;
(4)用线性判别分析(LDA)进行降维,降维后对x-vector进行长度归一化,训练线性概率分析(PLDA)后,分别计算两条语音分别来自不同空间的似然函数,采用等错误率(EER)和最小检测代价(minDCF)来评价识别系统。
2.如权利要求1所述的基于残差和批量归一化的神经网络带噪声纹识别方法,其中步骤(2)中TDNN2和TDNN3层是残差模块的卷积层,信息聚合在统计池层后传递到全连接层,在全连接层的处提取映射降至512维的x-vector信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182588.7A CN112992157A (zh) | 2021-02-08 | 2021-02-08 | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182588.7A CN112992157A (zh) | 2021-02-08 | 2021-02-08 | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112992157A true CN112992157A (zh) | 2021-06-18 |
Family
ID=76393305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110182588.7A Pending CN112992157A (zh) | 2021-02-08 | 2021-02-08 | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992157A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724731A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110232932A (zh) * | 2019-05-09 | 2019-09-13 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN111179911A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
-
2021
- 2021-02-08 CN CN202110182588.7A patent/CN112992157A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110232932A (zh) * | 2019-05-09 | 2019-09-13 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN111179911A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
王杰等: "基于CNN-TDNN语音识别的噪声鲁棒性方法", 《2019年全国声学大会论文集》 * |
言有三, 机械工业出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724731A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
CN113724731B (zh) * | 2021-08-30 | 2024-01-05 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN103117060A (zh) | 用于语音识别的声学模型的建模方法、建模系统 | |
CN104347067A (zh) | 一种音频信号分类方法和装置 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN111554305B (zh) | 一种基于语谱图和注意力机制的声纹识别方法 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN115083394A (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN108564967B (zh) | 面向哭声检测系统的Mel能量声纹特征提取方法 | |
CN112992157A (zh) | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN113450793A (zh) | 用户情绪分析方法、装置、计算机可读存储介质及服务器 | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN115240645A (zh) | 基于注意力重打分的流式语音识别方法 | |
CN114997210A (zh) | 一种基于深度学习的机器异响识别检测方法 | |
CN111091817B (zh) | 一种基于窗口输入的双向回馈神经网络的语音识别方法 | |
CN114360507A (zh) | 基于跨层连接注意力的语音识别网络、方法、设备及介质 | |
Zou et al. | End to End Speech Recognition Based on ResNet-BLSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |