CN109147774B - 一种改进的延时神经网络声学模型 - Google Patents

一种改进的延时神经网络声学模型 Download PDF

Info

Publication number
CN109147774B
CN109147774B CN201811090966.3A CN201811090966A CN109147774B CN 109147774 B CN109147774 B CN 109147774B CN 201811090966 A CN201811090966 A CN 201811090966A CN 109147774 B CN109147774 B CN 109147774B
Authority
CN
China
Prior art keywords
tdnn
acoustic model
neural network
attention module
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811090966.3A
Other languages
English (en)
Other versions
CN109147774A (zh
Inventor
陈凯斌
张伟彬
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811090966.3A priority Critical patent/CN109147774B/zh
Publication of CN109147774A publication Critical patent/CN109147774A/zh
Application granted granted Critical
Publication of CN109147774B publication Critical patent/CN109147774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明属于语音识别技术领域,涉及一种改进的延时神经网络声学模型,包括:搭建基础TDNN网络;在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;针对改进后的TDNN网络进行训练,得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成,以前一隐藏层的输出作为输入,提取对输入的特征权重值,用提取到的权重值为原输入特征加权,得到加权后的特征。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过多层次地为神经网络隐藏层特征加权,有效对层间特征的相对重要性进行显式建模,提高了TDNN声学模型的性能,从而提高了语音识别系统整体性能。

Description

一种改进的延时神经网络声学模型
技术领域
本发明属于语音识别技术领域,涉及一种延时神经网络声学模型。
背景技术
从上世纪50年代世界第一个语音识别系统诞生以来,到21世纪的前十年间,语音识别的核心枝术经历了从模板匹配到建立统计模型的逐渐演变。在语音识别领域中最经典至今仍具有重大意义的是隐马尔科夫模型(Hidden Markov Model,HMM)和混合高斯模型(Gaussian Mixture Model,GMM)相结合的方法,即用隐马尔科夫模型来对语音信号进行动态建模,描述发音状态的时域跳转,用混合高斯模型来对各发音状态进行特征分布拟合,因为这种方法很好地利用了语音信号的短时平稳特性,所以在过去的几十年间成为语音识别中声学建模的核心技术。
自2009年以来,机器学习领域深度学习被引入到语音识别声学模型训练,比起上述的HMM-GMM技术,在众多真实世界的大词汇量语音识别任务中,深度学习语音识别声学模型都使得识别错误率降低了30%甚至更多,这是因为深度神经网络(Deep NeuralNetworks,DNN)具有更强大的非线性表达能力,所以用它取代混合高斯模型对发音状态进行特征分布拟合,可以使得声学模型的性能更优。
一个完整的语音识别系统可以由以下几个部分组成:前端处理、声学模型、语言模型和解码器,声学模型对整体性能有着举足轻重的影响。提升声学模型的识别性能一方面要考虑模型的建模能力、性能以及模型对上下文信息的提取能力,另一方面要考虑模型的计算复杂度和模型的大小,因为这些会影响系统的解码速度和相关的硬件资源需求。
基于深度学习的发展,延时深度神经网络模型(TDNN)被应用到声学建模中,并取得了好的效果,但TDNN模型在层间特征相对重要性方面并无进行显式建模,所以从这方面来说,基于延时神经网络的声学模型性能有待提升。
发明内容
针对现有技术的不足,本发明提供一种改进的延时神经网络(Time Delay NeuralNetworks,TDNN)声学模型,在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过多层次地为神经网络隐藏层特征加权,有效对层间特征的相对重要性进行显式建模,提高声学模型的性能,从而提高语音识别系统整体性能。
一种改进的延时神经网络(TDNN)声学模型,包括:
a、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;
b、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;
c、针对改进后的TDNN网络进行训练,得到最终的声学模型。
优选地,步骤b注意力模块数学公式表达如下:
Figure BDA0001804318590000021
a(x)=nonL(w·x)
其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;
Figure BDA0001804318590000022
表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。
与现有技术相比,本发明具有如下优点与有益效果:
1、注意力模块中仿射变换的参数采取和TDNN一样的同层共享机制,注意力模块中的仿射变换和原TDNN的跳帧同步,从整个模型来看,参数增加量不大,对整个模型大小影响不大。
2、注意力模型中的加权函数能有效对层间特征的相对重要性进行显式建模,强化模型的建模能力。
3、本发明综合考虑模型大小、计算复杂度和TDNN本身对上下文信息的有效建模,最终相比于原始的TDNN,使得声学模型在各个数据集上取得一定的性能提升。
附图说明
图1是本发明注意力模块的结构示意图;
图2是本发明一个实施例中改进的TDNN架构图;
图3是本发明一个实施例中特征加权效果图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
一种改进的延时神经网络(TDNN)声学模型,在TDNN的若干个隐藏层间加上一个特定模块(又称注意力层、attention layer或注意力模块),利用特定模块对原输入特征进行加权,并把加权后的特征送往下一隐藏层。
注意力模块由一个仿射变换和一个加权函数组成,以前一隐层的输出作为输入,提取对输入的特征权重值,用提取到的权重值为原输入特征加权(逐元素相乘运算),得到加权后的特征。注意力模块可有效与TDNN相结合,在不引入过多参数和额外计算量的前提下,有效地提高TDNN声学模型的性能,进而提高语音识别的准确率。
本实施例中,改进的延时神经网络(TDNN)声学模型,如图1-3所示,具体可分以下几步:
S1、对相关的语音数据集提取梅尔倒谱系数(MFCC)作为声学特征,并逐步训练更优的HMM-GMM模型,为延时神经网络训练提供相对准确的帧级标注。
按训练的先后顺序分别是:单音素模型、三音素模型、带线性判别分析和最大似然线性回归的三音素模型、带说话人自适应的三音素模型。这是为了对训练数据进行强制对齐来给后面的延时神经网络训练提供相对准确的帧级标注(即每一帧语音对应的三音素发音状态,或称隐马尔科夫模型的状态)。
S2、搭建基础TDNN网络。
基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样。
S3、在S2的基础TDNN网络的基础上,在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络。
在深度神经网络的层次结构中,每一层都可看作是对输入特征的特征映射,层中的每一个节点单元代表一个特征,而每一层中的每一个特征的重要性不一样,有的是重要的关键特征,而有的却无关紧要。本发明中所添加的注意力模块如图1所示,是为了在各层特征往下一层输送之前,显式地计算每一个特征的重要性,根据重要性为特征加权后再输入到下一层。注意力模块用数学公式表达如下:
Figure BDA0001804318590000031
a(x)=nonL(w·x)
其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;
Figure BDA0001804318590000032
表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。
注意力模块具有以下特点:
1)注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享机制;
2)注意力模块中仿射变换采用和基础TDNN网络一样的跳帧采样的机制;
3)注意力模块中加权函数可以采用多种函数来获取权重值;
4)采用逐元素相乘加权的形式来得到体现特征间相对重要性的加权特征。
加权函数可使用在深度学习中常用的激活函数及相关的组合或简单优化,比如identity、sigmoid、tanh、relu、log-sigmoid、relu+renorm、softmax、log-softmax等。
本实施例中,加权函数选用log-softmax。其中,softmax可以在提取权重的过程中放大特征间的差异,并由其归一化的特性使得它可以充分地考虑各个特征间的联系,而不是单独地去看待每一个特征;另外,log函数的使用则解决了在这个问题中softmax本身带来的数值问题,从而有效地给出特征间的相对重要性。因而,本实施例中,log-softmax函数是优选的加权函数。
S4、针对改进后的TDNN网络进行训练,得到最终的声学模型。
改进后的TDNN网络架构如图2所示,本实施例中,对改进后的TDNN网络进行训练,具体为:对改进后的TDNN网络进行初始化,改进后的TDNN网络的输入为步骤S1中采集的包含上下文若干帧的语音特征(MFCC),输出为当前输入对应的三音素发音状态,接着按梯度下降法训练改进后的TDNN网络,得到最终的TDNN声学模型,用于语音识别。
引入注意力模块的特征加权效果如图3所示,图3是TDNN网络在某一输入下在某一层得到的加权前后的差异,图中只取了该层的前45维。
进一步地,把语言模型和上述得到的最终TDNN声学模型结合组成解码图,并用解码算法(Token Passing)解码测试集语音数据进行性能测试。
本发明所涉及的技术方法,在本领域的技术人员可以很容易应用到其他网络结构中,都应视为本发明的变种。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种改进的延时神经网络声学模型,其特征在于,通过多层次地为神经网络隐藏层特征加权,对层间特征的相对重要性进行显式建模,包括:
a、对相关的语音数据集提取梅尔倒谱系数作为声学特征,并逐步训练更优的HMM-GMM模型;
b、搭建基础TDNN网络;基础TDNN网络包含:输入层、隐藏层和输出层,其中隐藏层设有若干层,并且在隐藏层实行同层参数共享和跳帧采样;
c、在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;
d、针对改进后的TDNN网络进行训练,得到最终的声学模型;
步骤c中注意力模块数学公式为:
Figure FDA0003022322460000011
a(x)=nonL(w·x)
其中,x是注意力模块的输入,即前一层隐藏层的输出;y是注意力模块的输出,即下一层隐藏层的输入;
Figure FDA0003022322460000012
表示逐元素相乘运算;w是模块用于进行仿射变换的参数矩阵,nonL是加权函数。
2.根据权利要求1所述的延时神经网络声学模型,其特征在于,注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享机制。
3.根据权利要求2所述的延时神经网络声学模型,其特征在于,注意力模块中仿射变换采用和基础TDNN网络一样的跳帧采样的机制。
4.根据权利要求2所述的延时神经网络声学模型,其特征在于,注意力模块中加权函数采用多种函数获取权重值。
5.根据权利要求4所述的延时神经网络声学模型,其特征在于,注意力模块中加权函数为log-softmax函数。
6.根据权利要求1-5中任一项所述的延时神经网络声学模型,其特征在于,采用梯度下降法训练改进后的TDNN网络。
CN201811090966.3A 2018-09-19 2018-09-19 一种改进的延时神经网络声学模型 Active CN109147774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811090966.3A CN109147774B (zh) 2018-09-19 2018-09-19 一种改进的延时神经网络声学模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811090966.3A CN109147774B (zh) 2018-09-19 2018-09-19 一种改进的延时神经网络声学模型

Publications (2)

Publication Number Publication Date
CN109147774A CN109147774A (zh) 2019-01-04
CN109147774B true CN109147774B (zh) 2021-07-20

Family

ID=64814874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811090966.3A Active CN109147774B (zh) 2018-09-19 2018-09-19 一种改进的延时神经网络声学模型

Country Status (1)

Country Link
CN (1) CN109147774B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110689906A (zh) * 2019-11-05 2020-01-14 江苏网进科技股份有限公司 一种基于语音处理技术的执法检测方法及系统
CN114664292B (zh) * 2020-12-22 2023-08-01 马上消费金融股份有限公司 模型训练、语音识别方法、装置、设备及可读存储介质
CN112735388B (zh) * 2020-12-28 2021-11-09 马上消费金融股份有限公司 网络模型训练方法、语音识别处理方法及相关设备
CN113270104B (zh) * 2021-07-19 2021-10-15 深圳市思特克电子技术开发有限公司 语音的人工智能处理方法及系统
CN114360517B (zh) * 2021-12-17 2023-04-18 天翼爱音乐文化科技有限公司 一种复杂环境下的音频处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741838A (zh) * 2016-01-20 2016-07-06 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741838A (zh) * 2016-01-20 2016-07-06 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法

Also Published As

Publication number Publication date
CN109147774A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN109817246B (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
Zhang et al. Deep belief networks based voice activity detection
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN107331384A (zh) 语音识别方法、装置、计算机设备及存储介质
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN110853630B (zh) 面向边缘计算的轻量级语音识别方法
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
Garg et al. Survey on acoustic modeling and feature extraction for speech recognition
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
Bi et al. Deep feed-forward sequential memory networks for speech synthesis
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
Sharma et al. Automatic speech recognition systems: challenges and recent implementation trends
Kadyan et al. Training augmentation with TANDEM acoustic modelling in Punjabi adult speech recognition system
Kannadaguli et al. Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN114579724A (zh) 针对虚拟人在多种场景下的无缝衔接方法及系统
Yuan et al. Vector quantization codebook design method for speech recognition based on genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant