CN108682418B - 一种基于预训练和双向lstm的语音识别方法 - Google Patents
一种基于预训练和双向lstm的语音识别方法 Download PDFInfo
- Publication number
- CN108682418B CN108682418B CN201810669327.6A CN201810669327A CN108682418B CN 108682418 B CN108682418 B CN 108682418B CN 201810669327 A CN201810669327 A CN 201810669327A CN 108682418 B CN108682418 B CN 108682418B
- Authority
- CN
- China
- Prior art keywords
- frame
- training
- maxout
- signal
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 33
- 230000004913 activation Effects 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 210000004027 cell Anatomy 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001413 cellular effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007087 memory ability Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种模型预训练和双向LSTM的语音识别方法,属于深度学习和语音识别领域。1)输入待处理语音信号;2)预处理;3)提取梅尔倒谱系数及动态差分得到语音特征;4)构建双向LSTM结构;5)使用maxout函数优化双向LSTM,得到maxout‑biLSTM;6)模型预训练;7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。本发明使用maxout激活函数改进了双向LSTM的原激活函数,并且使用了模型预训练的方法,提高了声学模型在噪声环境下的鲁棒性,可应用于高噪声环境下语音识别模型的构建与训练。
Description
技术领域
本发明涉及一种模型预训练和双向LSTM的语音识别方法,特别涉及一种基于预训练、maxout激活函数以及双向LSTM模型,在高噪声环境下能够显著提高神经网络抗噪性能力的语音识别方法,属于深度学习和语音识别领域。
背景技术
随着计算机软硬件技术的不断发展和广泛应用,语音识别技术得到了迅速发展,语音识别研究也越来越受到人们的关注。近年来深度学习在语音识别领域的成功应用,也使得语音识别领域取得了很好的成果。但在实际生活的高噪声情况下语音识别系统的性能往往急剧下降,其问题的本质在于语音识别系统在高噪声环境下鲁棒性不足。
针对上述问题,传统语音识别技术在训练声学模型前多使用语音增强技术来对语音数据进行降噪除噪。语音增强技术是指通过信号处理的方法在处理语音信号前将采集过程中的混叠、高次谐波失真、高频等等因素去除,以获得”纯净”的语音信号。语音降噪算法可以分为两大类:无监督和有监督算法。
其中无监督条件下的语音降噪算法主要有以下几种方法:谱减法,基于统计模型的方法,基于子空间的方法。
谱减法的核心思路是估计噪声的功率谱并将其从嘈杂语音中减去;基于统计模型的方法则是将降噪问题归入到一个统计的估计框架中。一般常见的方法有:维纳滤波、最小均方误差方法和最大后验法。基于统计模型的方法一般需要假设语音信号和噪声信号是独立的,且服从特定分布;基于子空间的方法则是假设干净的语音信号子空间和噪声子空间是正交的,因此可以通过线性代数的方法将两个子空间进行分离。
无监督条件下的语音降噪算法的优点在于,对平稳噪声具有显著的抑制效果。但是对于非平稳噪声,其往往不能得到很好的降噪效果。而有监督类算法的优点则是在非平稳噪声情况下也可以得到相对较好的降噪效果。
有监督条件下语音降噪算法则主要是深度神经网络类算法。深度神经网络类算法是用基于深度学习的方法,从训练数据中学习语音和噪音的特征。其主要思路是根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,在噪音占主导的情况下把对应的时频单元的能量设为0,或者在目标语音占主导的情况下保持原样。从而将分类任务转换成了一个二分类问题,以此实现语音降噪的目标。
但是,上述语音增强技术仍存在一些不足。例如,谱减法的缺点是由于估计噪音的时候取平均值,那么有的地方噪音强度大于平均值的时候,相减后会有残留的噪音存在;而强度小于平均值时,相减后会产生音乐噪声。同时由于没有利用明确的语音和噪声模型,其性能在很大程度上依赖于对干扰源的频谱跟踪的好坏。
为了尽可能提高语音识别系统在高噪声环境下的鲁棒性,首先提出了一种无需语音增强的声学模型训练方法,即预训练方法,通过预训练得到模型初始化权重参数。
随着近年来各种深度神经网络的快速发展,卷积神经网络、生成对抗网络等原本应用于其他领域的神经网络模型也被尝试着用于语音识别领域,并取得了一定的效果。其中长短期记忆网络模型由于能对潜在的任意长期序列进行建模,因此,广泛应用于因此语言、语音和翻译等方面。
长短期记忆网络全称为Long Short-Term Memory,简称LSTM,是当前语音识别领域最常使用的模型。LSTM同时具备了长时记忆和短时记忆,其中长时记忆是指权重在训练过程中变化比较缓慢;而短时记忆是指激活函数从一个节点到另一个节点是短暂的。然而,在实际生活的高噪声情况下,LSTM性能往往急剧下降,问题在于模型着重于其拟合能力和对上下文的记忆能力,而忽视了模型在噪声环境下的鲁棒性。
因此针对上述问题提出了使用双向循环网络结构代替原来的单向循环网络,并通过maxout激活函数对LSTM模型进一步优化,该方法简称为maxout-biLSTM。
发明内容
本发明的目的是为了解决在高噪声条件下,神经网络抗噪能力差的问题,提出了一种模型预训练和双向LSTM的语音识别方法。
核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性。
本发明的目的是通过以下技术方案实现的:
步骤一:输入待处理语音信号;
其中,待处理语音信号为采集到的含噪声的语音信号;
步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:
步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;
步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1…,N-1,N为帧内采样点个数;
步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):
T′(i)=T(i)*Hi (1)
其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N-1,N为帧采样点个数;其中,汉明窗函数为公式(2):
其中,cos为余弦函数,i为当前对应的帧序号,i的取值范围是0至N-1,+为帧内采样点个数,π为圆周率;
步骤三:对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数,再计算信号能量及提取梅尔倒谱系数的动态差分参数,得到语音特征;
其中,梅尔频率倒谱系数全称为Mel-frequency Cepstrum Coefficients,简称MFCC;
步骤三包括如下子步骤:
步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换,得到各帧的幅度谱x(k);
步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤,得出梅尔频谱;
具体为:使用M个带有梅尔刻度的三角形滤波器组成的滤波器组,将步骤3.1得到的频谱对应到梅尔刻度上,得到梅尔频谱;
其中,M的变化范围为22到26;
步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m),如公式(3):
式中,Fm(k)是第k个幅度谱的第m滤波器的频率响应,ln为对数函数,m的取值范围是1至M,m为对应频段的序号;
步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC,记作为C(n),如公式(4):
其中,L指MFCC的阶数,L取12;M是指三角形滤波器的个数,C(j)是第j阶的MFCC;
步骤3.5计算从t1时刻到t2时刻,每帧信号的能量En,如公式(5):
其中,T′为加窗后的语音信号,t为当前时刻;
步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分,以及每帧信号能量的一阶差分和二阶差分,并补上1维叠加帧,构成一帧信号的语音特征;
其中,每帧信号的语音特征包括12维MFCC,12维MFCC的一阶差分,12维MFCC的二阶差分,1维能量,1维能量的一阶差分和1维能量的二阶差分,1维叠加帧,共40维语音特征;
步骤四:构建基于maxout函数的双向LSTM,记为maxout-biLSTM;具体为:将双向LSTM中的输入门和遗忘门的激活函数变为maxout函数;
步骤五:使用maxout-biLSTM进行前向和反向传播,具体包括:
步骤5.1通过公式(6)和(7)更新遗忘门限ft与输入门限it:
ft=maxout(Wf[St-1,xt]+bf) (6)
it=maxout(Wi[St-1,xt]+bi) (7)
其中,maxout是激活函数,Wf是遗忘门的权重矩阵,Wi是输入门的权重矩阵,St-1是双向LSTM中前一时刻单元的输出,Xt是t时刻双向LSTM单元的输入,bf是遗忘门的偏置,bi是输入门的偏置;
ot=σ(Wo[St-1,xt]+bo) (10)
St=ot*tanh(σ(Wo[St-1,xt]+bo)) (11)
其中,σ为sigmoid函数,tanh为激活函数,Wc是细胞状态权重,bc是细胞状态的偏置,Wo是过滤值权重,bo是过滤值偏置,Xt是t时刻双向LSTM单元的输入,St-1是双向LSTM中前一时刻单元的输出;
步骤5.3使用截断梯度回传方法更新网络权重与偏置,实现模型的反向传播过程,具体为:
步骤5.3.1计算遗忘门ft,输入门it,细胞状态Ct和过滤值ot四个参数的梯度,定义W为遗忘门、输入门、细胞状态及过滤值的权重和偏置矩阵,即如公式(12):
步骤5.3.2求解误差E对权重和偏置矩阵W的偏导数,完成maxout-biLSTM权重的更新;
步骤六:模型预训练,又具体包括如下子步骤:
步骤6.1采用实际训练数据量的λ%作为预训练数据集,在多层神经网络中进行前反馈传播,递归计算得到神经网络最后的输出结果aD,如公式(13):
步骤6.2计算神经网络输出aD与真实输出y的误差值Ep,如公式(14):
步骤6.3更新每个神经元上的权重,具体为计算权重的梯度,将权重梯度与训练因子相乘并取反后加到权重上;
步骤6.4保存预训练后的网络参数,存储预训练后模型;
步骤七:使用预训练后的maxout-biLSTM对含噪声的语音信号进行训练,得到结果。
有益效果
一种基于预训练和双向LSTM的语音识别方法,与现有技术相比,具有如下有益效果:
1.本发明使用maxout网络改进双向循环长短期记忆网络,大幅度提高了声学模型在高噪声环境下的鲁棒性;
2.本发明通过有效地提取语音信号特征,设计并实现了无需语音增强技术的模型预训练方法,可应用于高噪声环境下的语音识别模型构建与训练。
附图说明
图1为本发明一种模型预训练和双向LSTM的语音识别方法实施例1中步骤F的训练过程图;
图2为本发明一种模型预训练和双向LSTM的语音识别方法实施例1中步骤E的maxout网络结构;
图3为本发明一种模型预训练和双向LSTM的语音识别方法实施例1中步骤E的maxout-biLSTM模型结构。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明,同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
实施例1
本实施例叙述了采用本发明所述的基于预训练和双向LSTM的语音识别方法。
步骤A:输入待处理语音信号;
具体到本实施例,采用matlab按照信噪比9:1、7:3为纯净语音叠加噪声信号,每个输入待处理语音信号的文件的格式为’.wav’;
步骤B:语音信号预处理;
本实施例将步骤A输入的语音信号通过一个高通滤波器,其中滤波器的系数为0.96;
选取25ms,将通过高通滤波器处理后的语音信号进行分帧,并设定12.5ms的帧移,步骤A输入的待处理语音信号转换成了以帧为单位的短时语音信号T(n);
将每帧短时语音信号与a值为0.46的汉明窗函数相乘,得到加窗处理后的帧信号T′(n);
步骤C:提取语音特征;
具体到本实施例,使用语音识别工具kaldi和matlab进行语音特征的提取;
首先,使用kaldi对步骤B得到的加窗后帧信号T′(n)进行快速傅立叶变换,得到幅度谱;然后修改配置文件,将梅尔刻度滤波组中三角滤波器的个数设置为24;运行脚本,得到12维MFCC;
然后使用matlab求解加窗后帧信号T′(n)的能量En,并求解MFCC对应的一阶差分、二阶差分,以及每帧信号的能量En的一阶差分和二阶差分;将得到的40维语音特征存到特征矩阵,具体包括12维MFCC、12维MFCC一阶差分、12维MFCC二阶差分、1维能量、1维能量一阶差分、1维能量二阶差分,还有一维用于补零的叠加帧;
步骤D:构建双向LSTM模型;
具体到本实施例中,使用语音识别工具kaldi构建双向LSTM;具体为修改kaldi库中的配置文件,选择双向LSTM模型,加载模型;
步骤E:使用maxout函数优化双向LSTM,并存储更改后的maxout-biLSTM;
使用maxout函数优化的maxout-biLSTM如图3所示,具体步骤和参数与步骤5.1至步骤5.3一致;
其中,maxout激活函数的结构图如图2所示,maxout的结构主要是在输入层和隐藏层每个节点之间加入具有K个神经元的网络层,即M=(M1,M2,…,Mk),并选择这k个神经元中的最佳值作为最终的输出,图2中X是输入层的神经元,O为输出神经元;
具体到本实施例中,首先更新步骤D中加载的双向LSTM的遗忘门限与输入门限,使用maxoutcomponent组建替代原双向LSTM中的sigmoidcomponent组建,将优化后的maxout-biLSTM模型存储,并加载到运行脚本中;
步骤F:模型预训练;
首先对声学模型采用传统初始化的随机数,进行初次权重初始化。然后使用带有噪声语音的数据对声学模型进行首次预训练;
具体到本实施例,使用步骤E存储的maxout-biLSTM对含噪声数据进行预训练;本步骤中,预训练数据使用了5%的训练集数据,学习率选取0.001;含有噪声数据首先进行前反馈传播,然后误差反向传播,更新maxout-biLSTM中的网络权重,一轮预训练结束后,得到适应噪声条件的网络参数,需要保存预训练后的模型;
步骤G:使用maxout-biLSTM进行语音识别训练,具体步骤如图1,通过步骤F保存的预训练后的模型,对整个数据集进行训练;
具体到本实施例中,运行Kaldi工具脚本时,需要跳过构建以及初始化声学模型步骤,直接运行步骤F中的预训练后的maxout-biLSTM进行训练,得到语音识别结果。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (4)
1.一种模型预训练和双向LSTM的语音识别方法,其特征在于:核心思想是改进了传统LSTM的激活函数,有效提高了模型在噪声环境下的鲁棒性;包括如下步骤:
步骤一:输入待处理语音信号;
步骤二:对步骤一输入的待处理语音信号进行预处理,得到预处理后的帧信号,包括如下子步骤:
步骤2.1预加重,将步骤一输入的待处理语音信号通过一个高通滤波器,得到预加重后信号;
步骤2.2分帧,选取25ms帧长,将步骤2.1得到的预加重后的信号转换成以帧为单位的短时语音帧信号T(n),其中,n=0,1...,N-1,N为帧内采样点个数;
步骤2.3将步骤2.2得到的短时语音帧信号通过汉明窗处理后得到加窗后帧信号,如公式(1):
T′(i)=T(i)*Hi (1)
其中,T(i)表示第i个语音帧信号;T′(i)代表经汉明窗处理后得到加窗后的第i个语音帧信号,Hi为当前帧对应的汉明窗函数,i的取值范围是0至N-1,N为帧采样点个数;其中,汉明窗函数为公式(2):
其中,cos为余弦函数,i为当前对应的帧序号,i的取值范围是0至N-1,+为帧内采样点个数,π为圆周率;
步骤三:对步骤二输出的预处理后的帧信号进行快速傅立叶变换、使用梅尔尺度滤波器组过滤以及离散余弦变换为主的操作得到梅尔频率倒谱系数,再计算信号能量及提取梅尔倒谱系数的动态差分参数,得到语音特征;
其中,梅尔频率倒谱系数全称为Mel-frequency Cepstrum Coefficients,简称MFCC;
步骤三包括如下子步骤:
步骤3.1对步骤二输出的预处理信号进行快速傅立叶变换,得到各帧的幅度谱x(k);
步骤3.2对步骤3.1输出的各帧的幅度谱使用梅尔尺度滤波器组过滤,得出梅尔频谱;
具体为:使用M个带有梅尔刻度的三角形滤波器组成的滤波器组,将步骤3.1得到的频谱对应到梅尔刻度上,得到梅尔频谱;
步骤3.3计算步骤3.2中三角滤波器的对数能量值s(m),如公式(3):
式中,Fm(k)是第k个幅度谱的第m滤波器的频率响应,ln为对数函数,m的取值范围是1至M,m为对应频段的序号;
步骤3.4对步骤3.3输出的对数能量值进行离散余弦变换得到MFCC,记作为C(n),如公式(4):
其中,L指MFCC的阶数,L取12;M是指三角形滤波器的个数,C(j)是第j阶的MFCC;
步骤3.5计算从t1时刻到t2时刻,每帧信号的能量En,如公式(5):
其中,T′为加窗后的语音信号,t为当前时刻;
步骤3.6计算每帧12维MFCC特征的一阶差分和二阶差分,以及每帧信号能量的一阶差分和二阶差分,并补上1维叠加帧,构成一帧信号的语音特征;
其中,每帧信号的语音特征包括12维MFCC,12维MFCC的一阶差分,12维MFCC的二阶差分,1维能量,1维能量的一阶差分和1维能量的二阶差分,1维叠加帧,共40维语音特征;
步骤四:构建基于maxout函数的双向LSTM,记为maxout-biLSTM;具体为:将双向LSTM中的输入门和遗忘门的激活函数变为maxout函数;
步骤五:使用maxout-biLSTM进行前向和反向传播,具体包括:
步骤5.1通过公式(6)和(7)更新遗忘门限ft与输入门限it:
ft=maxout(Wf[St-1,xt]+bf) (6)
it=maxout(Wi[St-1,xt]+bi) (7)
其中,maxout是激活函数,Wf是遗忘门的权重矩阵,Wi是输入门的权重矩阵,St-1是双向LSTM中前一时刻单元的输出,Xt是t时刻双向LSTM单元的输入,bf是遗忘门的偏置,bi是输入门的偏置;
ot=σ(Wo[St-1,xt]+bo) (10)
St=ot*tanh(σ(Wo[St-1,xt]+bo)) (11)
其中,σ为sigmoid函数,tanh为激活函数,Wc是细胞状态权重,bc是细胞状态的偏置,Wo是过滤值权重,bo是过滤值偏置,Xt是t时刻双向LSTM单元的输入,St-1是双向LSTM中前一时刻单元的输出;
步骤5.3使用截断梯度回传方法更新网络权重与偏置,实现模型的反向传播过程,具体为:
步骤5.3.1计算遗忘门ft,输入门it,细胞状态Ct和过滤值ot四个参数的梯度,定义W为遗忘门、输入门、细胞状态及过滤值的权重和偏置矩阵,即如公式(12):
步骤5.3.2求解误差E对权重和偏置矩阵W的偏导数,完成maxout-biLSTM权重的更新;
步骤六:模型预训练,又具体包括如下子步骤:
步骤6.1采用实际训练数据量的λ%作为预训练数据集,在多层神经网络中进行前反馈传播,递归计算得到神经网络最后的输出结果aD,如公式(13):
步骤6.2计算神经网络输出aD与真实输出y的误差值Ep,如公式(14):
步骤6.3更新每个神经元上的权重,具体为计算权重的梯度,将权重梯度与训练因子相乘并取反后加到权重上;
步骤6.4保存预训练后的网络参数,存储预训练后模型;
步骤七:使用预训练后的maxout-biLSTM对含噪声的语音信号进行训练,得到结果。
2.根据权利要求1所述的一种模型预训练和双向LSTM的语音识别方法,其特征在于:步骤一中的待处理语音信号为采集到的含噪声的语音信号。
3.根据权利要求1所述的一种模型预训练和双向LSTM的语音识别方法,其特征在于:步骤3.2中,M的变化范围为22到26。
4.根据权利要求1所述的一种模型预训练和双向LSTM的语音识别方法,其特征在于:步骤3.4中的L取12。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669327.6A CN108682418B (zh) | 2018-06-26 | 2018-06-26 | 一种基于预训练和双向lstm的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669327.6A CN108682418B (zh) | 2018-06-26 | 2018-06-26 | 一种基于预训练和双向lstm的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108682418A CN108682418A (zh) | 2018-10-19 |
CN108682418B true CN108682418B (zh) | 2022-03-04 |
Family
ID=63812391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810669327.6A Active CN108682418B (zh) | 2018-06-26 | 2018-06-26 | 一种基于预训练和双向lstm的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108682418B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326302B (zh) * | 2018-11-14 | 2022-11-08 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109559755A (zh) * | 2018-12-25 | 2019-04-02 | 沈阳品尚科技有限公司 | 一种基于dnn噪声分类的语音增强方法 |
CN109448726A (zh) * | 2019-01-14 | 2019-03-08 | 李庆湧 | 一种语音控制准确率的调整方法及系统 |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN111968620B (zh) * | 2019-05-20 | 2024-05-28 | 北京声智科技有限公司 | 算法的测试方法、装置、电子设备及存储介质 |
CN110288965B (zh) * | 2019-05-21 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 一种音乐合成方法、装置、电子设备及存储介质 |
US11222651B2 (en) * | 2019-06-14 | 2022-01-11 | Robert Bosch Gmbh | Automatic speech recognition system addressing perceptual-based adversarial audio attacks |
CN110472726B (zh) * | 2019-07-25 | 2022-08-02 | 南京信息工程大学 | 基于输出变化微分的灵敏长短期记忆方法 |
CN110379412B (zh) * | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN110556125B (zh) * | 2019-10-15 | 2022-06-10 | 出门问问信息科技有限公司 | 基于语音信号的特征提取方法、设备及计算机存储介质 |
CN110987434A (zh) * | 2019-12-18 | 2020-04-10 | 中国民航大学 | 一种基于去噪技术的滚动轴承早期故障诊断方法 |
CN111312293A (zh) * | 2020-02-17 | 2020-06-19 | 杭州电子科技大学 | 一种基于深度学习对呼吸暂停症患者的识别方法及系统 |
CN111341351B (zh) * | 2020-02-25 | 2023-05-23 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN111613240B (zh) * | 2020-05-22 | 2023-06-27 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
CN112038670B (zh) * | 2020-07-31 | 2021-09-14 | 上海捷氢科技有限公司 | 一种质子交换膜燃料电池及其水状态监测方法和装置 |
CN112329819A (zh) * | 2020-10-20 | 2021-02-05 | 中国海洋大学 | 基于多网络融合的水下目标识别方法 |
CN113658604A (zh) * | 2021-08-27 | 2021-11-16 | 上海互问信息科技有限公司 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
CN114863940B (zh) * | 2022-07-05 | 2022-09-30 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
CN106295242A (zh) * | 2016-08-04 | 2017-01-04 | 上海交通大学 | 基于代价敏感lstm网络的蛋白质域检测方法 |
CN107230351A (zh) * | 2017-07-18 | 2017-10-03 | 福州大学 | 一种基于深度学习的短时交通流预测方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN107636691A (zh) * | 2015-06-12 | 2018-01-26 | 商汤集团有限公司 | 用于识别图像中的文本的方法和设备 |
CN107729311A (zh) * | 2017-08-28 | 2018-02-23 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
-
2018
- 2018-06-26 CN CN201810669327.6A patent/CN108682418B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
CN107636691A (zh) * | 2015-06-12 | 2018-01-26 | 商汤集团有限公司 | 用于识别图像中的文本的方法和设备 |
CN106295242A (zh) * | 2016-08-04 | 2017-01-04 | 上海交通大学 | 基于代价敏感lstm网络的蛋白质域检测方法 |
CN107230351A (zh) * | 2017-07-18 | 2017-10-03 | 福州大学 | 一种基于深度学习的短时交通流预测方法 |
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107729311A (zh) * | 2017-08-28 | 2018-02-23 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
Non-Patent Citations (4)
Title |
---|
Hybrid speech recognition with deep bidirectional LSTM;Graves A等;《2013 IEEE workshop on automatic speech recognition and understanding》;20140109;全文 * |
Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition;Sak H等;《https://arxiv.org/abs/1402.1128》;20140205;全文 * |
Maxout neurons based deep bidirectional LSTM for acoustic modeling;Luo Y等;《2017 IEEE International Conference on Robotics and Biomimetics (ROBIO)》;20180326;全文 * |
基于深度学习的双模态生物特征识别研究;蒋浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108682418A (zh) | 2018-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108682418B (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
Xu et al. | Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement | |
CN111223493B (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
Sun et al. | Multiple-target deep learning for LSTM-RNN based speech enhancement | |
Zhang et al. | A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Manoharan et al. | Analysis of complex non-linear environment exploration in speech recognition by hybrid learning technique | |
Guiming et al. | Speech recognition based on convolutional neural networks | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Sun et al. | A model compression method with matrix product operators for speech enhancement | |
Li et al. | A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN | |
Li et al. | Densely connected network with time-frequency dilated convolution for speech enhancement | |
Shi et al. | Speech enhancement using convolutional neural network with skip connections | |
CN111916060B (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
Do et al. | Weighting Time-Frequency Representation of Speech Using Auditory Saliency for Automatic Speech Recognition. | |
Aggarwal et al. | Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC | |
Jamal et al. | A hybrid approach for single channel speech enhancement using deep neural network and harmonic regeneration noise reduction | |
Han et al. | A novel single channel speech enhancement based on joint Deep Neural Network and Wiener Filter | |
Wang et al. | Research on speech enhancement based on deep neural network | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
Zhong | A Hybrid Approch for Noise Suppression Based on Recurrent Neural Network | |
BO | Noise-Robust Speech Recognition Using Deep Neural Network | |
Ramya et al. | DNN Based Speech Quality Enhancement and Multi‐speaker Separation for Automatic Speech Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |