CN107301864B - 一种基于Maxout神经元的深度双向LSTM声学模型 - Google Patents
一种基于Maxout神经元的深度双向LSTM声学模型 Download PDFInfo
- Publication number
- CN107301864B CN107301864B CN201710702440.5A CN201710702440A CN107301864B CN 107301864 B CN107301864 B CN 107301864B CN 201710702440 A CN201710702440 A CN 201710702440A CN 107301864 B CN107301864 B CN 107301864B
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- dblstm
- network
- maxout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000002569 neuron Anatomy 0.000 title claims abstract description 57
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008034 disappearance Effects 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 18
- 210000004027 cell Anatomy 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 abstract description 4
- 230000036962 time dependent Effects 0.000 abstract 1
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 230000007774 longterm Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种基于深度双向长短时记忆(DBLSTM)递归神经网络(RNN)的声学模型,DBLSTM网络主要分为三部分:在DBLSTM的全连接部分,使用Maxout神经元代替原来的Sigmoid神经元来解决RNN中常出现的梯度消失和爆炸的问题;同时使用Dropout正则化训练算法避免了神经网络在训练过程中出现过拟合。在多层BLSTM部分,为适应DBLSTM对每个时间步长的双向依赖性,提出了上下文敏感块的随时间反向传播(CSC‑BPTT)算法来训练该网络。在多层BLSTM部分之后采用一层选择连接层,用于对DBLSTM的输出进行变换得到全连接部分的输入。本发明可得到更高的语音识别率。
Description
技术领域
本发明属于人工智能语音识别领域,主要涉及深度神经网络在语音声学模型中的应用。
背景技术
深度神经网络(Deep neural network,DNN)的研究与应用极大的推动了自动语音识别(Automatic speech recognition,ASR)技术的发展。在大词汇量连续语音识别(Largevocabulary continuous speech recognition,LVCSR)系统中,相比于传统的高斯混合模型-隐马尔科夫模型(Gaussian mixture models-hidden markov models,GMM-HMM)声学模型,基于DNN的声学模型表现出更好的优势。Seide F等人将基于DNN-HMM声学模型用于Switchboard电话转录任务,其字错误率(Word error rate,WER)相对下降了33%。DNN-HMM声学模型的研究和扩展给ASR技术带来了前所未有的发展。
以前的研究主要集中在用于处理固定长度输入窗的上下文声学特征的前馈神经网络上。然而实际的语音信号具有动态特性,DNN不能很好地表征语音帧之间的长时依赖特性。所以,像循环神经网络(Recurrent neural network,RNN)这样的更强大的序列信号模型再次引起了研究者的关注。最近,RNN在提高语音识别率上的性能优越性已得到证明,RNN的隐含层中具有循环结构,可捕获到更长的时间动态特性。但是标准的RNN仍然受限于梯度消失和爆炸问题,因此提出长短时记忆(Long short-term memory,LSTM)RNN模型,该模型中的输入信号、循环信号和输出信号都由门信号控制,在一定程度上克服了这些问题。Graves A等人建立了基于LSTM RNN的语音识别系统,在TIMIT音素识别任务中取得了很好的成果。Sak H等人将混合深度LSTM-HMM语音识别系统通过帧级交叉熵(Cross entropy,CE)训练和序列级鉴别训练获得更好的识别结果。此后,研究了许多LSTM网络的变体,并针对多种ASR任务进行了有效的实验验证。Jaitly N等人提出深度双向长短时记忆-隐马尔科夫模型(Deep bidirectional long short term memory-hidden markov models,DBLSTM-HMM)声学模型,并在TIMIT和WSJ语料库中验证了其识别性能。Chen K等人提出在LVCSR中使用上下文敏感块-随时间反向传播(Context-sensitive-chunk Back-propagationthrough time,CSC-BPTT)算法来训练DBLSTM声学模型。DBLSTM能够在模型内部存储某一帧的前后语音信息,训练被分类帧两侧的上下文声学特征。
在神经网络训练阶段,LSTM可以通过标准RNN的基于梯度的算法进行训练,如实时循环学习(Real-time recurrent learning,RTRL)、随时间反向传播(Back-propagationthrough time,BPTT)以及其多种变体。但是,由于DBLSTM在每个时间步长上的双向依赖性,上述的训练算法不能直接应用于DBLSTM训练。因为在LVCSR中,DBLSTM不适合于低延迟识别,可能会导致整个语音识别的延迟。Chen K等人提出一种CSC-HMM训练算法,它将每个序列分解为多个具有上下文敏感的组块,并行处理这些组块,这样只是在一小段语音中延迟,而不是整个语句。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种解决RNN训练过程中梯度消失和爆炸问题,以及应用CSC-HMM训练算法满足DBLSTM在每个时间步长上的双向依赖性的特点,实现更好是语音识别性能的基于Maxout神经元的深度双向LSTM声学模型。本发明的技术方案如下:
一种基于Maxout神经元的深度双向LSTM声学模型,其该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分。
进一步的,所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:
进一步的,所述DBLSTM递归神经网络(深度双向长短时记忆递归神经网络)计算方法为:
首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即
ht=H(Wxhxt+Whhht-1+bh)
yt=Whyht+by
其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵。
LSTM单元中,激活函数H通过下列公式实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ot tanh(ct)
其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵。
进一步的,所述选择连接层的计算方法为:
该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和,最终得到一个矢量作为全连接层的输入信号。
进一步的,所述全连接层中Maxout神经元的计算方法为:
在Maxout神经网络中,每个Maxout神经元由几个可选择的激活单元组成,Maxout神经元的输出是选择其的激活单元单元组中最大值:
公式表明,当取最大值时Maxout神经元的梯度为1,否则为0,这样在训练期间产生恒定的梯度,从而解决了梯度消失的问题。
进一步的,所述全连接层中Dropout正则化训练算法计算方法为:
Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法:
1)SGD训练阶段:将二值掩膜ml应用于原始激活单元,从而获得Maxout神经元输出值:
其中,θ代表神经元进行的非线性变换,是向量的乘积,二值掩膜ml服从伯努利分布(1-r),r称为Dropout率;
2)测试阶段:不需要省略激活神经元,但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。
进一步的,所述的DBLSTM网络的训练算法CSC-BPTT算法的计算过程为:
Chunk BPTT算法是将给定的每个序列分成多个特定长度Nc的可能重叠Chunk块,这些Chunk共同组成一个较大的块batch,对于长度小于Nc的Chunk,添加空帧,在训练时每个Chunk被当作独立的序列并行输入进行训练,从而更新网络参数;
CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的,上下文敏感块在固定数据帧Nc的Chunk左侧添加帧数为Nl的数据作为上文信息,在Chunk右侧添加帧数为Nr的数据作为下文信息,将CSC记为“Nl-Nc+Nr”,整个序列被分为多个上下文敏感块,其中,第一个Chunk的Nl=0,最后一个Chunk的Nr=0;
在训练过程中,附加的上下文帧与Chunk帧结合作为输入,生成Chunk帧的输出,由于上下文帧本身并不产生输出,所以这些帧在训练期间不会产生错误信号,但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值,从而更新网络参数。
本发明的优点及有益效果如下:
本发明模型包括:多个BLSTM层形成的DBLSTM网络、选择连接层、全连接层和隐马尔可夫(HMM)模型。DBLSTM在时域和空间域内都具有深层结构。它可以通过与线性循环连接的门信号来处理时域中的梯度消失的问题,但其并不能很好的解决空间域中梯度消失的问题。Maxout神经元可以通过产生恒定梯度来解决此问题,因此考虑用Maxout神经网络来增加DBLSTM的深度。除了用Maxout网络加深网络深度,还将Dropout正则化算法引入Maxout网络中用于避免SGD训练过程中的过拟合现象。考虑到Dropout正则化会损坏BLSTM所学习的长时记忆信息,所以只在全连接层的Maxout网络中使用。由于DBLSTM网络在每个时间步长上的双向依赖性,不能直接使用一般的基于梯度的训练算法。目前适合DBLSTM网络的训练算法只有Epoch-wise BPTT和Chunk BPTT,但它们在训练时丢失了上下文的依赖信息,导致训练的模型性能降低。Chen K等人提出用CSC-BPTT算法训练DBLSTM声学模型的方法已经在大词汇量连续语音识别系统中得到很好的验证。在训练过程中,附加的上下文帧与Chunk帧结合作为输入,生成Chunk帧的输出。由于上下文帧本身并不产生输出,所以这些帧在训练期间不会产生错误信号,但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值,从而更新网络参数。
通过Kaldi语音工具箱在Switchboard语料库中进行评估实验。将该发明的DBLSTM-HMM声学模型与原来的DNN-HMM、RNN-HMM和LSTM-HMM声学模型一起进行语音识别实验,在相同的语料库中,证明了本发明的声学模型的有效性。
该模型为解决LSTM训练过程中常出现的梯度消失和爆炸问题,将DBLSTM神经网络与Maxout神经元和Dropout正则化算法相结合提出一种改进的DBLSTM-HMM声学模型结构,并且为适应DBLSTM对每个时间步长的双向依赖性,提出采用CSC-BPTT算法训练模型中多层BLSTM网络。该模型在一定程度上减少了DBLSTM模型的训练时间,并提高了语音识别率。
附图说明
图1是本发明优选实施例的单个LSTM单元结构图。
图2DBLSTM网络结构图;
图3Maxout神经网络结构图;
图4基于Maxout神经元的DBLSTM网络结构图;
图5上下文敏感块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明如图1所示为单个LSTM单元结构图,其与标准RNN不同。对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),可以通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即
ht=H(Wxhxt+Whhht-1+bh)
yt=Whyht+by
其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数。
一般的RNN通常会出现梯度消失的问题,所以其对长时序列特征建模的效果并不好。LSTM通过构建内存单元对序列信息进行建模,可以解决此类问题。在LSTM单元中,激活函数H通过下列公式实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ot tanh(ct)
其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵。
如图2所示为DBLSTM网络结构图。DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层。DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y。该网络的迭代过程如下:
如图3所示为Maxout神经网络结构图。在深度神经网络的应用中,Sigmoid神经元具有平滑性和梯度计算简单等特点,因此广泛应用于多种神经网络中。但其仍然存在一个缺点:在随机梯度下降(Stochastic gradient descent,SGD)训练算法中,Sigmoid神经元可能会导致训练过程中梯度消失。这是因为当输入值较大(不在零附近)时,Sigmoid函数的梯度值通常趋向于非常小,甚至消失。当网络较深时,这个问题尤为严重,使得这个过程对超参数调整特别敏感。Maxout神经元通过在SGD训练期间产生恒定的梯度来有效地处理梯度消失的问题。Maxout网络收敛速度快,泛化能力强,比整流线性单元(Rectified linrarunits,ReLU)网络和Sigmoid网络更容易优化。
在Maxout神经网络中,每个Maxout神经元又由几个可选择的激活单元组成,Maxout神经元的输出是选择其单元组中最大值:
在SGD训练过程中,Maxout神经元的梯度计算为:
当取最大值时Maxout神经元的梯度为1,否则为0。这样在训练期间产生恒定的梯度,从而解决了梯度消失的问题。
Maxout神经元虽然很好的解决了DNN训练时梯度消失的问题,但有时也会出现过拟合现象。相关研究表明[25],Dropout正则化是避免过拟合的一种有效的方法,且其也有利于神经网络模型平均。文献[26],首次将Dropout正则化方法应用到LVCSR任务中,并取得很好的效果。
Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法:
SGD训练阶段:将二值掩膜ml应用与原始激活单元,从而获得Maxout神经元输出值:
其中,θ代表神经元进行的非线性变换,如Sigmoid和Maxout函数,是向量的乘积,二值掩膜ml服从伯努利分布(1-r),r称为Dropout率。低Dropout率能保留更多的有用信息,而较高的Dropout率可实现更高的正则化,因此选择一个合适的Dropout率尤为重要。
测试阶段:不需要省略激活神经元,但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。
如图4所示为基于Maxout神经元的DBLSTM网络结构图。DBLSTM在时域和空间域内都具有深层结构。它可以通过与线性循环连接的门信号来处理时域中的梯度消失的问题,但其并不能很好的解决空间域中梯度消失的问题。Maxout神经元可以通过产生恒定梯度来解决此问题,因此考虑用Maxout神经网络来增加DBLSTM的深度。结合上述研究,提出一种DBLSTM与Maxout神经网络组合的深度混合声学模型。在图4中BLSTM作为底层可以对语音信号的长时依赖信息建模。选择连接层将多层BLSTM网络输出的数据按照公式(10)变换后再输入后面隐含层网络。具有Maxout神经元的全连接层利用Dropout正则化算法进行训练,可以得到更好的DBLSTM模型平均。最后加入softmax层作为整个神经网络的输出。
除了用Maxout网络加深网络深度,还将Dropout正则化算法引入Maxout网络中用于避免SGD训练过程中的过拟合现象。考虑到Dropout正则化会损坏BLSTM所学习的长时记忆信息,所以只在全连接层的Maxout网络中使用。
如图5所示为CSC-BPTT训练算法中的上下文敏感块示意图。CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的。在固定数据帧Nc的Chunk左侧添加帧数为Nl的数据作为上文信息,在Chunk右侧添加帧数为Nr的数据作为下文信息。为了方便,将CSC记为“Nl-Nc+Nr”。整个序列被分为多个上下文敏感块,其中,第一个Chunk的Nl=0,最后一个Chunk的Nr=0。在训练过程中,附加的上下文帧与Chunk帧结合作为输入,生成Chunk帧的输出。由于上下文帧本身并不产生输出,所以这些帧在训练期间不会产生错误信号,但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值,从而更新网络参数。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (3)
1.一种基于Maxout神经元的深度双向LSTM声学模型,其特征在于,该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分;
所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:
所述DBLSTM深度双向长短时记忆递归神经网络计算方法为:
首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即
ht=H(Wxhxt+Whhht-1+bh)
yt=Whyht+by
其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵;
LSTM单元中,激活函数H通过下列公式实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ottanh(ct)
其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵;
所述选择连接层的计算方法为:
该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和,最终得到一个矢量作为全连接层的输入信号;
所述全连接层中Dropout正则化训练算法计算方法为:
Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法:
1)SGD训练阶段:将二值掩膜ml应用于原始激活单元,从而获得Maxout神经元输出值:
hl=ml⊙θ(Wl Thl-1+bl)
其中,θ代表神经元进行的非线性变换,⊙是向量的乘积,二值掩膜ml服从伯努利分布(1-r),r称为Dropout率;
2)测试阶段:不需要省略激活神经元,但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。
2.根据权利要求1所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述全连接层中Maxout神经元的计算方法为:
在Maxout神经网络中,每个Maxout神经元由几个可选择的激活单元组成,Maxout神经元的输出是选择其的激活单元单元组中最大值:
zl=Wl Thl-1+bl
其中,Wl T和bl分别是前一层神经元到激活单元zl的权重矩阵和偏置向量,在SGD训练过程中,Maxout神经元的梯度计算为:
公式表明,当取最大值时Maxout神经元的梯度为1,否则为0,这样在训练期间产生恒定的梯度,从而解决了梯度消失的问题。
3.根据权利要求1所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述的DBLSTM网络的训练算法CSC-BPTT算法的计算过程为:
Chunk BPTT算法是将给定的每个序列分成多个特定长度Nc的可能重叠Chunk块,这些Chunk共同组成一个较大的块batch,对于长度小于Nc的Chunk,添加空帧,在训练时每个Chunk被当作独立的序列并行输入进行训练,从而更新网络参数;
CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的,上下文敏感块在固定数据帧Nc的Chunk左侧添加帧数为Nl的数据作为上文信息,在Chunk右侧添加帧数为Nr的数据作为下文信息,将CSC记为“Nl-Nc+Nr”,整个序列被分为多个上下文敏感块,其中,第一个Chunk的Nl=0,最后一个Chunk的Nr=0;
在训练过程中,附加的上下文帧与Chunk帧结合作为输入,生成Chunk帧的输出,由于上下文帧本身并不产生输出,所以这些帧在训练期间不会产生错误信号,但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值,从而更新网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710702440.5A CN107301864B (zh) | 2017-08-16 | 2017-08-16 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710702440.5A CN107301864B (zh) | 2017-08-16 | 2017-08-16 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107301864A CN107301864A (zh) | 2017-10-27 |
CN107301864B true CN107301864B (zh) | 2020-12-22 |
Family
ID=60131837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710702440.5A Active CN107301864B (zh) | 2017-08-16 | 2017-08-16 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301864B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108470359A (zh) * | 2018-02-11 | 2018-08-31 | 艾视医疗科技成都有限公司 | 一种糖尿病性视网膜眼底图像病变检测方法 |
CN108805224B (zh) * | 2018-05-28 | 2021-10-01 | 中国人民解放军国防科技大学 | 具备可持续学习能力的多符号手绘草图识别方法及装置 |
CN109044396B (zh) * | 2018-06-25 | 2021-03-30 | 广东工业大学 | 一种基于双向长短时记忆神经网络的智能心音识别方法 |
CN108682418B (zh) * | 2018-06-26 | 2022-03-04 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109215674A (zh) * | 2018-08-10 | 2019-01-15 | 上海大学 | 实时语音增强方法 |
CN109036460B (zh) * | 2018-08-28 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
CN110881966A (zh) * | 2018-09-10 | 2020-03-17 | 深圳市游弋科技有限公司 | 利用lstm网络对心电数据进行处理的算法 |
CN111091817B (zh) * | 2018-10-24 | 2022-10-11 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN109615454A (zh) * | 2018-10-30 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定用户金融违约风险的方法及装置 |
CN109614943A (zh) * | 2018-12-17 | 2019-04-12 | 电子科技大学 | 一种用于盲源分离的特征提取方法 |
CN109636609A (zh) * | 2019-01-04 | 2019-04-16 | 广州市本真网络科技有限公司 | 基于双向长短时记忆模型的股票推荐方法及系统 |
CN109886389B (zh) * | 2019-01-09 | 2023-04-25 | 南京邮电大学 | 一种基于Highway和DC的新型双向LSTM神经网络构建方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110248096B (zh) | 2019-06-28 | 2021-03-12 | Oppo广东移动通信有限公司 | 对焦方法和装置、电子设备、计算机可读存储介质 |
CN112750425B (zh) * | 2020-01-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN111860460A (zh) * | 2020-08-05 | 2020-10-30 | 江苏新安电器股份有限公司 | 一种基于改进的lstm模型在人体行为识别上的应用方法 |
CN112085165A (zh) * | 2020-09-02 | 2020-12-15 | 中国第一汽车股份有限公司 | 一种决策信息生成方法、装置、设备及存储介质 |
CN113516616A (zh) * | 2021-03-22 | 2021-10-19 | 杭州电子科技大学 | 一种基于图像识别的眼底照片自动检测方法及系统 |
CN113111813A (zh) * | 2021-04-20 | 2021-07-13 | 深圳追一科技有限公司 | 基于asr声学模型的嘴部动作驱动模型训练方法及组件 |
CN113378149B (zh) * | 2021-06-10 | 2022-06-03 | 青岛海洋科学与技术国家实验室发展中心 | 一种基于人工智能的双向移动通讯身份验证方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150339571A1 (en) * | 2012-12-24 | 2015-11-26 | Google Inc. | System and method for parallelizing convolutional neural networks |
CN105117330A (zh) * | 2015-08-07 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | Cnn代码测试方法及装置 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
US20170069327A1 (en) * | 2015-09-04 | 2017-03-09 | Google Inc. | Neural Networks For Speaker Verification |
CN106599832A (zh) * | 2016-12-09 | 2017-04-26 | 重庆邮电大学 | 一种基于卷积神经网络的多类障碍物检测与识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN105244020B (zh) * | 2015-09-24 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
-
2017
- 2017-08-16 CN CN201710702440.5A patent/CN107301864B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150339571A1 (en) * | 2012-12-24 | 2015-11-26 | Google Inc. | System and method for parallelizing convolutional neural networks |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
CN105117330A (zh) * | 2015-08-07 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | Cnn代码测试方法及装置 |
US20170069327A1 (en) * | 2015-09-04 | 2017-03-09 | Google Inc. | Neural Networks For Speaker Verification |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN106599832A (zh) * | 2016-12-09 | 2017-04-26 | 重庆邮电大学 | 一种基于卷积神经网络的多类障碍物检测与识别方法 |
Non-Patent Citations (6)
Title |
---|
A comprehensive study of deep bidirectional LSTM RNNs for acoustic modeling in speech recognition;Zeyer A, Doetsch P, Voigtlaender P, et al;《2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20170619;全文 * |
Deep neural network features and semi-supervised training for low resource speech recognition;Thomas S, Seltzer M L, Church K, et al;《2013 IEEE international conference on acoustics, speech and signal processing》;20131021;全文 * |
Maxout neurons based deep bidirectional LSTM for acoustic modeling;Luo Y, Liu Y, Zhang Y, et al;《2017 IEEE International Conference on Robotics and Biomimetics (ROBIO)》;20180326;全文 * |
Very deep convolutional neural networks for noise robust speech recognition;Qian Y, Bi M, Tan T, et al;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20160825;第24卷(第12期);全文 * |
基于多尺度池化的卷积神经网络人脸识别方法研究;吴斯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;全文 * |
基于深度学习的大词汇量连续语音识别的研究;刘宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107301864A (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301864B (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
CN109767759B (zh) | 一种应用到端到端语音识别的cldnn结构的建立方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
CN108682418B (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
Laurent et al. | Batch normalized recurrent neural networks | |
CN104700828B (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
CN107293288B (zh) | 一种残差长短期记忆循环神经网络的声学模型建模方法 | |
Niles et al. | Combining hidden Markov model and neural network classifiers | |
CN110223714B (zh) | 一种基于语音的情绪识别方法 | |
Guiming et al. | Speech recognition based on convolutional neural networks | |
CN104952448A (zh) | 一种双向长短时记忆递归神经网络的特征增强方法及系统 | |
WO2021208455A1 (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
Li et al. | Improving long short-term memory networks using maxout units for large vocabulary speech recognition | |
Suh et al. | Phoneme segmentation of continuous speech using multi-layer perceptron | |
CN114943335A (zh) | 一种三值神经网络逐层优化方法 | |
CN113902092A (zh) | 一种脉冲神经网络间接监督训练方法 | |
CN110895933A (zh) | 一种基于空时残差神经网络的远场语音识别方法 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Young | Competitive training in hidden Markov models (speech recognition) | |
CN111933123A (zh) | 一种基于门控循环单元的声学建模方法 | |
CN111210815A (zh) | 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 | |
CN116629332A (zh) | 一种基于光学储备池计算的信号补偿方法 | |
CN112598065B (zh) | 一种基于记忆的门控卷积神经网络语义处理系统及方法 | |
CN111310892B (zh) | 一种基于独立循环神经网络的语言模型建模方法 | |
Daneshvar et al. | Persian phoneme recognition using long short-term memory neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |