CN107293288B - 一种残差长短期记忆循环神经网络的声学模型建模方法 - Google Patents
一种残差长短期记忆循环神经网络的声学模型建模方法 Download PDFInfo
- Publication number
- CN107293288B CN107293288B CN201710432477.0A CN201710432477A CN107293288B CN 107293288 B CN107293288 B CN 107293288B CN 201710432477 A CN201710432477 A CN 201710432477A CN 107293288 B CN107293288 B CN 107293288B
- Authority
- CN
- China
- Prior art keywords
- neural network
- short term
- term memory
- input
- gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 title claims abstract description 44
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 31
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000007787 long-term memory Effects 0.000 abstract description 6
- 230000006403 short-term memory Effects 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
一种残差长短期记忆循环神经网络的声学模型建模方法,将标准的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度;本发明提出的方法,给出一个供于直连的内部节点位置,实验表明此位置能够带来识别的性能提升,并结合基于帧的Dropout技术进一步提升系统性能;这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能,并且结合基于帧的Dropout技术来防止过拟合问题,实现了提升模型泛化能力的目的,该方法可广泛应用于涉及语音识别的多种人机交互领域。
Description
技术领域
本发明属于音频技术领域,特别涉及一种残差长短期记忆循环神经网络的声学模型建模方法。
背景技术
随着人工智能和计算机技术的发展,尤其是图形处理器等计算硬件的发展,人工神经网络(Artificial Neural Network,ANN)被广泛应用于自动语音识别系统中。而语音识别的错误率也随着神经网络的引入和数据集的增加得到了明显降低,因而为学术界和产业界的研究热点。
声学模型在目前主流的语音识别系统中扮演着重要角色,其性能的提升对于提升语音识别的性能有着重要意义。在神经网络得到广泛应用之前,声学模型的基本架构是混合高斯模型-隐含马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),该模型使得语音识别系统的性能得到了大幅度的提升,也使得语音识别转向商业使用阶段成为了可能。但是GMM-HMM有着很多不足,其中最重要的是GMM不能对深层的非线性变换进行有效建模,导致在语音识别应用中对发音的区分性不够。
自2010年以来,传统的GMM-HMM声学模型逐渐被基于深度神经网络(Deep NeuralNetwork,DNN)的声学模型取代,形成了DNN-HMM混合模型。目前在语音识别领域广泛用于声学建模的神经网络有:深度神经网络(Deep Neural Network,DNN)、时延神经网络(TimeDelay Neural Network,TDNN)、卷积神经网络(Convolutional Neural Network,CNN)以及RNN等。DNN-HMM声学模型的引入使得语音识别的性能得到了大幅度提升。2012年Mohamed等人在TIMIT语料库上通过使用深度置信网络(Deep Belief Network,DBN),在核心测试集上实现了20.7%的音素错误率(Phone Error Rate,PER),在此之前基于GMM-HMM取得的最低错误率是22.7%。而在大规模连续语音识别上,在标准的Switchboard电话录音数据集上使用DNN,可以将错误率相对于GMM-HMM模型降低33%。
但是,简单的前馈全连接网络存在两大问题:其一是前馈全连接网络很难对语音信号的历史信息进行建模;其二是在随机梯度下降(Stochastic Gradient Descent,SGD)训练的过程中可能会出现梯度消失(Vanishing Gradient)或梯度爆炸(ExplodingGradient)的问题。
针对第一个问题,研究者主要开展了两类尝试:其一是利用CNN来对语音信号的局部特性进行建模;其二是利用语音帧之间的依赖特性对历史信息建模。基于第二点,研究者提出了基于固定窗长的前馈神经网络训练方法,但是固定窗长的大小是有限的;因此有人提出将RNN用于声学建模,虽然RNN可以学习到历史信息,但是学习到的历史信息是有限的,尤其是其很难学习到很长的历史信息,这是由于RNN在训练过程中仍然存在梯度消失和梯度爆炸的问题。
随后,基于LSTM单元的RNN被引入声学建模,LSTM凭借其自身结构特性,利用输入门、输出门和忘记门等门开关控制信息的流动,既可以很好地缓解梯度消失问题,也可以学习到的更长的历史信息。
但在实际应用中,这类方法距离大规模商业化的要求还有一定的距离,原因在于声学环境的复杂性仍然严重影响语音识别系统的识别精度,特别是声学模型的抗噪性和鲁棒性仍存在一定的改进空间。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种残差长短期记忆循环神经网络的声学模型建模方法,在标准长短期记忆循环神经网络的基础上引入残差学习的思想,用于降低连续语音识别的错误率。
为了实现上述目的,本发明采用的技术方案是:
一种残差长短期记忆循环神经网络的声学模型建模方法,主要包括:
步骤1,构建残差长短期记忆循环神经网络模块
以语音信号当前帧及其前后各两帧的特征xt作为输入,产生输出:
yt=Wrpmt
其中,mt=ot⊙(WResht),ht=(tanh(ct),xt),ot=σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=σ(Wxfxt+Wrfrt-1),it=σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1);
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmoid函数,Wxo是输入到输出门的权重矩阵,Wro是循环到输出门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同;
步骤2,构建含有Dropout的残差长短期记忆循环神经网络模块
采用基于帧的Dropout技术,即对于网络中的某各节点的输出zt,随机生成一个由0或1组成的向量,称为Dropout的掩膜d,其中生成0的概率p为Dropout的丢弃概率,则d服从成功概率为1-p的Bernoulli分布:
d~Bernoulli(1-p)
随后将d和zt作数乘即可得到Dropout后的向量,即将zt的元素全部舍弃或者全部保留,
z′t=d·zt
其中z′t是使用Dropout后的向量;
基于步骤1的残差长短期记忆循环神经网络,在三个门it、ft和ot处同时使用Dropout,先生成三个Dropout掩膜:
dx~Bernoulli(1-p)x=i,f,o
其中di、df和do分别是应用在输入门、忘记门和输出门上的掩膜;然后应用到三个控制门上,即
输出的公式变为:yt=Wrpmt
其中,mt=ot⊙(WRes1ht),ht=(tanh(ct),xt),ot=do·σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=df·σ(Wxfxt+Wrfrt-1),it=di·σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1)。
所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器等组成,长短期记忆神经网络子模块的输出作为线性循环投影层的输入,线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出。
所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,在神经网络的训练过程中,所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。
本发明的主要原理是:将原有的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度。本发明提出了一个供于直连的内部节点位置,该位置能带来识别的性能提升,并且结合基于帧的Dropout训练技术能够进一步提升系统性能。
虽然长短期记忆循环神经网络可以很好地缓解梯度消失问题,但是这很大程度上是由于其在时间上很“深”,即学习很长的历史信息,而其在空间上增加网络深度后仍然会面临空间上梯度消失的问题。本发明提供了一种残差长短期记忆循环神经网络声学模型,能够比较有效地进一步提高长短期记忆循环神经网络声学模型的识别效果。在一些连续语音识别的数据集上采用这种方法,可以获得比长短期记忆循环神经网络方法更好的性能。
与现有技术相比,本发明的有益效果是:进一步提升了基于长短期记忆循环神经网络的语音识别系统性能,并且结合基于帧的Dropout技术可以防止过拟合问题,实现提升模型泛化能力的目的。
附图说明
图1是本发明的残差长短期记忆循环神经网络声学模型建模流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明提出一种残差长短期记忆循环神经网络声学模型的方法和装置,特别地,用于连续语音识别的场景下。这些方法和装置不局限于连续语音识别,也可以是任何与语音识别有关的方法和装置。
图1为本发明的残差长短期记忆循环神经网络声学模型流程图,包括以下内容:
如图1所示的输入101为语音信号特征xt;其他为残差长短期记忆循环神经网络子模块102,该子模块由记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107组成;长短期记忆神经网络子模块102的输出作为线性循环投影层108的输入,线性循环投影层108的输出作为下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出109。
输入101包括语音信号特征xt,t=1,2,...,T,其中T是语音信号的帧数。
长短期记忆神经网络子模块102指的是:记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107的集合;
在t∈[1,T]时刻长短期记忆神经网络子模块102中的参数按照如下公式计算:
gt=tanh(Wxgxt+Wrgrt-1) (公式1-1)
it=σ(Wxixt+Wrirt-1) (公式1-2)
ft=σ(Wxfxt+Wrfrt-1) (公式1-3)
ct=it⊙gt+ft⊙ct-1 (公式1-4)
ot=σ(Wxoxt+Wrort-1) (公式1-5)
ht=(tanh(ct),xt) (公式1-6)
mt=ot⊙(WResht) (公式1-7)
yt=Wrpmt (公式1-8)
rt=yt(1:nr) (公式1-9)
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmod函数,Wxo是输入到输出门的权重矩阵,Wro是循环到输出门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同。此外,由于(公式1-1)、(公式1-2)、(公式1-3)和(公式1-5)具有相同的内部运算,因此可以用一个大矩阵实现这四个内部运算,实现GPU加速。
在分类任务中,通常还会在最后一层LSTM后接一层使用Softmax的全连接层。
Claims (3)
1.一种残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,主要包括:
步骤1,构建残差长短期记忆循环神经网络模块
以语音信号当前帧及其前后各两帧的特征xt作为输入,产生输出:
yt=Wrpmt
其中,mt=ot⊙(WResht),ht=(tanh(ct),xt),ot=σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=σ(Wxfxt+Wrfrt-1),it=σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1);
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmoid函数,Wxo是输入到输出门的权重矩阵,Wro是循环到输出门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同;
步骤2,构建含有Dropout的残差长短期记忆循环神经网络模块
采用基于帧的Dropout技术,即对于网络中的某个节点的输出zt,随机生成一个由0或1组成的向量,称为Dropout的掩膜d,其中生成0的概率p为Dropout的丢弃概率,则d服从成功概率为1-p的Bernoulli分布:
d~Bernoulli(1-p)
随后将d和zt作数乘即可得到Dropout后的向量,即将zt的元素全部舍弃或者全部保留,
z′t=d·zt
其中z′t是使用Dropout后的向量;
基于步骤1的残差长短期记忆循环神经网络,在三个门it、ft和ot处同时使用Dropout,先生成三个Dropout掩膜:
dx~Bernoulli(1-p)x=i,f,o
其中di、df和do分别是应用在输入门、忘记门和输出门上的掩膜;然后应用到三个控制门上,即
输出的公式变为:yt=Wrpmt
其中,mt=ot⊙(WRes1ht),ht=(tanh(ct),xt),ot=do·σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=df·σ(Wxfxt+Wrfrt-1),it=di·σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1)。
2.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器组成,长短期记忆神经网络子模块的输出作为线性循环投影层的输入,线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出。
3.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,在神经网络的训练过程中,所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710432477.0A CN107293288B (zh) | 2017-06-09 | 2017-06-09 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710432477.0A CN107293288B (zh) | 2017-06-09 | 2017-06-09 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107293288A CN107293288A (zh) | 2017-10-24 |
CN107293288B true CN107293288B (zh) | 2020-04-21 |
Family
ID=60096749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710432477.0A Active CN107293288B (zh) | 2017-06-09 | 2017-06-09 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107293288B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN109754790B (zh) * | 2017-11-01 | 2020-11-06 | 中国科学院声学研究所 | 一种基于混合声学模型的语音识别系统及方法 |
CN108182938B (zh) * | 2017-12-21 | 2019-03-19 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的训练方法 |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
US10657426B2 (en) * | 2018-01-25 | 2020-05-19 | Samsung Electronics Co., Ltd. | Accelerating long short-term memory networks via selective pruning |
CN108550364B (zh) | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN110503968B (zh) * | 2018-05-18 | 2024-06-04 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN110895933B (zh) * | 2018-09-05 | 2022-05-03 | 中国科学院声学研究所 | 一种基于空时残差神经网络的远场语音识别方法 |
CN110895935B (zh) * | 2018-09-13 | 2023-10-27 | 阿里巴巴集团控股有限公司 | 语音识别方法、系统、设备和介质 |
CN109065033B (zh) * | 2018-09-19 | 2021-03-30 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN110211588A (zh) | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN110472726B (zh) * | 2019-07-25 | 2022-08-02 | 南京信息工程大学 | 基于输出变化微分的灵敏长短期记忆方法 |
CN111341307A (zh) * | 2020-03-13 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111508509A (zh) * | 2020-04-02 | 2020-08-07 | 广东九联科技股份有限公司 | 基于深度学习的声音质量处理系统及其方法 |
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN113327616A (zh) * | 2021-06-02 | 2021-08-31 | 广东电网有限责任公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN114582332B (zh) * | 2022-02-28 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 一种音频的处理方法、装置以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105355194A (zh) * | 2015-10-22 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
EP3174047A1 (en) * | 2015-11-30 | 2017-05-31 | Samsung Electronics Co., Ltd | Speech recognition apparatus and method |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9620108B2 (en) * | 2013-12-10 | 2017-04-11 | Google Inc. | Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers |
US20160035344A1 (en) * | 2014-08-04 | 2016-02-04 | Google Inc. | Identifying the language of a spoken utterance |
US9508340B2 (en) * | 2014-12-22 | 2016-11-29 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
US10515307B2 (en) * | 2015-06-05 | 2019-12-24 | Google Llc | Compressed recurrent neural network models |
US9818409B2 (en) * | 2015-06-19 | 2017-11-14 | Google Inc. | Context-dependent modeling of phonemes |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
-
2017
- 2017-06-09 CN CN201710432477.0A patent/CN107293288B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105355194A (zh) * | 2015-10-22 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
EP3174047A1 (en) * | 2015-11-30 | 2017-05-31 | Samsung Electronics Co., Ltd | Speech recognition apparatus and method |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Non-Patent Citations (8)
Title |
---|
《End-to-End Multimodal Emotion Recognition using Deep Neural Networks》;Panagiotis Tzirakis et al;《arXiv》;20170427;全文 * |
《English Conversational Telephone Speech Recognition by Humans and Machines》;George Saon et al;《arXiv》;20170306;全文 * |
《Faster training of very deep networks via p-norm gates》;Trang Pham et al;《2016 23rd International Conference on Pattern Recognition (ICPR)》;20170424;全文 * |
《Improved Neural Relation Detection for Knowledge Base Question Answering》;Mo Yu et al;《arXiv》;20170527;全文 * |
《Long-term Residual Recurrent Network for human interaction recognition in videos》;Yang Zhao et al;《2016 9th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI)》;20170216;全文 * |
《Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach》;Giorgio Patrini et al;《arXiv》;20170322;全文 * |
《Neural Paraphrase Generation with Stacked Residual LSTM Networks》;Aaditya Prakash et al;《arXiv》;20161013;全文 * |
《THE ICSTM+TUM+UP APPROACH TO THE 3RD CHIME CHALLENGE: SINGLE-CHANNEL LSTM SPEECH ENHANCEMENT WITH MULTI-CHANNEL CORRELATION SHAPING DEREVERBERATION AND LSTM LANGUAGE MODELS》;Amr El-Desoky Mousa et al;《arXiv》;20151001;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107293288A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107293288B (zh) | 一种残差长短期记忆循环神经网络的声学模型建模方法 | |
TWI692751B (zh) | 語音喚醒方法、裝置以及電子設備 | |
CN107301864B (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
WO2016101688A1 (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
Huang et al. | Decorrelated batch normalization | |
Sainath et al. | Convolutional, long short-term memory, fully connected deep neural networks | |
WO2016145850A1 (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
CN110223714B (zh) | 一种基于语音的情绪识别方法 | |
CN109767759A (zh) | 基于改进型cldnn结构的端到端语音识别方法 | |
WO2021208455A1 (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN108804453A (zh) | 一种视音频识别方法及装置 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN108427665A (zh) | 一种基于lstm型rnn模型的文本自动生成方法 | |
CN114091478A (zh) | 基于有监督对比学习与回复生成辅助的对话情感识别方法 | |
Sun et al. | Improving low-resource speech recognition based on improved NN-HMM structures | |
Li et al. | Improving long short-term memory networks using maxout units for large vocabulary speech recognition | |
Zhang et al. | High order recurrent neural networks for acoustic modelling | |
Regmi et al. | Nepali speech recognition using rnn-ctc model | |
CN111882042A (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
CN110895933B (zh) | 一种基于空时残差神经网络的远场语音识别方法 | |
Feng et al. | Projected minimal gated recurrent unit for speech recognition | |
CN115761654B (zh) | 一种车辆重识别方法 | |
Ying | English pronunciation recognition and detection based on HMM-DNN | |
Li et al. | Exploring layer trajectory LSTM with depth processing units and attention | |
Xu et al. | Chinese relation extraction using lattice GRU |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |