CN107293288A - 一种残差长短期记忆循环神经网络的声学模型建模方法 - Google Patents

一种残差长短期记忆循环神经网络的声学模型建模方法 Download PDF

Info

Publication number
CN107293288A
CN107293288A CN201710432477.0A CN201710432477A CN107293288A CN 107293288 A CN107293288 A CN 107293288A CN 201710432477 A CN201710432477 A CN 201710432477A CN 107293288 A CN107293288 A CN 107293288A
Authority
CN
China
Prior art keywords
long term
neural network
recognition
recurrent neural
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710432477.0A
Other languages
English (en)
Other versions
CN107293288B (zh
Inventor
黄露
杨毅
孙甲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710432477.0A priority Critical patent/CN107293288B/zh
Publication of CN107293288A publication Critical patent/CN107293288A/zh
Application granted granted Critical
Publication of CN107293288B publication Critical patent/CN107293288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种残差长短期记忆循环神经网络的声学模型建模方法,将标准的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度;本发明提出的方法,给出一个供于直连的内部节点位置,实验表明此位置能够带来识别的性能提升,并结合基于帧的Dropout技术进一步提升系统性能;这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能,并且结合基于帧的Dropout技术来防止过拟合问题,实现了提升模型泛化能力的目的,该方法可广泛应用于涉及语音识别的多种人机交互领域。

Description

一种残差长短期记忆循环神经网络的声学模型建模方法
技术领域
本发明属于音频技术领域,特别涉及一种残差长短期记忆循环神经网络的声学模型建模方法。
背景技术
随着人工智能和计算机技术的发展,尤其是图形处理器等计算硬件的发展,人工神经网络(Artificial Neural Network,ANN)被广泛应用于自动语音识别系统中。而语音识别的错误率也随着神经网络的引入和数据集的增加得到了明显降低,因而为学术界和产业界的研究热点。
声学模型在目前主流的语音识别系统中扮演着重要角色,其性能的提升对于提升语音识别的性能有着重要意义。在神经网络得到广泛应用之前,声学模型的基本架构是混合高斯模型-隐含马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),该模型使得语音识别系统的性能得到了大幅度的提升,也使得语音识别转向商业使用阶段成为了可能。但是GMM-HMM有着很多不足,其中最重要的是GMM不能对深层的非线性变换进行有效建模,导致在语音识别应用中对发音的区分性不够。
自2010年以来,传统的GMM-HMM声学模型逐渐被基于深度神经网络(Deep NeuralNetwork,DNN)的声学模型取代,形成了DNN-HMM混合模型。目前在语音识别领域广泛用于声学建模的神经网络有:深度神经网络(Deep Neural Network,DNN)、时延神经网络(TimeDelay Neural Network,TDNN)、卷积神经网络(Convolutional Neural Network,CNN)以及RNN等。DNN-HMM声学模型的引入使得语音识别的性能得到了大幅度提升。2012年Mohamed等人在TIMIT语料库上通过使用深度置信网络(Deep Belief Network,DBN),在核心测试集上实现了20.7%的音素错误率(Phone Error Rate,PER),在此之前基于GMM-HMM取得的最低错误率是22.7%。而在大规模连续语音识别上,在标准的Switchboard电话录音数据集上使用DNN,可以将错误率相对于GMM-HMM模型降低33%。
但是,简单的前馈全连接网络存在两大问题:其一是前馈全连接网络很难对语音信号的历史信息进行建模;其二是在随机梯度下降(Stochastic Gradient Descent,SGD)训练的过程中可能会出现梯度消失(Vanishing Gradient)或梯度爆炸(ExplodingGradient)的问题。
针对第一个问题,研究者主要开展了两类尝试:其一是利用CNN来对语音信号的局部特性进行建模;其二是利用语音帧之间的依赖特性对历史信息建模。基于第二点,研究者提出了基于固定窗长的前馈神经网络训练方法,但是固定窗长的大小是有限的;因此有人提出将RNN用于声学建模,虽然RNN可以学习到历史信息,但是学习到的历史信息是有限的,尤其是其很难学习到很长的历史信息,这是由于RNN在训练过程中仍然存在梯度消失和梯度爆炸的问题。
随后,基于LSTM单元的RNN被引入声学建模,LSTM凭借其自身结构特性,利用输入门、输出门和忘记门等门开关控制信息的流动,既可以很好地缓解梯度消失问题,也可以学习到的更长的历史信息。
但在实际应用中,这类方法距离大规模商业化的要求还有一定的距离,原因在于声学环境的复杂性仍然严重影响语音识别系统的识别精度,特别是声学模型的抗噪性和鲁棒性仍存在一定的改进空间。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种残差长短期记忆循环神经网络的声学模型建模方法,在标准长短期记忆循环神经网络的基础上引入残差学习的思想,用于降低连续语音识别的错误率。
为了实现上述目的,本发明采用的技术方案是:
一种残差长短期记忆循环神经网络的声学模型建模方法,主要包括:
步骤1,构建残差长短期记忆循环神经网络模块
以语音信号当前帧及其前后各两帧的特征xt作为输入,产生输出:
yt=Wrpmt
其中,mt=ot⊙(WResht),ht=(tanh(ct),xt),ot=σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=σ(Wxfxt+Wrfrt-1),it=σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1);
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmoid函数,Wxo是输入到忘记门的权重矩阵,Wro是循环到忘记门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同;
步骤2,构建含有Dropout的残差长短期记忆循环神经网络模块
采用基于帧的Dropout技术,即对于网络中的某各节点的输出zt,随机生成一个由0或1,称为Dropout的掩膜d,其中生成0的概率p为Dropout的丢弃概率,则d服从成功概率为1-p的Bernoulli分布:
d~Bernoulli(1-p)
随后将d和zt作数乘即可得到Dropout后的向量,即将zt的元素全部舍弃或者全部保留,
z′t=d·zt
其中z′t是使用Dropout后的向量;
基于步骤1的残差长短期记忆循环神经网络,在三个门it、ft和ot处同时使用Dropout,先生成三个Dropout掩膜:
dx~Bernoulli(1-p) x=i,f,o
其中di、df和do分别是应用在输入门、忘记门和输出门上的掩膜;然后应用到三个控制门上,即
输出的公式变为:yt=Wrpmt
其中,mt=ot⊙(WRes1ht),ht=(tanh(ct),xt),ot=do·σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=df·σ(Wxfxt+Wrfrt-1),it=di·σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1)。
所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器等组成,长短期记忆神经网络子模块的输出作为线性循环投影层的输入,线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出。
所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,在神经网络的训练过程中,所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。
本发明的主要原理是:将原有的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度。本发明提出了一个供于直连的内部节点位置,该位置能带来识别的性能提升,并且结合基于帧的Dropout训练技术能够进一步提升系统性能。
虽然长短期记忆循环神经网络可以很好地缓解梯度消失问题,但是这很大程度上是由于其在时间上很“深”,即学习很长的历史信息,而其在空间上增加网络深度后仍然会面临空间上梯度消失的问题。本发明提供了一种残差长短期记忆循环神经网络声学模型,能够比较有效地进一步提高长短期记忆循环神经网络声学模型的识别效果。在一些连续语音识别的数据集上采用这种方法,可以获得比长短期记忆循环神经网络方法更好的性能。
与现有技术相比,本发明的有益效果是:进一步提升了基于长短期记忆循环神经网络的语音识别系统性能,并且结合基于帧的Dropout技术可以防止过拟合问题,实现提升模型泛化能力的目的。
附图说明
图1是本发明的残差长短期记忆循环神经网络声学模型建模流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明提出一种残差长短期记忆循环神经网络声学模型的方法和装置,特别地,用于连续语音识别的场景下。这些方法和装置不局限于连续语音识别,也可以是任何与语音识别有关的方法和装置。
图1为本发明的残差长短期记忆循环神经网络声学模型流程图,包括以下内容:
如图1所示的输入101为语音信号特征xt;其他为残差长短期记忆循环神经网络子模块102,该子模块由记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107组成;长短期记忆神经网络子模块102的输出作为线性循环投影层108的输入,线性循环投影层108的输出作为下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出109。
输入101包括语音信号特征xt,t=1,2,…,T,其中T是语音信号的帧数。
长短期记忆神经网络子模块102指的是:记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107的集合;
在t∈[1,T]时刻长短期记忆神经网络子模块102中的参数按照如下公式计算:
gt=tanh(Wxgxt+Wrgrt-1) (公式1-1)
it=σ(Wxixt+Wrirt-1) (公式1-2)
ft=σ(Wxfxt+Wrfrt-1) (公式1-3)
ct=it⊙gt+ft⊙ct-1 (公式1-4)
ot=σ(Wxoxt+Wrort-1) (公式1-5)
ht=(tanh(ct),xt) (公式1-6)
mt=ot⊙(WResht) (公式1-7)
yt=Wrpmt (公式1-8)
rt=yt(1:nr) (公式1-9)
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmod函数,Wxo是输入到忘记门的权重矩阵,Wro是循环到忘记门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同。此外,由于(公式1-1)、(公式1-2)、(公式1-3)和(公式1-5)具有相同的内部运算,因此可以用一个大矩阵实现这四个内部运算,实现GPU加速。
在分类任务中,通常还会在最后一层LSTM后接一层使用Softmax的全连接层。

Claims (3)

1.一种残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,主要包括:
步骤1,构建残差长短期记忆循环神经网络模块
以语音信号当前帧及其前后各两帧的特征xt作为输入,产生输出:
yt=Wrpmt
其中,mt=ot⊙(WResht),ht=(tanh(ct),xt),ot=σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=σ(Wxfxt+Wrfrt-1),it=σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1);
xt是当前输入特征,yt是当前输出,Wrp是投影矩阵,mt为cell输出向量,WRes是调整维度的投影矩阵,ht是原向量和输入拼接后的向量,ot是输出门,ct是cell的状态值,tanh(·)是双曲正切函数,σ(·)是sigmoid函数,Wxo是输入到忘记门的权重矩阵,Wro是循环到忘记门的权重矩阵,rt-1是rt的前一时刻值,rt是用于循环的向量,rt=yt(1:nr)表示rt是yt的前nr个元素,nr是循环向量的维度,it是输入门,gt是处理后的输入,ft是忘记门,ct-1是cell前一时刻的状态值,Wxf为输入到忘记门的权重矩阵,Wrf是循环到忘记门的权重矩阵,Wxi为输入到输入门的权重矩阵,Wri是循环到输入门的权重矩阵,Wxg为输入到处理后输入的权重矩阵,Wrg是循环到处理后输入的权重矩阵,而且it、ft、ot、gt、ct和mt维度相同;
步骤2,构建含有Dropout的残差长短期记忆循环神经网络模块
采用基于帧的Dropout技术,即对于网络中的某各节点的输出zt,随机生成一个由0或1,称为Dropout的掩膜d,其中生成0的概率p为Dropout的丢弃概率,则d服从成功概率为1-p的Bernoulli分布:
d~Bernoulli(1-p)
随后将d和zt作数乘即可得到Dropout后的向量,即将zt的元素全部舍弃或者全部保留,
z′t=d·zt
其中z′t是使用Dropout后的向量;
基于步骤1的残差长短期记忆循环神经网络,在三个门it、ft和ot处同时使用Dropout,先生成三个Dropout掩膜:
dx~Bernoulli(1-p) x=i,f,o
其中di、df和do分别是应用在输入门、忘记门和输出门上的掩膜;然后应用到三个控制门上,即
输出的公式变为:yt=Wrpmt
其中,mt=ot⊙(WRes1ht),ht=(tanh(ct),xt),ot=do·σ(Wxoxt+Wrort-1),rt=yt(1:nr),ct=it⊙gt+ft⊙ct-1,ft=df·σ(Wxfxt+Wrfrt-1),it=di·σ(Wxixt+Wrirt-1),gt=tanh(Wxgxt+Wrgrt-1)。
2.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器等组成,长短期记忆神经网络子模块的输出作为线性循环投影层的输入,线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入,如此循环多次,最后再接一层使用SoftMax激活函数的全连接层,其输出为整个模块的输出。
3.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法,其特征在于,所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块,在神经网络的训练过程中,所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。
CN201710432477.0A 2017-06-09 2017-06-09 一种残差长短期记忆循环神经网络的声学模型建模方法 Active CN107293288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710432477.0A CN107293288B (zh) 2017-06-09 2017-06-09 一种残差长短期记忆循环神经网络的声学模型建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710432477.0A CN107293288B (zh) 2017-06-09 2017-06-09 一种残差长短期记忆循环神经网络的声学模型建模方法

Publications (2)

Publication Number Publication Date
CN107293288A true CN107293288A (zh) 2017-10-24
CN107293288B CN107293288B (zh) 2020-04-21

Family

ID=60096749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710432477.0A Active CN107293288B (zh) 2017-06-09 2017-06-09 一种残差长短期记忆循环神经网络的声学模型建模方法

Country Status (1)

Country Link
CN (1) CN107293288B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN108182938A (zh) * 2017-12-21 2018-06-19 内蒙古工业大学 一种基于dnn的蒙古语声学模型的训练方法
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN109754790A (zh) * 2017-11-01 2019-05-14 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
CN110084357A (zh) * 2018-01-25 2019-08-02 三星电子株式会社 经由选择性修剪来加速长短期记忆网络
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110472726A (zh) * 2019-07-25 2019-11-19 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN110503968A (zh) * 2018-05-18 2019-11-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110895935A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 语音识别方法、系统、设备和介质
CN110895933A (zh) * 2018-09-05 2020-03-20 中国科学院声学研究所 一种基于空时残差神经网络的远场语音识别方法
CN111341307A (zh) * 2020-03-13 2020-06-26 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
CN111508509A (zh) * 2020-04-02 2020-08-07 广东九联科技股份有限公司 基于深度学习的声音质量处理系统及其方法
CN113011555A (zh) * 2021-02-09 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
TWI732225B (zh) * 2018-07-25 2021-07-01 大陸商騰訊科技(深圳)有限公司 語音合成方法、模型訓練方法、裝置和電腦設備
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN114582332A (zh) * 2022-02-28 2022-06-03 腾讯科技(深圳)有限公司 一种音频的处理方法、装置以及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US20150161991A1 (en) * 2013-12-10 2015-06-11 Google Inc. Generating representations of acoustic sequences using projection layers
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105355194A (zh) * 2015-10-22 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
US20160372119A1 (en) * 2015-06-19 2016-12-22 Google Inc. Speech recognition with acoustic models
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
US20170076196A1 (en) * 2015-06-05 2017-03-16 Google Inc. Compressed recurrent neural network models
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
EP3174047A1 (en) * 2015-11-30 2017-05-31 Samsung Electronics Co., Ltd Speech recognition apparatus and method

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161991A1 (en) * 2013-12-10 2015-06-11 Google Inc. Generating representations of acoustic sequences using projection layers
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US20170076196A1 (en) * 2015-06-05 2017-03-16 Google Inc. Compressed recurrent neural network models
US20160372118A1 (en) * 2015-06-19 2016-12-22 Google Inc. Context-dependent modeling of phonemes
US20160372119A1 (en) * 2015-06-19 2016-12-22 Google Inc. Speech recognition with acoustic models
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105355194A (zh) * 2015-10-22 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
EP3174047A1 (en) * 2015-11-30 2017-05-31 Samsung Electronics Co., Ltd Speech recognition apparatus and method
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
AADITYA PRAKASH ET AL: "《Neural Paraphrase Generation with Stacked Residual LSTM Networks》", 《ARXIV》 *
AMR EL-DESOKY MOUSA ET AL: "《THE ICSTM+TUM+UP APPROACH TO THE 3RD CHIME CHALLENGE: SINGLE-CHANNEL LSTM SPEECH ENHANCEMENT WITH MULTI-CHANNEL CORRELATION SHAPING DEREVERBERATION AND LSTM LANGUAGE MODELS》", 《ARXIV》 *
GEORGE SAON ET AL: "《English Conversational Telephone Speech Recognition by Humans and Machines》", 《ARXIV》 *
GIORGIO PATRINI ET AL: "《Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach》", 《ARXIV》 *
JAEYOUNG KIM ET AL.: "《Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition》", 《ARXIV》 *
LU HUANG ET AL.: "《An improved residual LSTM architecture for acoustic modeling》", 《ICCCS》 *
MO YU ET AL: "《Improved Neural Relation Detection for Knowledge Base Question Answering》", 《ARXIV》 *
PANAGIOTIS TZIRAKIS ET AL: "《End-to-End Multimodal Emotion Recognition using Deep Neural Networks》", 《ARXIV》 *
TRANG PHAM ET AL: "《Faster training of very deep networks via p-norm gates》", 《2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
YANG ZHAO ET AL: "《Long-term Residual Recurrent Network for human interaction recognition in videos》", 《2016 9TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》 *
YU ZHANG ET AL.: "《VERY DEEP CONVOLUTIONAL NETWORKS FOR END-TO-END SPEECH RECOGNITION》", 《ARXIV》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754790A (zh) * 2017-11-01 2019-05-14 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
CN107993636B (zh) * 2017-11-01 2021-12-31 天津大学 基于递归神经网络的乐谱建模与生成方法
CN109754790B (zh) * 2017-11-01 2020-11-06 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN108182938A (zh) * 2017-12-21 2018-06-19 内蒙古工业大学 一种基于dnn的蒙古语声学模型的训练方法
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN110084357A (zh) * 2018-01-25 2019-08-02 三星电子株式会社 经由选择性修剪来加速长短期记忆网络
CN110084357B (zh) * 2018-01-25 2024-02-27 三星电子株式会社 经由选择性修剪来加速长短期记忆网络
US11087763B2 (en) 2018-04-20 2021-08-10 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method, apparatus, device and storage medium
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN108550364B (zh) * 2018-04-20 2019-04-30 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110503968B (zh) * 2018-05-18 2024-06-04 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110503968A (zh) * 2018-05-18 2019-11-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
TWI732225B (zh) * 2018-07-25 2021-07-01 大陸商騰訊科技(深圳)有限公司 語音合成方法、模型訓練方法、裝置和電腦設備
CN110895933B (zh) * 2018-09-05 2022-05-03 中国科学院声学研究所 一种基于空时残差神经网络的远场语音识别方法
CN110895933A (zh) * 2018-09-05 2020-03-20 中国科学院声学研究所 一种基于空时残差神经网络的远场语音识别方法
CN110895935B (zh) * 2018-09-13 2023-10-27 阿里巴巴集团控股有限公司 语音识别方法、系统、设备和介质
CN110895935A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 语音识别方法、系统、设备和介质
CN109065033B (zh) * 2018-09-19 2021-03-30 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
US11482208B2 (en) 2019-06-03 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method, device and storage medium for speech recognition
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110472726B (zh) * 2019-07-25 2022-08-02 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN110472726A (zh) * 2019-07-25 2019-11-19 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN111341307A (zh) * 2020-03-13 2020-06-26 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
CN111508509A (zh) * 2020-04-02 2020-08-07 广东九联科技股份有限公司 基于深度学习的声音质量处理系统及其方法
CN113011555A (zh) * 2021-02-09 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN113011555B (zh) * 2021-02-09 2023-01-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN114582332A (zh) * 2022-02-28 2022-06-03 腾讯科技(深圳)有限公司 一种音频的处理方法、装置以及存储介质
CN114582332B (zh) * 2022-02-28 2024-03-22 腾讯科技(深圳)有限公司 一种音频的处理方法、装置以及存储介质

Also Published As

Publication number Publication date
CN107293288B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN107293288A (zh) 一种残差长短期记忆循环神经网络的声学模型建模方法
CN104538028B (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN107301864A (zh) 一种基于Maxout神经元的深度双向LSTM声学模型
CN111859912B (zh) 基于pcnn模型的带有实体感知的远程监督关系抽取方法
WO2016145850A1 (zh) 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN110223714B (zh) 一种基于语音的情绪识别方法
CN105139864B (zh) 语音识别方法和装置
TW201905897A (zh) 語音喚醒方法、裝置以及電子設備
CN107924680A (zh) 口语理解系统
CN106503654A (zh) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN108182259A (zh) 一种基于深度长短期记忆神经网络对多变量时间序列分类的方法
CN114091478A (zh) 基于有监督对比学习与回复生成辅助的对话情感识别方法
WO2021143020A1 (zh) 不良用语识别方法、装置、电子装置及存储介质
CN113393832A (zh) 一种基于全局情感编码的虚拟人动画合成方法及系统
CN108109615A (zh) 一种基于dnn的蒙古语声学模型的构造和使用方法
Nugaliyadde et al. Language modeling through Long-Term memory network
CN107679225A (zh) 一种基于关键词的回复生成方法
Zhang et al. High order recurrent neural networks for acoustic modelling
WO2024021966A1 (zh) 基于GRU-Seq2Seq的多步长洪水预报方法及装置
CN113239174A (zh) 一种基于双层解码的层次化多轮对话生成方法及装置
Li et al. Improving long short-term memory networks using maxout units for large vocabulary speech recognition
Di et al. Design of natural language model based on BiGRU and attention mechanism
Mittal et al. Speech recognition using ANN and predator-influenced civilized swarm optimization algorithm
CN108629401A (zh) 基于局部感知递归神经网络的字符级语言模型预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant