CN104538028A - 一种基于深度长短期记忆循环神经网络的连续语音识别方法 - Google Patents

一种基于深度长短期记忆循环神经网络的连续语音识别方法 Download PDF

Info

Publication number
CN104538028A
CN104538028A CN201410821646.6A CN201410821646A CN104538028A CN 104538028 A CN104538028 A CN 104538028A CN 201410821646 A CN201410821646 A CN 201410821646A CN 104538028 A CN104538028 A CN 104538028A
Authority
CN
China
Prior art keywords
output
long term
shot
term memory
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410821646.6A
Other languages
English (en)
Other versions
CN104538028B (zh
Inventor
杨毅
孙甲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410821646.6A priority Critical patent/CN104538028B/zh
Publication of CN104538028A publication Critical patent/CN104538028A/zh
Priority to PCT/CN2015/092380 priority patent/WO2016101688A1/zh
Application granted granted Critical
Publication of CN104538028B publication Critical patent/CN104538028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

Description

一种基于深度长短期记忆循环神经网络的连续语音识别方法
技术领域
本发明属于音频技术领域,特别涉及一种基于深度长短期记忆循环神经网络的连续语音识别方法。
背景技术
随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。连续语音识别系统通常包括声学模型、语言模型及解码方法,声学建模方法作为连续语音识别的核心技术,近年来获得快速发展。常用的声学模型为混合高斯模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),其原理为:训练混合高斯模型得到每帧特征属于每个音素状态的概率,训练隐马尔科夫模型得到音素状态之间及自身的转移概率,据此得到每个音素状态序列产生当前语音特征矢量序列的概率。考虑到协同发音(Coarticulation)现象,进一步将音素根据不同的上下文(Context Dependent)分为不同的建模单元,称为CD-GMM-HMM方法。
微软在2011年提出用深度神经网络(Deep Neural Network,DNN)取代传统声学模型中的混合高斯模型,构成了新的CD-DNN-HMM模型,将DNN模型的表达能力与CD-HMM模型的顺序建模能力结合,其核心是对声学特征进行多层变换,并将特征提取和声学建模在同一网络进行优化。与传统的GMM-HMM模型框架相比,DNN-HMM模型在英文连续语音识别库上的错误率降低了30%左右。但是DNN的每一层都有百万量级的参数,且下一层的输入是上一次的输出,因此一般计算代价较大,且在说话速度不同以及需要对长时序列进行处理时效果不佳。
循环神经网络(Recurrent Neural Network,RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。作为循环神经网络的一种,长短期记忆(Long Short-Term Memory,LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误率降至17.1%。
但是循环神经网络中使用的梯度下降法存在梯度消散(vanishinggradient)问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深度LSTM-RNN模型中增加了线性循环投影层(Recurrent Projection Layer),用于解决梯度消散问题。对比实验表明,RNN的帧正确率(Frame Accuracy)及其收敛速度明显逊于LSTM-RNN和DNN;在词错误率及其收敛速度方面,最好的DNN在训练数周后的词错误率为11.3%;而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10.9%,训练100/200小时后,词错误率降低至10.7/10.5(%)。
但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利用目前最好的深度神经网络方法,在包括噪声、音乐、口语、重复等复杂条件下的连续语音识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性和鲁棒性有待改进。此外深度神经网络方法参数规模大,大部分计算工作需要在GPU设备上完成,普通CPU难以胜任,因此这类方法距离大规模商业化的要求还有一定的距离。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于深度长短期记忆循环神经网络的连续语音识别方法,提高了对带噪连续语音信号的语音识别率,并且具有计算复杂度低、收敛速度快等特点,适合在普通CPU上实现。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度长短期记忆循环神经网络的连续语音识别方法,包括:
步骤一,建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块;
步骤二,分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块;
步骤三,对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异,并通过线性循环投影层二实现交叉熵参数更新;
步骤四,通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出,实现连续语音识别。
所述深度长短期记忆循环神经网络模块中,语音信号x=[x1,...,xT]作为整个模块的输入,同时也作为第一个长短期记忆层的输入,第一个长短期记忆层的输出作为第一个线性循环投影层的输入,第一个线性循环投影层的输出作为下一个线性循环投影层的输入,下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入,依次类推,其中,以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中,最后一个线性循环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y=[y1,...,yT],T为语音信号的时间长度,而以带噪信号为输入的深度长短期记忆循环神经网络模块中,最后一个线性循环投影层的输出舍弃。
所述长短期记忆层由记忆细胞、输入门、输出门、遗忘门、tanh函数以及乘法器组成,其中长短期记忆层即长短期记忆神经网络子模块,在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算:
Ginput=sigmoid(Wix x+Wic Cell'+bi)
Gforget=sigmoid(Wfx x+Wfc Cell'+bf)
Cell=m'+Gforget⊙Cell'+Ginput⊙tanh(Wcx x)⊙m'+bc
Goutput=sigmoid(Wox x+Woc Cell'+bo)
m=tanh(Goutput⊙Cell⊙m')
y=soft maxk(Wym m+by)
其中Ginput为输入门的输出,Gforget为遗忘门的输出,Cell为记忆细胞的输出,Cell'为t-1时刻记忆细胞的输出,Goutput为输出门的输出,G'output为t-1时刻输出门的输出,m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出;x为整个长短期记忆循环神经网络模块的输入,y为一个长短期记忆循环神经网络子模块的输出;bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;Wix为输入门i与输入x之间的权重,Wic为输入门i与记忆细胞c之间的权重,Wfx为遗忘门f与输入x之间的权重,Wfc为遗忘门f与记忆细胞c之间的权重,Woc为输出门o与记忆细胞c之间的权重,Wym为输出y与输出m之间的权重,且有 其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K]用于对全部求和;⊙代表矩阵元素相乘。
所述两个深度长短期记忆循环神经网络模块中,分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入,一个更新子模块由交叉熵和线性循环投影层二组成,多个更新子模块串联组成更新模块,一个更新子模块的输出作为下一个更新子模块的输入,最后一个子模块的输出为整个更新模块的输出。
所述更新子模块中的交叉熵按照如下公式计算:
d(x1,x2)=∫x1 ln x2dt-∫x2 lnx1dt
其中d为交叉熵,x1和x2分别代表本更新子模块的两个输入,即以原始纯净语音信号和带噪信号为输入的长短期记忆神经网络模块中的长短期记忆神经网络子模块的输出;
线性循环投影层二的输出按照如下公式计算:
y'=soft maxk(Wy' d+by')
其中y'为整个更新模块的输出矢量,Wy代表参数更新输出到线性循环投影层输出的权重,d代表交叉熵,by'代表偏差量。
现有的深度神经网络声学模型在安静的环境下具有很好的性能,但在环境噪声较大使得信噪比急剧下降的情况下失效。与深度神经网络声学模型相比,本发明循环神经网络声学模型中的单元之间存在有向循环,可以有效的描述神经网络内部的动态时间特性,更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列,因此用于构建语音识别的声学模型能够取得更好的效果。进一步,在深度长短期记忆循环神经网络声学模型结构中需要降低噪声特征对神经网络参数的影响,提高语音识别系统在环境噪声干扰下的抗噪性及鲁棒性。
附图说明
图1是本发明的深度长短期记忆神经网络模型流程图。
图2是本发明的深度长短期记忆循环神经网络更新模块流程图。
图3是本发明的鲁棒深度长短期记忆神经网络声学模型流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明提出一种鲁棒深度长短期记忆神经网络声学模型的方法和装置,特别地,用于连续语音识别的场景下。这些方法和装置不局限于连续语音识别,也可以是任何与语音识别有关的方法和装置。
步骤1,建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块,分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块。
图1为本发明深度长短期记忆循环神经网络模块的流程图,包括以下内容:
输入101为语音信号x=[x1,...,xT](T为语音信号的时间长度);方框内为长短期记忆层102,也即长短期记忆神经网络子模块,该子模块由记忆细胞103、输入门104、输出门105、遗忘门106、tanh函数107、乘法器组成;长短期记忆神经网络子模块的输出作为线性循环投影层108的输入,线性循环投影层108的输出为y=[y1,...,yT],即长短期记忆循环神经网络子模块的输出109,109作为下一个长短期记忆神经网络子模块的输入,如此循环多次。
在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算:
Ginput=sigmoid(Wix x+Wic Cell'+bi)
Gforget=sigmoid(Wfx x+Wfc Cell'+bf)
Cell=m'+Gforget⊙Cell'+Ginput⊙tanh(Wcx x)⊙m'+bc
Goutput=sigmoid(Wox x+Woc Cell'+bo)
m=tanh(Goutput⊙Cell⊙m')
y=soft maxk(Wym m+by)
其中Ginput为输入门的输出,Gforget为遗忘门的输出,Cell为记忆细胞的输出,Cell'为t-1时刻记忆细胞的输出,Goutput为输出门的输出,G'output为t-1时刻输出门的输出,m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出;x为整个长短期记忆循环神经网络模块的输入,y为一个长短期记忆循环神经网络子模块的输出;bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;Wix为输入门i与输入x之间的权重,Wic为输入门i与记忆细胞c之间的权重,Wfx为遗忘门f与输入x之间的权重,Wfc为遗忘门f与记忆细胞c之间的权重,Woc为输出门o与记忆细胞c之间的权重,Wym为输出y与输出m之间的权重,且有 sigmoid ( x ) = 1 1 + e - x , tanh ( x ) = e x - e - x e x + e - x , soft max k ( x ) = e x k Σ l = 1 K e x l , 其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K]用于对全部求和;⊙代表矩阵元素相乘。
步骤2,对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异,并通过线性循环投影层二实现交叉熵参数更新。
图2为本发明的深度长短期记忆循环神经网络更新模块流程图,包括以下内容:将原始纯净语音信号和带噪信号(即受到环境噪声干扰后的原始纯净语音信号)分别作为图1中深度长短期记忆循环神经网络模块的输入,可以分别得到两个长短期记忆神经网络子模块(即图1的方框)的输出,将这两个输出作为本更新模块的输入201;虚线框内为本更新模块的更新子模块202,更新子模块202由交叉熵203和线性循环投影层二204组成;更新子模块202的输出作为下一个更新子模块的输入,如此循环多次;最后一个更新子模块的输出为整个更新模块的输出205。
更新子模块中202的交叉熵203按照如下公式计算:
d(x1,x2)=∫x1 ln x2dt-∫x2 lnx1dt
其中d为交叉熵,x1和x2分别代表本更新模块的两个输入,即原始纯净语音信号和带噪信号分别输入得到的两个长短期记忆循环神经网络的输出。
线性循环投影层204的输出按照如下公式计算:
y'=sof tmaxk(Wy' d+by')
其中y'为整个模块的输出205,Wy代表交叉熵203输出到线性循环投影层204的权重,d代表交叉熵,by'代表偏差量,并有其中xk表示第k∈[1,K]个soft max函数的输入,l∈[1,K]用于对全部求和。
步骤3,通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出,实现连续语音识别。
图3为本发明的鲁棒深度长短期记忆神经网络声学模型流程图,包括以下内容:
从左到右分别为:以原始纯净语音信号301为输入的深度长短期记忆循环神经网络模块303、深度长短期记忆循环神经网络更新模块304、以带噪信号(即受到环境噪声干扰后的原始纯净语音信号)302为输入的深度长短期记忆循环神经网络模块305,其中参数的计算见步骤1和步骤2,最终输出为原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的输出306,以及深度长短期记忆循环神经网络更新模块的输出307。

Claims (5)

1.一种基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,包括:
步骤一,建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块;
步骤二,分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块;
步骤三,对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异,并通过线性循环投影层二实现交叉熵参数更新;
步骤四,通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出,实现连续语音识别。
2.根据权利要求1所述基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,所述深度长短期记忆循环神经网络模块中,语音信号x=[x1,...,xT]作为整个模块的输入,同时也作为第一个长短期记忆层的输入,第一个长短期记忆层的输出作为第一个线性循环投影层的输入,第一个线性循环投影层的输出作为下一个线性循环投影层的输入,下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入,依次类推,其中,以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中,最后一个线性循环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y=[y1,...,yT],T为语音信号的时间长度,而以带噪信号为输入的深度长短期记忆循环神经网络模块中,最后一个线性循环投影层的输出舍弃。
3.根据权利要求1或2所述基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,所述长短期记忆层由记忆细胞、输入门、输出门、遗忘门、tanh函数以及乘法器组成,其中长短期记忆层即长短期记忆神经网络子模块,在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算:
Ginput=sigmoid(Wixx+WicCell'+bi)
Gforget=sigmoid(Wfxx+WfcCell'+bf)
Cell=m'+Gforget⊙Cell'+Ginput⊙tanh(Wcxx)⊙m'+bc
Goutput=sigmoid(Woxx+WocCell'+bo)
m=tanh(Goutput⊙Cell⊙m')
y=softmaxk(Wymm+by)
其中Ginput为输入门的输出,Gforget为遗忘门的输出,Cell为记忆细胞的输出,Cell'为t-1时刻记忆细胞的输出,Goutput为输出门的输出,G'output为t-1时刻输出门的输出,m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出;x为整个长短期记忆循环神经网络模块的输入,y为一个长短期记忆循环神经网络子模块的输出;bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;Wix为输入门i与输入x之间的权重,Wic为输入门i与记忆细胞c之间的权重,Wfx为遗忘门f与输入x之间的权重,Wfc为遗忘门f与记忆细胞c之间的权重,Woc为输出门o与记忆细胞c之间的权重,Wym为输出y与输出m之间的权重,且有 sigmoid ( x ) = 1 1 + e - x , x tanh ( x ) = e x - e - x e x + e - x , 其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K]用于对全部求和;⊙代表矩阵元素相乘。
4.根据权利要求3所述基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,所述两个深度长短期记忆循环神经网络模块中,分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入,一个更新子模块由交叉熵和线性循环投影层二组成,多个更新子模块串联组成更新模块,一个更新子模块的输出作为下一个更新子模块的输入,最后一个子模块的输出为整个更新模块的输出。
5.根据权利要求4所述基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,所述更新子模块中的交叉熵按照如下公式计算:
d(x1,x2)=∫x1ln x2dt-∫x2lnx1dt
其中d为交叉熵,x1和x2分别代表本更新子模块的两个输入,即以原始纯净语音信号和带噪信号为输入的长短期记忆神经网络模块中的长短期记忆神经网络子模块的输出;
线性循环投影层二的输出按照如下公式计算:
y'=soft maxk(Wy'd+by')
其中d即交叉熵,y'为整个更新模块的输出矢量,Wy代表参数更新输出到线性循环投影层输出的权重,u代表交叉熵,by'代表偏差量。
CN201410821646.6A 2014-12-25 2014-12-25 一种基于深度长短期记忆循环神经网络的连续语音识别方法 Active CN104538028B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410821646.6A CN104538028B (zh) 2014-12-25 2014-12-25 一种基于深度长短期记忆循环神经网络的连续语音识别方法
PCT/CN2015/092380 WO2016101688A1 (zh) 2014-12-25 2015-10-21 一种基于深度长短期记忆循环神经网络的连续语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410821646.6A CN104538028B (zh) 2014-12-25 2014-12-25 一种基于深度长短期记忆循环神经网络的连续语音识别方法

Publications (2)

Publication Number Publication Date
CN104538028A true CN104538028A (zh) 2015-04-22
CN104538028B CN104538028B (zh) 2017-10-17

Family

ID=52853544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410821646.6A Active CN104538028B (zh) 2014-12-25 2014-12-25 一种基于深度长短期记忆循环神经网络的连续语音识别方法

Country Status (2)

Country Link
CN (1) CN104538028B (zh)
WO (1) WO2016101688A1 (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105389980A (zh) * 2015-11-09 2016-03-09 上海交通大学 基于长短时记忆递归神经网络的短时交通流预测方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105559777A (zh) * 2016-03-17 2016-05-11 北京工业大学 基于小波包和lstm型rnn神经网络的脑电识别方法
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN106126492A (zh) * 2016-06-07 2016-11-16 北京高地信息技术有限公司 基于双向lstm神经网络的语句识别方法及装置
CN106383888A (zh) * 2016-09-22 2017-02-08 深圳市唯特视科技有限公司 一种利用图片检索定位导航的方法
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
CN106683663A (zh) * 2015-11-06 2017-05-17 三星电子株式会社 神经网络训练设备和方法以及语音识别设备和方法
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107301864A (zh) * 2017-08-16 2017-10-27 重庆邮电大学 一种基于Maxout神经元的深度双向LSTM声学模型
WO2017185347A1 (zh) * 2016-04-29 2017-11-02 北京中科寒武纪科技有限公司 用于执行循环神经网络和lstm运算的装置和方法
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107657313A (zh) * 2017-09-26 2018-02-02 上海数眼科技发展有限公司 基于领域适应的自然语言处理任务的迁移学习系统和方法
CN107808664A (zh) * 2016-08-30 2018-03-16 富士通株式会社 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN108364634A (zh) * 2018-03-05 2018-08-03 苏州声通信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
CN108780521A (zh) * 2016-02-04 2018-11-09 渊慧科技有限公司 关联长短期记忆神经网络层
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN109243494A (zh) * 2018-10-30 2019-01-18 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
US10235994B2 (en) 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10366163B2 (en) 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法
CN111081231A (zh) * 2016-03-23 2020-04-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备
US10748066B2 (en) 2017-05-20 2020-08-18 Google Llc Projection neural networks
US10885277B2 (en) 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US11526680B2 (en) 2019-02-14 2022-12-13 Google Llc Pre-trained projection networks for transferable natural language representations

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086865B (zh) * 2018-06-11 2022-01-28 上海交通大学 一种基于切分循环神经网络的序列模型建立方法
CN110147284B (zh) * 2019-05-24 2023-03-24 湖南农业大学 基于二维长短期记忆神经网络的超级计算机工作负载预测方法
CN110377889B (zh) * 2019-06-05 2023-06-20 安徽继远软件有限公司 一种基于前馈序列记忆神经网络的文本编辑方法及系统
CN110705743B (zh) * 2019-08-23 2023-08-18 国网浙江省电力有限公司 一种基于长短期记忆神经网络的新能源消纳电量预测方法
CN111191559B (zh) * 2019-12-25 2023-07-11 国网浙江省电力有限公司泰顺县供电公司 基于时间卷积神经网络的架空线预警系统障碍物识别方法
CN111079906B (zh) * 2019-12-30 2023-05-05 燕山大学 基于长短时记忆网络的水泥成品比表面积预测方法及系统
CN111241466B (zh) * 2020-01-15 2023-10-03 上海海事大学 一种基于深度学习的船舶流量预测方法
CN111414478B (zh) * 2020-03-13 2023-11-17 北京科技大学 基于深度循环神经网络的社交网络情感建模方法
CN112466056B (zh) * 2020-12-01 2022-04-05 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法
CN112714130A (zh) * 2020-12-30 2021-04-27 南京信息工程大学 一种基于大数据自适应网络安全态势感知方法
CN114740361A (zh) * 2022-04-12 2022-07-12 湖南大学 基于长短期记忆神经网络模型的燃料电池电压预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133012A (en) * 1988-12-02 1992-07-21 Kabushiki Kaisha Toshiba Speech recognition system utilizing both a long-term strategic and a short-term strategic scoring operation in a transition network thereof
US20080126094A1 (en) * 2006-11-29 2008-05-29 Janke Eric W Data Modelling of Class Independent Recognition Models
CN101937675A (zh) * 2009-06-29 2011-01-05 展讯通信(上海)有限公司 语音检测方法及其设备
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538028B (zh) * 2014-12-25 2017-10-17 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133012A (en) * 1988-12-02 1992-07-21 Kabushiki Kaisha Toshiba Speech recognition system utilizing both a long-term strategic and a short-term strategic scoring operation in a transition network thereof
US20080126094A1 (en) * 2006-11-29 2008-05-29 Janke Eric W Data Modelling of Class Independent Recognition Models
CN101937675A (zh) * 2009-06-29 2011-01-05 展讯通信(上海)有限公司 语音检测方法及其设备
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN107076567B (zh) * 2015-05-21 2020-07-03 百度(美国)有限责任公司 用于图像问答的方法和装置
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
CN106683663A (zh) * 2015-11-06 2017-05-17 三星电子株式会社 神经网络训练设备和方法以及语音识别设备和方法
CN106683663B (zh) * 2015-11-06 2022-01-25 三星电子株式会社 神经网络训练设备和方法以及语音识别设备和方法
CN105389980B (zh) * 2015-11-09 2018-01-19 上海交通大学 基于长短时记忆递归神经网络的短时交通流预测方法
CN105389980A (zh) * 2015-11-09 2016-03-09 上海交通大学 基于长短时记忆递归神经网络的短时交通流预测方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105469065B (zh) * 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105513591B (zh) * 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN108780521B (zh) * 2016-02-04 2023-05-26 渊慧科技有限公司 关联长短期记忆神经网络层
CN108780521A (zh) * 2016-02-04 2018-11-09 渊慧科技有限公司 关联长短期记忆神经网络层
US10235994B2 (en) 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
CN105559777A (zh) * 2016-03-17 2016-05-11 北京工业大学 基于小波包和lstm型rnn神经网络的脑电识别方法
CN111081231B (zh) * 2016-03-23 2023-09-05 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN111081231A (zh) * 2016-03-23 2020-04-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN107316198B (zh) * 2016-04-26 2020-05-29 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN111784348A (zh) * 2016-04-26 2020-10-16 阿里巴巴集团控股有限公司 账户风险识别方法及装置
US11531860B2 (en) 2016-04-29 2022-12-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Apparatus and method for executing recurrent neural network and LSTM computations
US11727244B2 (en) 2016-04-29 2023-08-15 Cambricon Technologies Corporation Limited Apparatus and method for executing recurrent neural network and LSTM computations
WO2017185347A1 (zh) * 2016-04-29 2017-11-02 北京中科寒武纪科技有限公司 用于执行循环神经网络和lstm运算的装置和方法
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN106096729B (zh) * 2016-06-06 2018-11-20 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN106126492B (zh) * 2016-06-07 2019-02-05 北京高地信息技术有限公司 基于双向lstm神经网络的语句识别方法及装置
CN106126492A (zh) * 2016-06-07 2016-11-16 北京高地信息技术有限公司 基于双向lstm神经网络的语句识别方法及装置
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
CN107808664A (zh) * 2016-08-30 2018-03-16 富士通株式会社 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备
US10366163B2 (en) 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN106383888A (zh) * 2016-09-22 2017-02-08 深圳市唯特视科技有限公司 一种利用图片检索定位导航的方法
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
US10748066B2 (en) 2017-05-20 2020-08-18 Google Llc Projection neural networks
US11544573B2 (en) 2017-05-20 2023-01-03 Google Llc Projection neural networks
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
US11062699B2 (en) 2017-06-12 2021-07-13 Ping An Technology (Shenzhen) Co., Ltd. Speech recognition with trained GMM-HMM and LSTM models
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107301864A (zh) * 2017-08-16 2017-10-27 重庆邮电大学 一种基于Maxout神经元的深度双向LSTM声学模型
CN107657313A (zh) * 2017-09-26 2018-02-02 上海数眼科技发展有限公司 基于领域适应的自然语言处理任务的迁移学习系统和方法
CN107657313B (zh) * 2017-09-26 2021-05-18 上海数眼科技发展有限公司 基于领域适应的自然语言处理任务的迁移学习系统和方法
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN107993636B (zh) * 2017-11-01 2021-12-31 天津大学 基于递归神经网络的乐谱建模与生成方法
CN108364634A (zh) * 2018-03-05 2018-08-03 苏州声通信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
US10885277B2 (en) 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
US11423233B2 (en) 2018-08-02 2022-08-23 Google Llc On-device projection neural networks for natural language understanding
US11934791B2 (en) 2018-08-02 2024-03-19 Google Llc On-device projection neural networks for natural language understanding
CN109243494A (zh) * 2018-10-30 2019-01-18 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109243494B (zh) * 2018-10-30 2022-10-11 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN110517680A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN110517680B (zh) * 2018-11-15 2023-02-03 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN110517679B (zh) * 2018-11-15 2022-03-08 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
US11526680B2 (en) 2019-02-14 2022-12-13 Google Llc Pre-trained projection networks for transferable natural language representations
CN110570845A (zh) * 2019-08-15 2019-12-13 武汉理工大学 一种基于域不变特征的语音识别方法
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备

Also Published As

Publication number Publication date
CN104538028B (zh) 2017-10-17
WO2016101688A1 (zh) 2016-06-30

Similar Documents

Publication Publication Date Title
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology
EP3926623A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN108417210B (zh) 一种词嵌入语言模型训练方法、词语识别方法及系统
CN107293288B (zh) 一种残差长短期记忆循环神经网络的声学模型建模方法
CN104700828A (zh) 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
CN103400577B (zh) 多语种语音识别的声学模型建立方法和装置
CN104143327B (zh) 一种声学模型训练方法和装置
CN102411931B (zh) 用于大词汇量连续语音识别的深度信任网络
CN105139864B (zh) 语音识别方法和装置
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN106919977B (zh) 一种前馈序列记忆神经网络及其构建方法和系统
CN107408384A (zh) 部署的端对端语音识别
CN109036467B (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN106910497A (zh) 一种中文词语发音预测方法及装置
CN103049792A (zh) 深层神经网络的辨别预训练
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN108109615A (zh) 一种基于dnn的蒙古语声学模型的构造和使用方法
CN111144124A (zh) 机器学习模型的训练方法、意图识别方法及相关装置、设备
KR20110084402A (ko) 스피치 모델 생성 방법
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
CN105845130A (zh) 用于语音识别的声学模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant