CN105513591B - 用lstm循环神经网络模型进行语音识别的方法和装置 - Google Patents
用lstm循环神经网络模型进行语音识别的方法和装置 Download PDFInfo
- Publication number
- CN105513591B CN105513591B CN201510967532.7A CN201510967532A CN105513591B CN 105513591 B CN105513591 B CN 105513591B CN 201510967532 A CN201510967532 A CN 201510967532A CN 105513591 B CN105513591 B CN 105513591B
- Authority
- CN
- China
- Prior art keywords
- lstm
- moment
- recognition
- neural network
- recurrent neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 73
- 238000003062 neural network model Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006403 short-term memory Effects 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000020411 cell activation Effects 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 abstract description 25
- 230000000694 effects Effects 0.000 abstract description 20
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种利用LSTM(Long-Short TermMemory,长短时记忆)循环神经网络模型进行语音识别的方法和装置。
背景技术
语音识别技术是指将输入的一段语音信号转化成文本输出的过程,通常包括声学模型、语言模型以及对应的解码搜索方法,其性能很大程度上依赖声学模型的构建。由于语音是典型的时序信号,循环神经网络,尤其是长短时记忆LSTM循环神经网络,因其具有很强的时序建模能力而逐渐变成语音识别中声学建模的新方向。
但是,语音信号又具有短时平稳特性,特征提取(例如,窗长25ms,步长10ms)得到的相邻帧差异常常较小,这一方面造成模型建模能力浪费,另一方面因为简单模式反复重复出现会造成“余尾效应”,即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中,会导致循环神经网络对该简单模式记忆太强,而在不同标签的帧输入时,仍旧不能很快速的调整过来,导致估计错误,影响识别性能,例如,如图1所示,因为标签1对应的模式比较简单却重复了很多个时间节拍,当真实具有新的标签3的特征输入网络时,网络迟迟不能反应过来,因此导致随后的三帧均被错误的预测成标签1。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法。该方法可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。
本发明的第二个目的在于提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置。
为达上述目的,本发明第一方面实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,包括:接收第t时刻的语音输入数据;根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。
本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,在语音识别的过程中,可接收当前第t时刻的语音输入数据,并根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,最后,将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的“余尾效应”,从而提高了语音识别的准确性。
为达上述目的,本发明第二方面实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,包括:接收模块,用于接收第t时刻的语音输入数据;选择模块,用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;生成模块,用于根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。
本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,在语音识别的过程中,可通过接收模块接收当前第t时刻的语音输入数据,选择模块根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,生成模块将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的“余尾效应”,从而提高了语音识别的准确性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是现有技术中存在的余尾效应的示意图;
图2是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法的流程图;
图3是本发明提出的LSTM循环神经网络模型与普通常规的LSTM结构的基本对比原理的示例图;以及
图4是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
语音识别技术是指将输入的一段语音信号转化成文本输出的过程,通常包括声学模型、语言模型以及对应的解码搜索方法,其性能很大程度上依赖声学模型的构建。现有的大词汇量汉语语音识别方法主要基于混合方法,例如:高斯混合模型(Gaussian MixtureModel;以下简称:GMM)+隐马尔科夫模型(Hidden Markov Model;以下简称:HMM)、深度神经网络(Deep Neural Network;以下简称:DNN)+HMM等。具体而言,在基于统计的混合方法建模的语音识别中,HMM用于表示声学建模单元,比如一个音子一个HMM,每一个HMM又包含几个顺序跳转的状态(通常为三到五个),用于估计隐马尔可夫模型的状态后验概率的方法有:高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神经网络等以及几者的组合模型。
目前,基于统计的深度神经网络-隐马尔科夫模型(DNN-HMM)是主流系统的标准配置。深度神经网络用于估计隐马尔可夫模型的状态后验概率,基于此解码算法在融合语言模型的条件下进行最优序列搜索。因此,DNN-HMM模型应用于语音识别包含“对齐”和“优化”两个步骤,首先利用对齐算法在给定答案的训练数据上获得因马尔科模型的状态标签,DNN模型主要用于精确建模状态的后验概率,因此该方法亦被称为混合建模方法(Hybrid)。
语音是典型的时序信号,循环神经网络,尤其是长短时记忆(Long short-termmemory,LSTM)循环神经网络,因其具有很强的时序建模能力逐渐变成语音识别中声学建模的新方向。但是,语音信号又具有短时平稳特性,特征提取(窗长25ms,步长10ms)得到的相邻帧差异常常较小,这一方面造成模型建模能力浪费,另一方面因为简单模式反复重复出现会造成“余尾效应”,即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中,会导致循环神经网络对该简单模式记忆太强,而在不同标签的帧输入时,仍旧不能很快速的调整过来,导致估计错误,影响识别性能。例如,如图1所示,因为标签1对应的模式比较简单却重复了很多个时间节拍,当真实具有新的标签3的特征输入网络时,网络迟迟不能反应过来,因此导致随后的三帧均被错误的预测成标签1。推而广之,单向的循环神经网络在遇到简单模式重复很多时,容易导致其随后的标签被预测错,而且“余尾效应”的大小跟模式的简单程度和重复次数比较相关。双向的循环神经网络在遇到简单模式重复很多时,容易导致其前后的标签被预测错,而且“余尾效应”同样跟模式的简单程度和重复次数比较相关。
为此,为了解决采用循环神经网络(尤其是LSTM)对语音识别进行声学建模时会出现的“余尾效应”的问题,本发明提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法和装置。具体地,下面参考附图描述本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法和装置。
图2是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法的流程图。如图2所示,该方法可包括:
S201,接收第t时刻的语音输入数据。
可以理解,语音识别系统在对语音进行识别时,主要是通过声学模型对该语音进行声学特征的提取。其中,在本发明的实施例中,该声学模型可通过长短时记忆LSTM循环神经网络模型进行建模的。其中,在本发明的实施例中,该长短时记忆LSTM循环神经网络模型可包括输入门、遗忘门、输出门、状态单元和LSTM结果等,这些数据可分别通过以下公式(1)计算获得:
it=σ(Wixxt+Wimmt-1+Wicct-1+bi)
ft=σ(Wfxxt+Wfmmt-1+Wfcct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcxxt+Wcmmt-1+bc) (1)
ot=σ(Woxxt+Wommt-1+Wocct-1+bo)
mt=ot⊙h(ct)
其中,xt为第t时刻的语音输入数据,W为权重矩阵,b为偏置向量,i、f、o、c、m分别为输入门、遗忘门、输出门、状态单元和LSTM结果,⊙为向量按元素的乘积,σ为sigmoid函数,sigmoid函数的计算公式为:g、h分别为状态单元的输入和输出激活函数,激活函数为tanh函数,tanh函数的计算公式为
具体地,语音识别系统在对语音进行识别时,可实时接收当前第t时刻的语音输入数据。
S202,根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数。
其中,在本发明的实施例中,该预设规则可包括但不限于:从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果;和/或,采用L0-范数的稀疏性,从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态;和/或,根据人工经验从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态。可以理解,上述预设规则还可以根据实际需求(如新的任务)设计相应的选择规则。
具体地,在接收到第t时刻的语音输入数据的同时,此时已存在有第t-1时刻至第t-n时刻的LSTM隐含层状态,此时可根据上述预设规则从该第t-1时刻至第t-n时刻的LSTM隐含层状态种选择满足该预设规则的LSTM隐含层状态作为选择结果,以用于计算第t时刻的LSTM结果。
例如,在实时接收到当前时刻的语音输入数据时,可将该当前时刻的语音输入数据代入上述式(1)以得到对应的LSTM结果输出,如图3所示,当将接收到的当前第t时刻的语音输入数据xt代入上述式(1)时,可先获取当前第t时刻的前面所有时刻(如第t-1时刻至第t-n时刻)的LSTM隐含层状态,然后,根据上述预设规则从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态。可以看出,本步骤重要思想在于在第t-1时刻至第t-n时刻中选择LSTM隐含层状态的这个选择过程,也就是这个过程引入了“多时间尺度”的概念,同时因为可以不选择其中的某个或者某几个LSTM隐含层状态,所以存在“可跨跳”的概念。
可选地,在本发明的实施例中,该n可为预先配置的。可以理解,该n可以是通过大量试验而得到的经验值,将n配置成该经验值可以使得语音识别效果更好等特点。
可选地,在本发明的一个实施例中,该n可通过自学习获得。可以理解,可通过在完成一次语音识别之后,根据此次识别效果来自行更新并完善该n的值,使得下次语音识别能够达到更好的效果。由此,通过不断自学习而更新并完善该n的值,可以不断完善语音识别,提高识别准确度等。
S203,根据选择的至少一个LSTM隐含层状态、第t时刻的语音输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。
具体地,在从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态之后,可根据选择出的一个或多个LSTM隐含层状态、当前第t时刻的输入数据代入上述式(1)以得到该第t时刻的LSTM结果。
为了使得本领域技术人员能够更加清楚地了解本发明的特点,下面可将上述LSTM循环神经网络模型与传统普通的LSTM模型进行对比描述。
图3是本发明提出的LSTM循环神经网络模型(即图3中所示的多时间尺度的LSTM模型)与普通常规的LSTM结构的基本对比原理。如图3所示,假设给定的输入序列为x=(x1,...,xT),其中,T表示序列的长度。
1)对于任意时刻的输入xt,本发明提出的LSTM循环神经网络模型通过上述式(1)对模型中的各个单元进行计算。
2)对于任意时刻的输入xt,普通常规的LSTM结构可通过下列公式(2)对模型中的各个单元进行计算:
其中,式(2)中的参数含义可参照上述式(1)中的参数。在此不再赘述。
从上述两个公式可以看出,对于普通常规的LSTM模型,本发明提出的LSTM循环神经网络模型在该公式的基础上了进行了改进。其中,⊕表示可选“+”操作,计算法会根据输入数据的不同,自动选择其中一项或者多项进行求和操作。
也就是说,本发明提出的LSTM循环神经网络模型采用了传统梯度下降法,即按照梯度计算的理论,不同的数据采用不同的计算项,而其梯度亦是针对该项的求导回传(此操作类似于Max pooling的梯度回传过程)。
综上,本发明基于多时间尺度的深度循环神经网络可跨跳模型(即上述式(1)所示)来解决上述问题,模型引入跨帧之间的时间依赖关系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的“余尾效应”。
需要说明的是,本发明提出的LSTM循环神经网络模型首先是建立在循环神经网络的基础上,却不同于普通的循环神经网路,普通的循环神经网络一定是前后帧之间具有严格的时序依赖关系,而本发明的LSTM循环神经网络模型不止在建立普通的前后帧时序依赖关系,还建模多时间尺度意义上的时序依赖关系。这是因为语音信号是短时平稳信号,很多时候存在相似的特征持续很多帧,而这种时序意义上的时序依赖是没有意义的,也会消弱模型的建模能力。本发明的LSTM循环神经网络模型通过随机梯度方法自动的学习时间尺度的依赖关系,是模型能够最大程度上发挥其潜能,从而更好的完成声学建模过程。
还需要说明的是,本发明提出的LSTM循环神经网络模型区别于Clockwork RNN(一种新式的基于人工神经网络的时间序列学习算法)。Clockwork RNN是通过人为设计的固定跨度的时间尺度的依赖关系。这种依赖关系在具有短时平稳特性的声学建模中只能获得次优结果,因为它不能发挥根据训练数据进行自适应多时间尺度的可跨跳模型。而本发明提出的LSTM循环神经网络模型根据语音识别短时平稳特性设计的,很好的解决了“余尾效应”,大幅提升语音识别的性能。
本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,在语音识别的过程中,可接收当前第t时刻的语音输入数据,并根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,最后,将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的“余尾效应”,从而提高了语音识别的准确性。
为了实现上述实施例,本发明还提出了一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置。
图4是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置的结构框图。如图4所示,该装置可以包括:接收模块10、选择模块20和生成模块30。
具体地,接收模块10可用于接收第t时刻的语音输入数据。
可以理解,语音识别系统在对语音进行识别时,主要是通过声学模型对该语音进行声学特征的提取。其中,在本发明的实施例中,该声学模型可通过长短时记忆LSTM循环神经网络模型进行建模的。其中,在本发明的实施例中,该长短时记忆LSTM循环神经网络模型可包括输入门、遗忘门、输出门、状态单元和LSTM结果等,这些数据可分别通过以下公式(1)计算获得:
it=σ(Wixxt+Wimmt-1+Wicct-1+bi)
ft=σ(Wfxxt+Wfmmt-1+Wfcct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcxxt+Wcmmt-1+bc) (1)
ot=σ(Woxxt+Wommt-1+Wocct-1+bo)
mt=ot⊙h(ct)
其中,xt为第t时刻的语音输入数据,W为权重矩阵,b为偏置向量,i、f、o、c、m分别为输入门、遗忘门、输出门、状态单元和LSTM结果,⊙为向量按元素的乘积,σ为sigmoid函数,sigmoid函数的计算公式为:g、h分别为状态单元的输入和输出激活函数,激活函数为tanh函数,tanh函数的计算公式为
更具体地,语音识别系统在对语音进行识别时,接收模块10可实时接收当前第t时刻的语音输入数据。
选择模块20可用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数。
其中,在本发明的实施例中,该预设规则可包括但不限于:从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果;和/或,采用L0-范数的稀疏性,从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态;和/或,根据人工经验从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态。可以理解,上述预设规则还可以根据实际需求(如新的任务)设计相应的选择规则。
更具体地,在接收模块10接收到第t时刻的语音输入数据的同时,此时已存在有第t-1时刻至第t-n时刻的LSTM隐含层状态,此时选择模块20可根据上述预设规则从该第t-1时刻至第t-n时刻的LSTM隐含层状态种选择满足该预设规则的LSTM隐含层状态作为选择结果,以用于计算第t时刻的LSTM结果。
例如,在接收模块10实时接收到当前时刻的语音输入数据时,选择模块20可将该当前时刻的语音输入数据代入上述式(1)以得到对应的LSTM结果输出,如图3所示,当将接收到的当前第t时刻的语音输入数据xt代入上述式(1)时,可先获取当前第t时刻的前面所有时刻(如第t-1时刻至第t-n时刻)的LSTM隐含层状态,然后,根据上述预设规则从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态。可以看出,本步骤重要思想在于在第t-1时刻至第t-n时刻中选择LSTM隐含层状态的这个选择过程,也就是这个过程引入了“多时间尺度”的概念,同时因为可以不选择其中的某个或者某几个LSTM隐含层状态,所以存在“可跨跳”的概念。
可选地,在本发明的实施例中,该n可为预先配置的。可以理解,该n可以是通过大量试验而得到的经验值,将n配置成该经验值可以使得语音识别效果更好等特点。
可选地,在本发明的一个实施例中,该n可通过自学习获得。可以理解,可通过在完成一次语音识别之后,根据此次识别效果来自行更新并完善该n的值,使得下次语音识别能够达到更好的效果。由此,通过不断自学习而更新并完善该n的值,可以不断完善语音识别,提高识别准确度等。
生成模块30可用于根据选择的至少一个LSTM隐含层状态、第t时刻的语音输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。
更具体地,在选择模块20从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态之后,生成模块30可根据选择出的一个或多个LSTM隐含层状态、当前第t时刻的输入数据代入上述式(1)以得到该第t时刻的LSTM结果。
本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,在语音识别的过程中,可通过接收模块接收当前第t时刻的语音输入数据,判断模块根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,生成模块将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果,否则,生成模块利用该当前第t时刻的前面全部时刻的所有LSTM结果,并将这些LSTM结果和该当前第t时刻的语音输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的“余尾效应”,从而提高了语音识别的准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,其特征在于,所述LSTM循环神经网络模型包括输入门、遗忘门、输出门、状态单元和LSTM结果,所述方法包括以下步骤:
接收第t时刻的语音输入数据;
根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;其中,所述预设规则包括:从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果;和/或,采用L0-范数的稀疏性,从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态;和/或,根据人工经验从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态;
根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。
2.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,其特征在于,其中,所述n为预先配置的。
3.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,其特征在于,所述LSTM循环神经网络模型中的输入门、遗忘门、输出门、状态单元和LSTM结果,分别通过以下公式计算获得:
it=σ(Wixxt+Wimmt-1+Wicct-1+bi)
ft=σ(Wfxxt+Wfmmt-1+Wfcct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcxxt+Wcmmt-1+bc)
ot=σ(Woxxt+Wommt-1+Wocct-1+bo)
mt=ot⊙h(ct)
其中,xt为所述第t时刻的语音输入数据,W为权重矩阵,b为偏置向量,i、f、o、c、m分别为所述输入门、遗忘门、输出门、状态单元和LSTM结果,⊙为向量按元素的乘积,σ为sigmoid函数,所述sigmoid函数的计算公式为:g、h分别为所述状态单元的输入和输出激活函数,所述激活函数为tanh函数,所述tanh函数的计算公式为
4.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,其特征在于,其中,所述n通过自学习获得。
5.一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,其特征在于,所述LSTM循环神经网络模型包括输入门、遗忘门、输出门、状态单元和LSTM结果,所述装置包括:
接收模块,用于接收第t时刻的语音输入数据;
选择模块,用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;其中,所述预设规则包括:从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果;和/或,采用L0-范数的稀疏性,从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态;和/或,根据人工经验从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态;
生成模块,用于根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。
6.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,其特征在于,其中,所述n为预先配置的。
7.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,其特征在于,所述LSTM循环神经网络模型中的输入门、遗忘门、输出门、状态单元和LSTM结果,分别通过以下公式计算获得:
it=σ(Wixxt+Wimmt-1+Wicct-1+bi)
ft=σ(Wfxxt+Wfmmt-1+Wfcct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcxxt+Wcmmt-1+bc)
ot=σ(Woxxt+Wommt-1+Wocct-1+bo)
mt=ot⊙h(ct)
其中,xt为所述第t时刻的语音输入数据,W为权重矩阵,b为偏置向量,i、f、o、c、m分别为所述输入门、遗忘门、输出门、状态单元和LSTM结果,⊙为向量按元素的乘积,σ为sigmoid函数,所述sigmoid函数的计算公式为:g、h分别为所述状态单元的输入和输出激活函数,所述激活函数为tanh函数,所述tanh函数的计算公式为
8.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,其特征在于,其中,所述n通过自学习获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510967532.7A CN105513591B (zh) | 2015-12-21 | 2015-12-21 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510967532.7A CN105513591B (zh) | 2015-12-21 | 2015-12-21 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105513591A CN105513591A (zh) | 2016-04-20 |
CN105513591B true CN105513591B (zh) | 2019-09-03 |
Family
ID=55721520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510967532.7A Active CN105513591B (zh) | 2015-12-21 | 2015-12-21 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105513591B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784348B (zh) * | 2016-04-26 | 2024-06-11 | 创新先进技术有限公司 | 账户风险识别方法及装置 |
KR20190022439A (ko) * | 2016-06-30 | 2019-03-06 | 파나소닉 아이피 매니지먼트 가부시키가이샤 | 정보 처리 장치, 시계열 데이터의 정보 처리 방법, 및 프로그램 |
CN107229967B (zh) * | 2016-08-22 | 2021-06-15 | 赛灵思公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
JP6750121B2 (ja) | 2016-09-06 | 2020-09-02 | ディープマインド テクノロジーズ リミテッド | 畳み込みニューラルネットワークを使用したシーケンスの処理 |
CA3155320A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
CN109937446B (zh) * | 2016-10-10 | 2023-08-04 | 谷歌有限责任公司 | 用于端到端语音识别的极深卷积神经网络 |
KR102458808B1 (ko) | 2016-10-26 | 2022-10-25 | 딥마인드 테크놀로지스 리미티드 | 신경망을 이용한 텍스트 시퀀스 처리 |
CN113537480B (zh) * | 2016-12-30 | 2024-04-02 | 上海寒武纪信息科技有限公司 | 用于执行lstm神经网络运算的装置和运算方法 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN106875007A (zh) * | 2017-01-25 | 2017-06-20 | 上海交通大学 | 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络 |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107301864B (zh) * | 2017-08-16 | 2020-12-22 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107563122B (zh) * | 2017-09-20 | 2020-05-19 | 长沙学院 | 基于交织时间序列局部连接循环神经网络的犯罪预测方法 |
US11651223B2 (en) | 2017-10-27 | 2023-05-16 | Baidu Usa Llc | Systems and methods for block-sparse recurrent neural networks |
CN109754789B (zh) * | 2017-11-07 | 2021-06-08 | 北京国双科技有限公司 | 语音音素的识别方法及装置 |
CN107890348B (zh) * | 2017-11-21 | 2018-12-25 | 郑州大学 | 一种基于深度学习法心电节拍特征自动化提取及分类方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN110288974B (zh) * | 2018-03-19 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 基于语音的情绪识别方法及装置 |
CN108846549A (zh) * | 2018-05-08 | 2018-11-20 | 天津大学 | 基于智能家电端的电网供配电调控方法 |
CN110600032A (zh) * | 2018-05-23 | 2019-12-20 | 北京语智科技有限公司 | 一种语音识别方法及装置 |
CN108899051B (zh) * | 2018-06-26 | 2020-06-16 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN109410911A (zh) * | 2018-09-13 | 2019-03-01 | 何艳玲 | 基于语音识别的人工智能学习方法 |
CN109347668B (zh) * | 2018-10-17 | 2020-11-06 | 网宿科技股份有限公司 | 一种服务质量评估模型的训练方法及装置 |
CN109615449A (zh) * | 2018-10-25 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 一种预测方法及装置、一种计算设备及存储介质 |
CN109523995B (zh) * | 2018-12-26 | 2019-07-09 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN109637545B (zh) * | 2019-01-17 | 2023-05-30 | 哈尔滨工程大学 | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 |
CN111709513B (zh) * | 2019-03-18 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 长短期记忆网络lstm的训练系统、方法及电子设备 |
CN110490299B (zh) * | 2019-07-25 | 2022-07-29 | 南京信息工程大学 | 基于状态变化微分的灵敏长短期记忆方法 |
CN111539495B (zh) * | 2020-07-10 | 2020-11-10 | 北京海天瑞声科技股份有限公司 | 基于识别模型的识别方法、模型训练方法及装置 |
CN113488052B (zh) * | 2021-07-22 | 2022-09-02 | 深圳鑫思威科技有限公司 | 无线语音传输和ai语音识别互操控方法 |
CN114489200A (zh) * | 2022-04-01 | 2022-05-13 | 科大天工智能装备技术(天津)有限公司 | 一种温室大棚环境控制系统 |
CN116994572A (zh) * | 2022-04-21 | 2023-11-03 | 北京字跳网络技术有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114598565A (zh) * | 2022-05-10 | 2022-06-07 | 深圳市发掘科技有限公司 | 一种厨电设备远程控制系统、方法及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105159890A (zh) * | 2014-06-06 | 2015-12-16 | 谷歌公司 | 使用神经网络产生输入序列的表示 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721562B2 (en) * | 2013-12-17 | 2017-08-01 | Google Inc. | Generating representations of acoustic sequences |
EP3192012A4 (en) * | 2014-09-12 | 2018-01-17 | Microsoft Technology Licensing, LLC | Learning student dnn via output distribution |
CN105469065B (zh) * | 2015-12-07 | 2019-04-23 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
-
2015
- 2015-12-21 CN CN201510967532.7A patent/CN105513591B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159890A (zh) * | 2014-06-06 | 2015-12-16 | 谷歌公司 | 使用神经网络产生输入序列的表示 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Non-Patent Citations (1)
Title |
---|
"LSTM TIME AND FREQUENCY RECURRENCE FOR AUTOMATIC SPEECH RECOGNITION";Jinyu Li等;《IEEE,ASRU 2015》;20151217;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105513591A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105513591B (zh) | 用lstm循环神经网络模型进行语音识别的方法和装置 | |
Gelly et al. | Optimization of RNN-based speech activity detection | |
Le et al. | Discretized Continuous Speech Emotion Recognition with Multi-Task Deep Recurrent Neural Network. | |
CN105244020B (zh) | 韵律层级模型训练方法、语音合成方法及装置 | |
Cheng et al. | Language modeling with sum-product networks. | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN105139864B (zh) | 语音识别方法和装置 | |
EP3282446A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and medium | |
EP3992975A1 (en) | Compound property analysis method and apparatus, compound property analysis model training method, and storage medium | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
Hong et al. | Sentiment analysis with deeply learned distributed representations of variable length texts | |
CN107112005A (zh) | 深度神经支持向量机 | |
TW201626293A (zh) | 由知識圖譜偏置的資料分類 | |
CN105956529A (zh) | 一种基于lstm型rnn的中国手语识别方法 | |
US10825445B2 (en) | Method and apparatus for training acoustic model | |
JP6823809B2 (ja) | 対話行為推定方法、対話行為推定装置およびプログラム | |
US11514315B2 (en) | Deep neural network training method and apparatus, and computer device | |
Kamada et al. | An adaptive learning method of restricted Boltzmann machine by neuron generation and annihilation algorithm | |
CN114627863A (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN109740057A (zh) | 一种基于知识萃取的增强神经网络及信息推荐方法 | |
Takano et al. | Bigram-based natural language model and statistical motion symbol model for scalable language of humanoid robots | |
Boulanger-Lewandowski et al. | Phone sequence modeling with recurrent neural networks | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
CN106157948B (zh) | 一种基频建模方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |