CN107293291B - 一种基于自适应学习率的端到端的语音识别方法 - Google Patents

一种基于自适应学习率的端到端的语音识别方法 Download PDF

Info

Publication number
CN107293291B
CN107293291B CN201610192763.XA CN201610192763A CN107293291B CN 107293291 B CN107293291 B CN 107293291B CN 201610192763 A CN201610192763 A CN 201610192763A CN 107293291 B CN107293291 B CN 107293291B
Authority
CN
China
Prior art keywords
neural network
gradient
time
output
learning rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610192763.XA
Other languages
English (en)
Other versions
CN107293291A (zh
Inventor
张鹏远
王旭阳
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201610192763.XA priority Critical patent/CN107293291B/zh
Publication of CN107293291A publication Critical patent/CN107293291A/zh
Application granted granted Critical
Publication of CN107293291B publication Critical patent/CN107293291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种基于自适应学习率的端到端的语音识别方法,包括:步骤(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层
Figure DDA0002748064470000011
和所述反向递归神经网络隐层
Figure DDA0002748064470000012
再采用长短时记忆单元分别替代
Figure DDA0002748064470000013
Figure DDA0002748064470000014
得到神经网络的最终输出,即y;步骤(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用CTC准则,引入了blank符号辅助对齐,构建和计算目标函数;对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;步骤(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述参数集合w进行更新。

Description

一种基于自适应学习率的端到端的语音识别方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于自适应学习率的端到端的语音识别方法。
背景技术
随着深度学习的兴起,基于深度神经网络的语音识别技术取得了显著的进步。目前,常用的语音识别方法采用基于隐马尔可夫模型和深度神经网络的混合方法,需要训练隐马尔可夫模型以及相应的高斯混合模型,为后续训练深度神经网络提供帧级别的训练标注。但是,基于隐马尔可夫模型和深度神经网络的混合方法的语音识别框架较复杂:一是其训练得到的高斯混合模型并不会用于最终的解码过程中;二是训练模型依赖过多的语言学知识,比如建立决策树时需要的问题集;三是较多的超参数,均需要精细的调参才能获取最优性能,如状态聚类个数和高斯混合模型的高斯数等。
端到端的语音识别一般采用connectionist temporal classification(CTC)准则作为递归神经网络(recurrent neural network,RNN)的目标函数进行训练。在计算得到目标函数对神经网络中各参数的偏导数后,使用最为常见的参数更新方法,结合冲量(momentum)的随机梯度下降法,更新神经网络中的各个参数。CTC准则引入的blank符号对目标函数的贡献与其他建模单元相同,并且blank符号由于其辅助对齐的作用,会频繁出现在对齐路径上,但却对识别结果的统计没有影响。
发明内容
本发明的目的在于,为解决现有的语音识别方法的复杂的语音识别框架的缺陷,提供一种基于自适应学习率的端到端的语音识别方法;该方法具体包括:
(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层
Figure BDA0000953940250000011
和所述反向递归神经网络隐层
Figure BDA0000953940250000012
再采用长短时记忆单元(long-short term memorycell,LSTM)分别替代所述前向递归神经网络隐层
Figure BDA0000953940250000013
和所述反向递归神经网络隐层
Figure BDA0000953940250000021
通过计算得到神经网络的最终输出,即y;
(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionisttemporal classification(CTC)准则,在CTC准则引入了blank符号辅助对齐,构建和计算目标函数:再对目标函数关于神经网络输出进行求偏导计算,所得的偏导数再通过使用误差反向传播算法(error back propagation,BP)计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;
(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述步骤(1)中权值矩阵中的参数集合w进行更新。
所述参数集合w包括权值矩阵和偏置构成整个神经网络集合。
计算包含所述步骤(1)中权值矩阵的参数集合w的梯度g如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),
Figure BDA0000953940250000022
其中,
Figure BDA0000953940250000026
表示在时刻t神经网络输出pt的后验概率;
blank出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,
Figure BDA0000953940250000023
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z若干带有blank的对齐序列;
计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为
Figure BDA0000953940250000024
根据所述的偏导数
Figure BDA0000953940250000025
采用误差反向传播算法(error back propagation,BP)来计算参数集合w的梯度g。
所述ADADELTA自适应学习率的方法,其具体计算方法如下:
Figure BDA0000953940250000031
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
Figure BDA0000953940250000032
其中,∈用于防止数学运算错误,RMS[g]t为梯度gt均方根值;
Figure BDA0000953940250000033
其中,Δwt表示t时刻神经网络中参数集合w中的任一参数的更新值,RMS[Δw]t-1为t-1时刻的更新值的均方根值;
Figure BDA0000953940250000034
其中,E[Δw2]t表示t时刻参数w中的任一参数的累加更新值平方的期望,
E[Δw2]t-1表示t-1时刻参数ω中的任一参数的累加更新值平方的期望;
假设E[Δω2]0表示E[Δω2]t初始化为0;
wt+1=wt+Δwt
其中,ωt+1为更新后的参数值,ωt为当前参数值。
本发明的优点在于:端到端的语音识别系统抛弃了传统的隐马尔可夫模型,而是利用递归神经网络(recurrent neural network,RNN)在时间序列建模方面的优点,借助递归神经网络建立语音特征序列到对应音素或字符序列的直接映射。端到端的语音识别建模方法极大地简化了构建语音识别系统的流程;使用CTC准则作为训练目标函数,引入了blank符号且其对似然函数的贡献远大于其他音素;再结合自适应学习率的方法ADADELTA,通过将神经网络中每个参数的梯度累积下来,可以减弱频繁出现的特征对网络权重的影响。
附图说明
图1是本发明提供的基于自适应学习率的端到端的语音识别方法的LSTM结构图;
图2是本发明提供的基于自适应学习率的端到端的语音识别方法的训练流程图;
具体实施方式
以下结合附图对本发明作进一步的详细说明。
如图2所示,本发明提供一种基于自适应学习率的端到端的语音识别方法;该方法具体包括:
(1)、采用双向递归神经网络作为声学模型,分别计算前向和反向的递归神经网络隐层,即
Figure BDA0000953940250000041
Figure BDA0000953940250000042
具体过程如下:
假设输入特征序列使用x=(x1,…,xT),那么所述的前向递归神经网络隐层
Figure BDA0000953940250000043
可以用(1)式描述;
Figure BDA0000953940250000044
其中,σ为sigmoid激活函数,
Figure BDA0000953940250000045
为输入层和隐层相连接的权值矩阵,
Figure BDA0000953940250000046
为t-1时刻隐层输出和t时刻隐层相连接的权值矩阵,
Figure BDA0000953940250000047
为偏置,xt表示t时刻的输入,
Figure BDA0000953940250000048
表示t-1时刻隐层的输出,
Figure BDA0000953940250000049
表示t时刻隐层的输出。
所述反向递归神经网络隐层
Figure BDA00009539402500000410
可以用(2)式描述;
Figure BDA00009539402500000411
其中,σ为sigmoid激活函数,
Figure BDA00009539402500000412
为输入层和隐层相连接的权值矩阵,
Figure BDA00009539402500000413
为t+1时刻隐层输出和t时刻隐层相连接的权值矩阵,
Figure BDA00009539402500000414
为偏置,xt表示t时刻的输入,
Figure BDA00009539402500000415
表示t+1时刻隐层的输出,
Figure BDA00009539402500000416
表示t时刻隐层的输出。
前向和反向递归神经网络的隐层输出拼接成为整个网络的隐层输出
Figure BDA00009539402500000417
隐层和输出层通过权值矩阵连接,并在输出前经过公式(3)中的softmax函数进行概率规整:
y=G(WhyH+by) (3)
其中,Why为连接隐藏层和输出层的权值矩阵;by为偏置;y为神经网络的最终输出;G(·)为softmax函数,计算公式如下:
Figure BDA0000953940250000051
其中,z表示神经网络做规整前的输出值,ez为其指数运算,zk表示第k个节点的输出值,k为输出节点个数。
通过公式(1),(2)计算前向和反向的递归神经网络隐层,即
Figure BDA0000953940250000052
Figure BDA0000953940250000053
所述前向递归神经网络隐层
Figure BDA0000953940250000054
和所述反向递归神经网络隐层
Figure BDA0000953940250000055
会出现梯度消失的问题。因此,采用长短时记忆单元(long-short term memory cell,LSTM)分别替代所述前向递归神经网络隐层
Figure BDA0000953940250000056
和所述反向递归神经网络隐层
Figure BDA0000953940250000057
具体计算过程如下:
如图1所示,采用LSTM计算所述前向递归神经网络隐层
Figure BDA0000953940250000058
Figure BDA0000953940250000059
其中,
Figure BDA00009539402500000510
为t时刻输入门的输出,
Figure BDA00009539402500000511
为输入序列到输入门的权值矩阵,
Figure BDA00009539402500000512
为t-1时刻LSTM输出到输入门的权值矩阵,
Figure BDA00009539402500000513
为LSTM细胞到输入门的权值矩阵,
Figure BDA00009539402500000514
为t-1时刻单元激活的输出,
Figure BDA00009539402500000515
为t-1时刻隐层的输出,
Figure BDA00009539402500000516
为输入门的偏置;
Figure BDA00009539402500000517
其中,
Figure BDA00009539402500000518
为忘记门的输出,
Figure BDA00009539402500000519
为输入序列到忘记门的权值矩阵,
Figure BDA00009539402500000520
为隐层到忘记门的权值矩阵,
Figure BDA00009539402500000521
为单元激活到忘记门的权值矩阵,
Figure BDA00009539402500000522
为忘记门的偏置;
Figure BDA00009539402500000523
其中,
Figure BDA00009539402500000524
为t时刻单元激活的输出,
Figure BDA00009539402500000525
为输入序列到单元激活的权值矩阵,
Figure BDA00009539402500000526
为隐层到LSTM细胞的权值矩阵,
Figure BDA00009539402500000527
为单元激活的偏置;
Figure BDA00009539402500000528
其中,
Figure BDA00009539402500000529
为t时刻输出门的输出,
Figure BDA00009539402500000530
为输入序列到输出门的权值矩阵,
Figure BDA00009539402500000531
为隐层到输出门的权值矩阵,
Figure BDA00009539402500000532
为单元激活到输出门的权值矩阵,
Figure BDA00009539402500000533
为输出门的偏置;
Figure BDA00009539402500000534
通过对上述公式(5)-(9)的计算,得出所述前向递归神经网络隐层的最终的输出结果
Figure BDA00009539402500000535
类似的,采用LSTM计算所述反向递归神经网络隐层
Figure BDA0000953940250000061
即使用t+1时刻各个门的输出作为t时刻的输入。其计算公式为:
Figure BDA0000953940250000062
其中,
Figure BDA0000953940250000063
为t时刻输入门的输出,
Figure BDA0000953940250000064
为输入序列到输入门的权值矩阵,
Figure BDA0000953940250000065
为t+1时刻LSTM输出到输入门的权值矩阵,
Figure BDA0000953940250000066
为LSTM细胞到输入门的权值矩阵,
Figure BDA0000953940250000067
为t+1时刻单元激活的输出,
Figure BDA0000953940250000068
为t+1时刻隐层的输出,
Figure BDA0000953940250000069
为输入门的偏置;
Figure BDA00009539402500000610
其中,
Figure BDA00009539402500000611
为忘记门的输出,
Figure BDA00009539402500000612
为输入序列到忘记门的权值矩阵,
Figure BDA00009539402500000613
为隐层到忘记门的权值矩阵,
Figure BDA00009539402500000614
为单元激活到忘记门的权值矩阵,
Figure BDA00009539402500000615
为忘记门的偏置;
Figure BDA00009539402500000616
其中,
Figure BDA00009539402500000617
为t时刻单元激活的输出,
Figure BDA00009539402500000618
为输入序列到单元激活的权值矩阵,
Figure BDA00009539402500000619
为隐层到LSTM细胞的权值矩阵,
Figure BDA00009539402500000620
为单元激活的偏置;
Figure BDA00009539402500000621
其中,
Figure BDA00009539402500000622
为t时刻输出门的输出,
Figure BDA00009539402500000623
为输入序列到输出门的权值矩阵,
Figure BDA00009539402500000624
为隐层到输出门的权值矩阵,
Figure BDA00009539402500000625
为单元激活到输出门的权值矩阵,
Figure BDA00009539402500000626
为输出门的偏置;
Figure BDA00009539402500000627
通过对上述公式(10)-(14)的计算,得出所述反向递归神经网络隐层的最终的输出结果
Figure BDA00009539402500000628
其中,上述所有公式中提到的权值矩阵和偏置构成整个神经网络的参数w的集合;即
Figure BDA00009539402500000629
其中,
Figure BDA00009539402500000630
Figure BDA00009539402500000631
Figure BDA0000953940250000071
通过计算得出的所述前向递归神经网络隐层和所述反向递归神经网络隐层的最终输出结果,即
Figure BDA0000953940250000072
Figure BDA0000953940250000073
二者组成所述整个网络的隐层输出
Figure BDA0000953940250000074
Figure BDA0000953940250000075
带入公式(3),得到神经网络的最终输出,即y。
(2)、根据上述步骤(1)中的声学模型建模单元为音素,采用connectionisttemporal classification(CTC)准则,在CTC准则中引入了blank符号辅助对齐,构建和计算目标函数,具体计算过程如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列可以表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),可以用(15)式描述:
Figure BDA0000953940250000076
其中
Figure BDA0000953940250000077
表示在时刻t神经网络输出pt的后验概率;
blank可以出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,用(16)式描述:
Figure BDA0000953940250000078
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z可以若干带有blank的对齐序列。
随后,计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为
Figure BDA0000953940250000079
根据所述的偏导数
Figure BDA00009539402500000710
使用误差反向传播算法(error back propagation,BP)来计算参数集合ω的梯度g;
(3)、基于上述步骤(1)所提供的一阶梯度信息,即g,结合ADADELTA自适应学习率的方法,对神经网络中的参数集合ω中的任意一个参数进行更新,计算方法如下:
Figure BDA0000953940250000081
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
Figure BDA0000953940250000082
其中,∈是为了防止数学运算错误,RMS[g]t为梯度gt均方根值;
Figure BDA0000953940250000083
其中,Δwt表示t时刻神经网络中参数ω的更新值,RMS[Δω]t-1为t-1时刻的更新值的均方根值;
Figure BDA0000953940250000084
其中,E[Δω2]t表示t时刻参数ω累加更新值平方的期望,E[Δω2]t-1表示t-1时刻参数ω累加更新值平方的期望;
假设E[Δω2]0表示E[Δω2]t初始化为0;
ωt+1=ωt+Δωt (21)
其中,ωt+1为更新后的参数值,ωt为当前参数值。
本发明实验使用数据为Switchboard数据集,其中训练数据总共为全部训练数据的子集,时长共110小时的电话交谈语音,测试数据为Hub5’00中的Switchboard测试集。测试评价指标有训练过程中的标注正确率(label accuracy rate,LAC)和测试集的字错误率(word error rate,WER)。测试结果如下表:
Figure BDA0000953940250000085
Figure BDA0000953940250000091
由表中可以看出,采用本发明的方法后,在训练集和验证集的标注正确率上分别有接近6%和1%的绝对提升,而字错误率也有0.9%的绝对提升。因此,通过使用ADADELTA方法可以简化语音识别的框架,并且明显提升端到端的语音识别系统的识别性能。
最后需要说明的是,具体实施方式中所述的实验用图仅用来说明本发明的技术方案软件算法的可行性而非局限于此例,算法已经经过大量实验数据验证,是真实可靠的,搭配硬件便可实现本发明的技术方案。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于自适应学习率的端到端的语音识别方法;其特征在于,该方法具体包括:
步骤(1)、采用双向递归神经网络作为声学模型,分别计算前向递归神经网络隐层
Figure FDA0002724172790000014
和反向递归神经网络隐层
Figure FDA0002724172790000016
再采用长短时记忆单元分别替代所述前向递归神经网络隐层
Figure FDA0002724172790000015
和所述反向递归神经网络隐层
Figure FDA0002724172790000017
得到神经网络的最终输出,即y;
步骤(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionisttemporal classification准则,即CTC准则;在CTC准则中引入了blank符号辅助对齐,构建和计算目标函数;再对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法来计算包含所述步骤(1)中权值矩阵的参数集合w的梯度g;
步骤(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述步骤(1)中权值矩阵中的参数集合w进行更新;
计算包含所述步骤(1)中权值矩阵的参数集合w的梯度g如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),
Figure FDA0002724172790000011
其中,
Figure FDA0002724172790000012
表示在时刻t神经网络输出pt的后验概率;
blank出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,
Figure FDA0002724172790000013
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z若干带有blank的对齐序列;
计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为
Figure FDA0002724172790000021
根据所述的偏导数
Figure FDA0002724172790000022
采用误差反向传播算法来计算参数集合w的梯度g。
2.根据权利要求1所述的一种基于自适应学习率的端到端的语音识别方法;其特征在于,所述参数集合w包括构成整个神经网络集合的权值矩阵和偏置。
3.根据权利要求1所述的一种基于自适应学习率的端到端的语音识别方法;其特征在于,所述ADADELTA自适应学习率的方法,其计算方法如下:
Figure FDA0002724172790000023
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
Figure FDA0002724172790000024
其中,∈用于防止数学运算错误,RMS[g]t为梯度gt均方根值;
Figure FDA0002724172790000025
其中,Δwt表示t时刻神经网络中参数集合w中的任一参数的更新值,RMS[Δw]t-1为t-1时刻的更新值的均方根值;
Figure FDA0002724172790000026
其中,E[Δw2]t表示t时刻参数w中的任一参数的累加更新值平方的期望,
E[Δw2]t-1表示t-1时刻参数w中的任一参数的累加更新值平方的期望;
假设E[Δw2]0表示E[Δw2]t初始化为0;
wt+1=wt+Δwt
其中,wt+1为更新后的参数值,wt为当前参数值。
CN201610192763.XA 2016-03-30 2016-03-30 一种基于自适应学习率的端到端的语音识别方法 Active CN107293291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610192763.XA CN107293291B (zh) 2016-03-30 2016-03-30 一种基于自适应学习率的端到端的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610192763.XA CN107293291B (zh) 2016-03-30 2016-03-30 一种基于自适应学习率的端到端的语音识别方法

Publications (2)

Publication Number Publication Date
CN107293291A CN107293291A (zh) 2017-10-24
CN107293291B true CN107293291B (zh) 2021-03-16

Family

ID=60086614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610192763.XA Active CN107293291B (zh) 2016-03-30 2016-03-30 一种基于自适应学习率的端到端的语音识别方法

Country Status (1)

Country Link
CN (1) CN107293291B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754790B (zh) * 2017-11-01 2020-11-06 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
CN109065032B (zh) * 2018-07-16 2020-09-22 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN109243494B (zh) * 2018-10-30 2022-10-11 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109346064B (zh) * 2018-12-13 2021-07-27 思必驰科技股份有限公司 用于端到端语音识别模型的训练方法及系统
CN109523995B (zh) * 2018-12-26 2019-07-09 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110033766A (zh) * 2019-04-17 2019-07-19 重庆大学 一种基于二值化递归神经网络的语音识别方法
CN110210480B (zh) * 2019-06-05 2021-08-10 北京旷视科技有限公司 文字识别方法、装置、电子设备和计算机可读存储介质
CN110784228B (zh) * 2019-10-23 2023-07-25 武汉理工大学 一种基于lstm模型的地铁结构振动信号的压缩方法
CN111243578A (zh) * 2020-01-10 2020-06-05 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111243574B (zh) * 2020-01-13 2023-01-03 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
CN111429887B (zh) * 2020-04-20 2023-05-30 合肥讯飞数码科技有限公司 基于端到端的语音关键词识别方法、装置以及设备
CN111695297B (zh) * 2020-06-02 2022-08-02 哈尔滨工程大学 一种近海面气温反演方法
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制系统、方法及计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105139864B (zh) * 2015-08-17 2019-05-07 北京眼神智能科技有限公司 语音识别方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADADELTA: An Adaptive Learning Rate Method;Matthew D. Zeiler;《Computer Science》;20121222;第3节ADADELTA方法 *
Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural"networks;Graves,Alex;Fernandez,Santiago;Gomez,Faustino;Schmidhuber,Jurgen;《ICML 2006: 23rd International Conference on Machine Learning》;20061231;第369页-第376页 *

Also Published As

Publication number Publication date
CN107293291A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107293291B (zh) 一种基于自适应学习率的端到端的语音识别方法
Shan et al. Component fusion: Learning replaceable language model component for end-to-end speech recognition system
CN104538028B (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
US9786270B2 (en) Generating acoustic models
CN103049792B (zh) 深层神经网络的辨别预训练
Sainath et al. Auto-encoder bottleneck features using deep belief networks
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
CN105139864B (zh) 语音识别方法和装置
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN109671423B (zh) 训练数据有限情形下的非平行文本语音转换方法
CN111985523A (zh) 基于知识蒸馏训练的2指数幂深度神经网络量化方法
Mallidi et al. Uncertainty estimation of DNN classifiers
CN110289002B (zh) 一种端到端的说话人聚类方法及系统
Yu et al. Factorized deep neural networks for adaptive speech recognition
Huang et al. Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
CN105845130A (zh) 用于语音识别的声学模型训练方法及装置
Huang et al. Bayesian unsupervised batch and online speaker adaptation of activation function parameters in deep models for automatic speech recognition
Bacchiani et al. Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition
CN113488023A (zh) 一种语种识别模型构建方法、语种识别方法
Huang et al. Regularized sequence-level deep neural network model adaptation.
Li et al. Semi-supervised ensemble DNN acoustic model training
Regmi et al. Nepali speech recognition using rnn-ctc model
GB2607133A (en) Knowledge distillation using deep clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant