CN111401530A - 循环神经网络及其训练方法训练方法 - Google Patents
循环神经网络及其训练方法训练方法 Download PDFInfo
- Publication number
- CN111401530A CN111401530A CN202010323668.5A CN202010323668A CN111401530A CN 111401530 A CN111401530 A CN 111401530A CN 202010323668 A CN202010323668 A CN 202010323668A CN 111401530 A CN111401530 A CN 111401530A
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- recurrent neural
- neural network
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种循环神经网络,包括:基线模型,由2层LSTM网络层连接形成;延伸模型,延伸模型包括多层残差网络层,各层的残差网络层由一层LSTM网络层和一层加法函数层连接形成,残差网络层的输入端连接上一层网络层的输出,加法函数层的两个输入端分别连接残差网络层的LSTM网络层的输出和上一层网络层的输出,加法函数层的输出作为残差网络层的输出。本发明还公开了一种循环神经网络的训练方法。本发明能加深采用LSTM网络层循环神经网络的深度,能提高训练效果和性能。
Description
技术领域
本发明涉及语音识别,特别是涉及一种循环神经网络。本发明还涉及循环神经网络的训练方法。
背景技术
如图1所示,是现有的语音识别装置的模型结构图;现有循环神经网络(RNN)由2层长短期记忆(LSTM)网络层102连接形成。
图1中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层(convolution layer)101,所述循环神经网络,全连接层(Fully connected Layer)103和基于连接时序分类准则(Connectionist TemporalClassification,CTC)层104。
所述卷积层101接收声音的频谱信号,所述卷积层101的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层103连接到所述CTC层104。所述CTC层104提高CTC损失函数并用于对语音信号进行训练。
所述卷积层101的层数为1至3层,所述卷积层101通常为不变卷积层(Invariantconvolution layer)。
所述全连接层103为1层以上。
所述循环神经网络中,LSTM网络层102由多个LSTM网络节点105连接而成。图1中,所述LSTM网络层102为双向网络层。也即在各所述LSTM网络层102的宽度方向上,不同的LSTM网络节点105能互相传递信息如虚线圈106的两根箭头线所示。LSTM网络节点105中,通常设置有遗忘门来控制之前的LSTM网络节点105的输出对LSTM网络节点105的影响,遗忘门的控制函数采用输出0或1的sigmoid函数,通过在输入到LSTM网络节点105设置乘法模块,将遗忘门输出的控制信号和对应的其它节点输入到LSTM网络节点105的信号相层,能控制对应的输入信号是否输入还是不输入到LSTM网络节点105。除了遗忘门之外LSMT网络节点105中还包括输入门和输出门,也都是将0和1的信号和对应的信号相乘实现对信号的选择性输入,实现对信息流动的控制。
现有采用LSMT网络层102组成的循环神经网络的缺点是,仅能使用2层左右的循环神经网络;当层数提高时, 会导致训练无法收敛, 或者训练效果显著差于浅层网络,从而无法进一步提高循环网络的性能。
发明内容
本发明所要解决的技术问题是提供一种循环神经网络,能加深网络层的深度。本发明还提供一种循环神经网络的训练方法。
为解决上述技术问题,本发明提供的循环神经网络包括:
基线模型,由2层LSTM网络层连接形成。
延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
进一步的改进是,所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
进一步的改进是,所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
进一步的改进是,所述循环神经网络用于语音识别装置。
进一步的改进是,所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层。
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
进一步的改进是,所述卷积层为1至3层。
进一步的改进是,所述全连接层为1层以上。
进一步的改进是,所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层,网络节点都为LSTM网络节点;对于残差网络层,网络节点都为残差网络节点。
进一步的改进是,所述循环神经网络中的各网络层都为双向网络层。
为解决上述技术问题,本发明提供的循环神经网络的训练方法包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层连接形成。
步骤二、对所述基线模型进行初始化,从第1层所述LSTM网络层开始对所述循环神经网络进行训练。
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
每增加一层所述残差网络层,则进行一次所述循环神经网络的训练,增加所述残差网络层的分步骤包括:
步骤31、增加一层新的所述残差网络层,令新增加的所述残差网络层为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化。
步骤32、对第K+1层所述残差网络层进行训练。
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值。
如果所述性能测试结果的提升值大于阈值,则进行步骤34。
如果所述性能测试结果的提升值小于阈值,则进行步骤35。
步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中,之后重复步骤31。
步骤35、训练结束,停止继续增加所述残差网络层,以已有的K层网络层作为所述循环神经网络。
进一步的改进是,所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
进一步的改进是,步骤33中的所述阈值为3%。
进一步的改进是,所述循环神经网络用于语音识别装置。
进一步的改进是,所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层。
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
进一步的改进是,所述卷积层为1至3层。
进一步的改进是,所述全连接层为1层以上。
进一步的改进是,所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层,网络节点都为LSTM网络节点;对于残差网络层,网络节点都为残差网络节点。
进一步的改进是,所述循环神经网络中的各网络层都为双向网络层。
本发明循环神经网络在由2层LSTM网络层组成的基线模型的基础上,增加了残差网络层且残差网络层是由LSTM网络层和加法函数层连接形成,残差网络层能在增加循环神经网络的深度的同时还能保持收敛,最后能实现提高网络深度,并从而能提高训练效果和性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是现有语音识别装置的模型结构图;
图2是本发明实施例的语音识别装置的模型结构图;
图3是本发明实施例循环神经网络训练方法的流程图。
具体实施方式
如图2所示,是本发明实施例的语音识别装置的模型结构图;本发明实施例循环神经网络包括:
基线模型,由2层LSTM网络层2连接形成。
延伸模型,所述延伸模型包括多层残差网络层3,各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成,所述残差网络层3的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层3的输出。
所述延伸模型所包括的所述残差网络层3的深度为1至7层,循环神经网络的深度为3至9层。
所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
本发明实施例中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层1,所述循环神经网络,全连接层4和CTC层5。
所述卷积层1接收声音的频谱信号,所述卷积层1的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层4连接到所述CTC层5。所述CTC层5提高CTC损失函数并用于对语音信号进行训练。
所述卷积层1的层数为1至3层,所述卷积层1通常为不变卷积层。
所述全连接层4为1层以上。
所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层2,网络节点都为LSTM网络节点6;对于残差网络层3,网络节点都为残差网络节点8。由图2所示可知,所述残差网络节点8由一个LSTM网络节点6和一个加法函数节点9组成,加法函数节点9在图2中也采用ADD表示,各所述加法函数节点9组成所述加法函数层。
所述循环神经网络中的各网络层都为双向网络层。也即在各所述网络层的宽度方向上,不同的网络节点能互相传递信息如虚线圈7的两根箭头线所示。图2中,各网络层仅详细描述了一个网络层的网络节点的详细信息,采用三个点表示网络层中包含有更多的网络节点。
在所述循环神经网络的深度方向上,各所述网络层的网络节点数相同且具有一一对应的关系。
对于一个所述残差网络节点8,前一个所述网络节点的输出分别输入到LSTM网络节点6和加法函数节点9,所述残差网络节点8中的LSTM网络节点6的输出也输入到所述加法函数节点9,以加法函数节点9的输出作为所述残差网络节点8的输出。对于第K+1层网络层为所述残差网络层3时,所述残差网络层3中对应的所述残差网络节点8的输出信号可以采用如下公式表示:
output_{k+1}=LSTM_{k+1}(output_k)+output_k;
其中,output_{k+1}表示第K+1层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
output_{k}表示第K层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
LSTM_{k+1}()表示第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的函数表达式;
LSTM_{k+1}(output_k)则表示输入为output_k时第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的输出。
而对于基线模型,即前两个所述LSTM网络层2,各LSTM网络节点6的输出信号为:LSTM_{k}(output_{k-1});LSTM_{k}()表示第K层LSTM网络层2的所述LSTM网络节点6的函数表达式;LSTM_{k}(output_{k-1})则表示输入为output_{k-1}时第K层LSTM网络层2的所述LSTM网络节点6的输出。
本发明实施例循环神经网络在由2层LSTM网络层2组成的基线模型的基础上,增加了残差网络层3且残差网络层3是由LSTM网络层2和加法函数层连接形成,残差网络层3能在增加循环神经网络的深度的同时还能保持收敛,最后能实现提高网络深度,并从而能提高训练效果和性能。
如图3所示,是本发明实施例循环神经网络训练方法的流程图;本发明实施例循环神经网络的训练方法包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层2连接形成。步骤一对应于图3中标记301所示步骤。
步骤二、对所述基线模型进行初始化,该初始化对应于图3中标记302所示步骤。
从第1层所述LSTM网络层2开始对所述循环神经网络进行训练。图3中,对第1层所述LSTM网络层2的训练步骤未直接示意,包括在所述初始化的步骤中。图3中标记303对应的步骤是从K=2开始的,K大于2时对应于后续的延伸模型的训练。
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层3,各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成,所述残差网络层3的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层3的输出。
每增加一层所述残差网络层3,则进行一次所述循环神经网络的训练即标记303对应的训练,增加所述残差网络层3的分步骤包括:
步骤31、增加一层新的所述残差网络层3,令新增加的所述残差网络层3为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化。
如标记307对应的步骤所示,通常增加了一层所述残差网络层3后,为了便于循环训练,通常会重新设置K,K=K+1。
之后,如标记308对应的步骤所示,由于重新设置了K值之后,则有:前K-1层网络层采用已训练参数对进行初始化,第K层网络层采用随机参数初始化。
步骤32、对第K+1层所述残差网络层3进行训练。即进行标记303所示步骤。
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值。即进行标记304所示步骤。
参考标记304对应的步骤所示:
如果所述性能测试结果的提升值大于阈值,则进行步骤34。步骤33中的所述阈值为3%。
如果所述性能测试结果的提升值小于阈值,则进行步骤35。
步骤34、将第K+1层所述残差网络层3增加到所述循环神经网络中,之后重复步骤31。
步骤35、如标记309对应的步骤所示,训练结束,停止继续增加所述残差网络层3,以已有的K层网络层作为所述循环神经网络。
本发明实施例方法能实现:所述延伸模型所包括的所述残差网络层3的深度为1至7层,循环神经网络的深度为3至9层。
本发明实施例方法中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层1,所述循环神经网络,全连接层4和CTC层5。
所述卷积层1接收声音的频谱信号,所述卷积层1的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层4连接到所述CTC层5。所述CTC层5提高CTC损失函数并用于对语音信号进行训练。
所述卷积层1的层数为1至3层,所述卷积层1通常为不变卷积层。
所述全连接层4为1层以上。
所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层2,网络节点都为LSTM网络节点6;对于残差网络层3,网络节点都为残差网络节点8。由图2所示可知,所述残差网络节点8由一个LSTM网络节点6和一个加法函数节点9组成,加法函数节点9在图2中也采用ADD表示,各所述加法函数节点9组成所述加法函数层。
所述循环神经网络中的各网络层都为双向网络层。也即在各所述网络层的宽度方向上,不同的网络节点能互相传递信息如虚线圈7的两根箭头线所示。图2中,各网络层仅详细描述了一个网络层的网络节点的详细信息,采用三个点表示网络层中包含有更多的网络节点。
在所述循环神经网络的深度方向上,各所述网络层的网络节点数相同且具有一一对应的关系。
对于一个所述残差网络节点8,前一个所述网络节点的输出分别输入到LSTM网络节点6和加法函数节点9,所述残差网络节点8中的LSTM网络节点6的输出也输入到所述加法函数节点9,以加法函数节点9的输出作为所述残差网络节点8的输出。对于第K+1层网络层为所述残差网络层3时,所述残差网络层3中对应的所述残差网络节点8的输出信号可以采用如下公式表示:
output_{k+1}=LSTM_{k+1}(output_k)+output_k;
其中,output_{k+1}表示第K+1层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
output_{k}表示第K层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
LSTM_{k+1}()表示第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的函数表达式;
LSTM_{k+1}(output_k)则表示输入为output_k时第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的输出。
而对于基线模型,即前两个所述LSTM网络层2,各LSTM网络节点6的输出信号为:LSTM_{k}(output_{k-1});LSTM_{k}()表示第K层LSTM网络层2的所述LSTM网络节点6的函数表达式;LSTM_{k}(output_{k-1})则表示输入为output_{k-1}时第K层LSTM网络层2的所述LSTM网络节点6的输出。
以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。
Claims (10)
1.一种循环神经网络,其特征在于,包括:
基线模型,由2层LSTM网络层连接形成;
延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
2.如权利要求1所述的循环神经网络,其特征在于:所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
3.如权利要求2所述的循环神经网络,其特征在于:所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
4.如权利要求1所述的循环神经网络,其特征在于:所述循环神经网络用于语音识别装置。
5.如权利要求4所述的循环神经网络,其特征在于:所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层;
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
6.一种循环神经网络的训练方法,其特征在于,包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层连接形成;
步骤二、对所述基线模型进行初始化,从第1层所述LSTM网络层开始对所述循环神经网络进行训练;
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出;
每增加一层所述残差网络层,则进行一次所述循环神经网络的训练,增加所述残差网络层的分步骤包括:
步骤31、增加一层新的所述残差网络层,令新增加的所述残差网络层为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化;
步骤32、对第K+1层所述残差网络层进行训练;
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值;
如果所述性能测试结果的提升值大于阈值,则进行步骤34;
如果所述性能测试结果的提升值小于阈值,则进行步骤35;
步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中,之后重复步骤31;
步骤35、训练结束,停止继续增加所述残差网络层,以已有的K层网络层作为所述循环神经网络。
7.如权利要求6所述的循环神经网络的训练方法,其特征在于:所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
8.如权利要求6所述的循环神经网络的训练方法,其特征在于:步骤33中的所述阈值为3%。
9.如权利要求6所述的循环神经网络的训练方法,其特征在于:所述循环神经网络用于语音识别装置。
10.如权利要求9所述的循环神经网络的训练方法,其特征在于:所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层;
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323668.5A CN111401530B (zh) | 2020-04-22 | 2020-04-22 | 一种用于语音识别装置神经网络的训练方法 |
PCT/CN2020/105359 WO2021212684A1 (zh) | 2020-04-22 | 2020-07-29 | 循环神经网络及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323668.5A CN111401530B (zh) | 2020-04-22 | 2020-04-22 | 一种用于语音识别装置神经网络的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401530A true CN111401530A (zh) | 2020-07-10 |
CN111401530B CN111401530B (zh) | 2021-04-09 |
Family
ID=71429759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010323668.5A Active CN111401530B (zh) | 2020-04-22 | 2020-04-22 | 一种用于语音识别装置神经网络的训练方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111401530B (zh) |
WO (1) | WO2021212684A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212684A1 (zh) * | 2020-04-22 | 2021-10-28 | 上海依图网络科技有限公司 | 循环神经网络及其训练方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756977B (zh) * | 2022-06-16 | 2022-10-25 | 成都飞机工业(集团)有限责任公司 | 飞机交点孔镗削让刀量预测方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
US20190130896A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110895933A (zh) * | 2018-09-05 | 2020-03-20 | 中国科学院声学研究所 | 一种基于空时残差神经网络的远场语音识别方法 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
WO2020077232A1 (en) * | 2018-10-12 | 2020-04-16 | Cambridge Cancer Genomics Limited | Methods and systems for nucleic acid variant detection and analysis |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192327B1 (en) * | 2016-02-04 | 2019-01-29 | Google Llc | Image compression with recurrent neural networks |
CN111401530B (zh) * | 2020-04-22 | 2021-04-09 | 上海依图网络科技有限公司 | 一种用于语音识别装置神经网络的训练方法 |
-
2020
- 2020-04-22 CN CN202010323668.5A patent/CN111401530B/zh active Active
- 2020-07-29 WO PCT/CN2020/105359 patent/WO2021212684A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
US20190130896A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN110895933A (zh) * | 2018-09-05 | 2020-03-20 | 中国科学院声学研究所 | 一种基于空时残差神经网络的远场语音识别方法 |
WO2020077232A1 (en) * | 2018-10-12 | 2020-04-16 | Cambridge Cancer Genomics Limited | Methods and systems for nucleic acid variant detection and analysis |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
SAMUEL THOMAS 等: "English Broadcast News Speech Recognition by Humans and Machines", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
YUJIE FENG 等: "End-to-end speech recognition system based on improved CLDNN structure", 《2019 IEEE 8TH JOINT INTERNATIONAL INFORMATION TECHNOLOGY AND ARTIFICIAL INTELLIGENCE CONFERENCE (ITAIC)》 * |
子传东海的店: "基于深度学习的数据驱动软测量的发展", 《HTTPS://WK.BAIDU.COM/VIEW/1184EE58F7335A8102D276A20029BD64783E62BB》 * |
王一婷 等: "人工智能识别主持人情感", 《中国广播电视学刊》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212684A1 (zh) * | 2020-04-22 | 2021-10-28 | 上海依图网络科技有限公司 | 循环神经网络及其训练方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021212684A1 (zh) | 2021-10-28 |
CN111401530B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
Deng et al. | Autoencoder-based unsupervised domain adaptation for speech emotion recognition | |
CN107992844B (zh) | 基于深度学习的人脸识别系统及方法 | |
CN111401530A (zh) | 循环神经网络及其训练方法训练方法 | |
CN109101545A (zh) | 基于人机交互的自然语言处理方法、装置、设备和介质 | |
CN106328126A (zh) | 远场语音识别处理方法及装置 | |
CN108735199B (zh) | 一种声学模型的自适应训练方法及系统 | |
CN108829756B (zh) | 一种利用分层注意力上下文网络解决多轮视频问答的方法 | |
JP6601569B2 (ja) | ニューラルネットワークモデルの訓練方法、装置及び電子機器 | |
CN109086654A (zh) | 手写模型训练方法、文本识别方法、装置、设备及介质 | |
CN109616102A (zh) | 声学模型的训练方法、装置及存储介质 | |
US20110150301A1 (en) | Face Identification Method and System Using Thereof | |
CN108847223A (zh) | 一种基于深度残差神经网络的语音识别方法 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
Che et al. | Spatial-temporal hybrid feature extraction network for few-shot automatic modulation classification | |
CN110263164A (zh) | 一种基于模型融合的情感倾向分析方法 | |
CN110751944A (zh) | 构建语音识别模型的方法、装置、设备和存储介质 | |
WO2022036921A1 (zh) | 目标模型的获取 | |
CN113539244A (zh) | 端到端语音识别模型训练方法、语音识别方法及相关装置 | |
CN108985442B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN113488060A (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN109978003A (zh) | 基于密集连接残差网络的图像分类方法 | |
CN112509559B (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
CN114818859A (zh) | 热力管网状况诊断方法、装置、终端设备和存储介质 | |
KR20210058548A (ko) | 인공 신경망을 이용한 자동변속기 모델링 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |