CN111401530A - 循环神经网络及其训练方法训练方法 - Google Patents

循环神经网络及其训练方法训练方法 Download PDF

Info

Publication number
CN111401530A
CN111401530A CN202010323668.5A CN202010323668A CN111401530A CN 111401530 A CN111401530 A CN 111401530A CN 202010323668 A CN202010323668 A CN 202010323668A CN 111401530 A CN111401530 A CN 111401530A
Authority
CN
China
Prior art keywords
layer
network
recurrent neural
neural network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010323668.5A
Other languages
English (en)
Other versions
CN111401530B (zh
Inventor
康燕斌
张志齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yitu Network Science and Technology Co Ltd
Original Assignee
Shanghai Yitu Network Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yitu Network Science and Technology Co Ltd filed Critical Shanghai Yitu Network Science and Technology Co Ltd
Priority to CN202010323668.5A priority Critical patent/CN111401530B/zh
Publication of CN111401530A publication Critical patent/CN111401530A/zh
Priority to PCT/CN2020/105359 priority patent/WO2021212684A1/zh
Application granted granted Critical
Publication of CN111401530B publication Critical patent/CN111401530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种循环神经网络,包括:基线模型,由2层LSTM网络层连接形成;延伸模型,延伸模型包括多层残差网络层,各层的残差网络层由一层LSTM网络层和一层加法函数层连接形成,残差网络层的输入端连接上一层网络层的输出,加法函数层的两个输入端分别连接残差网络层的LSTM网络层的输出和上一层网络层的输出,加法函数层的输出作为残差网络层的输出。本发明还公开了一种循环神经网络的训练方法。本发明能加深采用LSTM网络层循环神经网络的深度,能提高训练效果和性能。

Description

循环神经网络及其训练方法训练方法
技术领域
本发明涉及语音识别,特别是涉及一种循环神经网络。本发明还涉及循环神经网络的训练方法。
背景技术
如图1所示,是现有的语音识别装置的模型结构图;现有循环神经网络(RNN)由2层长短期记忆(LSTM)网络层102连接形成。
图1中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层(convolution layer)101,所述循环神经网络,全连接层(Fully connected Layer)103和基于连接时序分类准则(Connectionist TemporalClassification,CTC)层104。
所述卷积层101接收声音的频谱信号,所述卷积层101的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层103连接到所述CTC层104。所述CTC层104提高CTC损失函数并用于对语音信号进行训练。
所述卷积层101的层数为1至3层,所述卷积层101通常为不变卷积层(Invariantconvolution layer)。
所述全连接层103为1层以上。
所述循环神经网络中,LSTM网络层102由多个LSTM网络节点105连接而成。图1中,所述LSTM网络层102为双向网络层。也即在各所述LSTM网络层102的宽度方向上,不同的LSTM网络节点105能互相传递信息如虚线圈106的两根箭头线所示。LSTM网络节点105中,通常设置有遗忘门来控制之前的LSTM网络节点105的输出对LSTM网络节点105的影响,遗忘门的控制函数采用输出0或1的sigmoid函数,通过在输入到LSTM网络节点105设置乘法模块,将遗忘门输出的控制信号和对应的其它节点输入到LSTM网络节点105的信号相层,能控制对应的输入信号是否输入还是不输入到LSTM网络节点105。除了遗忘门之外LSMT网络节点105中还包括输入门和输出门,也都是将0和1的信号和对应的信号相乘实现对信号的选择性输入,实现对信息流动的控制。
现有采用LSMT网络层102组成的循环神经网络的缺点是,仅能使用2层左右的循环神经网络;当层数提高时, 会导致训练无法收敛, 或者训练效果显著差于浅层网络,从而无法进一步提高循环网络的性能。
发明内容
本发明所要解决的技术问题是提供一种循环神经网络,能加深网络层的深度。本发明还提供一种循环神经网络的训练方法。
为解决上述技术问题,本发明提供的循环神经网络包括:
基线模型,由2层LSTM网络层连接形成。
延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
进一步的改进是,所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
进一步的改进是,所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
进一步的改进是,所述循环神经网络用于语音识别装置。
进一步的改进是,所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层。
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
进一步的改进是,所述卷积层为1至3层。
进一步的改进是,所述全连接层为1层以上。
进一步的改进是,所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层,网络节点都为LSTM网络节点;对于残差网络层,网络节点都为残差网络节点。
进一步的改进是,所述循环神经网络中的各网络层都为双向网络层。
为解决上述技术问题,本发明提供的循环神经网络的训练方法包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层连接形成。
步骤二、对所述基线模型进行初始化,从第1层所述LSTM网络层开始对所述循环神经网络进行训练。
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
每增加一层所述残差网络层,则进行一次所述循环神经网络的训练,增加所述残差网络层的分步骤包括:
步骤31、增加一层新的所述残差网络层,令新增加的所述残差网络层为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化。
步骤32、对第K+1层所述残差网络层进行训练。
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值。
如果所述性能测试结果的提升值大于阈值,则进行步骤34。
如果所述性能测试结果的提升值小于阈值,则进行步骤35。
步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中,之后重复步骤31。
步骤35、训练结束,停止继续增加所述残差网络层,以已有的K层网络层作为所述循环神经网络。
进一步的改进是,所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
进一步的改进是,步骤33中的所述阈值为3%。
进一步的改进是,所述循环神经网络用于语音识别装置。
进一步的改进是,所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层。
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
进一步的改进是,所述卷积层为1至3层。
进一步的改进是,所述全连接层为1层以上。
进一步的改进是,所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层,网络节点都为LSTM网络节点;对于残差网络层,网络节点都为残差网络节点。
进一步的改进是,所述循环神经网络中的各网络层都为双向网络层。
本发明循环神经网络在由2层LSTM网络层组成的基线模型的基础上,增加了残差网络层且残差网络层是由LSTM网络层和加法函数层连接形成,残差网络层能在增加循环神经网络的深度的同时还能保持收敛,最后能实现提高网络深度,并从而能提高训练效果和性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是现有语音识别装置的模型结构图;
图2是本发明实施例的语音识别装置的模型结构图;
图3是本发明实施例循环神经网络训练方法的流程图。
具体实施方式
如图2所示,是本发明实施例的语音识别装置的模型结构图;本发明实施例循环神经网络包括:
基线模型,由2层LSTM网络层2连接形成。
延伸模型,所述延伸模型包括多层残差网络层3,各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成,所述残差网络层3的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层3的输出。
所述延伸模型所包括的所述残差网络层3的深度为1至7层,循环神经网络的深度为3至9层。
所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
本发明实施例中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层1,所述循环神经网络,全连接层4和CTC层5。
所述卷积层1接收声音的频谱信号,所述卷积层1的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层4连接到所述CTC层5。所述CTC层5提高CTC损失函数并用于对语音信号进行训练。
所述卷积层1的层数为1至3层,所述卷积层1通常为不变卷积层。
所述全连接层4为1层以上。
所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层2,网络节点都为LSTM网络节点6;对于残差网络层3,网络节点都为残差网络节点8。由图2所示可知,所述残差网络节点8由一个LSTM网络节点6和一个加法函数节点9组成,加法函数节点9在图2中也采用ADD表示,各所述加法函数节点9组成所述加法函数层。
所述循环神经网络中的各网络层都为双向网络层。也即在各所述网络层的宽度方向上,不同的网络节点能互相传递信息如虚线圈7的两根箭头线所示。图2中,各网络层仅详细描述了一个网络层的网络节点的详细信息,采用三个点表示网络层中包含有更多的网络节点。
在所述循环神经网络的深度方向上,各所述网络层的网络节点数相同且具有一一对应的关系。
对于一个所述残差网络节点8,前一个所述网络节点的输出分别输入到LSTM网络节点6和加法函数节点9,所述残差网络节点8中的LSTM网络节点6的输出也输入到所述加法函数节点9,以加法函数节点9的输出作为所述残差网络节点8的输出。对于第K+1层网络层为所述残差网络层3时,所述残差网络层3中对应的所述残差网络节点8的输出信号可以采用如下公式表示:
output_{k+1}=LSTM_{k+1}(output_k)+output_k;
其中,output_{k+1}表示第K+1层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
output_{k}表示第K层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
LSTM_{k+1}()表示第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的函数表达式;
LSTM_{k+1}(output_k)则表示输入为output_k时第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的输出。
而对于基线模型,即前两个所述LSTM网络层2,各LSTM网络节点6的输出信号为:LSTM_{k}(output_{k-1});LSTM_{k}()表示第K层LSTM网络层2的所述LSTM网络节点6的函数表达式;LSTM_{k}(output_{k-1})则表示输入为output_{k-1}时第K层LSTM网络层2的所述LSTM网络节点6的输出。
本发明实施例循环神经网络在由2层LSTM网络层2组成的基线模型的基础上,增加了残差网络层3且残差网络层3是由LSTM网络层2和加法函数层连接形成,残差网络层3能在增加循环神经网络的深度的同时还能保持收敛,最后能实现提高网络深度,并从而能提高训练效果和性能。
如图3所示,是本发明实施例循环神经网络训练方法的流程图;本发明实施例循环神经网络的训练方法包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层2连接形成。步骤一对应于图3中标记301所示步骤。
步骤二、对所述基线模型进行初始化,该初始化对应于图3中标记302所示步骤。
从第1层所述LSTM网络层2开始对所述循环神经网络进行训练。图3中,对第1层所述LSTM网络层2的训练步骤未直接示意,包括在所述初始化的步骤中。图3中标记303对应的步骤是从K=2开始的,K大于2时对应于后续的延伸模型的训练。
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层3,各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成,所述残差网络层3的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层3的输出。
每增加一层所述残差网络层3,则进行一次所述循环神经网络的训练即标记303对应的训练,增加所述残差网络层3的分步骤包括:
步骤31、增加一层新的所述残差网络层3,令新增加的所述残差网络层3为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化。
如标记307对应的步骤所示,通常增加了一层所述残差网络层3后,为了便于循环训练,通常会重新设置K,K=K+1。
之后,如标记308对应的步骤所示,由于重新设置了K值之后,则有:前K-1层网络层采用已训练参数对进行初始化,第K层网络层采用随机参数初始化。
步骤32、对第K+1层所述残差网络层3进行训练。即进行标记303所示步骤。
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值。即进行标记304所示步骤。
参考标记304对应的步骤所示:
如果所述性能测试结果的提升值大于阈值,则进行步骤34。步骤33中的所述阈值为3%。
如果所述性能测试结果的提升值小于阈值,则进行步骤35。
步骤34、将第K+1层所述残差网络层3增加到所述循环神经网络中,之后重复步骤31。
步骤35、如标记309对应的步骤所示,训练结束,停止继续增加所述残差网络层3,以已有的K层网络层作为所述循环神经网络。
本发明实施例方法能实现:所述延伸模型所包括的所述残差网络层3的深度为1至7层,循环神经网络的深度为3至9层。
本发明实施例方法中,所述循环神经网络用于语音识别装置。
所述语音识别装置包括:卷积层1,所述循环神经网络,全连接层4和CTC层5。
所述卷积层1接收声音的频谱信号,所述卷积层1的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层4连接到所述CTC层5。所述CTC层5提高CTC损失函数并用于对语音信号进行训练。
所述卷积层1的层数为1至3层,所述卷积层1通常为不变卷积层。
所述全连接层4为1层以上。
所述循环神经网络中,每一层网络层包括相同的网络节点;对于LSTM网络层2,网络节点都为LSTM网络节点6;对于残差网络层3,网络节点都为残差网络节点8。由图2所示可知,所述残差网络节点8由一个LSTM网络节点6和一个加法函数节点9组成,加法函数节点9在图2中也采用ADD表示,各所述加法函数节点9组成所述加法函数层。
所述循环神经网络中的各网络层都为双向网络层。也即在各所述网络层的宽度方向上,不同的网络节点能互相传递信息如虚线圈7的两根箭头线所示。图2中,各网络层仅详细描述了一个网络层的网络节点的详细信息,采用三个点表示网络层中包含有更多的网络节点。
在所述循环神经网络的深度方向上,各所述网络层的网络节点数相同且具有一一对应的关系。
对于一个所述残差网络节点8,前一个所述网络节点的输出分别输入到LSTM网络节点6和加法函数节点9,所述残差网络节点8中的LSTM网络节点6的输出也输入到所述加法函数节点9,以加法函数节点9的输出作为所述残差网络节点8的输出。对于第K+1层网络层为所述残差网络层3时,所述残差网络层3中对应的所述残差网络节点8的输出信号可以采用如下公式表示:
output_{k+1}=LSTM_{k+1}(output_k)+output_k;
其中,output_{k+1}表示第K+1层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
output_{k}表示第K层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出;
LSTM_{k+1}()表示第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的函数表达式;
LSTM_{k+1}(output_k)则表示输入为output_k时第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的输出。
而对于基线模型,即前两个所述LSTM网络层2,各LSTM网络节点6的输出信号为:LSTM_{k}(output_{k-1});LSTM_{k}()表示第K层LSTM网络层2的所述LSTM网络节点6的函数表达式;LSTM_{k}(output_{k-1})则表示输入为output_{k-1}时第K层LSTM网络层2的所述LSTM网络节点6的输出。
以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。

Claims (10)

1.一种循环神经网络,其特征在于,包括:
基线模型,由2层LSTM网络层连接形成;
延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出。
2.如权利要求1所述的循环神经网络,其特征在于:所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
3.如权利要求2所述的循环神经网络,其特征在于:所述延伸模型的延伸深度通过训练确认,当增加一层所述残差网络时训练结果变差,则以增加的所述残差网络之前的深度为所述循环神经网络的深度。
4.如权利要求1所述的循环神经网络,其特征在于:所述循环神经网络用于语音识别装置。
5.如权利要求4所述的循环神经网络,其特征在于:所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层;
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
6.一种循环神经网络的训练方法,其特征在于,包括如下步骤:
步骤一、提供循环神经网络的基线模型,所述基线模型由2层LSTM网络层连接形成;
步骤二、对所述基线模型进行初始化,从第1层所述LSTM网络层开始对所述循环神经网络进行训练;
步骤三、在所述基线模型的基础上增加延伸模型,所述延伸模型包括多层残差网络层,各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成,所述残差网络层的输入端连接上一层网络层的输出,所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出,所述加法函数层的输出作为所述残差网络层的输出;
每增加一层所述残差网络层,则进行一次所述循环神经网络的训练,增加所述残差网络层的分步骤包括:
步骤31、增加一层新的所述残差网络层,令新增加的所述残差网络层为第K+1层,前K层网络层都已训练好,采用以训练好的模型对前K层网络层进行初始化,第K+1层网络采用随机参数进行初始化;
步骤32、对第K+1层所述残差网络层进行训练;
步骤33、进行性能测试,检查性能测试结果的提升值是否大于阈值;
如果所述性能测试结果的提升值大于阈值,则进行步骤34;
如果所述性能测试结果的提升值小于阈值,则进行步骤35;
步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中,之后重复步骤31;
步骤35、训练结束,停止继续增加所述残差网络层,以已有的K层网络层作为所述循环神经网络。
7.如权利要求6所述的循环神经网络的训练方法,其特征在于:所述延伸模型所包括的所述残差网络层的深度为1至7层,循环神经网络的深度为3至9层。
8.如权利要求6所述的循环神经网络的训练方法,其特征在于:步骤33中的所述阈值为3%。
9.如权利要求6所述的循环神经网络的训练方法,其特征在于:所述循环神经网络用于语音识别装置。
10.如权利要求9所述的循环神经网络的训练方法,其特征在于:所述语音识别装置包括:卷积层,所述循环神经网络,全连接层和CTC层;
所述卷积层接收声音的频谱信号,所述卷积层的输出连接到所述循环神经网络中,所述循环深度网络通过所述全连接层连接到所述CTC层。
CN202010323668.5A 2020-04-22 2020-04-22 一种用于语音识别装置神经网络的训练方法 Active CN111401530B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010323668.5A CN111401530B (zh) 2020-04-22 2020-04-22 一种用于语音识别装置神经网络的训练方法
PCT/CN2020/105359 WO2021212684A1 (zh) 2020-04-22 2020-07-29 循环神经网络及其训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323668.5A CN111401530B (zh) 2020-04-22 2020-04-22 一种用于语音识别装置神经网络的训练方法

Publications (2)

Publication Number Publication Date
CN111401530A true CN111401530A (zh) 2020-07-10
CN111401530B CN111401530B (zh) 2021-04-09

Family

ID=71429759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323668.5A Active CN111401530B (zh) 2020-04-22 2020-04-22 一种用于语音识别装置神经网络的训练方法

Country Status (2)

Country Link
CN (1) CN111401530B (zh)
WO (1) WO2021212684A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212684A1 (zh) * 2020-04-22 2021-10-28 上海依图网络科技有限公司 循环神经网络及其训练方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756977B (zh) * 2022-06-16 2022-10-25 成都飞机工业(集团)有限责任公司 飞机交点孔镗削让刀量预测方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108847223A (zh) * 2018-06-20 2018-11-20 陕西科技大学 一种基于深度残差神经网络的语音识别方法
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110895933A (zh) * 2018-09-05 2020-03-20 中国科学院声学研究所 一种基于空时残差神经网络的远场语音识别方法
CN110992941A (zh) * 2019-10-22 2020-04-10 国网天津静海供电有限公司 一种基于语谱图的电网调度语音识别方法及装置
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192327B1 (en) * 2016-02-04 2019-01-29 Google Llc Image compression with recurrent neural networks
CN111401530B (zh) * 2020-04-22 2021-04-09 上海依图网络科技有限公司 一种用于语音识别装置神经网络的训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
CN108847223A (zh) * 2018-06-20 2018-11-20 陕西科技大学 一种基于深度残差神经网络的语音识别方法
CN110895933A (zh) * 2018-09-05 2020-03-20 中国科学院声学研究所 一种基于空时残差神经网络的远场语音识别方法
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110992941A (zh) * 2019-10-22 2020-04-10 国网天津静海供电有限公司 一种基于语谱图的电网调度语音识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAMUEL THOMAS 等: "English Broadcast News Speech Recognition by Humans and Machines", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
YUJIE FENG 等: "End-to-end speech recognition system based on improved CLDNN structure", 《2019 IEEE 8TH JOINT INTERNATIONAL INFORMATION TECHNOLOGY AND ARTIFICIAL INTELLIGENCE CONFERENCE (ITAIC)》 *
子传东海的店: "基于深度学习的数据驱动软测量的发展", 《HTTPS://WK.BAIDU.COM/VIEW/1184EE58F7335A8102D276A20029BD64783E62BB》 *
王一婷 等: "人工智能识别主持人情感", 《中国广播电视学刊》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212684A1 (zh) * 2020-04-22 2021-10-28 上海依图网络科技有限公司 循环神经网络及其训练方法

Also Published As

Publication number Publication date
WO2021212684A1 (zh) 2021-10-28
CN111401530B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
Deng et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition
CN107992844B (zh) 基于深度学习的人脸识别系统及方法
CN111401530A (zh) 循环神经网络及其训练方法训练方法
CN109101545A (zh) 基于人机交互的自然语言处理方法、装置、设备和介质
CN106328126A (zh) 远场语音识别处理方法及装置
CN108735199B (zh) 一种声学模型的自适应训练方法及系统
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
JP6601569B2 (ja) ニューラルネットワークモデルの訓練方法、装置及び電子機器
CN109086654A (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
CN109616102A (zh) 声学模型的训练方法、装置及存储介质
US20110150301A1 (en) Face Identification Method and System Using Thereof
CN108847223A (zh) 一种基于深度残差神经网络的语音识别方法
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
Che et al. Spatial-temporal hybrid feature extraction network for few-shot automatic modulation classification
CN110263164A (zh) 一种基于模型融合的情感倾向分析方法
CN110751944A (zh) 构建语音识别模型的方法、装置、设备和存储介质
WO2022036921A1 (zh) 目标模型的获取
CN113539244A (zh) 端到端语音识别模型训练方法、语音识别方法及相关装置
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN113488060A (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN109978003A (zh) 基于密集连接残差网络的图像分类方法
CN112509559B (zh) 音频识别方法、模型训练方法、装置、设备及存储介质
CN114818859A (zh) 热力管网状况诊断方法、装置、终端设备和存储介质
KR20210058548A (ko) 인공 신경망을 이용한 자동변속기 모델링 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant