CN111401530A

CN111401530A - 循环神经网络及其训练方法训练方法

Info

Publication number: CN111401530A
Application number: CN202010323668.5A
Authority: CN
Inventors: 康燕斌; 张志齐
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-07-10
Anticipated expiration: 2040-04-22
Also published as: WO2021212684A1; CN111401530B

Abstract

本发明公开了一种循环神经网络，包括：基线模型，由2层LSTM网络层连接形成；延伸模型，延伸模型包括多层残差网络层，各层的残差网络层由一层LSTM网络层和一层加法函数层连接形成，残差网络层的输入端连接上一层网络层的输出，加法函数层的两个输入端分别连接残差网络层的LSTM网络层的输出和上一层网络层的输出，加法函数层的输出作为残差网络层的输出。本发明还公开了一种循环神经网络的训练方法。本发明能加深采用LSTM网络层循环神经网络的深度，能提高训练效果和性能。

Description

循环神经网络及其训练方法训练方法

技术领域

本发明涉及语音识别，特别是涉及一种循环神经网络。本发明还涉及循环神经网络的训练方法。

背景技术

如图1所示，是现有的语音识别装置的模型结构图；现有循环神经网络（RNN）由2层长短期记忆（LSTM）网络层102连接形成。

图1中，所述循环神经网络用于语音识别装置。

所述语音识别装置包括：卷积层（convolution layer）101，所述循环神经网络，全连接层（Fully connected Layer）103和基于连接时序分类准则（Connectionist TemporalClassification，CTC）层104。

所述卷积层101接收声音的频谱信号，所述卷积层101的输出连接到所述循环神经网络中，所述循环深度网络通过所述全连接层103连接到所述CTC层104。所述CTC层104提高CTC损失函数并用于对语音信号进行训练。

所述卷积层101的层数为1至3层，所述卷积层101通常为不变卷积层（Invariantconvolution layer）。

所述全连接层103为1层以上。

所述循环神经网络中，LSTM网络层102由多个LSTM网络节点105连接而成。图1中，所述LSTM网络层102为双向网络层。也即在各所述LSTM网络层102的宽度方向上，不同的LSTM网络节点105能互相传递信息如虚线圈106的两根箭头线所示。LSTM网络节点105中，通常设置有遗忘门来控制之前的LSTM网络节点105的输出对LSTM网络节点105的影响，遗忘门的控制函数采用输出0或1的sigmoid函数，通过在输入到LSTM网络节点105设置乘法模块，将遗忘门输出的控制信号和对应的其它节点输入到LSTM网络节点105的信号相层，能控制对应的输入信号是否输入还是不输入到LSTM网络节点105。除了遗忘门之外LSMT网络节点105中还包括输入门和输出门，也都是将0和1的信号和对应的信号相乘实现对信号的选择性输入，实现对信息流动的控制。

现有采用LSMT网络层102组成的循环神经网络的缺点是，仅能使用2层左右的循环神经网络；当层数提高时, 会导致训练无法收敛, 或者训练效果显著差于浅层网络，从而无法进一步提高循环网络的性能。

发明内容

本发明所要解决的技术问题是提供一种循环神经网络，能加深网络层的深度。本发明还提供一种循环神经网络的训练方法。

为解决上述技术问题，本发明提供的循环神经网络包括：

基线模型，由2层LSTM网络层连接形成。

延伸模型，所述延伸模型包括多层残差网络层，各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成，所述残差网络层的输入端连接上一层网络层的输出，所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出，所述加法函数层的输出作为所述残差网络层的输出。

进一步的改进是，所述延伸模型所包括的所述残差网络层的深度为1至7层，循环神经网络的深度为3至9层。

进一步的改进是，所述延伸模型的延伸深度通过训练确认，当增加一层所述残差网络时训练结果变差，则以增加的所述残差网络之前的深度为所述循环神经网络的深度。

进一步的改进是，所述循环神经网络用于语音识别装置。

进一步的改进是，所述语音识别装置包括：卷积层，所述循环神经网络，全连接层和CTC层。

所述卷积层接收声音的频谱信号，所述卷积层的输出连接到所述循环神经网络中，所述循环深度网络通过所述全连接层连接到所述CTC层。

进一步的改进是，所述卷积层为1至3层。

进一步的改进是，所述全连接层为1层以上。

进一步的改进是，所述循环神经网络中，每一层网络层包括相同的网络节点；对于LSTM网络层，网络节点都为LSTM网络节点；对于残差网络层，网络节点都为残差网络节点。

进一步的改进是，所述循环神经网络中的各网络层都为双向网络层。

为解决上述技术问题，本发明提供的循环神经网络的训练方法包括如下步骤：

步骤一、提供循环神经网络的基线模型，所述基线模型由2层LSTM网络层连接形成。

步骤二、对所述基线模型进行初始化，从第1层所述LSTM网络层开始对所述循环神经网络进行训练。

步骤三、在所述基线模型的基础上增加延伸模型，所述延伸模型包括多层残差网络层，各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成，所述残差网络层的输入端连接上一层网络层的输出，所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出，所述加法函数层的输出作为所述残差网络层的输出。

每增加一层所述残差网络层，则进行一次所述循环神经网络的训练，增加所述残差网络层的分步骤包括：

步骤31、增加一层新的所述残差网络层，令新增加的所述残差网络层为第K+1层，前K层网络层都已训练好，采用以训练好的模型对前K层网络层进行初始化，第K+1层网络采用随机参数进行初始化。

步骤32、对第K+1层所述残差网络层进行训练。

步骤33、进行性能测试，检查性能测试结果的提升值是否大于阈值。

如果所述性能测试结果的提升值大于阈值，则进行步骤34。

如果所述性能测试结果的提升值小于阈值，则进行步骤35。

步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中，之后重复步骤31。

步骤35、训练结束，停止继续增加所述残差网络层，以已有的K层网络层作为所述循环神经网络。

进一步的改进是，步骤33中的所述阈值为3%。

进一步的改进是，所述循环神经网络用于语音识别装置。

进一步的改进是，所述卷积层为1至3层。

进一步的改进是，所述全连接层为1层以上。

本发明循环神经网络在由2层LSTM网络层组成的基线模型的基础上，增加了残差网络层且残差网络层是由LSTM网络层和加法函数层连接形成，残差网络层能在增加循环神经网络的深度的同时还能保持收敛，最后能实现提高网络深度，并从而能提高训练效果和性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明：

图1是现有语音识别装置的模型结构图；

图2是本发明实施例的语音识别装置的模型结构图；

图3是本发明实施例循环神经网络训练方法的流程图。

具体实施方式

如图2所示，是本发明实施例的语音识别装置的模型结构图；本发明实施例循环神经网络包括：

基线模型，由2层LSTM网络层2连接形成。

延伸模型，所述延伸模型包括多层残差网络层3，各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成，所述残差网络层3的输入端连接上一层网络层的输出，所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出，所述加法函数层的输出作为所述残差网络层3的输出。

所述延伸模型所包括的所述残差网络层3的深度为1至7层，循环神经网络的深度为3至9层。

所述延伸模型的延伸深度通过训练确认，当增加一层所述残差网络时训练结果变差，则以增加的所述残差网络之前的深度为所述循环神经网络的深度。

本发明实施例中，所述循环神经网络用于语音识别装置。

所述语音识别装置包括：卷积层1，所述循环神经网络，全连接层4和CTC层5。

所述卷积层1接收声音的频谱信号，所述卷积层1的输出连接到所述循环神经网络中，所述循环深度网络通过所述全连接层4连接到所述CTC层5。所述CTC层5提高CTC损失函数并用于对语音信号进行训练。

所述卷积层1的层数为1至3层，所述卷积层1通常为不变卷积层。

所述全连接层4为1层以上。

所述循环神经网络中，每一层网络层包括相同的网络节点；对于LSTM网络层2，网络节点都为LSTM网络节点6；对于残差网络层3，网络节点都为残差网络节点8。由图2所示可知，所述残差网络节点8由一个LSTM网络节点6和一个加法函数节点9组成，加法函数节点9在图2中也采用ADD表示，各所述加法函数节点9组成所述加法函数层。

所述循环神经网络中的各网络层都为双向网络层。也即在各所述网络层的宽度方向上，不同的网络节点能互相传递信息如虚线圈7的两根箭头线所示。图2中，各网络层仅详细描述了一个网络层的网络节点的详细信息，采用三个点表示网络层中包含有更多的网络节点。

在所述循环神经网络的深度方向上，各所述网络层的网络节点数相同且具有一一对应的关系。

对于一个所述残差网络节点8，前一个所述网络节点的输出分别输入到LSTM网络节点6和加法函数节点9，所述残差网络节点8中的LSTM网络节点6的输出也输入到所述加法函数节点9，以加法函数节点9的输出作为所述残差网络节点8的输出。对于第K+1层网络层为所述残差网络层3时，所述残差网络层3中对应的所述残差网络节点8的输出信号可以采用如下公式表示：

output_{k+1}=LSTM_{k+1}(output_k)+output_k；

其中，output_{k+1}表示第K+1层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出；

output_{k}表示第K层网络层的所述残差网络节点8的输出即所述加法函数节点9的输出；

LSTM_{k+1}()表示第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的函数表达式；

LSTM_{k+1}(output_k)则表示输入为output_k时第K+1层网络层的所述残差网络节点8中的LSTM网络节点6的输出。

而对于基线模型，即前两个所述LSTM网络层2，各LSTM网络节点6的输出信号为：LSTM_{k}(output_{k-1})；LSTM_{k}()表示第K层LSTM网络层2的所述LSTM网络节点6的函数表达式；LSTM_{k}(output_{k-1})则表示输入为output_{k-1}时第K层LSTM网络层2的所述LSTM网络节点6的输出。

本发明实施例循环神经网络在由2层LSTM网络层2组成的基线模型的基础上，增加了残差网络层3且残差网络层3是由LSTM网络层2和加法函数层连接形成，残差网络层3能在增加循环神经网络的深度的同时还能保持收敛，最后能实现提高网络深度，并从而能提高训练效果和性能。

如图3所示，是本发明实施例循环神经网络训练方法的流程图；本发明实施例循环神经网络的训练方法包括如下步骤：

步骤一、提供循环神经网络的基线模型，所述基线模型由2层LSTM网络层2连接形成。步骤一对应于图3中标记301所示步骤。

步骤二、对所述基线模型进行初始化，该初始化对应于图3中标记302所示步骤。

从第1层所述LSTM网络层2开始对所述循环神经网络进行训练。图3中，对第1层所述LSTM网络层2的训练步骤未直接示意，包括在所述初始化的步骤中。图3中标记303对应的步骤是从K=2开始的，K大于2时对应于后续的延伸模型的训练。

步骤三、在所述基线模型的基础上增加延伸模型，所述延伸模型包括多层残差网络层3，各层的所述残差网络层3由一层LSTM网络层2和一层加法函数层连接形成，所述残差网络层3的输入端连接上一层网络层的输出，所述加法函数层的两个输入端分别连接所述残差网络层3的LSTM网络层2的输出和上一层网络层的输出，所述加法函数层的输出作为所述残差网络层3的输出。

每增加一层所述残差网络层3，则进行一次所述循环神经网络的训练即标记303对应的训练，增加所述残差网络层3的分步骤包括：

步骤31、增加一层新的所述残差网络层3，令新增加的所述残差网络层3为第K+1层，前K层网络层都已训练好，采用以训练好的模型对前K层网络层进行初始化，第K+1层网络采用随机参数进行初始化。

如标记307对应的步骤所示，通常增加了一层所述残差网络层3后，为了便于循环训练，通常会重新设置K，K=K+1。

之后，如标记308对应的步骤所示，由于重新设置了K值之后，则有：前K-1层网络层采用已训练参数对进行初始化，第K层网络层采用随机参数初始化。

步骤32、对第K+1层所述残差网络层3进行训练。即进行标记303所示步骤。

步骤33、进行性能测试，检查性能测试结果的提升值是否大于阈值。即进行标记304所示步骤。

参考标记304对应的步骤所示：

如果所述性能测试结果的提升值大于阈值，则进行步骤34。步骤33中的所述阈值为3%。

如果所述性能测试结果的提升值小于阈值，则进行步骤35。

步骤34、将第K+1层所述残差网络层3增加到所述循环神经网络中，之后重复步骤31。

步骤35、如标记309对应的步骤所示，训练结束，停止继续增加所述残差网络层3，以已有的K层网络层作为所述循环神经网络。

本发明实施例方法能实现：所述延伸模型所包括的所述残差网络层3的深度为1至7层，循环神经网络的深度为3至9层。

本发明实施例方法中，所述循环神经网络用于语音识别装置。

所述全连接层4为1层以上。

output_{k+1}=LSTM_{k+1}(output_k)+output_k；

以上通过具体实施例对本发明进行了详细的说明，但这些并非构成对本发明的限制。在不脱离本发明原理的情况下，本领域的技术人员还可做出许多变形和改进，这些也应视为本发明的保护范围。

Claims

1.一种循环神经网络，其特征在于，包括：

基线模型，由2层LSTM网络层连接形成；

2.如权利要求1所述的循环神经网络，其特征在于：所述延伸模型所包括的所述残差网络层的深度为1至7层，循环神经网络的深度为3至9层。

3.如权利要求2所述的循环神经网络，其特征在于：所述延伸模型的延伸深度通过训练确认，当增加一层所述残差网络时训练结果变差，则以增加的所述残差网络之前的深度为所述循环神经网络的深度。

4.如权利要求1所述的循环神经网络，其特征在于：所述循环神经网络用于语音识别装置。

5.如权利要求4所述的循环神经网络，其特征在于：所述语音识别装置包括：卷积层，所述循环神经网络，全连接层和CTC层；

6.一种循环神经网络的训练方法，其特征在于，包括如下步骤：

步骤一、提供循环神经网络的基线模型，所述基线模型由2层LSTM网络层连接形成；

步骤二、对所述基线模型进行初始化，从第1层所述LSTM网络层开始对所述循环神经网络进行训练；

步骤三、在所述基线模型的基础上增加延伸模型，所述延伸模型包括多层残差网络层，各层的所述残差网络层由一层LSTM网络层和一层加法函数层连接形成，所述残差网络层的输入端连接上一层网络层的输出，所述加法函数层的两个输入端分别连接所述残差网络层的LSTM网络层的输出和上一层网络层的输出，所述加法函数层的输出作为所述残差网络层的输出；

步骤31、增加一层新的所述残差网络层，令新增加的所述残差网络层为第K+1层，前K层网络层都已训练好，采用以训练好的模型对前K层网络层进行初始化，第K+1层网络采用随机参数进行初始化；

步骤32、对第K+1层所述残差网络层进行训练；

步骤33、进行性能测试，检查性能测试结果的提升值是否大于阈值；

如果所述性能测试结果的提升值大于阈值，则进行步骤34；

如果所述性能测试结果的提升值小于阈值，则进行步骤35；

步骤34、将第K+1层所述残差网络层增加到所述循环神经网络中，之后重复步骤31；

7.如权利要求6所述的循环神经网络的训练方法，其特征在于：所述延伸模型所包括的所述残差网络层的深度为1至7层，循环神经网络的深度为3至9层。

8.如权利要求6所述的循环神经网络的训练方法，其特征在于：步骤33中的所述阈值为3%。

9.如权利要求6所述的循环神经网络的训练方法，其特征在于：所述循环神经网络用于语音识别装置。

10.如权利要求9所述的循环神经网络的训练方法，其特征在于：所述语音识别装置包括：卷积层，所述循环神经网络，全连接层和CTC层；