CN116171445A

CN116171445A - 神经网络的在线训练

Info

Publication number: CN116171445A
Application number: CN202180049609.6A
Authority: CN
Inventors: T.博恩斯廷格尔; S.沃兹尼亚克; A.潘塔齐; E.埃莱夫特里乌
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-21
Filing date: 2021-07-06
Publication date: 2023-05-26
Also published as: DE112021003881T5; GB2612504A; US20220027727A1; JP2023535679A; WO2022018548A1

Abstract

提供了一种用于训练循环神经网络(100)的参数的计算机实现的方法。该网络(100)包括一层或多层(110)神经元单元(111)。每个神经元单元(111)具有内部状态(120)，其也可以表示为单元状态(120)。该方法包括将包括输入信号(131)和期望输出信号(132)的训练数据提供给循环神经网络(100)。该方法还包括针对每个神经元单元(111)计算空间梯度分量(141)，以及针对每个神经元单元(111)计算时间梯度分量(142)。该方法还包括在输入信号(131)的每个时间实例处针对每个神经元单元(111)更新时间梯度分量和空间梯度分量。空间梯度分量和梯度分量(141)的计算可以彼此独立地执行。还提供了神经网络(100)和相关的计算机程序产品。

Description

神经网络的在线训练

相关申请的交叉引用

本申请是于2020年7月21日提交的美国临时申请63/05424“7ONLINE TRAINING OFRECURRENT NEURAL NETWORKS”的非临时申请，在此为了所有目的通过引用将其全部内容并入。

背景技术

本发明特别地指向用于神经网络、特别是循环神经网络的训练的计算机实现的方法。

本发明还涉及相关的神经网络和相关的计算机程序产品。

近年来，利用人工神经网络(ANN)的应用的数量迅速增长。尤其是在诸如语音识别、语言翻译或构建神经计算机的任务中，循环连接的ANN(所谓的RNN)已经表现出惊人的性能水平。

循环神经网络(RNN)近年来在人工智能的发展中扮演了重要的角色。一种已知的用于训练RNN的方法是利用误差通过时间的反向传播(BPTT)的基于梯度的训练。

然而，BPTT具有局限性，因为它需要通过在时间上展开网络来跟踪所有过去的活动，随着输入序列长度的增加，该网络可能变得非常深。例如，具有1ms时间步长的两秒长口头输入序列将导致2000层深的展开网络。

因此，在时间上向后传播误差可能导致系统锁定问题，使得BPTT对于在线学习场景相当不可用。使能在线训练的变体最近重新获得研究团体的注意。一种已知的方法集中在通过在线算法近似BPTT。另一种方法从生物学中获得灵感并研究脉冲神经网络(SNN)。

因此，仍然需要用于训练神经网络的有利方法，尤其是用于在线训练的有利方法。

发明内容

根据一方面，本发明被实现为用于训练神经网络的计算机实现的方法。该网络包括一层或多层神经元单元。每个神经元单元具有内部状态，其也可以表示为单元状态。该方法包括将包括输入信号和期望输出信号的训练数据提供给神经网络。该方法还包括针对每个神经元单元计算空间梯度分量，以及针对每个神经元单元计算时间梯度分量。该方法还包括在输入信号的每个时间实例处针对每个神经元单元更新时间梯度分量和空间梯度分量。

因此，根据本发明的实施例的方法基于空间梯度分量和时间梯度分量的分离。这可以促进对反馈机制的更深刻理解。此外，它可以促进在诸如忆阻阵列的硬件加速器上的有效实现。根据本发明的实施例的方法可以特别用于在线训练。根据本发明的实施例的方法可以特别用于训练神经网络的训练参数。

根据本发明的实施例的方法将时间数据作为输入信号处理。时间数据可以被定义为表示时间状态或值的数据，或者换句话说，被定义为与时间实例有关的数据。输入信号尤其可以是连续的输入数据流。输入信号由神经网络在时间实例处或换句话说时间步长上处理。

根据实施例，空间梯度分量和时间梯度分量的计算彼此独立地执行。这具有可以并行计算这些梯度分量的优点，这减少了计算时间。

根据实施例，空间梯度分量建立学习信号和时间梯度分量资格迹。

根据本发明的实施例的方法可以特别用于低复杂度设备，诸如物联网(IoT)设备以及边缘人工智能(AI)设备。

根据实施例，该方法包括在特定或预定义的时间实例处，特别是在每个时间实例处，更新神经网络的训练参数。该更新可以具体地根据空间梯度分量和时间梯度分量来执行。

可以根据实施例训练的训练参数具体地包括神经元单元的输入权重和/或递归权重。通过在每个时间实例处更新训练参数，神经元单元在每个时间实例处学习，或者换句话说，在每个时间步长处学习。

根据实施例，空间梯度分量基于神经网络的连接性参数，例如，各个神经元单元的连接性。根据实施例，连接性参数具体描述神经网络的架构的参数。根据实施例，连接性参数可以被定义为允许各个神经元单元之间的信息交换的传输线的数量或集合。根据实施例，空间梯度分量是考虑神经网络的空间方面的分量，具体是在每个时间实例处的各个神经元单元之间的相互依赖性。

根据实施例，时间梯度分量基于神经元单元的时间动态。根据实施例，时间梯度分量是考虑神经元单元的时间动态、具体是内部状态/单元状态的时间演变的分量。

根据实施例，该方法包括在每个时间实例处针对一个或多个层中的每一个计算空间梯度分量，以及在每个时间实例处针对一个或多个层中的每一个计算时间梯度分量。因此，在每个时间实例/时间步长处，该方法计算每层的时间梯度分量和空间梯度分量。空间梯度分量/学习信号针对每个层可以是特定的，并且从最后一层传播到输入层而不在时间上返回，即，它表示通过网络架构的空间梯度。

根据实施例，每个层可以计算其自己的时间梯度分量/资格迹，其仅取决于相应层的贡献，即，其表示对于同一层经过时间的时间梯度。根据实施例，空间梯度分量可以被共享用于两个或更多个层。

根据实施例，该方法可以用于单层以及多层网络。

根据实施例，该方法可以应用于循环神经网络、脉冲神经网络和混合网络，包括具有单元状态的单元和不具有单元状态的单元或由具有单元状态的单元和不具有单元状态的单元组成

根据实施例，该方法或该方法的部分可以在神经形态硬件上实现，具体是在忆阻器件的阵列上实现。

对于浅网络，根据本发明的实施例的方法可以维持如通过时间的反向传播(BPTT)技术的等效梯度。

根据本发明的另一方面的实施例，提供了一种神经网络，具体是循环神经网络。该神经网络包括一层或多层神经元单元。每个神经元单元具有内部状态，其也可以表示为单元状态。该神经网络被配置为执行包括将包括输入信号和期望输出信号的训练数据提供给神经网络的方法。该方法还包括针对每个神经元单元计算空间梯度分量，以及针对每个神经元单元计算时间梯度分量。该方法还包括在输入信号的每个时间实例处针对每个神经元单元更新时间梯度分量和空间梯度分量。空间梯度分量和梯度分量的计算可以彼此独立地执行。

根据实施例，该神经网络可以是循环神经网络、脉冲神经网络或混合神经网络。

根据本发明的另一方面的实施例，提供了一种用于训练神经网络的计算机程序产品。该计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质，该程序指令能够由神经网络执行以使神经网络执行包括接收包括输入信号和预期输出信号的训练数据的步骤的方法。该方法还包括针对每个神经元单元计算空间梯度分量以及针对每个神经元单元计算时间梯度分量的步骤，另外的步骤包括在输入信号的每个时间实例处针对每个神经元单元更新时间梯度分量和空间梯度分量。根据实施例，空间梯度分量和时间梯度分量的计算可以彼此独立地执行。

下面将参考附图，通过说明性和非限制性示例的方式，更详细地描述本发明的实施例。

附图说明

图1示出了根据本发明的实施例的用于训练神经网络的计算机实现的方法的梯度流；

图2示出了根据本发明的实施例的用于训练神经网络的计算机实现的方法的梯度流；

图3示出了脉冲神经网络的脉冲神经元单元；

图4a示出了与通过时间的反向传播(BPPT)技术相比较的根据本发明的实施例的方法的测试结果；

图4b示出了与通过时间的反向传播(BPPT)技术相比较的根据本发明的实施例的方法的进一步测试结果；

图5示出了有关手写数字分类的另一任务的测试结果；

图6示出了根据本发明的实施例的方法如何能够在神经形态硬件上实现；

图7示出了根据本发明的实施例的神经网络的简化示意图；

图8示出了用于训练循环神经网络的参数的计算机实现的方法的方法步骤的流程图；

图9示出了用于执行根据本发明的实施例的方法的计算系统的示例性实施例；

图10和图11示出了根据本发明的实施例的用于深度神经网络的方法的示例性详细推导。

具体实施方式

本发明的实施例提供了一种用于神经网络的训练、具体是在线训练的方法，该神经网络具体是循环神经网络(RNN)。该方法在下文中也可以表示为OSTL。根据本发明的实施例的方法提供了一种有利的算法，其可以通过分离空间梯度和时间梯度而用于在线学习应用。

图1示出了根据本发明的实施例的用于训练神经网络100的计算机实现的方法的梯度流。对于图1，假设神经网络100是具有包括神经元单元111的单层110的循环神经网络(RNN)。该神经网络被展开为三个时间步长t。

每个神经元单元111具有内部状态S，120。该方法包括将包括输入信号x^t，131和期望输出信号132的训练数据提供给神经网络。然后，该方法针对每个神经元单元110计算空间梯度分量L^t，141和时间梯度分量e^t，142。此外，在输入信号131的每个时间实例t处，针对每个神经元单元110更新时间梯度分量130和空间梯度分量131。

学习/训练的目的是训练神经网络的参数θ，使得其最小化时间t处的当前输出信号y^t与输入信号x^t之间的误差E^t。

在RNN中，时间t处的网络误差E^t通常是输出层中的神经元单元的输出y^t的函数，即E^t＝f(y^t)。此外，RNN中的许多神经元单元可以包含输出所依赖的内部状态s^t，即y^t＝f(s^t)。神经元单元的这种内部状态可以是其自身的递归函数，另外，分别通过可训练输入权重W和可训练递归权重H，取决于其输入信号x^t和递归地取决于其输出信号。

根据实施例，控制内部状态的方程可以被公式化为s^t＝f(x^t,s^t-1,y^t-1,W,H)，例如s^t＝W x^t+H y^t-1。

为了记法简单起见，RNN 100的所有可训练参数可以在下面由变量θ共同描述。这将上述方程简化为

s^t＝f(x^t,s^t-1,y^t-1,θ)。

此外，输出y^t的记法可以根据实施例扩展以还允许直接依赖于可训练参数，即y^t＝f(s^t,θ)，例如y^t＝σ(s^t+b)。

使用这种记法，可以基于梯度下降的原理来计算最小化E的参数θ的所需改变

由此，本发明的实施例使用通过时间的反向传播(BPTT)技术作为推导的起始点，并将dE/dθ表达为

其中，在时间上的求和范围从第一时间步长t＝1直到最后时间步长t＝T。然后，下面展开方程2，并且解开可以用于形成BPTT的在线重构的递归。为了简洁起见，我们仅概述单个单元的主要步骤，但详细的推导在下面的补充材料中给出。具体地，可以看出

方程3可以以如下递归形式改写

这导致梯度的表达式为

其中

因此，根据实施例，空间梯度分量和梯度分量的计算可以彼此独立地执行。

在标准RNN的示例中，这些方程的明确形式是

根据实施例，记法从生物系统的标准命名法中得到启发，其中突触权重的改变通常被分解成学习信号和资格迹。在最简单的情况下，资格迹是神经活动的低通滤波版本，而学习信号表示空间递送的奖励信号。因此，根据实施例，在方程6中表示为e^t,θ的时间梯度可与资格迹相关联，在方程7中表示为L^t的空间梯度可与学习信号相关联。

类似于生物系统，根据方程5的参数改变dE/dθ被计算为资格迹和学习信号的乘积随时间的总和。这使得参数更新能够被在线计算，如图1所示。

此外，应当注意，方程6中的推导是精确的。

如图1中可见，在每个时间步长处，时间梯度可以与该时间步长的空间梯度组合，并且不需要返回，直到根据已知的通过时间的反向传播技术所需的输入序列/输入信号的开始。

图2示出了根据本发明的实施例的用于训练神经网络200的计算机实现的方法的梯度流。对于图2，假设神经网络200是具有多个层的循环神经网络(RNN)。

更具体地说，图2示出了包括具有神经元单元211的第一层210和具有神经元单元221的第二层220的两层RNN的梯度流。层210和220展开三个时间步长，并且空间梯度和时间梯度被分离。

每个神经元单元211具有内部状态S₁，230。每个神经元单元221具有内部状态S₂，231。该方法包括将包括输入信号x^t，141和期望输出信号142的训练数据提供给神经网络200。然后，该方法针对每个神经元单元211计算空间梯度分量L₁ ^t，151，以及针对每个神经元单元221计算空间梯度分量L₂ ^t，152。此外，该方法针对每个神经元单元211计算时间梯度分量e₁ ^t，161，以及针对每个神经元单元221计算时间梯度分量e₂ ^t，162。

此外，在输入信号141的每个时间实例t处，分别针对每个神经元单元211、221更新时间梯度分量161、162和空间梯度分量151、152。

许多现有技术应用依赖于更复杂的多层架构。为了将根据本发明的实施例的方法扩展到深架构，可以如下重访状态s^t和输出y^t的定义。深架构中的误差E^t仅是最后输出层k的函数，即E^t＝f(y_k ^t)，并且每一层l具有其自己的可训练参数θ_l。层l的输入是前一层y_l-1 ^t的输出，并且对于第一层，使用外部输入y₀ ^t＝x^t。

因此，这些定义可以适于

对于单层神经网络，如果遵循由方程3至5概述的推导，则空间分量和时间分量的分离出现。

然而，对于多层架构，方程3中的项ds^t/dθ可能涉及不同的层l和m，例如ds_l ^t/dθ_m，并且由此引入跨层的依赖性，参见补充材料。

为了保持上述优点，根据本发明的实施例，还为多层架构引入了空间梯度和时间梯度的清晰分离。因此，使用广义状态和输出方程8和9来执行如上所述的针对单层RNN的类似步骤。在补充资料的详细推导之后，针对层l获得以下资格迹和学习信号：

其中

然后，可以示出

如通过比较方程5至13可以看到的，根据本发明的实施例的涉及将学习信号L_l ^t乘以资格迹e_l ^t,θ的方法在深度网络的情况下保持相同。

学习信号L_l ^t对于每层是特定的，并且从最后一层传播到输入层而不在时间上返回，即，它表示通过网络架构的空间梯度。此外，每个层计算其自己的资格迹e_l ^t,θ，其仅取决于相应层l的贡献，即，其表示对于同一层经过时间的时间梯度。

然而，在方程13中还涉及附加项，其包含空间梯度和时间梯度的混合，并且通常需要在时间上返回。这些项被收集在残差项R中。

为了保持空间梯度和时间梯度之间的分离，根据实施例通过省略项R来简化方程13。因此，根据实施例获得多层网络的以下公式：

因此，根据本发明的实施例，有意识地省略残差项R，并且在学习/训练期间不考虑混合的空间梯度分量和时间梯度分量。然而，本发明的发明人的研究已经导致了这是一种有利的方法的认识。具体地，利用这样的方法，已知省略了什么。此外，发明人的模拟提供了经验证据，即即使没有这些项也可以实现对BPTT有竞争力的性能，这将在下面进一步解释。

此外，根据实施例，残差项R还可以被近似，因此允许甚至更好地近似来自方程13的梯度。

图3示出了脉冲神经网络300的脉冲神经元单元SNU，310。参考图3，将示出根据实施例的方法可应用于脉冲神经网络(SNN)。图3中的虚线表示具有时滞的连接，而粗线表示参数化的连接。SNU 310包括块输入320、块输出321、复位门322和膜电位323。

虽然历史上SNN经常用脉冲定时依赖可塑性的变体来训练，但是最近已经提出了针对SNN的基于梯度的训练，例如在以下文献中：Wozniak,S.、Pantazi,A.、Bohnstingl,T.和Eleftheriou,E.结合生物启发的神经动态的深度学习.arXiv，2018年12月。URLhttps://arxiv.org/abs/1812.07040。

这样的方法旨在通过用基于ANN的构件块重算SNN动态，形成脉冲神经元单元SNU，310，来桥接ANN世界与SNN世界。脉冲神经网络300的SNU 310接收多个输入信号。

利用这种方法，SNU使能基于梯度的学习，这允许利用用于ANN的已知优化技术的能力，同时仍然再现泄漏积分激发(leaky integrate-and-fire，LIF)神经元模型的动态，这在神经科学中是公知的。

如上所示，根据本发明的实施例的方法可以用于通用RNN，但是也可以根据实施例应用于训练被设计为RNN的深度SNN。这将在下面示出。我们从SNU层l的状态和输出方程开始，比较(Wozniak等人，2018)：

通过使用方程15和16，我们根据方程10导出资格迹，为

其中

以及

应注意的是，简写记法

和/>

已经被使用。

对于均方误差损失函数，例如

其中/>

是目标输出，学习信号可以计算为：

/>

对于具有由RNN或递归SNU组成的k层的深度神经网络，根据本发明的实施例的方法具有时间复杂度O(kn4)。这个时间复杂度由网络结构本身确定，并且主要由循环矩阵H_l支配。如果根据实施例使用前馈架构，则涉及H_l的项消失，并且SNU的方程变为

这些方程然后导致以下资格迹

其中

其中。

这大大降低了从O(kn⁴)到O(kn²)的时间复杂度。使用前馈SNU网络架构不一定会阻止解决临时任务。这样的网络长期以来一直用于SNN，并且这意味着网络应当依赖于使用自循环实现的单元的内部状态，而不是依赖于分层循环矩阵H_l。

应当注意，根据实施例，可以例如基于W的一些随机化或近似来没有矩阵W的情况下计算学习信号。更具体地，学习信号可以基于不在前向路径中使用的不同的矩阵来计算。换句话说，前向路径可以使用矩阵W，而学习信号是在不同的矩阵B上计算的。该矩阵B可能是可训练的或不是可训练的。

根据实施例，如上所述的方法还可以用于混合网络。在这方面，深度RNN或SNN中的非常常见的情形是它们通常在输出处与无状态神经元层耦合，例如sigmoid或softmax层。根据本发明的实施例的方法也可以在不进行任何修改的情况下应用于训练这些包含一层或多层无状态神经元的混合网络。具体地，这些层的状态和输出方程简化为

and/>

其引起了方程12中的项

消失，以及资格迹和学习信号可以被计算为

/>

其中

应当注意，无状态层将不会引入任何残差项R。这具有这样的效果，即当将这样的层添加到网络时，即使在RNN层之间，后续层的梯度也保持不变。

图4a示出了与通过时间的反向传播(BPPT)技术相比的根据本发明的实施例的方法的测试结果。更具体地，图4a涉及基于文档中引入的JSB数据集的音乐预测：Boulanger-Lewandowski,N.,Bengio,Y.,以及Vincent,P.对高维序列中的时间依赖性建模：第29届国际机器会议论文集中的对多音音乐产生和转录的应用

Learning，ICML'12,pp.1881-1888,Madison,WI,USA,2012.Omnipress.ISBN9781450312851。为此，使用标准训练/测试数据分割。对于该测试，混合架构包括具有150个单元的前馈SNU层和在顶部具有88个单元的无状态层sigmoid层。为了获得基线，用根据本发明实施例的方法和BPTT训练同一网络，包括其所有超参数，持续1000个历元。Y轴表示在10个随机初始条件上平均的负对数似然。柱411示出了用于BPTT方法的训练的结果，而柱412示出了用于根据本发明的实施例的方法的训练的结果。此外，柱413示出了BPTT方法的测试运行的结果，而柱414示出了根据本发明的实施例的方法的测试运行的结果。

如图4a所示，用根据本发明的实施例的方法获得的结果实际上与用BPTT获得的结果相等同。注意，对于具有单个RNN层和在顶部的无状态层的混合架构，任务证明BPTT和根据本发明的实施例的方法的梯度等效性。

如图4b所示，该任务可用于说明根据本发明的实施例的方法对于前馈SNN的降低的计算复杂度。为此，使用内置的TensorFlow分析器，针对在JSB输入序列的不同输入序列长度(x轴)上更新的一个参数，测量所需浮点运算的数量MFLOP(y轴)，参见图4b。如从行421可以看出，BPTT需要执行时间展开，因此线性依赖于序列T的长度，而如行422所示的根据本发明的实施例的方法则不需要，因此保持稳定。然而，在实际实现方式中，可能需要随着时间的推移累积来自根据本发明实施例的方法的更新，这导致与BPTT相同的复杂度。注意，根据本发明实施例的方法的最初较高成本是由于实现方式开销，因为根据本发明的实施例的方法不包含在TensorFlow的标准工具箱中。然而，所获得的图与理论复杂性分析一致。

图5示出了关于基于在文档中引入的MNIST数据集的手写数字分类的另一任务的测试结果：Lecun,Y.,Bottou,L.,Bengio,Y.,以及应用于文档识别的基于学习的Haffner,P.梯度。Proc.IEEE,86(11):2278-2324,1998年11月。ISSN 1558-2256.doi:10.1109/5.726791。

再次使用标准训练/测试数据分割。根据该测试，采用了五层具有256个单元的SNU的前馈架构，并且针对平均10个随机初始条件的50个历元进行训练。类似于参考图4a和图4b所示出的任务，根据本发明的实施例的方法的准确度与BPTT的准确度匹配。y轴表示准确度(百分比)，x轴表示历元的数量，线510表示BPTT的结果，线520表示根据本发明的实施例的方法的结果。

图6示出了根据本发明的实施例的方法如何能够在神经形态硬件上实现。神经形态硬件可以具体地包括交叉阵列，该交叉阵列包括多个行线610、多个列线620以及布置在多个行线610和多个列线620之间的多个结630。每一结点630包含电阻性存储器元件640，具体是电阻性存储器元件与包含存取该电阻性存储器元件的存取端子的存取元件的串联配置。电阻性元件可以是例如相变存储器元件、导电桥随机存取存储器元件(CBRAM)、金属氧化物电阻性随机存取存储器元件(RRAM)、磁阻随机存取存储器元件(MRAM)、铁电随机存取存储器元件(FeRAM)或光学存储器元件。

根据实施例，输入权重和递归权重可以被放置在神经形态设备上，具体是作为电阻性元件的电阻状态。

根据这样的实施例，可训练的输入权重W_l和可训练的循环权重H_l被映射到电阻性存储器元件640。

图7示出了根据本发明的实施例的神经网络700的简化示意图。神经网络700包括：输入层710，其包括多个神经元单元10；一个或多个隐藏层720，其包括多个神经元单元10；以及输出层730，其包括多个神经元单元10。神经网络700包括多个位于神经元单元10之间的电连接20。电连接20将来自一层(例如来自输入层710)的神经元的输出连接到来自下一层(例如隐藏层720之一)的神经元单元的输入。神经网络700可以具体地被实现为循环神经网络。

因此，网络700包括从一层到来自同一层或前一层的神经元单元的循环连接，如箭头30以示意性方式所示。

图8示出了用于训练循环神经网络的参数的计算机实现的方法的方法步骤的流程图。

该方法开始于步骤810。

在步骤820处，训练数据被神经网络接收，或者换句话说，被提供给神经网络。训练数据包括输入信号和期望输出信号。

在步骤830处，神经网络针对每个神经元单元计算空间梯度分量。

在步骤840处，神经网络针对每个神经元单元计算时间梯度分量。

在步骤850处，神经网络在输入信号的每个时间实例处针对每个神经元单元更新时间梯度分量和空间梯度分量。

根据实施例，神经网络的参数的更新可以被累积和推迟，直到稍后的时间步长T。空间梯度分量和梯度分量的计算彼此独立地执行。

在循环860处重复步骤820至850。更具体地，步骤820至850可以在特定或预定的时间实例处重复，并且具体地在每个时间实例处重复。

现在参考图9，示出了用于执行根据本发明的实施例的方法的计算系统900的示例性实施例。计算系统900可以形成根据实施例的神经网络。计算系统900可以用许多其它通用或专用计算系统环境或配置来操作。可以适合与计算系统900一起使用的公知的计算系统、环境和/或配置的示例包括但不限于，个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统，以及包括任何上述系统或设备的分布式云计算环境等。

计算系统900可以在计算机系统可执行指令的一般上下文中描述，诸如由计算机系统执行的程序模块。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算系统900可以以通用计算设备的形式示出。服务器计算系统900的组件可以包括但不限于一个或多个处理器或处理单元916、系统存储器928以及将包括系统存储器928的各种系统组件耦合到处理器916的总线918。

总线918表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口，以及使用各种总线架构中的任何一种的处理器或局部总线。作为示例而非限制，这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线。

计算系统900通常包括各种计算机系统可读介质。这样的介质可以是可由计算系统900访问的任何可用介质，并且它包括易失性介质和非易失性介质、可移动介质和不可移动介质。

系统存储器928可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)930和/或高速缓冲存储器932。计算系统900还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统934可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是可以提供用于从可移动、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据介质接口连接到总线918。如下面将进一步描绘和描述的，存储器928可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置为执行本发明的实施例的功能。

作为示例而非限制，具有一组(至少一个)程序模块942的程序/实用程序940以及操作系统、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器928中。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现方式。程序模块942通常执行如本文所述的本发明的实施例的功能和/或方法。程序模块942可以具体地执行用于训练循环神经网络的计算机实现的一个或多个步骤，例如，如参考图1、图2和图8描述的方法的一个或多个步骤。

计算系统900还可以与一个或多个外部设备915通信，诸如键盘、定点设备、显示器924等；使用户能够与计算系统900交互的一个或多个设备；和/或使计算系统900能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口922发生。此外，计算系统900可以经由网络适配器920与一个或多个网络通信，诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)。如所描绘的，网络适配器920经由总线918与计算系统900的其他组件通信。应当理解，尽管未示出，但其它硬件和/或软件组件可结合计算系统900使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)，或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程式编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

通常，针对一个实施例描述的修改可以适当地应用于另一实施例。

下面，将作为补充提供根据本发明的实施例的用于深度神经网络、具体是用于包括多层架构的循环网络的方法的详细推导。

许多现有技术应用依赖于多层网络，其中误差E^t仅是最后输出层k的函数，即

根据本发明的实施例，状态和输出方程调整如下

使用该重构(reformulation)，方程2可以被概括如下

对于多层网络的最后一层，其中k＝l，方程33对应于针对单个层的方程2。然而，对于隐藏层，即k≠l，项

被扩展如下

我们定义递归项

为

其中具有以下性质

对于k≠l，项

包含时间上的递归，但附加地其包含空间上的递归，即，其取决于其他层，例如第(k-1)层。

如果我们将项

插入方程33，我们得到

方程38的右侧被扩展为更复杂的表达式

其中，两个递归——空间上的

和时间上的/>

——变得明显。当在空间中将/>

扩展得足够远，其最终达到/>

因此，我们可以将方程39重写为

其中，我们将所有剩余项收集到残差项R中。此外，我们将广义学习信号

和广义资格迹/>

定义为

参见方程10-11。这允许将参数更新表示为

参见方程13。通过根据实施例省略残差项R，我们得出方程14。

Claims

1.一种用于训练神经网络的计算机实现的方法，所述网络包括一层或多层神经元单元，其中每个神经元单元具有内部状态，其中所述方法包括：

将包括输入信号和期望输出信号的训练数据提供给神经网络；

针对每个神经元单元计算空间梯度分量；

针对每个神经元单元计算时间梯度分量；以及

在所述输入信号的每个时间实例处针对每个神经元单元更新所述时间梯度分量和所述空间梯度分量。

2.根据权利要求1所述的计算机实现的方法，其中，所述空间梯度分量和所述梯度分量的所述计算是彼此独立地执行的。

3.根据权利要求1所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量来更新所述神经网络的训练参数的预定义集合。

4.根据权利要求3所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量在特定或预定义的时间实例处更新所述神经网络的训练参数的所述预定义集合。

5.根据权利要求4所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量在每个时间实例处更新所述神经网络的训练参数的所述预定义集合。

6.根据权利要求1所述的计算机实现的方法，其中所述方法包括：

在每个时间实例处，针对所述一个或多个层中的每个层计算空间梯度分量；

以及

在每个时间实例处，针对所述一个或多个层中的每个层计算时间梯度分量。

7.根据权利要求1所述的计算机实现的方法，其中：

所述空间梯度分量基于所述神经网络的连接性参数；以及

所述时间梯度分量基于与所述神经元单元的时间动态相关的参数。

8.根据权利要求1所述的计算机实现的方法，其中，所述网络包括单层神经元单元，并且计算所述空间梯度分量包括计算：

其中

t表示相应的时间实例；

L^t表示时间实例t处的所述空间梯度分量；

E^t表示网络误差，特别是时间实例t处的当前输出信号与期望输出信号之间的误差；

以及

y^t表示时间实例t处的当前输出信号。

9.根据权利要求1所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量来更新所述神经网络的训练参数的预定义集合，其中，所述网络包括单层神经元单元，并且计算所述时间梯度分量包括计算：

/>

其中

t表示相应的时间实例；

y^t表示时间实例t处的当前输出信号；

s^t表示时间实例t处的单元状态；

θ表示所述网络的所述训练参数；以及

10.根据权利要求9所述的计算机实现的方法，其中，更新所述训练参数包括计算；

Δθ＝α∑_tL^te^t，θ，

其中α是学习率。

11.根据权利要求1所述的计算机实现的方法，其中，所述网络包括多层神经元单元，并且计算所述空间梯度分量包括计算：

其中：

L_l ^t表示时间实例t处的层l的所述空间梯度分量；

t表示相应的时间实例；

y_k ^t表示层k的当前输出信号；

s_k ^t表示层k的单元状态；

k表示所述网络的最后一层/输出层；以及

m'表示范围从1到(k-l+1)的网络的中间层。

12.根据权利要求1所述的计算机实现的方法，其中，所述网络包括多层神经元单元，并且计算所述时间梯度分量包括计算：

其中

t表示相应的时间实例；

l表示相应的层；

y^t表示当前输出信号；

s^t表示当前单元状态；

θ表示所述网络的训练参数；以及

13.根据权利要求1所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量来更新所述神经网络的训练参数的预定义集合，其中更新所述训练参数包括计算：

其中R是残差项。

14.根据权利要求13所述的计算机实现的方法，其中，利用资格迹和学习信号的组合来近似所述残差项R。

15.根据权利要求1所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量来更新所述神经网络的训练参数的预定义集合，其中更新所述网络参数包括计算：

其中α是学习率。

16.根据权利要求1所述的计算机实现的方法，其中，所述神经网络选自由以下各项组成的组：循环神经网络、混合网络、脉冲神经网络和通用循环网络，所述通用循环网络具体包括长短期存储器单元和门控循环单元或由长短期存储器单元和门控循环单元组成。

17.根据权利要求1所述的计算机实现的方法，还包括根据所述空间梯度分量和所述时间梯度分量来更新所述神经网络的训练参数的预定义集合，其中，所述网络包括多层神经元单元，并且计算所述时间梯度分量包括计算：

其中：

t表示相应的时间实例；

l表示层；

y^t表示当前输出信号；

s^t表示当前单元状态；

θ表示所述网络的可训练参数；以及

18.一种神经网络，包括一层或多层神经元单元，其中每个神经元单元具有内部状态，其中所述神经网络被配置为执行用于训练神经网络的方法，所述方法包括

将包括输入信号和期望输出信号的训练数据提供给所述神经网络；

针对每个神经元单元计算空间梯度分量；

针对每个神经元单元计算时间梯度分量；以及

19.根据权利要求18所述的神经网络，其中，所述神经网络还被配置为根据所述空间梯度分量和所述时间梯度分量在每个时间实例处更新所述神经网络的参数。

20.一种用于训练循环神经网络的计算机程序产品，所述计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质，所述程序指令能够由所述神经网络执行以使所述神经网络执行一种方法，所述方法包括：

接收包括输入信号和预期输出信号的训练数据；

针对每个神经元单元计算空间梯度分量；

针对每个神经元单元计算时间梯度分量；以及

21.根据权利要求20所述的计算机程序产品，所述程序指令能够由所述神经网络执行以使所述神经网络根据所述空间梯度分量和所述时间梯度分量在每个时间实例处更新所述神经网络的参数。

22.一种计算系统，其被配置为执行用于训练神经网络的参数的计算机实现的方法，所述网络包括一层或多层神经元单元，其中每个神经元单元具有内部状态，其中所述方法包括：

针对每个神经元单元计算空间梯度分量；

针对每个神经元单元计算时间梯度分量；以及

23.根据权利要求22所述的计算系统，所述计算系统包括忆阻存储器阵列。