CN113454648A

CN113454648A - 循环神经网络中的勒让德存储器单元

Info

Publication number: CN113454648A
Application number: CN202080014863.8A
Authority: CN
Inventors: 亚伦·R·沃克; 克里斯托弗·大卫·以利亚史密斯
Original assignee: Applied Brain Research Inc
Current assignee: Applied Brain Research Inc
Priority date: 2019-03-06
Filing date: 2020-03-06
Publication date: 2021-09-28
Also published as: EP3935568A1; US11238345B2; KR20210117331A; WO2020176994A1; JP2022522807A; CA3098085A1; US20210089912A1; JP7284825B2; EP3935568A4; CA3098085C

Abstract

训练具有使用勒让德存储器单元方程确定的连接权重的神经网络架构，同时可选地保持所确定的权重固定。网络可使用尖峰或非尖峰激活函数，可与其他神经网络架构堆叠或循环地耦合，并且可在软件和硬件中实现。本发明的实施方案提供了用于模式分类、数据表示和信号处理的系统，其使用跨越滑动时间窗口的正交多项式基函数进行计算。

Description

循环神经网络中的勒让德存储器单元

技术领域

本发明总体涉及人工智能和深度学习，并且更特别地涉及可在软件和硬件中实现的循环神经网络架构。本申请要求2019年3月6日提交的临时申请号62/814,767和2019年5月6日提交的临时申请号62/844,090的优先权，上述的临时申请的内容以引用的方式并入本文。

背景技术

深度学习确实地为人工智能的领域带来了许多快速且深刻的进步。由于该深度学习的黑盒性质，为了在大量的重要问题上达到现有技术表现，既不需要具有领域专业知识，也不需要理解神经网络的内部功能，包括：图像辨识、语音辨识、自然语言理解、问答和语言翻译(参见Y.LeCun、Y.Bengio和G.Hinton,Deep learning.Nature,第521卷,第7553期,第436至444页，2015年5月)。基本配方如下：安装用于深度学习的软件库、选择网络架构、设定其超参数，并且然后可使用与硬件(例如，图形处理单元)一样多的数据训练。

深度学习架构，诸如多层感知器，擅长构建静态矢量函数，该静态矢量函数通过自动地发现与手头任务最相关的“潜在表示”(即，隐藏特征)来推广到新示例。然而，该深度学习架构的优化过程的不透明性就像一把双刃剑：尽管只需最少手动工程就能容易地将深度学习应用到许多问题，但是即使是专家也不清楚大多数超参数变化将提前对整体性能产生什么影响。

尽管取得了突破，但是该领域很清楚前馈架构无法及时学习任意地跨越输入数据的关系，而这对于涉及视频、语音和具有长期时间依赖性的顺序时间序列数据的其他任务又是必要的。无论网络的深度如何，前馈网络始终将有某种有限输入响应，这会在网络的状态内留下对先前输入的有限“记忆”。换句话说，可用这种网络计算的函数无法访问超出该网络的深度的输入。克服该问题的最一般的解决方案是将循环连接引入到网络中，从而将当前状态信息传输回该网络本身，由此允许网络捕获有关先前输入的信息并且在未来再用该信息。这些网络就称为循环神经网络(RNN)。

RNN是已知如何将其物理地实现的计算上最强力的神经网络种类。通过使用循环连接来随时间而保存状态信息，由此向网络赋予内部存储器，RNN能够计算在由深度前馈网络提供的计算类之外的函数：动态系统，即，状态根据其输入的历史来非线性地演化的函数。这使得网络能够利用输入中沿着任意时间尺度跨越时间的模式。

具体地讲，RNN用作在离散时间域中(参见A.M.

和H.G.Zimmermann,Recurrent neural networks are universal approximators,In InternationalConference on Artificial Neural Networks.Springe,第632至640页,2006年9月)和连续时间域中任何有限维度、因果、动态系统的通用逼近器(参见K.Funahashi和Y.Nakamura,Approximation of dynamical systems by continuous time recurrent neuralnetworks.Neural Network,第6卷,第6期,第801至806页,1992年11月)。在实践中，RNN通常是用于涉及顺序输入的任务(诸如辨识语音、翻译语言、处理视频、生成字幕和对人类情感进行解码)的最佳模型。

RNN的一个长期挑战与训练初始随机循环权重的难度有关，使得其能够利用长期时间依赖性(参见Y.Bengio、P.Simard和P.Frasconi,Learning long-term dependencieswith gradient descent is difficult.IEEE Transactions on Neural Networks,第5卷,第2期,第157-166页,1994年3月)。已经提出了许多架构解决方案，其中历史上最成功的是长期短期存储器(LSTM；参见S.Hochreiter和J.Schmidhuber,Long short-termmemory.Neural Computation,第9卷,第8期,第1735-1780页,1997年11月)。还存在多种最近的但密切相关的替代方案，例如门控循环单元(GRU；参见Chung,C.Gulcehre、K.Cho和Y.Bengio,Empirical evaluation of gated recurrent neural networks on sequencemodeling.arXiv：1412.3555,2014年12月)和非饱和循环单元(NRU；参见S.Chandar、C.Sankar、E.Vorontsov、S.E.Kahou和Y.Bengio,Towards non-saturating recurrentunits for modelling long-term dependencies.In Proceedings of the AAAIConference on Artificial Intelligence,第33卷,第1期,第3280-3287页,2017年7月)。

LSTM、GRU、NRU和其他相关替代方案都是特定RNN架构，其旨在通过提供配置在网络中的节点之间的连接的方法来减轻训练RNN的难度。与相同大小的随机初始化RNN相比，这些架构典型地训练到更好的准确度水平。然而，这些架构目前无法学习跨越约100至5,000个时间步长的时间依赖性，这严重地限制了这些架构对涉及更长的输入序列的应用程序的可缩放性。因此，仍需要改进的RNN架构，其可被训练以准确地维持时间信息的更长(即，在顺序时间序列中超过100至5,000步长)表示，这激发了所提出的勒让德存储器单元(LMU)。

发明内容

在本发明的一个实施方案中，公开了用于生成具有勒让德存储器单元(LMU)单元的循环神经网络的方法，包括：定义所述循环神经网络中的每个节点的节点响应函数，所述节点响应函数表示随时间的状态，其中所述状态被编码为二进制事件或实值中的一者；每个节点具有节点输入和节点输出；定义每个节点输入的一组连接权重；定义每个节点输出的一组连接权重；定义一个或多个LMU单元，所述一个或多个LMU单元具有被定义为基于以下公式来确定节点连接权重的矩阵的一组循环连接：

，

其中

其中q是由用户确定的整数，i和j大于或等于0。

在本发明的一方面中，所述一组输入连接权重被定义为基于以下公式来确定节点连接权重的矩阵：

其中b_i＝(2i+1)(-1)ⁱ。

在本发明的另一方面中，所述LMU节点连接权重基于以下方程来确定：

f(A；θ，t)

其中f是A的函数，θ是预定参数，并且t是时间。

在本发明的另一方面中，所述预定参数是由用户选择的或使用所述神经网络的所述输出确定的中的一者。

其中是A的函数，θ是预定参数，t是时间，并且Δt是预定参数。

在本发明的另一方面中，来自节点输出的一个或多个连接权重是通过估计勒让德多项式确定的。

在本发明的另一方面中，所述LMU单元是堆叠的，其中每个LMU单元使用连接权重矩阵来连接到下一个。

在本发明的另一方面中，一个或多个LMU单元包括到选自LSTM单元、GRU单元、NRU单元、其他LMU单元、多层感知器、S形层和其他线性或非线性层的其他网络架构的输入和从选自LSTM单元、GRU单元、NRU单元、其他LMU单元、多层感知器、S形层和其他线性或非线性层的其他网络架构的输出的连接。

在本发明的另一方面中，通过更新所述网络的多个参数来将所述网络训练为神经网络。

在本发明的另一方面中，通过固定一个或多个参数而同时更新剩余参数来将所述网络训练为神经网络。

根据本发明的另一个实施方案，提供了一种用于神经网络中的模式分类、数据表示或信号处理的系统，所述系统包括：一个或多个输入层，所述一个或多个输入层呈现一个或多个维度的矢量，其中每个维度通过外部输入或通过使用来自所述网络的先前输出来提供到所述网络；一个或多个中间层，所述一个或多个中间层经由权重矩阵耦合到所述输入层、其他中间层或输出层中的至少一者；一个或多个输出层，所述一个或多个输出层生成在所述输入层处呈现的数据的矢量表示或在一个或多个离散时间点上或随时间而连续地计算该数据的函数；其中所述系统使用如本文所述的方法来生成循环神经网络。

根据本发明的另一个实施方案，提供了一种电路，所述电路在硬件中实现，具有一个或多个循环连接，所述一个或多个循环连接确定节点连接权重，如本文所述。

附图说明

本发明在附图中示出，这些附图旨在是示例性的而非限制性的，其中相同的附图标记旨在指代相同或对应的部分，并且其中：

图1示出了用于前馈网络的软件实施方案，该前馈网络确定连接权重，以便解除在每个层处低通滤波器的影响。

图2示出了根据本发明的实施方案的用于循环网络的软件实施方案，该循环网络确定连接权重，以便解除在每个层处低通滤波器的影响。

图3示出了实现用于六维循环和输入权重的连续时间LMU方程的电路实施方案。

图4示出了根据本发明的一个实施方案的方法。

图5是可在其上实现本发明的实施方案的示例性神经网络的示意图。

具体实施方式

以上已经概述了本发明，并且现在将在以下描述某些示例性且详细的实施方案，其中更明确地描述与现有技术的对比和与现有技术相比的益处。

对本领域技术人员来说将显而易见的是，可在本发明的产品、方法和系统的前述实施方案中的任一者中使用其他配置、硬件等。将理解，说明书是对本发明的说明，并且其他实施方案本身是对本领域技术人员的建议。本文引用的所有参考文献都以引用的方式并入。

本文描述的系统和方法的实施方案可在硬件或软件或两者的组合中实现。这些实施方案可在可编程计算机上执行的计算机程序中实现，每个计算机包括至少一个处理器、数据存储系统(包括易失性存储器或非易失性存储器或其他数据存储元件或它们的组合)和至少一个通信接口。

在本发明中，训练具有使用勒让德存储器单元(LMU)方程确定的连接权重的神经网络架构，同时可选地保持所确定的权重固定。网络可使用尖峰或非尖峰激活函数，可与其他神经网络架构堆叠或循环地耦合，并且可在软件和硬件中实现。本发明的实施方案提供了用于模式分类、数据表示和信号处理的系统，其使用跨越滑动时间窗口的正交多项式基函数进行计算。循环神经网络在本领域中是所熟知的，并且假设其描述和操作在本申请中是已知的。本发明提供了改进的方法和系统，通过该改进的方法和系统，使用勒让德存储器单元(LMU)方法和算法来确定循环网络节点权重。被应用了LMU方法的每个节点在本文中也称为LMU单元。

LMU单元定义如下。令q≥1为整数，其由用户提供。令

为q×q方阵(0≤i，j≤q-1)，其中系数如下：

每个节点的输出可定义如下。令

为q×1矩阵(x)，其中系数如下：

b_i＝(2i+1)(-1)ⁱ。

令θ为由用户提供或使用神经网络中的节点的输出确定的参数。

令t或为连续时间点，或为离散时间点。对于离散时间情况，令Δt为由用户提供或使用神经网络中的节点的输出确定的参数。

LMU循环连接通过估计以下方程来确定节点连接权重：

在连续时间的情况下，f(A；θ，t)；或者在离散时间的情况下，

f是在连续时间的情况下的A(其由θ参数化)、在离散时间的情况下的以及另外地在离散时间的情况下的用于函数

的Δt的函数

到节点输入的LMU连接权重可选地通过估计以下方程来确定：

在连续时间的情况下，g(B；θ，t)；或者在离散时间的情况下，

g是在连续时间的情况下的B(其由θ参数化)、在离散时间的情况下的以及另外地在离散时间的情况下的用于函数

的Δt的函数

来自节点输出的LMU连接可选地通过估计勒让德多项式来确定(参见A.M.Legendre,Recherches sur l’attraction des

Mémoires deMathématiques et de Physique,présentésàl’Académie Royale des Sciences,第411至435页,1782)。

这种确定循环连接权重的方法在本领域中是新颖的，并且如下文所讨论那样提供了改进的循环神经网络。

A和B矩阵的推导

为了推导出公式1和2，令

对应于由一些LMU单元表示的状态矢量的某种子集，并且令

对应于作为输入提供到前述LMU单元的矢量的某种子集。鉴于对(A，B)矩阵的选择，定义如下连续时间动态系统：

该动态系统使用正交勒让德基表示跨长度θ的滑动时间窗口的u的存储器，其中系数由状态x给出。这提供了不可用于任何其他RNN架构中的计算益处。

q＝6的(A，B)的示例如下：

确定连续时间循环和输入权重的示例

方程3则对应于q常微分方程(ODE)的以下连续时间系统：

其中例如，定义以下函数来确定循环权重：

并且定义以下函数来确定权重输入：

确定离散时间循环和输入权重的示例

方程3对应于以下qODE的离散时间动态系统，按Δt的时间步长离散化：

其中例如，考虑了零阶保持(ZOH；参见W.L.Brogan,Modern Control Theory.3rdEdition,Pearson,1990年10月)离散化，定义以下函数来确定循环权重：

并且定义以下函数来确定权重输入：

针对方程1和2的其他考虑

当分别估计方程1和2时，准许f(A；θ，t)和

和g(B；θ，t)或

的其他可能的定义来确定连接权重。示例包括但不限于使用对微分方程进行数值积分的替代方法，以及随t和Δt而变换θ。

通过使用神经网络中的输入节点提供Δt来支持具有不规则间隔的输入序列(又名“不均匀地间隔的时间序列”)。

如果方程1或2的输出是常数(即，如果其参数都不可变，也不依赖于神经网络中的任何节点的输出)，则这两个方程只需被估计一次(例如，以初始化权重)。否则，当这两个方程的参数改变时，这两个方程可能被重新估计。

确定输出权重的示例

为了使用勒让德多项式确定来自一个或多个节点的输出连接权重，可例如针对移位的勒让德多项式使用罗德里格斯公式来估计第一q多项式(参见O.Rodrigues,De l’attraction des

Correspondence

Polytechnique.PhDThesis,University of Paris,1816)：

其中r∈[0，1]，0≤i≤q-1，并且P_i是i阶的勒让德多项式。为了提供具体示例，陈述以下性质：

对于从表示x_i的节点伸出的每个连接，可选择θ′(0≤θ′≤θ)，并且然后设定

以估计方程6来确定其权重。更一般地，可计算这些多项式的任何函数(例如，积分变换，例如傅立叶变换)，以便使输出节点逼近u的滑动窗口的函数。

参考图1和图2，应用这些方法以通过选择θ′＝0来确定在层之间的输出连接权重。在该示例中，使用方程4来确定循环连接权重，并且使用方程5来确定输入连接权重。在该示例性实施方案中，低通滤波器用来实现在每个层处动态系统所需的积分，并且对θ′＝0的选择有效地解除由每个低通滤波器执行的时间卷积。因此，通过这些LMU权重，系统将其输入信号立即地传播到最深层，如图2所示。在没有对权重的这种选择的情况下，信号在每个层处逐渐地变得更低通滤波，如图1所示。

训练神经网络

可使用任何可用的方法来训练神经网络的参数，所述方法例如随时间的反向传播(BPTT；参见P.J.Werbos,Backpropagation through time:What it does and how to doit.Proceedings of the IEEE,第78卷,第10期,第1550至1560页,1990年10月)。

在训练期间，通过估计方程1或2或勒让德多项式产生的权重参数中的一者或多者可保持固定。替代地，可训练通过估计方程1或2或勒让德多项式产生的权重中的一者或多者。在任一种情况下，当使用BPTT时，误差可能会通过实现连接权重的乘法累加运算反向传播。

同样，也可训练方程1或2的参数(例如，θ或Δt，或者神经网络的确定θ或Δt的参数)，例如通过将误差反向传播通过方程1或2的梯度(另见T.Q.Chen,Y.Rubanova、J.Bettencourt和D.K.Duvenaud,Neural Ordinary Differential Equations.InAdvances in Neural Information Processing Systems,第6571至6583页，2018年12月)。

为了训练具有由尖峰非线性组成的节点的架构，可使用训练尖峰神经网络的任何可用的方法(参见E.Hunsberger、C.Eliasmith,Spiking deep networks with LIFneurons,arXiv:1510.08829,2015年10月)。

软件架构

具有前述连接权重的神经网络可在软件中实现。具有通过估计方程1或方程2或者勒让德多项式确定的一个或多个连接权重的层可使用程序代码来实现以创建LMU单元。这些层可与其他神经网络架构循环地耦合。这些层也可通过使用连接权重或其他神经网络将每个层连接到下一个层来堆叠。

程序代码应用于输入数据以执行本文描述的功能并且生成输出信息。输出信息以已知的方式应用于一个或多个输出装置。

每个程序可以高级过程或面向对象的编程或脚本语言或这两者实现，以与计算机系统进行通信。替代地，如果需要，则程序可以汇编语言或机器语言实现。语言可以是编译或解释语言。每个此类计算机程序可存储在可由通用或专用可编程计算机读取的存储介质或装置(例如，只读存储器(ROM)、磁盘、光盘)上，以用于当存储介质或装置由计算机读取以执行本文描述的过程时配置和操作计算机。该系统的实施方案也可被视为实现为被配置有计算机程序的非暂时性计算机可读存储介质，其中如此配置的存储介质致使计算机以特定且预定义的方式操作来执行本文描述的功能。

此外，所描述的实施方案的系统和方法能够分布在计算机程序产品中，所述计算机程序产品包括承载用于一个或多个处理器的计算机可用指令的物理、非暂时性计算机可读介质。介质可以各种形式提供，包括一个或多个软盘、光盘、磁带、芯片、磁性和电子存储介质等。非暂时性计算机可读介质包括所有计算机可读介质，但不包括暂时性传播信号。术语非暂时性不旨在排除其中存储在其上的数据仅被暂时地存储的计算机可读介质，诸如易失性存储器或随机存取存储器(RAM)。计算机可用指令也可以是各种形式，包括编译和非编译代码。

图5示出了可在硬件或软件中实现的神经网络500的示意图，该神经网络具有输入层508、一个或多个中间层512和输出层516。输入层具有多个节点508、530、536。中间层具有在中间层中循环的循环节点532，其中输入权重518和输出权重520耦合层中的每者的节点。循环权重提供在中间层的节点内的反馈循环。输出层具有节点534。例如，对输入层的输入被示出为外部输入502或来自先前输出504(得自528)的输入。

硬件架构

具有前述连接权重的神经网络可在硬件中实现，所述硬件包括神经形态、数字或模拟硬件和/或它们的混合。更具体地，该架构可在专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)中实现，或者使用模拟部件和其他物理基元(包括但不限于晶体管和/或其他并行计算系统)的配置实现。

参考图3，示出了实现根据本发明的神经网络的示例性电路300，其中在连续时间的情况下，通过由模块300估计方程1和2来确定连接权重，其中q＝6。大圆圈对应于x的每个维度。小圆圈表示添加(箭头)或减去(圆头)其输入的元素。第i维度按(2i+1)/θ对其输入(三角头)进行时间积分和缩放。

该设计利用了符号交替，并且通过将其分解成两个单独级联求和链，然后由反馈循环将这两者组合，再用A的上三角形和下三角形内的中间计算。这些相同计算也被再用，以通过将u供应到适当的中间节点来实现B的连接权重。

将系统的维度增加1需要将O(1)线、加法器和状态变量附加到现有电路中。总的来说，该电路需要O(q)线、加法器和状态变量，由此使电路在空间和时间上都可线性地缩放。

模拟结果

考虑了旨在估计堆叠的LSTM相对于具有等同的资源使用的堆叠的LMU的存储器容量的一组实验。为此，使用了堆叠的LSTM的现成Keras实现方式的，并且构建了3个层，每个层50个单元。每个层都全连接到下一个层，并且使用所有默认设定(例如，tanh激活)。最后一层同样地由用于每个输出的tanh激活单元组成。为了估计连续时间存储器容量，输入数据是白噪声，带宽限制为30Hz，从0开始，并且归一化到[-1,1]的绝对范围。输出数据是50维矢量，其表示在0至0.2秒之间的延迟输入的均匀排列。数据集由256个样本组成，每个样本长1秒。这些数据被随机地划分为50％训练和50％测试。训练数据被进一步划分为单独随机25％样本，其用于在训练期间报告验证准确性。使用Adam优化器相对于均方误差(MSE)损失函数进行随时间的反向传播。使用Keras和TensorFlow在四个NvidiaTitanXpGPU(每个12GB)上并行地进行训练。

发现的是，对于2ms的时间步长，反向传播可找到足够的参数来解决该任务，也就是说，LSTM实际上可准确地表示由θ＝100时间步长组成的整个延迟间隔，其中归一化均方根误差(NRMSE)为约10％。然而，在将时间步长降低了一个数量级到200μs，而同时将数据长度增加了相同因子，使得数据仍表示完全地相同的1s信号之后，性能崩溃；在θ＝1,000时间步长窗口上，准确度随延迟长度而呈指数衰减。在最坏情况下，LSTM并不比随机机会好，其中NRMSE为约100％。因此，即使历史上最成功的RNN架构显然也无法表示越来越长的时间窗口，这激发了对功能更强大的RNN架构的需求。

然后，采用了完全地相同的训练代码和网络规范，但是用一层LMU单元替代了每个LSTM单元，其中使用了在连续时间的情况下的(A,B)矩阵(等同于使用欧拉方法来将系统离散化)。这些矩阵在同一层内的每个单元间共享(类似于卷积神经网络中的权重共享)。最后，包括多个tanh非线性(每个单元一个)，这些tanh非线性接收来自在同一层上的所有状态变量的输入，由此支持跨缩放的勒让德基的混合的非线性计算。对于较小q值(例如，9)，该网络具有与前述LSTM相当的资源需求。

每个LMU单元接收一维输入。可训练参数是在层之间的权重，以及在每个单元内的延迟长度θ。在该实验中，禁用了对共享(A,B)权重的训练。整体架构与LSTM一致，因为LMU包含堆叠3次的50个单元。最终输出层由线性激活单元组成，因为此时已经应用了tanh。最后，设定q＝9，对于第一层，将每个单元的编码权重初始化为1，并且对于所有后续层，将其初始化为1/50(即，扇入的倒数)，将θ值均匀地分布在U[100，1000]上，并且通过在r＝1的情况下估计勒让德多项式来设定投影到每个tanh的权重，其中来自单元之外的所有其他状态变量的权重为零。换句话说，每个单元都被初始化为逼近tanh(u[t-θ]),，其中u[·]是单元的平均输入。然后，反向传播训练θ的值并且学习在层之间混合输入和输出的加权非线性组合。

在完全地相同的训练、验证和测试数据上运行完全地相同的代码和分析揭示了两种方法在训练时间上的巨大差异。发现的是，与堆叠的LSTM每一时期花费102.6s相比，堆叠的LMU每一时期花费52.5s来进行训练。此外，LMU在每个准确性度量方面都优于LSTM。具体地讲，MSE在训练和验证中减少了三个数量级，同时更快速地收敛到理想解决方案。LMU架构跨延迟间隔达成了一致的3％至4％误差，而等同大小的LSTM单元架构在窗口结束时接近100％的错误率。这说明了堆叠的LSTM很难跨长时间间隔记住低频信号(相对于时间步长)。相比之下，这个任务对于堆叠的LMU来说是很自然的，因为其状态表示输入历史的q度勒让德缩放。

反向传播使得堆叠的LMU能够优于堆叠的LSTM，即使在网络的初始配置不容易支持的任务上也是如此。为了评估每个网络在连续时间预测任务上的性能，考虑了称为Mackey-Glass(MG)的合成数据集：由非线性延迟微分方程描述的混沌时间序列。MG数据是使用τ＝17的离散时间延迟生成的(每个时间步长为1个单位时间)。所期望的输出是提前15个时间步长的前瞻(预测)(参见图6.15)。在移除前100个步长瞬态之后，在5,000个时间步长内对此进行模拟。将此重复128次，每次都从初始随机条件开始。然后，将整个数据集中心化，使其全局均值为零。接下来，将数据集随机地分成32个训练示例、32个验证示例和64个测试示例。

使用与先前实验相同的网络，但是有4个层，每个层100个单元。对于LMU单元，使所有参数都可训练(包括在同一层内跨单元共享的A、B矩阵)。设定q＝6并且初始化θ∈U[25,50]以解决该数据集的较短时间尺度。使用标准Keras权重初始化器初始化剩余权重。所有三种方法都使用了Adam优化器在500个时期内进行训练。在这种情况下，为了最小化过拟合，仅保留来自具有最高验证得分的时期的模型。

测试性能和训练时间概括如下。LSTM使用282,101个参数达成了7.084％的错误率，而每个训练时期花费50.0秒。LMU使用270,769个参数达成了6.783％的错误率，而每个训练时期需要30.5秒。因此，LMU在准确性和训练时间方面优于LSTM。假设这是因为LMU更容易支持在其6维状态内的延迟嵌入。此外，LMU提供了跨较长连续时间间隔相对于较低频率改进的随时间的缩放。

示例性应用

这些方法可用于产生在硬件和软件中使用神经网络来进行模式分类、数据表示或信号处理的系统。

例如，自动语音辨识(ASR)是用于计算机语音辨识的系统，其处理语音(作为音频输入波形)并且产生文本(作为模型输出)。输入可被预处理为音频特征(例如，梅尔频率倒谱系数、FilterBANK系数和特征空间最大似然线性回归系数；参见M.Ravanelli、T.Parcollet和Y.Bengio,The pytorch-kaldi speech recognition toolkit(PyTorch-Kaldi语音辨识工具箱),In International Conference on Acoustics,Speech andSignal Processing(国际声学、语音与信号处理会议),IEEE,第6465至6469页,2019年5月)，并且被提供到由具有使用LMU单元方程确定的连接权重的层组成的神经网络，其中神经网络的输出节点使用生成文本的可用方法(例如，上下文束搜索)进行后处理。因此，可将该系统训练为神经网络来构建ASR系统。

作为另一个示例，考虑了异常检测的应用，即，识别数据集中的异常值或“异常”。该数据可被顺序地提供(一次一个输入矢量)到由具有使用LMU单元方程确定的连接权重的层组成的神经网络，其中神经网络的输出节点将输入分类为典型的或异常的。因此，可使用可用方法(例如，使用无监督、半监督或全监督学习规则)来训练该系统以构建异常检测器。

Claims

1.一种用于生成具有勒让德存储器单元(LMU)单元的循环神经网络的方法，包括：

定义所述循环神经网络中的每个节点的节点响应函数，所述节点响应函数表示随时间的状态，其中所述状态被编码为二进制事件或实值中的一者；每个节点具有节点输入和节点输出；

定义每个节点输入的一组连接权重；

定义每个节点输出的一组连接权重；

定义一个或多个LMU单元，所述一个或多个LMU单元具有被定义为基于以下公式来确定节点连接权重的矩阵的一组循环连接：

，

其中

其中q是由用户确定的整数，i和j大于或等于0。

2.根据权利要求1所述的方法，其中所述一组输入连接权重被定义为基于以下公式来确定节点连接权重的矩阵：

其中b_i＝(2i+1)(-1)ⁱ。

3.根据权利要求1所述的方法，其中所述LMU节点连接权重基于以下方程来确定：

f(A；θ，t)

其中f是A的函数，θ是预定参数，并且t是时间。

4.根据权利要求3所述的方法，其中所述预定参数是由用户选择的或使用所述神经网络中的节点的所述输出确定的中的一者。

5.根据权利要求1所述的方法，其中所述LMU节点连接权重基于以下方程来确定：

其中

是A的函数，是θ预定参数，t是时间，并且Δt是预定参数。

6.根据权利要求5所述的方法，其中所述预定参数中的每者是由用户选择的或使用所述神经网络中的节点的所述输出确定的中的一者。

7.根据权利要求1所述的方法，其中来自节点输出的一个或多个连接权重是通过估计勒让德多项式确定的。

8.根据权利要求1所述的方法，其中所述LMU单元是堆叠的，其中每个LMU单元使用连接权重矩阵或另一个神经网络来连接到下一个。

9.根据权利要求1所述的方法，其中一个或多个LMU单元包括到选自LSTM单元、GRU单元、NRU单元、其他LMU单元、多层感知器、S形层和其他线性或非线性层的其他网络架构的输入和从选自LSTM单元、GRU单元、NRU单元、其他LMU单元、多层感知器、S形层和其他线性或非线性层的其他网络架构的输出的连接。

10.根据权利要求1所述的方法，其中通过更新所述网络的多个参数来将所述网络训练为神经网络。

11.根据权利要求1所述的方法，其中通过固定一个或多个参数而同时更新剩余参数来将所述网络训练为神经网络。

12.一种用于神经网络中的模式分类、数据表示或信号处理的系统，所述系统包括：

一个或多个输入层，所述一个或多个输入层呈现一个或多个维度的矢量，其中每个维度通过外部输入或通过使用来自所述网络的先前输出来提供到所述网络；

一个或多个中间层，所述一个或多个中间层经由权重矩阵耦合到所述输入层、其他中间层或输出层中的至少一者；

一个或多个输出层，所述一个或多个输出层生成在所述输入层处呈现的数据的矢量表示或在一个或多个离散时间点上或随时间而连续地计算该数据的函数；

其中

所述系统使用根据权利要求1所述的方法来生成循环神经网络。

13.一种电路，所述电路在硬件中实现，具有一个或多个循环连接，所述一个或多个循环连接使用根据权利要求1所述的方法来确定节点连接权重。

14.根据权利要求13所述的电路，其中来自节点输出的一个或多个连接权重是通过估计所述勒让德多项式确定的。