CN109661672A

CN109661672A - 使用强化学习利用外部存储器增强神经网络

Info

Publication number: CN109661672A
Application number: CN201680087372.XA
Authority: CN
Inventors: 伊利亚·苏特思科韦尔; 伊沃·达尼赫尔卡; 亚历山大·本杰明·格拉韦斯; 格雷戈里·邓肯·韦恩; 沃伊切赫·扎连芭
Original assignee: Yin Hui Technology Co Ltd
Current assignee: Yin Hui Technology Co Ltd
Priority date: 2016-05-04
Filing date: 2016-12-30
Publication date: 2019-04-19
Anticipated expiration: 2036-12-30
Also published as: WO2017192183A1; CN109661672B; US11080594B2; EP3452960A1; US20170323201A1

Abstract

用于使用强化学习利用外部存储器增强神经网络的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。一种方法包括提供从神经网络输出的系统输出部分取得的输出作为系统输出序列中的一个系统输出；根据该神经网络输出的强化学习部分从存储器访问过程的预定集合中选择用于访问外部存储器的存储器访问过程；使用该神经网络输出的可区分部分依据所选择的存储器访问过程向该外部存储器中的位置写入数据以及从其读取数据；并且将从该外部存储器读取的数据与系统输入序列中的下一个系统输入进行组合以生成神经网络输入序列中的下一个神经网络输入。

Description

使用强化学习利用外部存储器增强神经网络

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求于2016年05月04日提交的题为“使用强化学习利用外部存储器增强神经网络(AUGMENTING NEURAL NETWORKS WITH EXTERNAL MEMORYUSING REINFORCEMENT LEARNING)”的美国专利申请No.62/331,904的权益。上述申请的公开内容出于所有目的而通过引用全文结合于此。

背景技术

该说明书涉及神经网络系统架构。

神经网络是采用非线性单元的一个或多个分层来针对所接收输入预测输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入，所述下一层即下一个隐藏层或输出层。该网络的每一层依据相应参数集合的当前数值从所接收输入生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地，递归神经网络在计算当前输出时能够使用来自处理先前输入的一些或全部内部网络状态。递归神经网络的一种示例是长短期记忆(LSTM)神经网络，其包括一个或多个LSTM存储器块。每个LSTM存储器块可以包括一个或多个单元，每个单元均包括允许单元存储该单元的先前状态的输入门、遗忘门和输出门，所述先前状态例如用于在生成当前激励时使用或者被提供至LSTM神经网络的其它组件。

发明内容

该说明书描述了涉及增强神经网络系统的技术。

总体上，增强神经网络系统包括被配置为接收神经网络输入并生成神经网络输出的神经网络，存储从该神经网络输出的部分取得的数值的外部存储器，和被配置为接收该神经网络输出的部分并且使用所接收的部分对该外部存储器进行擦除、写入以及从其读取的存储器接口子系统。

更具体地，该存储器接口子系统所接收的该神经网络输出的部分包括强化学习部分和可区分输出部分。该存储器接口子系统使用该强化学习输出部分选择存储器访问过程，并且随后依据所选择的存储器访问过程使用该可区分输出部分来访问该外部存储器。

对于要被配置为执行特定操作或动作的一个或多个计算机的系统而言，意味着该系统已经在其上安装了在操作中使得该系统执行该操作或动作的软件、固件、硬件或者它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序而言，意味着该一个或多个程序包括在被数据处理装置执行时使得该装置实行该操作或动作的指令。

该说明书所描述的主题能够在特定实施例中实施，从而实现以下优势中的一种或多种。通过训练神经网络以针对系统输入序列中的每个输入选择要被执行以访问外部存储器的存储器访问过程，增强神经网络的性能能够得到改善。特别地，通过使用强化学习来允许神经网络生成定义存储器访问过程之间的硬性决策——即，与软的概率性选择相反，增强神经网络的性能能够得到改善。例如，神经网络能够生成定义外部存储器的分区之间的硬性选择的输出，从而允许增强神经网络系统更为有效地与存储在存储器中的数据进行交互。作为另一示例，神经网络可以生成输出，该输出定义基于内容的寻址和基于位置的寻址之间的硬选择，以允许增强神经网络系统更有效地与存储在存储器中的数据交互。

该说明书的主题的一个或多个实施例的细节在以下的附图和描述中给出。该主题的其它特征、方面和优势将由于描述、附图和权利要求而变得清楚明白。

附图说明

图1示出了示例的增强神经网络系统。

图2是用于从系统输入生成系统输出的示例过程的流程图。

图3是用于针对外部存储器中的位置生成基于内容的权重的示例过程的流程图。

图4是用于针对外部存储器中的位置生成基于位置的权重的示例过程的流程图。

图5是用于从神经网络输出的指定部分确定存储器访问权重的示例过程的流程图。

图6是用于针对外部存储器的所选择分区中的位置生成基于内容的权重的示例过程的流程图。

图7是用于针对外部存储器的所选择分区中的位置向基于内容的权重应用基于位置的调节的示例过程的流程图。

图8是用于依据擦除权重从外部存储器进行擦除的示例过程的流程图。

图9是用于依据擦除权重对外部存储器进行写入的示例过程的流程图。

图10是用于依据擦除权重从外部存储器进行读取的示例过程的流程图。

各图中同样的附图标记和指定指示同样的要素。

具体实施方式

图1示出了示例的增强神经网络系统100。增强神经网络系统100是被实施为以下所描述的系统、组件和技术在其中实施的一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例。

增强神经网络系统100是接收系统输入序列并且从该系统输入生成系统输出序列的机器学习系统。例如，增强神经网络系统100可以接收作为输入序列的一部分的系统输入x，并且从该系统输入x生成系统输出y。增强神经网络系统100能够将所生成的输出序列存储在输出数据库集中，或者提供该输出以用于一些其它直接目的。

增强神经网络系统100可以被配置为接收任意类型的数字数据输入，并且基于该输入生成任意类型的分数或分类输出。例如，如果针对增强神经网络系统100的输入是图像或者已经从图像所提取的特征，则增强神经网络系统100针对给定图像所生成的输出可以是每个对象类别的分数，其中每个分数表示该图像包含属于该类别的对象的图像的估计可能性。作为另一个示例，如果针对增强神经网络系统100的输入是互联网资源(例如，网页)、文档或文档的部分，或者从互联网资源、文档或文档的部分所提取的特征，则增强神经网络系统100针对给定的互联网资源、文档或文档所生成的输出可以是主题集合中的每一个的分数，其中每个分数表示该互联网资源、文档或文档与该主题相关的估计可能性。作为另一个示例，如果针对增强神经网络系统100的输入是一种语言的文本，则增强神经网络系统100所生成的输出可以是另一种语言的文本条集合中的每一个的分数，其中每个分数表示该其它语言的文本条是输入文本到该其它语言的正确翻译的估计可能性。作为另一个示例，如果针对增强神经网络系统100的输入是口头讲话、口头讲话序列，或者从此二者之一取得的特征，则增强神经网络系统100所生成的输出可以是文本条集合中的每一个的分数，每个分数表示该文本条是该讲话或讲话序列的正确转译的估计可能性。作为另一个示例，增强神经网络系统100可以是话音合成系统的一部分。作为另一个示例，增强神经网络系统100可以是视频处理系统的一部分。作为另一个示例，增强神经网络系统100可以是对话系统的一部分。作为另一个示例，增强神经网络系统100可以是自动完成系统的一部分。作为另一个示例，增强神经网络系统100可以是文本处理系统的一部分。作为另一个示例，增强神经网络系统100可以是强化学习系统的一部分。

特别地，增强神经网络系统100包括神经网络102和外部存储器104。

神经网络102可以是正反馈神经网络或递归神经网络，其被配置为接收神经网络输入并且处理该神经网络输入以生成神经网络输出。

通常，神经网络102所接收的每个神经网络输入是当前系统输入与存储器接口子系统106从外部存储器所读取的数据的组合。例如，神经网络102可以被配置为接收当前系统输入x和从外部存储器104读取的数据r，并且生成被提供至存储器接口子系统106的包括系统输出y和附加输出o的神经网络输出。

存储器接口子系统106接收神经网络所生成的输出，例如神经网络输出o_D+o_RL+y(其中+代表串联)的可区分输出部分o_D和强化学习输出部分o_RL，并且将所接收的输出翻译为要在外部存储器104上执行的擦除、读取和写入操作。

也就是说，存储器接口子系统106从神经网络102接收输出o_D+o_RL，并且基于该输出o_D+o_RL，从外部存储器104擦除数据e，向外部存储器104写入数据w，以及从外部存储器104读取数据r。存储器接口子系统106所读取的数据随后能够作为后续神经网络输入的一部分——例如连同系统输入一起——而被提供给神经网络102。

外部存储器104存储由存储器接口子系统106写入到外部存储器104的数据矢量。在一些实施方式中，外部存储器104是具有元素M(i,j,t)的实值矩阵存储器，其中i索引位置，j索引矢量元素，而t则索引时间。因此，M(i,j,t)将是在时间t在外部存储器104中的位置i处所存储的矢量的元素j处存储的数值。

特别地，存储器接口子系统106使用强化学习输出部分o_RL从存储器访问过程的预定集合中选择存储器访问过程，并且随后使用可区分输出部分o_D依据所选择的存储器访问过程在外部存储器104上执行擦除、读取和写入操作。

例如，在一些实施方式中，该系统使用强化学习输出部分o_RL来选择所要执行的存储器访问的类型，例如基于内容的访问或基于位置的访问，并且随后使用可区分输出部分o_D来执行该类型的存储器访问以从外部存储器104读取、向其写入以及从其擦除。这能够改善增强神经网络的性能。

作为另一个示例，在一些实施方式中，外部存储器104被划分为多个不连续的存储器分区。在这些实施方式中，该系统使用强化学习输出部分o_RL来从多个分区中选择一个分区，并且随后使用可区分输出部分o_D来从外部存储器104的所选择分区读取、向其写入以及从其擦除。这也能够改善增强神经网络的性能。

由于将强化学习输出部分o_RL用来选择存储器访问过程一般并不是可区分操作，即，由于存储器访问过程选择是一项“硬性”选择而不是连续权重，所以增强神经网络系统100训练神经网络102以生成强化学习输出部分o_RL，并且使用强化学习技术来生成输出的其余部分。能够被用来训练神经网络102的示例的强化学习技术是REINFORCE算法，该算法在Williams、Ronald J.的Simple statistical gradient-following algorithms forconnectionist reinforcement learning(Machine learning,8(3-4):229–256,1992)中有所描述。

图2是用于从系统输入生成系统输出的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统-——例如图1的增强神经网络系统100——能够执行过程200。

该系统接收系统输入(步骤202)。该系统输入是该系统所接收的系统输入序列之一。

该系统获得通过从外部存储器——例如图1的外部存储器104——读取而生成的读取数据矢量(步骤204)。通常，该读取数据矢量由该系统通过在该系统输入序列中的先前输入的处理期间从外部存储器进行读取而生成。

在一些实施方式中，读取数据矢量还包括识别在该序列中的先前输入的处理期间被用来访问外部存储器的存储器访问过程。也就是说，在一些实施方式中，该系统生成识别例如独热编码(one-hot encoding)的被使用的存储器访问过程的数据，并且将该数据附加至读取数据以生成读取数据矢量。

该系统通过将系统输入和从外部存储器所读取的数据进行组合来生成神经网络输入(步骤206)。例如，该系统能够将系统输入和读取数据矢量串联从而生成神经网络输入。对于第一系统输入，该系统能够将系统输入与预定矢量串联，所述预定矢量例如该神经网络的所学习状态。

该系统使用神经网络——例如图1的神经网络102——处理该神经网络输入以从该神经网络输入生成神经网络输出(步骤208)。根据该实施方式，该神经网络可以是正反馈神经网络，例如卷积神经网络或另一种类型的深度正反馈神经网络，或者是递归神经网络，例如LSTM神经网络。

如果神经网络是递归神经网络，则该递归神经网络在处理当前神经网络输入以生成神经网络输出时还使用来自序列中的先前神经网络输入的该递归神经网络的内部状态。

在一些实施方式中，该神经网络包括递归和正反馈层。

该系统从该神经网络输出的系统输出部分针对该系统输入生成系统输出(步骤210)。该神经网络输出的系统输出部分是该神经网络输出中的预定部分，该部分例如已经由系统管理员指定为要用来生成系统输出的部分，即，神经网络输出的相同部分因此被用来针对该神经网络所生成的每个输出生成系统输出。

在一些实施方式中，该系统提供该系统输出部分作为针对该系统输入的系统输出。然而，在一些其它实施方式中，该系统对系统输出部分应用一种或多种变换以便生成系统输出。例如，该系统输出部分可以被变换为用来控制机器人或不同数字接口的命令。

该系统使用神经网络输出的强化学习输出部分来选择存储器访问过程(步骤212)。神经网络输出的强化学习输出部分是该神经网络输出中的预定部分，该部分例如已经由系统管理员指定为要用来选择存储器访问过程的部分，即，神经网络输出的相同部分因此被用来针对该神经网络所生成的每个输出选择存储器访问过程。

特别地，该强化学习输出部分包括一个或多个存储器访问过程分数。

在一些实施方式中，存储器访问过程的选择是基于内容的访问或基于位置的访问之间的选择。

在这些实施方式的一些中，存储器访问过程分数仅包括单个分数。在这些实施方式中，该系统基于该分数是否超过阈值来选择访问类型，或者该分数可以定义该系统选择访问类型之一的概率。

在这些实施方式中的其它中，该存储器访问分数包括每种访问类型的相应分数。在这些实施方式中，该系统可以选择具有最高存储器访问分数的访问类型，或者可以从访问分数所定义的分数分布中进行采样从而选择访问类型。

在其它实施方式中，存储器访问过程的选择是外部存储器的非连续分区之间的选择。在这些实施方式中，该存储器访问过程分数包括每个分区的相应分数，并且该系统选择具有最高存储器访问分数的分区，或者从访问分数所定义的分数分布中进行采样从而选择分区。

该系统使用神经网络输出的可区分输出部分对外部存储器执行写入操作、读取操作和擦除操作(步骤214)。

神经网络输出的可区分输出部分是神经网络输出中的预定部分，其已经被指定为在对外部存储器执行写入、读取和擦除操作时使用的部分并且包括擦除部分、写入部分和读取部分。

特别地，为了从外部存储器擦除，该系统使用可区分输出部分的擦除部分确定擦除权重，使用可区分输出部分的写入部分确定写入权重，并且使用可区分输出部分的读取部分确定读取权重。

在一些实施方式中，写入权重与擦除权重相同，即写入部分中所指定的子部分是神经网络输出的擦除部分。然而，在一些其它实施方式中，写入部分中所指定的子部分不同于擦除部分。

该系统随后依据擦除权重从外部存储器擦除，依据写入权重向外部存储器写入，并且依据读取权重从外部存储器读取。

该系统依据使用强化学习输出部分所选择的存储器访问过程执行写入、读取和擦除操作。

也就是说，当存储器访问过程选择是基于内容的访问或基于位置的访问之间的访问时，读取、写入和擦除权重均是基于内容的权重或基于位置的权重。使用基于内容的访问的读取、写入和擦除在下文参考图3和8-10进行描述。使用基于位置的访问的读取、写入和擦除在下文参考图4和8-10进行描述。

当存储器访问过程选择是外部存储器的分区之间的选择时，该系统从外部存储器的所选择分区进行读取、写入和擦除。在这些实施方式中，不同于仅执行基于内容或基于位置的存储器访问，该系统通过确定基于内容的权重并且随后向该基于内容的权重应用基于位置的调节从而确定所选择分区中的每个位置的相应最终权重来访问存储器。从所选择分区读取、写入和擦除在图5-10中更详细地描述。

在一些实施方式中，该系统针对给定系统输入执行多个擦除、读取和写入操作。例如，该系统能够并行地且独立于每个其它操作集合来执行均包括擦除操作、读取操作和写入操作的多个集合。此外，该系统能够在执行每个操作集合中使用不同的存储器访问权重，例如，这是因为该系统在计算每个存储器访问权重集合时使用神经网络输出的不同部分。

此外，该系统能够以任意顺序来执行擦除、读取和写入操作。例如，在一些实施方式中，该系统能够擦除，接着写入，并且接着从外部存储器读取。然而，在其它实施方式中，该系统能够以不同顺序来执行这些操作。

图3是用于针对外部存储器中的位置生成基于内容的权重的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程300。

该系统接收神经网络输出的指定部分——即读取、写入或擦除部分——的基于内容的子部分(步骤302)。

该系统可以从该基于内容的子部分生成基于内容的键矢量(步骤304)。在一些实施方式中，该系统可以将该基于内容的子部分用作基于内容的键矢量。在一些其它实施方式中，该系统对该基于内容的子部分应用一种或多种变换以便生成基于内容的键矢量。例如，该系统可以使用被配置为接收该子部分并且生成基于内容的键矢量的神经网络——例如，多层解释器(MLP)神经网络——来处理该基于内容的子部分。

该系统计算该基于内容的键矢量和存储在外部存储器中的矢量之间的相似性量度(步骤306)。也就是说，该系统计算该基于内容的键矢量和存储在外部存储器中的每个矢量之间的相应相似性量度。例如，该相似性量度可以是余弦相似性量度，其中基于内容的键矢量k(h,t)和位于外部存储器M中的第i个位置的给定矢量M(i,·,t)之间的相似性K满足：

该系统使用该相似性量度针对外部存储器中的位置计算基于内容的权重(步骤308)。通常，该系统计算该权重而使得与基于内容的键矢量具有较高相似性量度的位置被指派以较高的权重。例如，针对外部存储器M中的第i个位置的基于内容的权重可以满足：

其中，β(h,t)是“键强度”值，这是从神经网络输出的指定部分取得的正值，并且该总和是外部存储器中的所有位置上的总和。

图4是用于针对外部存储器中的位置生成基于位置的权重的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程400。

该系统接收神经网络输出的指定部分的基于位置的子部分(步骤402)。在一些实施方式中，该基于位置的子部分是与基于内容的子部分相同的子部分。然而，在其它一些实施方式中，该基于位置的子部分可以是所指定部分中不同于基于内容的子部分的子部分。

该系统从该基于位置的子部分生成位移矢量(步骤404)。在一些实施方式中，该系统可以使用该基于位置的子部分作为位移矢量。在一些其它实施方式中，该系统对该基于位置的子部分应用一种或多种变换以便生成该位移矢量。例如，该系统可以使用被配置为接收该子部分并且生成位移矢量的神经网络——例如，MLP神经网络——来处理该基于位置的子部分。

该系统使用该位移矢量对先前矢量进行位移以生成基于位置的权重(步骤406)。通常，系统所生成的先前权重是该系统在处理之前的系统输入期间所生成的基于位置的权重。如果当前系统输入是序列中的第一系统输入，则该系统能够使用预定的初始权重集合作为先前权重。

特别地，该系统使用该位移矢量对先前权重应用卷积——例如，圆周卷积——以生成存储器访问权重。例如，针对外部存储器中的位置i的权重w(i,h,t+1)可以满足：

其中所有的指数运算都以N为模进行计算，其中w(i,h,t)是先前权重，并且其中s(i-j,h,t+1)是存储器中的位置i-j的位移矢量。

图5是用于从神经网络输出的指定部分确定存储器访问权重的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程500。

该系统接收神经网络输出的指定部分(步骤502)。

该系统从该指定部分中的基于内容的子部分确定基于内容的权重(步骤504)。该基于内容的权重包括外部存储器的所选择分区中的每个位置的相应权重。确定基于内容的权重在下文参考图6更详细地进行描述。

该系统对该基于内容的权重应用基于位置的调节以针对外部存储器的所选择分区中的位置确定存储器访问权重(步骤506)。通常，该系统从所指定部分的基于位置的子部分确定位移矢量，并且使用该位移矢量来调节基于内容的权重以便确定存储器访问权重，即，如下文参考图7所描述的。

图6是用于针对外部存储器的所选择分区中的位置生成基于内容的权重的示例过程600的流程图。为了方便，过程600将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程600。

该系统接收神经网络输出的指定部分的基于内容的子部分(步骤602)。

该系统从该基于内容的子部分生成基于内容的键矢量(步骤604)。在一些实施方式中，该系统可以使用该基于内容的子部分作为基于内容的键矢量。在一些其它实施方式中，该系统对该基于内容的子部分应用一种或多种变换以便生成基于内容的键矢量。例如，该系统可以使用被配置为接收子部分并且生成基于内容的键矢量的神经网络——例如，多层解释器(MLP)神经网络——来处理该基于内容的子部分。

该系统计算该基于内容的键矢量和存储在外部存储器的所选择分区中的位置中的矢量之间的相似性量度(步骤606)。也就是说，该系统计算该基于内容的键矢量和存储在外部存储器的所选择分区中的每个矢量之间的相应相似性量度。例如，该相似性量度可以是余弦相似性量度，其中基于内容的键矢量k(h,t)和位于外部存储器M中的第i个位置的给定矢量M(i,·,t)之间的相似性量度K满足：

该系统使用该相似性量度针对外部存储器的所选择分区中的位置计算基于内容的权重(步骤606)。通常，该系统计算该权重而使得与基于内容的键矢量具有较高相似性量度的位置被指派以较高的权重。例如，针对外部存储器M中的第i个位置的基于内容的权重可以满足：

其中，β(h,t)是“键强度”值，这是从神经网络输出的指定部分取得的正值，并且该总和是外部存储器的所选择分区中的所有位置上的总和。

图7是用于针对外部存储器的所选择分区中的位置向基于内容的权重应用基于位置的调节的示例过程700的流程图。为了方便，过程700将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程700。

该系统接收神经网络输出的指定部分的基于位置的子部分(步骤702)。

该系统从该基于内容的权重以及该系统所生成的先前权重生成临时权重(步骤704)。通常，该系统所生成的之前的权重是该系统在处理当前所选择分区针对其构成所选择分区的先前系统输入的期间所生成的存储器访问权重。该系统通过将该基于内容的权重与该先前权重进行组合来生成该临时权重。例如，该临时权重可以是该基于内容的权重和该先前权重的插值，其中针对第t+1个系统输入，外部存储器中的给定位置i的临时权重满足：

其中g_i(h,t+1)是处于0和1之间的门输出并且从神经网络输出的指定部分取得，w_c(i,h,t+1)是针对第t+1个系统输入的基于内容的权重，并且w(i,h,t)是针对第t个系统输入的存储器访问权重。

该系统从该基于位置的子部分生成位移矢量(步骤706)。在一些实施方式中，该系统可以使用该基于位置的子部分作为位移矢量。在一些其它实施方式中，该系统对该基于位置的子部分应用一种或多种变换以便生成该位移矢量。例如，该系统可以使用被配置为接收该子部分并且生成位移矢量的神经网络——例如，MLP神经网络——来处理该基于位置的子部分。

该系统使用该位移矢量对该临时权重进行位移以生成针对外部存储器中的所选择分区中的位置的存储器访问权重(步骤708)。特备地，该系统使用该位移矢量对该临时权重应用卷积——例如，圆周卷积——以生成存储器访问权重。例如，针对外部存储器中的位置i的权重w(i,h,t+1)可以满足：

其中所有的指数运算都以N为模进行计算，并且其中s(i-j,h,t+1)是存储器中的位置i-j的位移矢量。

图8是用于依据擦除权重从外部存储器进行擦除的示例过程800的流程图。为了方便，过程800将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程800。

该系统生成擦除权重(步骤802)。如果存储器访问过程选择是基于内容的选择和基于位置的选择之间的选择，则该系统使用过程300或过程400针对外部存储器中的每个位置生成相应的擦除权重。如果存储器访问过程选择是外部存储器的分区的选择，则该系统使用过程500-700针对所选择分区中的每个位置生成相应的擦除权重。

该系统生成擦除矢量(步骤804)。在一些实施方式中，该系统可以使用神经网络输出的指定部分作为擦除矢量。在一些其它实施方式中，该系统对该部分应用一种或多种变换以便生成擦除矢量。例如，该系统可以使用被配置为接收该子部分并且生成擦除矢量的神经网络——例如，多层解释器(MLP)神经网络——来处理该部分。

该系统使用该擦除权重和擦除门矢量从外部存储器中进行擦除(步骤806)。特别地，针对存储在外部存储器中的位置i处的矢量的矢量元素j的数值M(i,j,t)，该系统生成擦除数值其满足：

其中w_e(i,h,t+1)是针对位置i的擦除权重且g_e(j,h,t+1)是擦除矢量。如果存储器访问过程选择是外部存储器的分区的选择，则该系统仅从所选择分区中的位置进行擦除。

在其中该系统针对给定系统输入——例如，如上文所描述的并行地——执行多个擦除操作的实施方式中，每个擦除操作能够通过利用针对擦除权重和擦除门矢量可选地有所不同的数值来执行技术800而被独立地执行。例如，每个擦除操作能够通过使用利用可能不同的参数值来生成擦除门矢量的不同神经网络来执行。因此，被并行执行的多个擦除操作的累加效应是倍增的。

图9是用于依据擦除权重对外部存储器进行写入的示例过程900的流程图。为了方便，过程900将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程900。

该系统生成写入权重(步骤902)。如果存储器访问过程选择是基于内容的选择和基于位置的选择之间的选择，则该系统使用过程300或过程400针对外部存储器中的每个位置生成相应的写入权重。如果存储器访问过程选择是外部存储器的分区的选择，则该系统使用过程500-700针对所选择分区中的每个位置生成相应的写入权重。

如上文所描述的，在一些实施方式中，该写入权重与擦除权重相同。

该系统从写入输出部分的不同指定部分生成写入矢量(步骤904)。在一些实施方式中，该系统可以使用不同的指定子部分作为写入矢量。在一些其它实施方式中，系统将一个或多个变换应用于不同的指定子部分，以便生成写向量。例如，该系统可以使用被配置为接收该子部分并且生成写入矢量的神经网络——例如，MLP神经网络——来处理该不同的指定子部分。

该系统使用写入权重将该写入矢量写入到外部存储器(步骤906)。特别地，针对存储在外部存储器中的位置i处的矢量的矢量元素j的数值M(i,j,t)，该系统生成数值M(i,j,t+1)，其满足：

其中w_w(i,h,t+1)是针对位置i的写入权重且v(j,h,t+1)是写入矢量的元素h处的数值。在其中写入操作在擦除操作之后执行的实施方式中，不同于修改数值M(i,j,t)，该系统能够通过修改上文所描述的擦除操作所生成的数值来生成数值M(i,j,t+1)。

如果存储器访问过程选择是外部存储器的分区的选择，则该系统仅对所选择分区中的位置进行写入。

在其中该系统针对给定系统输入——例如，如上文所描述的并行地——执行多个写入操作的实施方式中，每个写入操作能够通过利用针对写入权重和写入矢量可选地有所不同的数值来执行技术900而被独立地执行。例如，每个写入操作能够通过使用利用可能不同的参数值来生成写入矢量的不同神经网络来执行。因此，被并行执行的多个写入操作的累加效应是倍增的。

图10是用于依据擦除权重从外部存储器进行读取的示例过程1000的流程图。为了方便，过程1000将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。例如，依据该说明书适当编程的增强神经网络系统——例如图1的增强神经网络系统100——能够执行过程1000。

该系统生成读取权重(步骤1002)。如果存储器访问过程选择是基于内容的选择和基于位置的选择之间的选择，则该系统使用过程300或过程400针对外部存储器中的每个位置生成相应的读取权重。如果存储器访问过程选择是外部存储器的分区的选择，则该系统使用过程500-700针对所选择分区中的每个位置生成相应的读取权重。

该系统依据该读取权重从外部存储器中的位置进行读取(步骤1004)。特别地，该系统通过将存储在外部存储器中的每个位置的数值进行组合来生成读取数据矢量。也就是说，针对该读取数据矢量的给定元素，该系统在该元素计算存储在外部存储器中的每个数值的加权平均值，其中每个数值的权重是相对应位置的读取权重。例如，元素j处的读取矢量的数值r(j,h,t+1)满足：

其中w_r(i,h,t+1)是针对位置i的读取权重且M(j,h,t+1)是在存储器中的位置i处存储的矢量的元素j处的数值。

如果存储器访问过程选择是外部存储器的分区的选择，则该系统仅从外部存储器的所选择分区中的位置进行读取。

在其中该系统针对给定系统输入——例如，如上文所描述的并行地——执行多个读取操作的实施方式中，每个读取操作能够通过利用针对读取权重可选地有所不同的数值来执行技术1000而被独立地执行。在这些实施方式中，该系统能够将每个读取操作所生成的读取数据矢量进行组合——例如，通过将矢量串联——以形成作为神经网络输入的一部分被提供至神经网络的最终读取数据矢量。

根据该实施方式，该系统能够基于从神经网络所接收的输出而保持外部存储器中所存储数据的各种持久性程度。例如，在一些实施方式中，该系统在每个系统输入序列已经被该系统完全处理之后重新设置外部存储器。作为另一个示例，在一些实施方式中，存储在外部存储器中的数据在输入序列之间留存。也就是说，该系统在系统输入序列之间并不从外部存储器删除任何数据。在这些实施方式中，该系统可以在指派给该系统的给定任务完成之后以及该系统开始不同的机器学习任务之前重新设置外部存储器。可替换地，该系统甚至可以在任务之间保持外部存储器而并不删除数值。因此，在处理当前输入序列的同时，该系统可以能够权衡该存储器中在处理之前的输入序列的同时或者甚至在执行之前的机器学习任务的同时所存储的数据。

该说明书中所描述的主题和功能操作的实施例能够以数字电子电路来实施，或者以有形体现的计算机软件或固件来实施，以包括该说明书中所公开的结构及其结构等同物的硬件来实施，或者以它们中一个或多个的组合来实施。该说明书中所描述主题的实施例能够被实施为一个或多个计算机程序，即在有形非瞬时程序载体上编码以便由数据处理装置执行或者控制其操作的一个或多个计算机程序指令的模块。可替换地或除此之外，程序指令可以在人为生成的传播信号上编码，例如机器生成的电、光学或电磁信号，它们被生成以编码信息以便传输至适当接收器装置从而由数据处理装置来执行。计算机存储介质可以是机器可读存储设备、机器可读存储底层、随机或串行访问存储器设备，或者它们中一个或多个的组合。

术语“数据处理装置”是指数据处理硬件并且包含用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机，或者多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如FPGA(现场可编程阵列)或ASIC(专用集成电路)。除了硬件之外，该装置可选地可以包括为计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。

计算机程序(也被称作程序、软件、软件应用、模块、软件模块、脚本或代码)能够以任意形式的编程语言进行编写，包括编译或解释语言，或者声明或过程语言，并且其可以以任意形式被采用，包括作为独立程序或者作为适于在计算环境中使用的模块、组件、子程序或其它单元。计算机程序可以对应于文件系统中的文件，但是并非需要如此。程序可以存储在保存其它程序或数据(例如，标记语言文档中所存储的一个或多个脚本)的文件的一部分之中，存储在专用于所讨论程序的单个文件中，或者存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一台计算机上执行或者在位于一个地点或跨多个地点分布并且通过通信网络进行互连的多台计算机上执行。

该说明书中所描述的过程和逻辑流程能够由一个或多个可编程计算机来实施，所述可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来实行功能。所述处理和逻辑流程还能够由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路所实行，并且装置也能够被实施为所述专用逻辑电路。

适于执行计算机程序的计算机例如可以基于通用或专用微处理器或者其二者，或者任意其它类型的中央处理器。通常，中央处理器将从只读存储器或随机访问存储器或者其二者接收指令和数据。计算机的必要部件为用于实施或执行指令的中央处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括一个或多个用于存储数据的一个或多个大型存储设备，或者与之操作耦合以往来于其接收和传送数据，上述大型存储设备例如磁盘、磁性光盘或光盘。然而，计算机并非需要具有这样的设备。此外，计算机可以被嵌入另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器，或者例如通用串行总线(USB)闪存盘的便携式存储设备，这只是举出几个示例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或便携式磁盘；磁性光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器能够被补充以专用逻辑电路或者整合在其中。

为了提供与用户的交互，该说明书中所描述的主题的实施方式能够在计算机上实施，该计算机具有例如CRT(阴极射线管)或LCD(液晶显示器)监视器的用于向用户显示信息的显示设备以及用户能够通过其向计算机提供输入的键盘和例如鼠标或轨迹球的指示设备。也能够使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任意形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任意形式被接收，包括声音、语音或触觉输入。此外，计算机能够通过往来于用户所使用的设备发送和接收文档而与用户进行交互；例如，通过响应于从用户的客户端设备上的web浏览器所接收到的请求而向该web浏览器发送网页。

该说明书中所描述的主题的实施例能够在计算系统中实施，该计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如客户端计算机的前端组件，或者一个或多个这样的后端、中间件或前端组件的任意组合，上述客户端计算机具有用户能够通过其而与该说明书所描述主题的实施方式进行交互的图形用户界面或Web浏览器。该系统的组件能够通过例如通信网络之类的任意形式或介质的数字数据通信进行互连。通信网络的示例包括局域网(LAN)和例如互联网的广域网(WAN)。

计算系统能够包括客户端和服务器。客户端和服务器通常互相远离并且典型地通过通信网络进行交互。客户端和服务器的关系源自于在相应计算机上运行并且互相具有客户端-服务器关系的计算机程序。

虽然该说明书包含了许多具体的实施方式细节，但是这些并不应当被理解为是对任何发明或者可以请求保护的范围的限制，而是作为可能对特定发明的特定实施例而言具体的特征的描述。该说明书中以单独实施例为背景所描述的某些特征也能够在单个实施例中组合实施。相反，以单个实施例为背景所描述的各个特征也能够在多个实施例中单独实施或者以任意适当的子组合实施。此外，虽然特征在上文中可以被描述为以某种组合发生作用并且甚至最初如此要求保护，但是来所请求保护的组合的一个或多个特征在一些情况下能够脱离该组合并且所请求保护的组合可以针对子组合或子组合的变化形式。

类似地，虽然操作在图中以特定顺序进行描绘，但是这并不应当被理解为为了实现所期望的结果而要求这样的操作以所示出的特定顺序或以连续顺序来执行，或者执行所有所图示的操作。在某些情况下，多任务和并行处理可能是有利的。此外，以上所说明的各个系统模块和组件的划分并不应当被理解为要求这样的划分，并且应当理解的是，所描述的程序组件和系统一般能够共同集成在单个软件产品中或者被封装为多个软件产品。

已经对该主题的特定实施例进行了描述。其它实施例处于以下权利要求的范围之内。例如，权利要求中所引用的动作可以以不同顺序执行并且仍然实现所期望的结果。作为一个示例，附图中所描绘的处理并非必然要求所期望的顺序或连续顺序来实现所期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种用于处理系统输入的序列以生成系统输出的序列的增强神经网络系统，所述增强神经网络系统包括：

神经网络，其中所述神经网络被配置为接收神经网络输入的序列并且处理每个神经网络输入以从所述神经网络输入生成神经网络输出，所述神经网络输出包括：

系统输出部分，

强化学习部分，和

可区分部分；

外部存储器；以及

存储器接口子系统，其中所述存储器接口子系统被配置为执行操作，所述操作包括针对每个神经网络输出：

提供从所述神经网络输出的所述系统输出部分取得的输出作为所述系统输出的序列中的一个系统输出；

根据所述神经网络输出的所述强化学习部分从存储器访问过程的预定集合中选择用于访问所述外部存储器的存储器访问过程；

使用所述神经网络输出的所述可区分部分依据所选择的存储器访问过程向所述外部存储器中的位置写入数据以及从所述位置读取数据；以及

将从所述外部存储器读取的数据与所述系统输入的序列中的下一个系统输入进行组合以生成所述神经网络输入的序列中的下一个神经网络输入。

2.根据权利要求1所述的增强神经网络系统，所述操作进一步包括针对每个所述神经网络输出：

使用所述神经网络输出的所述可区分部分依据所选择的存储器访问过程从所述外部存储器中的位置擦除数据。

3.根据权利要求1或2中的任一项所述的增强神经网络系统，其中所述外部存储器被划分为多个分区，并且其中选择所述存储器访问过程包括选择将要访问的所述外部存储器的分区。

4.根据权利要求3所述的增强神经网络系统，其中使用所述神经网络输出的所述可区分部分依据所选择的存储器访问过程向所述外部存储器中的位置写入数据以及从所述位置读取数据包括：

使用所述神经网络输出的所述可区分部分仅向所述外部存储器的所选择的分区中的位置写入数据以及仅从所述位置读取数据。

5.根据权利要求4所述的增强神经网络系统，其中使用所述神经网络输出的所述可区分部分仅向所述外部存储器的所选择的分区中的位置写入数据以及仅从所述位置读取数据包括：

根据所述神经网络输出的所述可区分部分针对所述外部存储器的所选择的分区中的每个位置确定相应的写入权重；

依据所述写入权重向所述外存储器的所选择的分区中的多个位置中的每一个写入由所述神经网络输出的所述可区分部分所定义的数据；

根据所述神经网络输出的所述可区分部分针对所述外部存储器的所选择的分区中的每个位置确定相应的读取权重；

依据所述读取权重从所述外部存储器的所选择的分区中的多个位置中的每一个读取数据。

6.根据权利要求1或2中的任一项所述的增强神经网络系统，其中选择存储器访问过程包括选择基于内容的访问或基于位置的访问。

7.根据权利要求6所述的增强神经网络系统，其中，当所选择的存储器访问过程是基于内容的访问时，使用所述神经网络输出的所述可区分部分依据所选择的存储器访问过程向所述外部存储器中的位置写入数据以及从所述位置读取数据包括：

根据所述神经网络输出的所述可区分部分针对所述外部存储器中的多个位置中的每一个确定相应的基于内容的写入权重；

依据所述基于内容的写入权重向所述多个位置中的每一个写入所述神经网络输出的所述可区分部分所定义的数据；

根据所述神经网络输出的所述可区分部分针对所述外部存储器中的所述多个位置中的每一个确定相应的基于内容的读取权重；

依据所述基于内容的读取权重从所述多个位置中的每一个读取数据。

8.根据权利要求6或7中的任一项所述的增强神经网络系统，其中，当所选择的存储器访问过程是基于位置的访问时，使用所述神经网络输出的所述可区分部分依据所选择的存储器访问过程向所述外部存储器中的位置写入数据以及从所述位置读取数据包括：

根据所述神经网络输出的所述可区分部分针对所述外部存储器中的多个位置中的每一个确定相应的基于位置的写入权重；

依据所述基于位置的写入权重向所述多个位置中的每一个写入所述神经网络输出的所述可区分部分所定义的数据；

根据所述神经网络输出的所述可区分部分针对所述外部存储器中的所述多个位置中的每一个确定相应的基于位置的读取权重；以及

依据所述基于位置的读取权重从所述多个位置中的每一个读取数据。

9.根据权利要求1-8中的任一项所述的增强神经网络系统，其中将从所述外部存储器读取的数据与所述系统输入的序列中的下一个系统输入进行组合以生成所述神经网络输入的序列中的下一个神经网络输入包括：

在所述下一个神经网络输入中包括识别所选择的存储器访问过程的数据。

10.根据权利要求1-9中的任一项所述的增强神经网络系统，其中所述神经网络已经被训练以通过强化学习来生成神经网络输出。

11.一种方法，包括由权利要求1-10中的任一项中的所述存储器访问子系统所执行的相应操作。

12.一种存储指令的计算机存储介质，所述指令在被一个或多个计算机执行时使得所述一个或多个计算机实施根据权利要求1-10中的任一项所述的增强神经网络系统。

13.一种包括指令的计算机程序，所述指令在被计算装置执行时使得其实施根据权利要求1-10中的任一项所述的增强神经网络系统。