CN105531724B

CN105531724B - 用于调制神经设备的训练的方法和装置

Info

Publication number: CN105531724B
Application number: CN201480044808.8A
Authority: CN
Inventors: M-D·N·卡洛伊; Y·刘; A·莎拉; A·米尔纳
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-08-13
Filing date: 2014-07-29
Publication date: 2018-09-11
Anticipated expiration: 2034-07-29
Also published as: JP2016530630A; CN105531724A; WO2015023425A3; US20150052093A1; US9542644B2; JP6227783B2; EP3033718A2; WO2015023425A2

Abstract

提供了用于通过在训练期间调制至少一个训练参数来训练具有人工神经系统的神经设备的方法和装置。一种用于训练具有人工神经系统的神经设备的示例方法一般包括在训练环境中观察神经设备以及至少部分地基于该观察来调制至少一个训练参数。例如，本文所描述的训练装置可修改神经设备的内部学习机制(例如，尖峰发放率、学习速率、神经调质、传感器灵敏度等)和/或训练环境的刺激(例如，将火焰移动到更靠近设备、使布景更暗等)。以此方式，神经设备被训练的速度(即，训练速率)相比于常规神经设备训练系统可被显著增大。

Description

用于调制神经设备的训练的方法和装置

根据35U.S.C.§119的优先权要求

本申请要求于2013年8月13日提交的美国临时专利申请S/N.61/865,439、以及于2013年11月13日提交的美国专利申请No.14/079,181的权益，这两篇申请的全部内容通过援引纳入于此。

背景

领域

本公开的某些方面一般涉及人工神经系统，尤其涉及调制具有此类人工神经系统的神经设备的训练。

背景技术

可包括一群互连的人工神经元(即神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。人工神经网络可具有生物学神经网络中的对应的结构和/或功能。然而，人工神经网络可为其中传统计算技术是麻烦的、不切实际的、或不胜任的某些应用提供创新且有用的计算技术。由于人工神经网络能从观察中推断出功能，因此这样的网络在因任务或数据的复杂度使得通过常规技术来设计该功能较为麻烦的应用中是特别有用的。

一种类型的人工神经网络是尖峰(spiking)神经网络，其将时间概念以及神经元状态和突触状态纳入到其工作模型中，由此提供了丰富的行为集，在神经网络中能从该行为集涌现出计算功能。尖峰神经网络基于以下概念：神经元基于该神经元的状态在一个或多个特定时间激发或“发放尖峰”，并且该时间对于神经元功能而言是重要的。当神经元激发时，它生成一尖峰，该尖峰行进至其他神经元，这些其他神经元继而可基于接收到该尖峰的时间来调整它们的状态。换言之，信息可被编码在神经网络中的尖峰的相对或绝对定时中。

概述

本公开的某些方面一般涉及通过在训练期间调制至少一个训练参数以力图减少训练时间量(即，增大训练速率)来训练具有人工神经系统的神经设备。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的方法。该方法一般包括：在训练环境中观察神经设备；以及至少部分地基于该观察来调制至少一个训练参数。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的装置。该装置一般包括处理系统和耦合至该处理系统的存储器。该处理系统通常被配置成：在训练环境中观察神经设备；以及至少部分地基于该观察来调制至少一个训练参数。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的设备。该设备一般包括：用于在训练环境中观察神经设备的装置；以及用于至少部分地基于该观察来调制至少一个训练参数的装置。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的计算机程序产品。该计算机程序产品通常包括非瞬态计算机可读介质(例如，存储设备)，该非瞬态计算机可读介质具有能执行以用于以下操作的指令：在训练环境中观察神经设备；以及至少部分地基于该观察来调制至少一个训练参数。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的方法。该方法一般包括：在神经设备处接收调制神经设备的至少一个训练参数的指令；以及至少部分地基于所接收到的指令来调制该至少一个训练参数。

本公开的某些方面提供一种具有人工神经系统的装置。该装置一般包括处理系统和耦合至该处理系统的存储器。该处理系统通常被配置成：接收调制该装置的至少一个训练参数的指令；以及至少部分地基于所接收到的指令来调制该至少一个训练参数。

本公开的某些方面提供一种具有人工神经系统的设备。该设备一般包括：用于接收调制该设备的至少一个训练参数的指令的装置；以及用于至少部分地基于所接收到的指令来调制该至少一个训练参数的装置。

本公开的某些方面提供了一种用于训练具有人工神经系统的人工设备的计算机程序产品。该计算机程序产品通常包括非瞬态计算机可读介质(例如，存储设备)，该非瞬态计算机可读介质具有用于以下操作的代码：在神经设备处接收调制神经设备的至少一个训练参数的指令；以及至少部分地基于所接收到的指令来调制至少一个训练参数。

附图简述

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

图1解说了根据本公开的某些方面的示例神经元网络。

图2解说了根据本公开的某些方面的计算网络(神经系统或神经网络)的示例处理单元(神经元)。

图3解说了根据本公开的某些方面的示例尖峰定时依赖可塑性(STDP)曲线。

图4是根据本公开的某些方面的用于人工神经元的状态的示例曲线图，其解说用于定义神经元的行为的正态相和负态相。

图5是根据本公开的某些方面的示例训练系统的框图。

图6是根据本公开的某些方面的示例经调制训练系统的详细框图。

图7解说了根据本公开的某些方面的示例训练环境，其中位于其中的每一物体具有虚拟边界。

图8解说了根据本公开的某些方面的训练环境中的示例交叠虚拟边界。

图9解说了根据本公开的某些方面的示例自适应虚拟边界。

图10是根据本公开的某些方面的用于从神经设备外部的训练装置的角度训练具有人工神经系统的神经设备的示例操作的流程图。

图10A解说了能够执行图10中示出的操作的示例装置。

图11是根据本公开的某些方面的用于从神经设备的角度训练具有人工神经系统的神经设备的示例操作的流程图。

图11A解说了能够执行图11中示出的操作的示例装置。

图12解说了根据本公开的某些方面的用于使用通用处理器来训练具有人工神经系统的神经设备的示例实现。

图13解说了根据本公开的某些方面的用于训练具有人工神经系统的神经设备的示例实现，其中存储器可与个体分布式处理单元对接。

图14解说了根据本公开的某些方面的用于基于分布式存储器和分布式处理单元来训练具有人工神经系统的神经设备的示例实现。

图15解说了根据本公开的某些方面的神经网络的示例实现。

图16图形化地解说了根据本公开的某些方面的取决于神经调制输入的电平来规定三种不同模式的示例再可塑性规则。

详细描述

以下参照附图更全面地描述本公开的各个方面。然而，本公开可用许多不同形式来实施并且不应解释为被限定于本公开通篇给出的任何具体结构或功能。相反，提供这些方面是为了使得本公开将是透彻和完整的，并且其将向本领域技术人员完全传达本公开的范围。基于本文中的教导，本领域技术人员应领会，本公开的范围旨在覆盖本文中所披露的本公开的任何方面，不论其是与本公开的任何其他方面相独立地实现还是组合地实现的。例如，可以使用本文所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各个方面的补充或者另外的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，本文中所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

措辞“示例性”在本文中用于表示“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

示例神经系统

图1解说根据本公开的某些方面的具有多级神经元的示例神经系统100。神经系统100可包括一级神经元102，该级神经元102通过突触连接网络104(即，前馈连接)来连接到另一级神经元106。为简单起见，图1中仅解说了两级神经元，但在典型的神经系统中可存在更少或更多级神经元。应注意，一些神经元可通过侧向连接来连接至同层中的其他神经元。此外，一些神经元可通过反馈连接来后向连接至先前层中的神经元。

如图1所解说的，级102中的每一神经元可接收输入信号108，输入信号108可以是由前一级(图1中未示出)的多个神经元所生成的。信号108可表示至级102的神经元的输入(例如，输入电流)。此类输入可在神经元膜上累积以对膜电位进行充电。当膜电位达到其阈值时，该神经元可激发并生成输出尖峰，该输出尖峰将被传递到下一级神经元(例如，级106)。此类行为可在硬件和/或软件(包括模拟和数字实现)中进行仿真或模拟。

在生物学神经元中，在神经元激发时生成的输出尖峰被称为动作电位。该电信号是相对迅速、瞬态、全有或全无的神经脉冲，其具有约为100mV的振幅和约为1ms的历时。在具有一系列连通的神经元(例如，尖峰从图1中的一级神经元传递至另一级)的神经系统的特定方面，每个动作电位都具有基本上相同的振幅和历时，因此该信号中的信息仅由尖峰的频率和数目(或尖峰的时间)来表示，而不由振幅来表示。动作电位所携带的信息由尖峰、发放尖峰的神经元、以及该尖峰相对于一个或多个其他尖峰的时间来决定。

尖峰从一级神经元向另一级神经元的传递可通过突触连接(或简称“突触”)网络104来达成，如图1所解说的。突触104可从级102的神经元(相对于突触104而言的突触前神经元)接收输出信号(即尖峰)。对于某些方面，这些信号可根据可调节突触权重(其中P是级102和106的神经元之间的突触连接的总数)来缩放。对于其它方面，突触104可以不应用任何突触权重。此外，(经缩放的)信号可被组合以作为级106中每个神经元(相对于突触104而言的突触后神经元)的输入信号。级106中的每个神经元可基于对应的组合输入信号来生成输出尖峰110。随后可使用另一突触连接网络(图1中未示出)将这些输出尖峰110传递到另一级神经元。

生物学突触可被分类为电的或化学的。电突触主要用于发送兴奋性信号，而化学突触可调停突触后神经元中的兴奋性或抑制性(超极化)动作，并且还可用于放大神经元信号。兴奋性信号通常使膜电位去极化(即，相对于静息电位增大膜电位)。如果在某个时段内接收到足够的兴奋性信号以使膜电位去极化到高于阈值，则在突触后神经元中发生动作电位。相反，抑制性信号一般使膜电位超极化(即，降低膜电位)。抑制性信号如果足够强则可抵消掉兴奋性信号之和并阻止膜电位到达阈值。除了抵消掉突触兴奋以外，突触抑制还可对自发活跃神经元施加强力的控制。自发活动神经元是指在没有进一步输入的情况下(例如，由于其动态或反馈而)发放尖峰的神经元。通过压制这些神经元中的动作电位的自发生成，突触抑制可对神经元中的激发模式进行定形，这一般被称为雕刻。取决于期望的行为，各种突触104可充当兴奋性或抑制性突触的任何组合。

神经系统100可由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件、由处理器执行的软件模块、或其任何组合来仿真。神经系统100可用在大范围的应用中，诸如图像和模式识别、机器学习、电机控制、及类似应用等。神经系统100中的每个神经元(或神经元模型)都可以被实现为神经元电路。被充电至发起输出尖峰的阈值的神经元膜可被实现为例如对流经其的电流进行积分的电容器。

在一方面，电容器作为神经元电路的电流积分器件可被除去，并且可使用较小的忆阻器元件来替代它。这种办法可应用于神经元电路中，以及其中大容量电容器被用作电流积分器的各种其他应用中。另外，每个突触104可基于忆阻器元件来实现，其中突触权重改变可与忆阻器电阻的变化有关。使用纳米特征尺寸的忆阻器，可显著地减小神经元电路和突触的面积，这可使得实现超大规模神经系统硬件实现变得可行。

对神经系统100进行仿真的神经处理器的功能性可取决于突触连接的权重，这些权重可控制神经元之间的连接的强度。突触权重可存储在非易失性存储器中以在掉电之后保留该处理器的功能性。在一方面，突触权重存储器可实现在与主神经处理器芯片分开的外部芯片上。突触权重存储器可与神经处理器芯片分开地封装成可更换的存储卡。这可向神经处理器提供多种多样的功能性，其中特定功能性可基于当前附连至神经处理器的存储卡中所存储的突触权重。

图2解说根据本公开某些方面的计算网络(例如，神经系统或神经网络)的处理单元(例如，人工神经元202)的示例200。例如，神经元202可对应于来自图1的级102和106的任一个神经元。神经元202可接收多个输入信号204₁-204_N(x₁-x_N)，这些输入信号可以是该神经系统外部的信号、或是由同一神经系统的其他神经元所生成的信号、或这两者。输入信号可以是实数值或复数值的电流或电压。输入信号可包括具有定点或浮点表示的数值。可通过突触连接将这些输入信号递送到神经元202，这些突触连接根据可调节突触权重206₁-206_N(w₁-w_N)对这些信号进行缩放，其中N可以是神经元202的输入连接的总数。

神经元202可组合这些经缩放的输入信号，并且使用经组合经缩放的输入来生成输出信号208(即，信号y)。输出信号208可以是实数值或复数值的电流或电压。输出信号可包括具有定点或浮点表示的数值。随后该输出信号208可作为输入信号传递至同一神经系统的其他神经元、或作为输入信号传递至同一神经元202、或作为该神经系统的输出来传递。

处理单元(神经元202)可由电路来仿真，并且其输入和输出连接可由具有突触电路的导线来仿真。处理单元、其输入和输出连接也可由软件代码来仿真。处理单元也可由电路来仿真，而其输入和输出连接可由软件代码来仿真。在一方面，计算网络中的处理单元可包括模拟电路。在另一方面，处理单元可包括数字电路。在又一方面，处理单元可包括具有模拟和数字组件两者的混合信号电路。计算网络可包括任何前述形式的处理单元。使用这样的处理单元的计算网络(神经系统或神经网络)可用在大范围的应用中，诸如图像和模式识别、机器学习、电机控制、及类似应用等。

在神经网络的训练过程期间，突触权重(例如，来自图1的权重和/或来自图2的权重206₁-206_N)可用随机值来初始化并根据学习规则而增大或减小。学习规则的某些示例是尖峰定时依赖型可塑性(STDP)学习规则、Hebb规则、Oja规则、Bienenstock-Copper-Munro(BCM)规则等。很多时候，这些权重可稳定至两个值(即，权重的双峰分布)之一。该效应可被用于减少每突触权重的位数、提高从/向存储突触权重的存储器读取和写入的速度、以及降低突触存储器的功耗。

突触类型

在神经网络的硬件和软件模型中，突触相关功能的处理可基于突触类型。突触类型可包括非可塑突触(对权重和延迟没有改变)、可塑突触(权重可改变)、结构化延迟可塑突触(权重和延迟可改变)、全可塑突触(权重、延迟和连通性可改变)、以及基于此的变型(例如，延迟可改变，但在权重或连通性方面没有改变)。此举的优点在于处理可以被细分。例如，非可塑突触不会要求执行可塑性功能(或等待此类功能完成)。类似地，延迟和权重可塑性可被细分成可一起或分开地、顺序地或并行地运作的操作。不同类型的突触对于适用的每一种不同的可塑性类型可具有不同的查找表或公式以及参数。因此，这些方法将针对该突触的类型来访问相关的表。

还进一步牵涉到以下事实：尖峰定时依赖型结构化可塑性可独立于突触可塑性地来执行。结构化可塑性即使在权重幅值没有改变的情况下(例如，如果权重已达最小或最大值、或者其由于某种其他原因而不改变)也可执行，因为结构化可塑性(即，延迟改变的量)可以是pre-post(突触前-突触后)尖峰时间差的直接函数。替换地，结构化可塑性可被设为权重改变量的函数或者可基于与权重或权重改变的界限有关的条件来设置。例如，突触延迟可仅在发生权重改变时或者在权重到达0的情况下才改变，但在权重达到最大极限时不改变。然而，具有独立函数以使得这些过程能被并行化从而减少存储器访问的次数和交叠可能是有利的。

突触可塑性的确定

神经元可塑性(或简称“可塑性”)是大脑中的神经元和神经网络响应于新的信息、感官刺激、发展、损坏、或机能障碍而改变其突触连接和行为的能力。可塑性对于生物学中的学习和记忆、以及对于计算神经元科学和神经网络是重要的。已经研究了各种形式的可塑性，诸如突触可塑性(例如，根据赫布理论)、尖峰定时依赖可塑性(STDP)、非突触可塑性、活动性依赖可塑性、结构化可塑性和自身稳态可塑性。

STDP是调节神经元(诸如大脑中的那些神经元)之间的突触连接的强度的学习过程。连接强度是基于特定神经元的输出与收到输入尖峰(即，动作电位)的相对定时来调节的。在STDP过程下，如果至某个神经元的输入尖峰平均而言倾向于紧挨在该神经元的输出尖峰之前发生，则可发生长期增强(LTP)。于是使得该特定输入在一定程度上更强。相反，如果输入尖峰平均而言倾向于紧接在输出尖峰之后发生，则可发生长期抑压(LTD)。于是使得该特定输入在一定程度上更弱，由此得名为“尖峰定时依赖可塑性”。因此，使得可能是突触后神经元兴奋原因的输入甚至更有可能在将来作出贡献，而使得不是突触后尖峰的原因的输入较不可能在将来作出贡献。该过程继续，直至初始连接集的子集保留，而所有其他连接的影响减轻至0或接近0。

由于神经元一般在其许多输入都在一短时段内发生(即，足以累积到引起输出)时产生输出尖峰，因此通常保留下来的输入子集包括倾向于在时间上相关的那些输入。另外，由于在输出尖峰之前发生的输入被加强，因此提供对相关性的最早充分累积指示的输入将最终变成至该神经元的最后输入。

STDP学习规则可因变于突触前神经元的尖峰时间t_pre与突触后神经元的尖峰时间t_post之间的时间差(即，t＝t_post-t_pre)来有效地适配将该突触前神经元连接到该突触后神经元的突触的突触权重。STDP的典型公式是若该时间差为正(突触前神经元在突触后神经元之前激发)则增大突触权重(即，增强该突触)，以及若该时间差为负(突触后神经元在突触前神经元之前激发)则减小突触权重(即，抑压该突触)。

在STDP过程中，突触权重随时间推移的改变可通常使用指数衰退来达成，如由下式给出的：

其中k₊和k_-分别是针对正和负时间差的时间常数，a₊和a_-是对应的缩放幅值，以及μ是可应用于正时间差和/或负时间差的偏移。

图3解说根据STDP，突触权重因变于突触前尖峰(pre)和突触后尖峰(post)的相对定时而改变的示例曲线图300。如果突触前神经元在突触后神经元之前激发，则可使对应的突触权重增大，如曲线图300的部分302中所解说的。该权重增大可被称为该突触的LTP。从曲线图部分302可观察到，LTP的量可因变于突触前和突触后尖峰时间之差而大致呈指数地下降。相反的激发次序可减小突触权重，如曲线图300的部分304中所解说的，从而导致该突触的LTD。

如图3中的曲线图300中所解说的，可向STDP曲线图的LTP(因果性)部分302应用负偏移μ。x轴的交越点306(y＝0)可被配置成与最大时间滞后重合以考虑到来自层i-1(突触前层)的各因果性输入的相关性。在基于帧的输入(即，输入是按包括尖峰或脉冲的特定历时的帧的形式)的情形中，可计算偏移值μ以反映帧边界。该帧中的第一输入尖峰(脉冲)可被视为随时间衰退，要么如直接由突触后电位所建模地、要么以对神经状态的影响的形式而随时间衰退。如果该帧中的第二输入尖峰(脉冲)被视为与特定时间帧关联或相关，则可通过偏移STDP曲线的一个或多个部分以使得相关时间中的值可以不同(例如，对于大于一个帧为负，而对于小于一个帧为正)来使该帧之前和之后的相关时间在该时间帧边界处被分开并在可塑性方面被不同地对待。例如，负偏移μ可被设为偏移LTP以使得曲线实际上在大于帧时间的pre-post时间处变得低于零并且它由此为LTD而非LTP的一部分。

神经元模型及操作

存在一些用于设计有用的尖峰发放神经元模型的一般原理。良好的神经元模型在以下两个计算态相(regime)方面可具有丰富的潜在行为：重合性检测和功能性计算。此外，良好的神经元模型应当具有允许时间编码的两个要素：输入的抵达时间影响输出时间，以及重合性检测能具有窄时间窗。最后，为了在计算上是有吸引力的，良好的神经元模型在连续时间上可具有闭合形式解，并且具有稳定的行为，包括在靠近吸引子和鞍点之处。换言之，有用的神经元模型是可实践且可被用于建模丰富的、现实的且生物学一致的行为并且可被用于对神经电路进行工程设计和反向工程两者的神经元模型。

神经元模型可取决于事件，诸如输入抵达、输出尖峰或其他事件，无论这些事件是内部的还是外部的。为了达成丰富的行为库，能展现复杂行为的状态机可能是期望的。如果事件本身的发生在撇开输入贡献(若有)的情况下能影响状态机并约束在该事件之后的动态，则该系统的将来状态并非仅是状态和输入的函数，而是状态、事件和输入的函数。

在一方面，神经元n可被建模为尖峰带漏泄积分激发(LIF)神经元，其膜电压v_n(t)由以下动态来管控：

其中α和β是参数，w_m,n是将突触前神经元m连接至突触后神经元n的突触的突触权重，以及y_m(t)是神经元m的尖峰输出，其可根据Δt_m,n被延迟达树突或轴突延迟才抵达神经元n的胞体。

应注意，从建立了对突触后神经元的充分输入的时间直至突触后神经元实际上激发的时间之间存在延迟。在动态尖峰神经元模型(诸如Izhikevich简单模型)中，如果在去极化阈值v_t与峰值尖峰电压v_peak之间有差量，则可引发时间延迟。例如，在该简单模型中，神经元胞体动态可由关于电压和恢复的微分方程对来管控，即：

其中v是膜电位，u是膜恢复变量，k是描述膜电位v的时间尺度的参数，a是描述恢复变量u的时间尺度的参数，b是描述恢复变量u对膜电位v的阈下波动的敏感度的参数，v_r是膜静息电位，I是突触电流，以及C是膜的电容。根据该模型，神经元被定义为在v>v_peak时发放尖峰。

Hunzinger Cold模型

Hunzinger Cold神经元模型是能再现丰富多样的各种神经行为的最小双态相尖峰发放线性动态模型。该模型的一维或二维线性动态可具有两个态相，其中时间常数(以及耦合)可取决于态相。在阈下态相中，时间常数(按照惯例为负)表示漏泄通道动态，其一般作用于以生物学一致的线性方式使细胞返回到静息。阈上态相中的时间常数(按照惯例为正)反映抗漏泄通道动态，其一般驱动细胞发放尖峰，而同时在尖峰生成中引发等待时间。

如图4中所示，该模型的动态可被划分成两个(或更多个)态相。这些态相可被称为负态相402(也可互换地称为带漏泄积分激发(LIF)态相，勿与LIF神经元模型混淆)以及正态相404(也可互换地称为抗漏泄积分激发(ALIF)态相，勿与ALIF神经元模型混淆)。在负态相402中，状态在将来事件的时间趋向于静息(v_-)。在该负态相中，该模型一般展现出时间输入检测性质及其他阈下行为。在正态相404中，状态趋向于尖峰发放事件(v_s)。在该正态相中，该模型展现出计算性质，诸如取决于后续输入事件而引发发放尖峰的等待时间。在事件方面对动态进行公式化以及将动态分成这两个态相是该模型的基础特性。

线性双态相二维动态(对于状态v和u)可按照惯例定义为：

其中q_ρ和r是用于耦合的线性变换变量。

符号ρ在本文中用于标示动态态相，在讨论或表达具体态相的关系时，按照惯例对于负态相和正态相分别用符号“-”或“+”来替换符号ρ。

模型状态通过膜电位(电压)v和恢复电流u来定义。在基本形式中，态相在本质上是由模型状态来决定的。该精确和通用的定义存在一些细微却重要的方面，但目前考虑该模型在电压v高于阈值(v₊)的情况下处于正态相404中，否则处于负态相402中。

态相依赖型时间常数包括负态相时间常数τ_-和正态相时间常数τ₊。恢复电流时间常数τ_u通常是与态相无关的。出于方便起见，负态相时间常数τ_-通常被指定为反映衰退的负量，从而用于电压演变的相同表达式可用于正态相，在正态相中指数和τ₊将一般为正，正如τ_u那样。

这两个状态元素的动态可在发生事件之际通过使状态偏离其零倾线(null-cline)的变换来耦合，其中变换变量为：

q_ρ＝-τ_ρβu-v_ρ (7)

r＝δ(v+ε) (8)

其中δ、ε、β和v_-、v₊是参数。v_ρ的两个值是这两个态相的参考电压的基数。参数v_-是负态相的基电压，并且膜电位在负态相中一般将朝向v_-衰退。参数v₊是正态相的基电压，并且膜电位在正态相中一般将趋向于背离v₊。

v和u的零倾线分别由变换变量q_ρ和r的负数给出。参数δ是控制u零倾线的斜率的缩放因子。参数ε通常被设为等于-v_-。参数β是控制这两个态相中的v零倾线的斜率的电阻值。τ_ρ时间常数参数不仅控制指数衰退，还单独地控制每个态相中的零倾线斜率。

该模型被定义为在电压v达值v_S时发放尖峰。随后，状态通常在发生复位事件(其在技术上可以与尖峰事件完全相同)时被复位：

u＝u+Δu (10)

其中和Δu是参数。复位电压通常被设为v_-。

依照瞬时耦合的原理，闭合形式解不仅对于状态是可能的(且具有单个指数项)，而且对于到达特定状态所需的时间也是可能的。闭合形式状态解为：

因此，模型状态可仅在发生事件之际被更新，诸如基于输入(突触前尖峰)或输出(突触后尖峰)而被更新。还可在任何特定时间(无论是否有输入或输出)执行操作。

而且，依照瞬时耦合原理，可以预计突触后尖峰的时间，因此到达特定状态的时间可提前被确定而无需迭代技术或数值方法(例如，欧拉数值方法)。给定了先前电压状态v₀，直至到达电压状态v_f之前的时间延迟由下式给出：

如果尖峰被定义为发生在电压状态v到达v_S的时间，则从电压处于给定状态v的时间起测量的直至发生尖峰前的时间量或即相对延迟的闭合形式解为：

其中通常被设为参数v₊，但其他变型可以是可能的。

模型动态的以上定义取决于该模型是在正态相还是负态相中。如所提及的，耦合和态相ρ可基于事件来计算。出于状态传播的目的，态相和耦合(变换)变量可基于在上一(先前)事件的时间的状态来定义。出于随后预计尖峰输出时间的目的，态相和耦合变量可基于在下一(当前)事件的时间的状态来定义。

存在对该Cold模型、以及在时间上执行模拟、仿真、或建模的若干可能实现。这包括例如事件-更新、步阶-事件更新、以及步阶-更新模式。事件更新是其中基于事件或“事件更新”(在特定时刻)来更新状态的更新。步阶更新是以间隔(例如，1ms)来更新模型的更新。这不一定要求迭代方法或数值方法。通过仅在事件发生于步阶处或步阶间的情况下才更新模型或即通过“步阶-事件”更新，基于事件的实现以有限的时间分辨率在基于步阶的模拟器中实现也是可能的。

神经编码

有用的神经网络模型(诸如包括图1的人工神经元102、106的神经网络模型)可经由各种合适的神经编码方案(诸如重合性编码、时间编码或速率编码)中的任一种来编码信息。在重合性编码中，信息被编码在神经元集群的动作电位(尖峰发放活动性)的重合性(或时间邻近性)中。在时间编码中，神经元通过对动作电位(即，尖峰)的精确定时(无论是以绝对时间还是相对时间)来编码信息。信息由此可被编码在一群神经元间的相对尖峰定时中。相反，速率编码涉及将神经信息编码在激发率或集群激发率中。

如果神经元模型能执行时间编码，则其也能执行速率编码(因为速率正好是定时或尖峰间间隔的函数)。为了提供时间编码，良好的神经元模型应当具有两个要素：(1)输入的抵达时间影响输出时间；以及(2)重合性检测能具有窄时间窗。连接延迟提供了将重合性检测扩展到时间模式解码的一种手段，因为通过恰适地延迟时间模式的元素，可使这些元素达成定时重合性。

抵达时间

在良好的神经元模型中，输入的抵达时间应当对输出时间有影响。突触输入——无论是狄拉克Δ函数还是经定形的突触后电位(PSP)、无论是兴奋性的(EPSP)还是抑制性的(IPSP)——具有抵达时间(例如，Δ函数的时间或者阶跃或其他输入函数的开始或峰值的时间)，其可被称为输入时间。神经元输出(即，尖峰)具有发生时间(无论其是在何处(例如在胞体处、在沿轴突的一点处、或在轴突末端处)测量的)，其可被称为输出时间。该输出时间可以是尖峰的峰值时间、尖峰的开始、或与输出波形有关的任何其他时间。普适原理是输出时间取决于输入时间。

乍看起来可能认为所有神经元模型都遵循该原理，但一般并不是这样。例如，基于速率的模型不具有此特征。许多尖峰模型一般也并不遵循这一点。带漏泄积分激发(LIF)模型在有额外输入(超过阈值)的情况下并不会更快一点地激发。此外，在以非常高的定时分辨率来建模的情况下或许遵循这一点的模型在定时分辨率受限(诸如限于1ms步长)时通常将不会遵循这一点。

输入

神经元模型的输入可包括狄拉克Δ函数，诸如电流形式的输入、或基于电导率的输入。在后一种情形中，对神经元状态的贡献可以是连续的或状态依赖型的。

再可塑性规则

经典的尖峰定时依赖型可塑性(STDP)规则仅依赖于突触前神经元与突触后神经元之间的尖峰定时差异。然而，实验证据指示，存在当仅仅定时不足以决定突触可塑性规则的情形。Pawlak,V.等人的“Timing is not everything:neuromodulation opens theSTDP gate(定时不是一切：神经调制打开STDP的大门)”，《突触神经系统科学前沿》杂志2:1-13(2010)中的数据指出突触可塑性通过调制信号多巴胺(DA)而选通。可塑性变化的符号还受到神经递质和受体组合的状态和集中度的影响，如在Shen,W.等人的“DichotomousDopaminergic Control of Striatal Synaptic Plasticity(纹状体突触可塑性的二分多巴胺能控制)”《科学》杂志321:848-850(2008)中所描述的。

本文描述了再可塑性规则，其中再可塑性一般是指激起后续突触可塑性(包括长期增强(LTP)和长期抑制(LTD))的能力的变化。作为一般化的突触可塑性规则，再可塑性规则将可能具有延迟的神经调制输入与突触前神经和突触后神经活动联系起来。

突触前和突触后神经元活动导致与Izhikevich,E.M.的“Solving the DistalReward Problem through Linkage of STDP and Dopamine Signaling(通过STDP和多巴胺信令的联接来解决末梢报偿问题)”《大脑皮层》杂志17:2443-52(2007)中的方案类似的合格性踪迹。但在再可塑性规则下，增强p(t)和抑制d(t)踪迹被分开来表达在以下的式(15)中，其中合格性踪迹随时间衰退：

其中τ_trace是踪迹的时间常数。突触变化可表示为：

Δs(t)＝Δw·p(t)+Δw·d(t) (16)

一般而言，取决于神经调制输入的电平，再可塑性规则规定三种神经活动模式，如图16中所解说的。高DA水平产生Δw>0。如图16的曲线图1606中所解说的，这将学习规则调制到Hebbian态相中，其中正的Δs(t)被应用于突触前-突触后以及突触后-突触前激发事件两者，这导致突触的加强。

低DA水平产生Δw<0。如图16的曲线图1604中所解说的，这将学习规则调制到反Hebbian态相中，其中负的Δs(t)被应用于突触前-突触后以及突触后-突触前激发事件两者以削弱突触。尽管曲线图1604和1606解说了分段指数函数，但是其他函数(例如，方波或分段矩形函数)也可取而代之用于某些方面。

中等DA水平引入较小的突触权重变化，所以Δw～0,Δs～0。图16的曲线图1602解说了针对某些方面的突触前-突触后以及突触后-突触前激发事件两者的此标称突触变化。对于其他方面，平坦的水平线(表示没有更新)可被取而代之用于中等DA水平，而不是分段指数函数(表示小更新)，如曲线图1602中所解说的。

再可塑性规则规定高DA水平将实现突触增强，以使得人工神经系统记住关联。相反，低DA水平将导致突触抑制，以使得人工神经系统主动地快速忘记当前的关联。此类再可塑性规则在报偿学习中，尤其在逆转学习方案中是重要的。先前的学习系统使用被动衰退机制来忘记关联，这对于忘记关联而言(即，对于逆转学习而言)要比本文中公开的主动机制花费显著更长的时间。然而，对关联的主动忘记不需要是立即的；在忘记方案中可能内建有某种稳定性。

此再可塑性学习规则不限于尖峰神经元网络。在基于速率的神经网络中，使用神经元响应之间的相关性来计算合格性踪迹，并且相同的规则适用于将合格性踪迹与神经调制输入相联系。

神经设备的示例训练

当前正开发利用人工神经系统(例如，包括多个人工神经元的神经元形态处理器)的设备。这些神经设备模仿如同动物大脑的处理并且利用人工神经系统以用于决策制定功能。此类神经设备通常需要在执行期望任务之前进行训练。

将行为训练到神经设备中可花费较长的时间。因此，加速其学习行为所花费的时间变成神经设备推向市场的路径的基石。调制设备的学习速率是缩短训练时间的一种方式，不论是加快学习速率以更快地学习新的行为、减缓学习速率以纠正任何不需要的行为、还是其任何组合。学习速率的调制受限于神经设备的优势，神经设备通常仅使用其传感器来感知训练环境。

相应地，所需要的是用于减少训练时间的技术和装置，其可利用外部实体来调制各种训练参数，包括设备的学习速率。此类外部实体具有关于训练环境以及神经设备的学习能力的更广视角。

本公开的某些方面提供一种可被自动化和/或手动驱动的用于训练神经设备的自适应系统。此类自适应训练系统观察训练环境和神经设备的动作、以及其间的交互。训练系统还可具有影响训练环境的各个方面(例如，改变照明、温度等)的能力以及影响神经设备的各个部分(包括人工神经系统所基于的神经模型)(例如，调整权重、延迟和神经调制)的能力。

根据某些方面，训练系统可提供对多个神经设备的训练。这允许摊还与训练行为相关的时间。对于某些方面，训练系统可提供同时训练多个行为，由此提高训练效率。

图5是根据本公开的某些方面的用于训练神经设备508的示例训练系统500的框图。训练系统500可涉及操作者502、训练处理系统504和训练环境506之间的交互。操作者502可以是人、另一动物(例如，猿或猴子)、或者机器(例如，另一神经设备、不同于正被训练的神经设备508)。对于某些方面，训练处理系统504可包括一个或者多个处理单元并且可以是计算机。

在训练过程期间，神经设备508可被引入到训练环境506中。训练环境506可包括一个或多个环境刺激510，其可包括各种合适的刺激类型中的任一者(例如，训练场中的物体、光、声音、气味、电磁场、图像、热、以及类似物)，取决于神经设备508正被期望学习到什么(例如，基于要执行的任务)。训练处理系统504可与神经设备508对接和/或与训练环境506中的环境刺激510对接以在神经设备508的训练期间调制一个或多个训练参数。这些训练参数可包括神经设备508的学习因素、诸如尖峰发放率、学习速率、神经调质的量或效应、激起后续突触可塑性的能力(例如，根据再可塑性规则)、与神经设备508相关联的传感器的灵敏度、马达控制或控制信号的增益、人工神经系统中涉及的人工神经元的数目、和/或人工神经系统中的突触连接的数目。学习因素还可包括用于神经设备的神经模型的时间常数、状态、一个或多个系数、和/或一个或多个等式。训练参数还可包括环境刺激510的环境因素，诸如，物体的位置、光强度、图像对比度、音量、化学浓度、振动、温度、压力、电噪声、以及类似物。

根据某些方面，训练过程可通过训练处理系统504完全自动化，而在其它方面，操作者502可与训练处理系统对接以控制或影响训练过程。对于某些方面，操作者502可与神经设备和/或环境刺激510交互(例如，通过重新定位神经设备或环境刺激、添加新环境刺激、移除现有刺激、或者将刺激上电或断电)，而无需与训练处理系统504对接。此交互可例如被用来对训练过程进行纠正、改进或作出相对较大的调整，而非重启整个过程。

图6是根据本公开的某些方面的示例经调制训练系统600的详细框图。训练系统600可包括可观察训练环境506、训练环境过滤器(TEF)602、自适应报偿管理器(ARM)604、以及报偿/环境调制器(REM)606以用于向训练过程提供自动报偿控制方面。TEF 602、ARM604、和/或REM 606可以是训练处理系统504的一部分。对于某些方面，训练系统600还可包括观察器过滤块(OFB)608和手动报偿管理器(MRM)610以用于向训练过程提供基于观察器的手动报偿控制方面。OFB 608和/或MRM也可以是训练处理系统504的一部分。对于某些方面，用于手动报偿控制方面的观察器可以是非自动训练监视器(人、猴子等)，诸如，操作者502。

如图6所解说的，神经设备508可包括一个或多个神经处理器612、传感器614、马达616和神经模型618(例如，存储神经模型程序、等式和/或参数的存储器)，神经模型618管控神经处理器的行为。神经设备508还可包括行为影响器620(例如，协处理器)。行为影响器620包括非神经学逻辑，其被用来指导神经处理、通过统计模型或其它非生物学算法影响神经处理器612，并且是神经模型的动态片。

为了辅助描述训练系统600的操作，以下描述涉及训练机器人(其具有神经设备508)以避开垃圾桶的一个示例用例。然而，理解到，训练系统600可被用来训练神经设备508以使用任何环境刺激(例如，物理物体、液体、光、声音、气味、电磁场、图像、热、压力、振动、湿度、气流、以及类似物)来执行任何期望任务。训练神经设备508的过程可涉及若干步骤(例如，观察、过滤、报偿、调制和动作)，这些步骤可被重复直至神经设备已被充分训练。

第一训练步骤(观察)可涉及三个不同实体：机器人(其具有神经设备508)、人类观察器(或者自动训练系统中的OFB 608)、以及TEF 602。随着机器人向垃圾桶(示例环境刺激510)移动，垃圾桶可在机器人的视野(FOV)中变得更大。换言之，所观察到的训练环境506的状态被传感器614感测到，并且机器人中的神经设备508可向ARM 604发送信号(指示传感器数据)。类似地，人类观察器(或OFB 608)可注意到机器人靠近垃圾桶。TEF 602可以不仅观察到机器人正接近垃圾桶，而且还观察到训练环境506的其它改变，诸如机器人远离树移动。

在第二训练步骤(过滤)中，TEF 602可向ARM 604发送相关环境数据(例如，“靠近垃圾桶”的经过滤信息)。人类观察器(或OFB 608)可向MRM 610发送停止命令。

在第三训练步骤(报偿)中，MRM 610可接收停止命令并生成手动报偿增益。ARM604可处理相关环境数据和来自神经设备508的传感器数据以力图生成自动报偿增益。

在第四训练步骤(调制)中，REM 606可组合或以其他方式处理手动和自动报偿并且将经处理的报偿转换成被神经设备508的各个部分(例如，(诸)传感器614、(诸)马达616、神经模型618和行为影响器620)理解并被训练环境506理解的数据流。在第五训练步骤(动作)中，从REM 606发送的调制可影响机器人的动作(即，神经设备508可信令通知采取动作，这可影响到可观察训练环境506)。例如，机器人可移动远离垃圾桶。另外，REM 606作出的环境调制(例如，打开灯、降低温度、移动物理物体等等)可影响到训练环境506。随后训练步骤可通过返回第一训练步骤(观察)来重复。

TEF 602(也称为训练环境监视器)可监视神经设备508的位置、时间和历史，以及环境中的障碍物。TEF 602可以是自动化的。例如，如果冲突被TEF 602检测到，则可向ARM604发送报偿影响。ARM可评估报偿影响并且生成自动报偿增益，自动报偿增益被提供给REM606。REM可处理通过来自MRM 610的基于观察器的手动报偿提供的增益以及自动报偿增益以生成牵涉影响学习速率的期望调制。

外部和/或内部调制可影响神经设备508。尖峰发放率、学习速率、神经调质行为、传感器灵敏度、和类似物中的任一者、或其任何组合可被调整。神经设备508随后可在训练环境中采取动作。此动作可包括例如移动、调整传感器(例如，重新定向或聚焦)、监听、使用相机、以及类似动作。

如果神经设备508接触到训练环境506中的另一物体，则训练适配器(例如，REM606)可调制学习速率。调制示例的各个类别包括但不限于以下各项：(1)神经设备外部；(2)神经设备内；以及(3)非生物学调制。神经设备外部调制包括诸如向触摸传感器注入尖峰之类的刺激(类似于拥抱狗以奖赏良好行为)。神经设备内调制可包括增大神经调质的效应、增大或减小突触连接的数目、和/或增大或减小所涉及的人工神经元的数目。非生物学调制可包括修改神经设备中的时间常数、改变神经状态、或者修改用于神经设备的系数或神经等式。

神经设备508的训练涉及设备与它周围世界的交互。为了这样做，许多不同类型的传感器通常被设备用来检测与训练环境中的其它物体的接触或邻近度。安装各种物理传感器以覆盖潜在影响点是繁重的，并且将这些传感器相对于对训练速率的影响来校准是不琐碎的。

通过使用逻辑边界来确定与训练环境中的其它物体的邻近度，系统可使用虚拟边界作为用于训练神经设备的多个传感器的代替或补充。虚拟边界可以最大可能地辅助减少校准时间以及训练期间使用的传感器的数目。

图7解说了根据本公开的某些方面的示例训练环境506，其中位于其中的每一物体具有虚拟边界。例如，虚拟设备508具有设备虚拟边界702。类似地，树704具有树虚拟边界706，并且岩石708具有岩石虚拟边界710。对于某些方面，目标712还可具有目标虚拟边界714。

系统可利用虚拟边界来更高效地调制学习速率。虚拟边界是围绕神经设备的至少部分(在一维、二维或三维上)的逻辑边界并且可在训练期间(以类似于或不同于神经设备508的方式)包裹环境中存在的实体(岩石708、树704、目标712等)。虚拟边界和环境中的实体可被指派标记。虚拟边界和环境中的实体可跨它们包含的面积(或体积)以均匀或非均匀分布被指派权重。

为了训练神经设备508，该设备被置于训练环境506(即，训练场)中。设备和场中的其它物体(例如，树、岩石和目标)中的每一者都被虚拟边界围绕，如图7所解说的。虚拟边界可被训练处理系统504创建和管理。当各虚拟边界接触时，神经设备508调整其学习速率(或者更具体地，REM 606可调制设备的学习速率)并且可改变其操作。虚拟边界形状可以遵循或者可以不遵循设备或物体的形状。例如，图7中的虚拟边界都遵循它们所围绕的物体的形状，而图9中的初始设备虚拟边界702不遵循神经设备508的形状。

当多个虚拟边界交叠时，形成了边界冲突地带800，如图8所解说的。在图8中，神经设备508和岩石708已逻辑地冲突。边界冲突地带800定义了交叠边界。然而，岩石708和设备508并不物理地接触。学习速率可以在冲突时段(即，交叠虚拟边界的历时)期间调整。学习速率可以相对于交叠的深度、面积和/或速率来调整。

设备和物体的边界由训练处理系统504(即，训练器)定义并且在训练过程期间是自适应的。例如，边界的大小可取决于训练过程的阶段(例如，较大边界在训练的较早阶段中构建足够的容限，而较小边界在较晚阶段中被使用)。大小还可取决于训练环境506中物体的数目或者取决于后续学习阶段中新添加的学习目标。

图9解说了根据本公开的某些方面的此类自适应虚拟边界。例如，树704具有初始树虚拟边界706，其大体上遵循树704的形状。然而，在训练过程期间，树的虚拟边界被修改，以使得后续树虚拟边界706’与初始树虚拟边界706相比具有增大的大小和不同的形状。作为另一示例，神经设备508具有初始设备虚拟边界702，其不遵循设备的形状。然而，在训练过程期间，设备的虚拟边界被调整，以使得后续设备虚拟边界702’具有减小的大小以及大体上遵循神经设备508的形状的形状。

对于某些方面，虚拟边界可通过神经设备的学习算法来定义。例如，虚拟边界可取决于所接收到的报偿、训练过程的阶段或实时误差来定义。

本文所描述的训练系统可观察神经设备与环境的交互。系统可修改神经设备的内部学习机制(例如，尖峰发放率、学习速率、神经调质、传感器灵敏度等)和/或环境刺激(例如，将火焰移动到更靠近设备、使布景更暗等)以力图提高训练速率。

图10是根据本公开的某些方面的用于训练具有人工神经系统的神经设备的示例操作1000的流程图。操作1000可由神经设备外部的训练装置(例如，训练处理系统)执行。

操作1000可开始于1002，训练装置在训练环境中观察神经设备。1002处的观察可涉及例如监视神经设备或训练环境中的一个或多个物体的位置、时间或速度中的至少一者。在1004，训练装置可至少部分地基于1002处的观察来调制至少一个训练参数。

根据某些方面，操作1000可进一步涉及在1006训练装置至少部分地基于经调制的至少一个训练参数来允许神经设备时间以作出反应。在此情形中，操作1000可进一步包括训练装置重复1002、1004和1006处的操作一次或多次(例如，直至神经设备已被充分训练)。

根据某些方面，该至少一个训练参数包括训练环境的至少一个环境因素。对于某些方面，该至少一个环境因素是围绕物体的虚拟边界。在此情形中，1004处调制至少一个训练参数可涉及调整围绕物体的虚拟边界的大小或形状中的至少一者。虚拟边界可以遵循物体的形状或者可以具有特定标准形状。对于某些方面，围绕物体的虚拟边界具有与其相关联的噪声因子。在此情形中，操作1000还可包括训练装置至少部分地基于1002处的观察来调整与虚拟边界相关联的噪声因子。对于某些方面，1004处调制至少一个训练参数涉及调整至少一个环境因素以影响(例如，增强)神经设备的感测。

根据某些方面，该至少一个训练参数包括神经设备的至少一个学习因素。对于某些方面，该至少一个学习因素包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、(与神经设备相关联的)传感器的灵敏度、马达控制的增益、控制信号的增益(例如，针对神经设备的输出分量，诸如控制扬声器的音量的信号)、人工神经系统中涉及的人工神经元的数目、或者人工神经系统中的突触连接的数目。对于某些方面，该至少一个学习因素包括以下至少一者：用于神经设备的神经模型中的时间常数、神经模型的状态(例如，通过膜电位和/或膜恢复变量描述的，如上所述)、神经模型的一个或多个系数、或者神经模型的一个或多个等式。

根据某些方面，该至少一个学习因素包括围绕神经设备的虚拟边界。在此情形中，1004处调制至少一个训练参数可包括调整围绕神经设备的虚拟边界的大小或形状中的至少一者。对于某些方面，围绕神经设备的虚拟边界可具有离神经设备的表面统一的间隔，而对于其它方面，虚拟边界可具有不统一的间隔。

根据某些方面，1004处调制至少一个训练参数至少部分地基于围绕神经设备和围绕训练环境中的物体的虚拟边界之间的交叠的深度、面积、体积或速率。

根据某些方面，1004处的调制至少一个训练参数包括至少部分地基于该观察或来自神经设备的传感器数据中的至少一者来生成第一报偿增益；以及至少部分地基于第一报偿增益来调制该至少一个训练参数。对于某些方面，操作1000可进一步涉及接收控制命令以及至少部分地基于该控制命令来生成第二报偿增益。在此情形中，1004处的调制可需要至少部分地基于第一和第二报偿增益来调制该至少一个训练参数。

根据某些方面，操作1000可进一步涉及观察相同训练环境中的另一神经设备以及至少部分地基于对该另一神经设备的观察来调制该另一神经设备的至少一个学习因素。以此方式，多个神经设备可被一起训练以执行单个任务。例如，四个神经设备可被训练以作为四重奏一起播放歌曲，但每一神经设备正学习不同的乐器(或者该歌曲中与不同乐器相关联的部分)。

图11是根据本公开的某些方面的用于从神经设备的角度训练具有人工神经系统的神经设备的示例操作1100的流程图。操作1100可以硬件(例如由一个或多个神经处理单元，诸如神经元形态处理器)、以软件或以固件来执行。该人工神经系统可被建模在各种生物或虚构神经系统中的任一者上，诸如视觉神经系统、听觉神经系统、海马体等。

操作1100可开始于1102，神经设备接收调制神经设备的至少一个训练参数的指令。在1104，神经设备可至少部分地基于所接收到的指令来调制至少一个训练参数。

根据某些方面，操作1100可进一步涉及在1106神经设备至少部分地基于经调制的至少一个训练参数在训练环境中采取一个或多个动作。

根据某些方面，操作1100还可包括神经设备感测关于训练环境的数据。神经设备随后可向神经设备外部的训练装置发送数据。对于某些方面，指令接收自训练装置并且可以至少部分地基于发送给训练装置的数据。

对于某些方面，该至少一个训练参数可包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、(与神经设备相关联的)传感器的灵敏度、马达控制的增益、控制信号的增益(例如，针对神经设备的输出分量，诸如控制光源的强度的信号)、人工神经系统中涉及的人工神经元的数目、或者人工神经系统中的突触连接的数目。对于某些方面，该至少一个训练参数包括以下至少一者：用于神经设备的神经模型中的时间常数、神经模型的状态(例如，通过膜电位和/或膜恢复变量描述的，如上所述)、神经模型的一个或多个系数、或者神经模型的一个或多个等式。

图12解说了根据本公开的某些方面的用于使用通用处理器1202来训练具有人工神经系统的神经设备的前述方法的示例框图1200。与计算网络(神经网络)相关联的变量(神经信号)、突触权重和/或系统参数可被存储在存储器块1204中，而在通用处理器1202处执行的有关指令可从程序存储器1206中加载。在本公开的一方面，加载到通用处理器1202中的指令可以包括用于在训练环境中观察神经设备的代码以及用于至少部分地基于该观察来调制至少一个训练参数的代码。在本公开的另一方面，加载到通用处理器1202中的指令可以包括用于在神经设备处接收调制神经设备的至少一个训练参数的指令的代码以及用于至少部分地基于所接收到的指令来调制至少一个训练参数的代码。

图13解说了根据本公开的某些方面的用于训练具有人工神经系统的神经设备的前述方法的示例框图1300，其中存储器1302可经由互连网络1304与计算网络(神经网络)的个体(分布式)处理单元(神经处理器)1306对接。与计算网络(神经网络)相关联的变量(神经信号)、突触权重和/或系统参数可被存储在存储器1302中，并且可从存储器1302经由互连网络1304的连接被加载到每个处理单元(神经处理器)1306中。在本公开的一方面，处理单元1306可被配置成在训练环境中观察神经设备以及至少部分地基于该观察来调制至少一个训练参数。在本公开的另一方面，处理单元1306可被配置成在神经设备处接收调制神经设备的至少一个训练参数的指令以及至少部分地基于所接收到的指令来调制至少一个训练参数。

图14解说了根据本公开的某些方面的用于基于分布式权重存储器1402和分布式处理单元(神经处理器)1404来训练具有人工神经系统的神经设备的前述方法的示例框图1400。如图14中所解说的，一个存储器组1402可直接与计算网络(神经网络)的一个处理单元1404对接，其中该存储器组1402可存储与该处理单元(神经处理器)1404相关联的变量(神经信号)、突触权重和/或系统参数。在本公开的一方面，处理单元1404可被配置成在训练环境中观察神经设备以及至少部分地基于该观察来调制至少一个训练参数。在本公开的另一方面，处理单元1404可被配置成在神经设备处接收调制神经设备的至少一个训练参数的指令以及至少部分地基于所接收到的指令来调制至少一个训练参数。

图15解说了根据本公开的某些方面的神经网络1500的示例实现。如图15中所解说的，神经网络1500可包括多个局部处理单元1502，它们可执行以上描述的方法的各种操作。每个处理单元1502可包括局部状态存储器1504和存储该神经网络的参数的局部参数存储器1506。另外，处理单元1502可包括具有局部(神经元)模型程序的存储器1508、具有局部学习程序的存储器1510、以及局部连接存储器1512。此外，如图15中所解说的，每个局部处理单元1502可与用于配置处理的单元1514对接并且与路由连接处理元件1516对接，单元1514可提供对局部处理单元的局部存储器的配置，元件1516提供局部处理单元1502之间的路由。

根据本公开的某些方面，每个局部处理单元1502可被配置成基于神经网络的一个或多个期望功能性特征来确定神经网络的参数，以及随着所确定的参数被进一步适配、调谐和更新来使这一个或多个功能性特征朝着期望的功能性特征发展。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。例如，各个操作可由图12-15中所示的各个处理器中的一个或多个来执行。一般而言，在存在附图中解说的操作的场合，这些操作可具有带相似编号的相应配对装置加功能组件。例如，图11中所解说的操作1100对应于图11A中所解说的装置1100A。

例如，用于显示的装置可包括显示器(例如，监视器、平面屏幕、触摸屏等)、打印机、或任何其他用于输出数据以供视觉描绘(例如表、图表或图形)的合适装置。用于处理的装置、用于观察的装置、用于调制的装置、用于重复的装置、用于允许时间的装置、用于接收的装置、用于发送的装置、用于生成的装置、用于采取一个或多个动作的装置、用于调整的装置、用于发送数据的装置、或者用于确定的装置可包括处理系统，该处理系统可包括一个或多个处理器或处理单元。用于感测的装置可包括传感器。用于存储的装置可包括可由处理系统访问的存储器或任何其它合适的存储设备(例如，RAM)。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或其他数据结构中查找)、查明、及类似动作。而且，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。同样，“确定”还可包括解析、选择、选取、建立、及类似动作。

如本文所使用的，引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、以及a-b-c。

结合本公开描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文中描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。

结合本公开所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。替换地，存储介质可以被整合到处理器。

本文所公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆，等等)也可以被连接到总线。总线还可以链接各种其他电路，诸如定时源、外围设备、稳压器、功率管理电路以及类似电路，它们在本领域中是众所周知的，因此将不再进一步描述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可包括RAM(随机存取存储器)、闪存、ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦式可编程只读存储器)、EEPROM(电可擦式可编程只读存储器)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或补充地，机器可读介质或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的ASIC(专用集成电路)来实现，或者用一个或多个FPGA(现场可编程门阵列)、PLD(可编程逻辑器件)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束，本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。随后可将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和蓝光碟，其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。上述的组合应当也被包括在计算机可读介质的范围内。

因此，一些方面可包括用于执行本文中给出的操作的计算机程序产品。例如，此种计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于一些方面，计算机程序产品可包括包装材料。

另外，应领会，用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由设备在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地，本文中所描述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘之类的物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给设备，该设备就能获得各种方法。此外，可利用适于向设备提供本文所描述的方法和技术的任何其他合适的技术。

将理解，权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims

1.一种用于训练具有人工神经系统的神经设备的方法，包括：

在训练环境中观察所述神经设备；以及

至少部分地基于所述观察来调制至少一个训练参数，其中：

所述至少一个训练参数包括围绕所述训练环境中的物体的虚拟边界或围绕所述神经设备的虚拟边界中的至少一者；

围绕所述物体的虚拟边界大于所述物体的实际边界；并且

围绕所述神经设备的虚拟边界大于所述神经设备的实际边界。

2.如权利要求1所述的方法，其特征在于，进一步包括：

至少部分地基于经调制的至少一个训练参数来允许所述神经设备时间以作出反应。

3.如权利要求2所述的方法，其特征在于，进一步包括：

重复所述观察、所述调制和所述允许一次或多次。

4.如权利要求1所述的方法，其特征在于，所述至少一个训练参数包括所述训练环境的至少一个环境因素。

5.如权利要求1所述的方法，其特征在于，调制所述至少一个训练参数包括调整围绕所述物体的所述虚拟边界的大小或形状中的至少一者。

6.如权利要求1所述的方法，其特征在于，围绕所述物体的所述虚拟边界遵循所述物体的形状。

7.如权利要求1所述的方法，其特征在于，围绕所述物体的所述虚拟边界具有与其相关联的噪声因子。

8.如权利要求7所述的方法，其特征在于，进一步包括：

至少部分地基于所述观察来调整与围绕所述物体的所述虚拟边界相关联的所述噪声因子。

9.如权利要求4所述的方法，其特征在于，调制所述至少一个训练参数包括调整所述至少一个环境因素以影响所述神经设备的感测。

10.如权利要求1所述的方法，其特征在于，所述至少一个训练参数包括所述神经设备的至少一个学习因素。

11.如权利要求10所述的方法，其特征在于，所述至少一个学习因素包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

12.如权利要求10所述的方法，其特征在于，所述至少一个学习因素包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

13.如权利要求1所述的方法，其特征在于，围绕所述神经设备的所述虚拟边界具有离所述神经设备的表面统一的间隔。

14.如权利要求1所述的方法，其特征在于，调制所述至少一个训练参数包括调整围绕所述神经设备的所述虚拟边界的大小或形状中的至少一者。

15.如权利要求1所述的方法，其特征在于，调制所述至少一个训练参数至少部分地基于围绕所述神经设备和围绕所述训练环境中的所述物体的虚拟边界之间的交叠的深度、面积、体积或速率。

16.如权利要求1所述的方法，其特征在于，调制所述至少一个训练参数包括：

至少部分地基于所述观察或来自所述神经设备的传感器数据中的至少一者来生成第一报偿增益；以及

至少部分地基于所述第一报偿增益来调制所述至少一个训练参数。

17.如权利要求16所述的方法，其特征在于，进一步包括：

接收控制命令；以及

至少部分地基于所述控制命令来生成第二报偿增益，其中所述调制包括至少部分地基于所述第一报偿增益和所述第二报偿增益来调制所述至少一个训练参数。

18.如权利要求1所述的方法，其特征在于，所述观察包括监视所述神经设备或者所述训练环境中的一个或多个物体的位置、时间或速度中的至少一者。

19.如权利要求1所述的方法，其特征在于，进一步包括：

在相同训练环境中观察另一神经设备；以及

至少部分地基于对所述另一神经设备的观察来调制所述另一神经设备的至少一个学习因素。

20.一种用于训练具有人工神经系统的神经设备的装置，包括：

处理系统，其被配置成：

在训练环境中观察所述神经设备；以及

至少部分地基于所述观察来调制至少一个训练参数，其中：

围绕所述物体的虚拟边界大于所述物体的实际边界；并且

围绕所述神经设备的虚拟边界大于所述神经设备的实际边界；以及

耦合至所述处理系统的存储器。

21.如权利要求20所述的装置，其特征在于，所述处理系统被进一步配置成至少部分地基于经调制的至少一个训练参数来允许所述神经设备时间以作出反应。

22.如权利要求21所述的装置，其特征在于，所述处理系统被进一步配置成重复所述观察、所述调制和所述允许一次或多次。

23.如权利要求20所述的装置，其特征在于，所述至少一个训练参数包括所述训练环境的至少一个环境因素。

24.如权利要求20所述的装置，其特征在于，所述处理系统被配置成通过调整围绕所述物体的所述虚拟边界的大小或形状中的至少一者来调制所述至少一个训练参数。

25.如权利要求20所述的装置，其特征在于，围绕所述物体的所述虚拟边界遵循所述物体的形状。

26.如权利要求20所述的装置，其特征在于，围绕所述物体的所述虚拟边界具有与其相关联的噪声因子。

27.如权利要求26所述的装置，其特征在于，所述处理系统被进一步配置成至少部分地基于所述观察来调整与围绕所述物体的所述虚拟边界相关联的噪声因子。

28.如权利要求23所述的装置，其特征在于，所述处理系统被配置成通过调整所述至少一个环境因素以影响所述神经设备的感测来调制所述至少一个训练参数。

29.如权利要求20所述的装置，其特征在于，所述至少一个训练参数包括所述神经设备的至少一个学习因素。

30.如权利要求29所述的装置，其特征在于，所述至少一个学习因素包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

31.如权利要求29所述的装置，其特征在于，所述至少一个学习因素包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

32.如权利要求20所述的装置，其特征在于，围绕所述神经设备的所述虚拟边界具有离所述神经设备的表面统一的间隔。

33.如权利要求20所述的装置，其特征在于，所述处理系统被配置成通过调整围绕所述神经设备的所述虚拟边界的大小或形状中的至少一者来调制所述至少一个训练参数。

34.如权利要求20所述的装置，其特征在于，所述处理系统被配置成至少部分地基于围绕所述神经设备和围绕所述训练环境中的所述物体的虚拟边界之间的交叠的深度、面积、体积或速率来调制所述至少一个训练参数。

35.如权利要求20所述的装置，其特征在于，所述处理系统被配置成通过以下操作来调制所述至少一个训练参数：

36.如权利要求35所述的装置，其特征在于，所述处理系统被进一步配置成：

接收控制命令；以及

至少部分地基于所述控制命令来生成第二报偿增益，其中所述处理系统被配置成至少部分地基于所述第一报偿增益和所述第二报偿增益来调制所述至少一个训练参数。

37.如权利要求35所述的装置，其特征在于，所述处理系统被配置成通过监视所述神经设备或所述训练环境中的一个或多个物体的位置、时间或速度中的至少一者来观察所述神经设备。

38.如权利要求20所述的装置，其特征在于，所述处理系统被进一步配置成：

在相同训练环境中观察另一神经设备；以及

39.一种用于训练具有人工神经系统的神经设备的设备，包括：

用于在训练环境中观察所述神经设备的装置；以及

用于至少部分地基于所述观察来调制至少一个训练参数的装置，其中：

围绕所述物体的虚拟边界大于所述物体的实际边界；并且

40.如权利要求39所述的设备，其特征在于，进一步包括：

用于至少部分地基于经调制的至少一个训练参数来允许所述神经设备时间以作出反应的装置。

41.如权利要求40所述的设备，其特征在于，进一步包括：

用于重复所述观察、所述调制和所述允许一次或多次的装置。

42.如权利要求39所述的设备，其特征在于，所述至少一个训练参数包括所述训练环境的至少一个环境因素。

43.如权利要求39所述的设备，其特征在于，所述用于调制所述至少一个训练参数的装置被配置成调整围绕所述物体的所述虚拟边界的大小或形状中的至少一者。

44.如权利要求39所述的设备，其特征在于，围绕所述物体的所述虚拟边界遵循所述物体的形状。

45.如权利要求39所述的设备，其特征在于，围绕所述物体的所述虚拟边界具有与其相关联的噪声因子。

46.如权利要求45所述的设备，其特征在于，进一步包括：

用于至少部分地基于所述观察来调整与围绕所述物体的所述虚拟边界相关联的所述噪声因子的装置。

47.如权利要求42所述的设备，其特征在于，所述用于调制所述至少一个训练参数的装置被配置成调整所述至少一个环境因素以影响所述神经设备的感测。

48.如权利要求39所述的设备，其特征在于，所述至少一个训练参数包括所述神经设备的至少一个学习因素。

49.如权利要求48所述的设备，其特征在于，所述至少一个学习因素包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

50.如权利要求48所述的设备，其特征在于，所述至少一个学习因素包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

51.如权利要求39所述的设备，其特征在于，围绕所述神经设备的所述虚拟边界具有离所述神经设备的表面统一的间隔。

52.如权利要求39所述的设备，其特征在于，所述用于调制所述至少一个训练参数的装置被配置成调整围绕所述神经设备的所述虚拟边界的大小或形状中的至少一者。

53.如权利要求39所述的设备，其特征在于，所述用于调制所述至少一个训练参数的装置被配置成至少部分地基于围绕所述神经设备和围绕所述训练环境中的所述物体的虚拟边界之间的交叠的深度、面积、体积或速率来调制所述至少一个训练参数。

54.如权利要求39所述的设备，其特征在于，所述用于调制所述至少一个训练参数的装置被配置成：

55.如权利要求54所述的设备，其特征在于，进一步包括：

用于接收控制命令的装置；以及

用于至少部分地基于所述控制命令来生成第二报偿增益的装置，其中所述用于调制的装置被配置成至少部分地基于所述第一报偿增益和所述第二报偿增益来调制所述至少一个训练参数。

56.如权利要求39所述的设备，其特征在于，所述用于观察的装置被配置成监视所述神经设备或者所述训练环境中的一个或多个物体的位置、时间或速度中的至少一者。

57.如权利要求39所述的设备，其特征在于，进一步包括：

用于在相同训练环境中观察另一神经设备的装置；以及

用于至少部分地基于对所述另一神经设备的观察来调制所述另一神经设备的至少一个学习因素的装置。

58.一种用于训练具有人工神经系统的神经设备的非瞬态计算机可读介质，所述非瞬态计算机可读介质具有指令，所述指令能执行以用于：

在训练环境中观察所述神经设备；以及

至少部分地基于所述观察来调制至少一个训练参数，其中：

围绕所述物体的虚拟边界大于所述物体的实际边界；并且

59.如权利要求58所述的计算机可读介质，其特征在于，进一步包括能执行以用于以下操作的指令：

60.如权利要求59所述的计算机可读介质，其特征在于，进一步包括能执行以用于以下操作的指令：

重复所述观察、所述调制和所述允许一次或多次。

61.如权利要求58所述的计算机可读介质，其特征在于，所述至少一个训练参数包括所述训练环境的至少一个环境因素。

62.如权利要求58所述的计算机可读介质，其特征在于，调制所述至少一个训练参数包括调整围绕所述物体的所述虚拟边界的大小或形状中的至少一者。

63.如权利要求58所述的计算机可读介质，其特征在于，围绕所述物体的所述虚拟边界遵循所述物体的形状。

64.如权利要求58所述的计算机可读介质，其特征在于，围绕所述物体的所述虚拟边界具有与其相关联的噪声因子。

65.如权利要求64所述的计算机可读介质，其特征在于，进一步包括能执行以用于以下操作的指令：

66.如权利要求61所述的计算机可读介质，其特征在于，调制所述至少一个训练参数包括调整所述至少一个环境因素以影响所述神经设备的感测。

67.如权利要求58所述的计算机可读介质，其特征在于，所述至少一个训练参数包括所述神经设备的至少一个学习因素。

68.如权利要求67所述的计算机可读介质，其特征在于，所述至少一个学习因素包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

69.如权利要求67所述的计算机可读介质，其特征在于，所述至少一个学习因素包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

70.如权利要求58所述的计算机可读介质，其特征在于，围绕所述神经设备的所述虚拟边界具有离所述神经设备的表面统一的间隔。

71.如权利要求58所述的计算机可读介质，其特征在于，调制所述至少一个训练参数包括调整围绕所述神经设备的所述虚拟边界的大小或形状中的至少一者。

72.如权利要求58所述的计算机可读介质，其特征在于，调制所述至少一个训练参数至少部分地基于围绕所述神经设备和围绕所述训练环境中的所述物体的虚拟边界之间的交叠的深度、面积、体积或速率。

73.如权利要求58所述的计算机可读介质，其特征在于，调制所述至少一个训练参数包括：

74.如权利要求73所述的计算机可读介质，其特征在于，进一步包括能执行以用于以下操作的指令：

接收控制命令；以及

75.如权利要求58所述的计算机可读介质，其特征在于，所述观察包括监视所述神经设备或者所述训练环境中的一个或多个物体的位置、时间或速度中的至少一者。

76.如权利要求58所述的计算机可读介质，其特征在于，进一步包括能执行以用于以下操作的指令：

在相同训练环境中观察另一神经设备；以及

77.一种用于训练具有人工神经系统的神经设备的方法，包括：

在所述神经设备处接收调制所述神经设备的至少一个训练参数的指令，其中：

所述神经设备或布置在用于训练所述神经设备的训练环境中的物体中的至少一者具有相关联的虚拟边界，所述虚拟边界大于所述神经设备或所述物体中的所述至少一者的实际边界；并且

所接收到的指令至少部分地基于与所述虚拟边界的冲突；以及

至少部分地基于所接收到的指令来调制所述至少一个训练参数。

78.如权利要求77所述的方法，其特征在于，进一步包括：

至少部分地基于经调制的至少一个训练参数在所述训练环境中采取一个或多个动作。

79.如权利要求77所述的方法，其特征在于，进一步包括：

在所述神经设备处感测关于所述训练环境的数据；以及

向所述神经设备外部的训练装置发送所述数据。

80.如权利要求79所述的方法，其特征在于，所述指令接收自所述训练装置。

81.如权利要求77所述的方法，其特征在于，所述至少一个训练参数包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

82.如权利要求77所述的方法，其特征在于，所述至少一个训练参数包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

83.一种具有人工神经系统的装置，包括：

处理系统，其被配置成：

接收调制所述装置的至少一个训练参数的指令，其中：

所述装置或布置在用于训练所述装置的训练环境中的物体中的至少一者具有相关联的虚拟边界，所述虚拟边界大于所述装置或所述物体中的所述至少一者的实际边界；并且

至少部分地基于所接收到的指令来调制所述至少一个训练参数；以及

耦合至所述处理系统的存储器。

84.如权利要求83所述的装置，其特征在于，所述处理系统被进一步配置成至少部分地基于经调制的至少一个训练参数在所述训练环境中采取一个或多个动作。

85.如权利要求83所述的装置，其特征在于，所述处理系统被进一步配置成：

感测关于所述训练环境的数据；以及

向训练装置发送所述数据。

86.如权利要求85所述的装置，其特征在于，所述指令接收自所述训练装置。

87.如权利要求83所述的装置，其特征在于，所述至少一个训练参数包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

88.如权利要求83所述的装置，其特征在于，所述至少一个训练参数包括以下至少一者：用于所述装置的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

89.一种具有人工神经系统的设备，包括：

用于接收调制所述设备的至少一个训练参数的指令的装置，其中：

所述设备或布置在用于训练所述设备的训练环境中的物体中的至少一者具有相关联的虚拟边界，所述虚拟边界大于所述设备或所述物体中的所述至少一者的实际边界；并且

用于至少部分地基于所接收到的指令来调制所述至少一个训练参数的装置。

90.如权利要求89所述的设备，其特征在于，进一步包括：

用于至少部分地基于经调制的至少一个训练参数在所述训练环境中采取一个或多个动作的装置。

91.如权利要求89所述的设备，其特征在于，进一步包括：

用于感测关于所述训练环境的数据的装置；以及

用于向训练设备发送所述数据的装置。

92.如权利要求91所述的设备，其特征在于，所述指令接收自所述训练设备。

93.如权利要求89所述的设备，其特征在于，所述至少一个训练参数包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

94.如权利要求89所述的设备，其特征在于，所述至少一个训练参数包括以下至少一者：用于所述装置的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。

95.一种用于训练具有人工神经系统的神经设备的非瞬态计算机可读介质，所述非瞬态计算机可读介质具有代码，所述代码用于：

在所述神经设备处接收调制所述神经设备的至少一个训练参数的指令，其中；

96.如权利要求95所述的计算机可读介质，其特征在于，进一步包括用于以下操作的代码：

97.如权利要求95所述的计算机可读介质，其特征在于，进一步包括用于以下操作的代码：

在所述神经设备处感测关于所述训练环境的数据；以及

向所述神经设备外部的训练装置发送所述数据。

98.如权利要求97所述的计算机可读介质，其特征在于，所述指令接收自所述训练装置。

99.如权利要求95所述的计算机可读介质，其特征在于，所述至少一个训练参数包括以下至少一者：尖峰发放率、学习速率、神经调质的量或效应、突触可塑性的能力、传感器的灵敏度、马达控制的增益、控制信号的增益、所述人工神经系统中涉及的人工神经元的数目、或者所述人工神经系统中的突触连接的数目。

100.如权利要求95所述的计算机可读介质，其特征在于，所述至少一个训练参数包括以下至少一者：用于所述神经设备的神经模型中的时间常数、所述神经模型的状态、所述神经模型的一个或多个系数、或者所述神经模型的一个或多个等式。