CN103620624B

CN103620624B - 用于导致稀疏连通性的局部竞争性学习规则的方法和装置

Info

Publication number: CN103620624B
Application number: CN201280030520.6A
Authority: CN
Inventors: V·阿帕林
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-06-22
Filing date: 2012-06-21
Publication date: 2016-10-19
Anticipated expiration: 2032-06-21
Also published as: CA2839279C; RU2014101717A; WO2012177913A1; US20120330870A1; KR101549796B1; CA2839279A1; EP2724297A1; KR20140027498A; JP2014520349A; JP5819522B2; RU2586864C2; US9129222B2; EP2724297B1; BR112013032604A2; CN103620624A

Abstract

本公开的某些方面支持在计算网络中应用的局部竞争性学习规则，该局部竞争性学习规则导致该网络的各处理单元之间稀疏的连通性。本公开提供了对Oja学习规则的修改，从而修改了Oja规则中对经平方权重的总和的约束。与显式且需要处理单元的所有输入权重的知识才能个体地更新其中每一个输入权重的常用的乘性和减性归一化相反，此约束可以是内在的和局部的。所给出的规则提供了向比通过原始Oja规则学习到的权重向量更稀疏（即，具有更多零元素）的权重向量的收敛。此类稀疏连通性可导致处理单元对特定特征的更高选择性，并且可以需要较少的存储器来存储网络配置以及较少的能量来操作该网络配置。

Description

用于导致稀疏连通性的局部竞争性学习规则的方法和装置

背景

领域

本公开的某些方面一般涉及神经系统工程，尤其涉及用于使用创建稀疏连通性的局部训练规则来训练计算网络的方法和装置。

背景

人类和动物的发展中的大脑经历童年早期的突触生长陡增，继以大量的突触修剪，这会在迄止成年期移除大约一半的突触。突触重新布线（结构可塑性）在成熟的大脑中继续进行，但进行速度较慢。突触修剪被发现取决于活动并且移除较弱的突触。因此，这可以通过突触可塑性来解释，其中突触为有限资源（诸如神经营养因子）而竞争。突触修剪帮助提高大脑效率，其一般可被定义为以较少突触实现的相同功能性。由于通过突触来传送信号需要能量，因而较高的效率也意味着较低的能量。

现有的无监督学习规则要么通过乘性或减性归一化显式地要么隐式地来建模突触对有限资源的竞争。然而，显式归一化可能是非局部的，即，它们需要关于神经元的所有输入权重的知识才能个体地更新其中每一个输入权重。然而，这可能不是生物学似真的。另一方面，Oja规则仅使用对一突触可用的局部信息来计算该突触的权重更新，但是Oja规则渐近地约束经平方权重的总和，而这不具有生物合理性。

概述

本公开的某些方面提供一种训练计算网络的方法。该方法一般包括至少部分地基于至少一个现有的权重来计算该计算网络中的一处理单元的输出，以及使用局部训练规则来改变该处理单元的该至少一个权重，其中该局部训练规则创建计算网络的各处理单元之间的稀疏连通性。

本公开的某些方面提供一种计算网络的装置。该装置一般包括配置成至少部分地基于至少一个现有的权重来计算该计算网络中的该装置的输出的第一电路，以及配置成使用局部训练规则来改变该装置的该至少一个权重的第二电路，其中该局部训练规则创建该计算网络的各装置之间的稀疏连通性。

本公开的某些方面提供一种计算网络的设备。该设备一般包括用于至少部分地基于至少一个现有的权重来计算该计算网络中的该设备的输出的装置，以及用于使用局部训练规则来改变该处理单元的该至少一个权重的装置，其中该局部训练规则创建该计算网络的各设备之间的稀疏连通性。

本公开的某些方面提供一种用于训练计算网络的计算机程序产品。该计算机程序产品一般包括计算机可读介质，该计算机可读介质包括用于至少部分地基于至少一个现有的权重来计算该计算网络中的一处理单元的输出、以及使用局部训练规则来改变该处理单元的该至少一个权重的代码，其中该局部训练规则创建该计算网络的各处理单元之间的稀疏连通性。

附图简要说明

为了能详细地理解本公开的上述特征所用的方式，可以参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可以允许有其他等同有效的方面。

图1解说根据本公开的某些方面的神经系统的示例处理单元。

图2A-2D解说根据本公开的某些方面的对渐近解的示例几何分析。

图3解说根据本公开的某些方面的用于使用局部训练规则来更新神经系统的突触权重的操作。

图3A解说能够执行图3中解说的操作的示例组件。

图4A-4D解说根据本公开的某些方面的通过四个不同的规则来训练的简单细胞的传入感受域。

图5A-5D解说根据本公开的某些方面的视网膜神经节细胞至简单细胞（RGC至S1）权重的分布。

图6A-6D解说根据本公开的某些方面的具有从简单细胞池至相同的复杂细胞的连接的简单细胞取向地图。

图7A-7D解说根据本公开的某些方面的通过四个不同的规则来训练的简单细胞至复杂细胞（S1至C1）权重的分布。

图8解说根据本公开的某些方面的使用通用处理器对局部训练规则的示例软件实现。

图9解说根据本公开的某些方面的局部训练规则的示例实现，其中权重存储器与各个体的分布式处理单元对接。

图10解说根据本公开的某些方面的基于分布式权重存储器和分布式处理单元对局部训练规则的示例实现。

详细描述

以下参照附图更全面地描述本公开的各个方面。然而，本公开可用许多不同的形式实施并且不应解释为被限定于本公开通篇所给出的任何特定结构或功能。确切而言，提供这些方面是为了使得本公开将是透彻和完整的，并且其将向本领域技术人员完全传达本公开的范围。基于本文中的教导，本领域技术人员应领会，本公开的范围旨在覆盖本文中所披露的本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可以使用本文所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各种方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，本文中所披露的本公开的任何方面可以由权利要求的一个或更多个元素来实施。

措辞“示例性”在本文中用于表示“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文中描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的详细描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

示例神经系统

图1解说根据本公开的某些方面的计算网络（例如，神经系统）的处理单元（例如，神经元）102的示例100。神经元102可以接收多个输入信号104₁-104_N(x₁-x_N)，这些输入信号可以是该神经系统外部的信号、或是由同一神经系统的其他神经元所生成的信号、或这两者。输入信号可以是实数值或复数值的电流或电压。输入信号可以包括具有定点或浮点表示的数值。可以通过突触连接将这些输入信号传递到神经元102，这些突触连接根据可调整的突触权重106₁-106_N(w₁-w_N)对这些信号进行比例缩放，其中N可以是神经元102的输入连接总数。

神经元102可以将这些按比例缩放的输入信号组合，并且使用经组合的按比例缩放的输入来生成输出信号108（即，信号y）。输出信号108可以是实数值或复数值的电流或电压。输出信号可以包括具有定点或浮点表示的数值。随后可以将传送输出信号108作为对同一神经系统的其他神经元的输入信号，或作为对同一神经元102的输入信号，或作为该神经系统的输出。

处理单元（神经元）102可以通过电路来仿真，并且其输入和输出连接可以通过导线用突触电路来仿真。处理单元102、其输入和输出连接也可以通过软件代码来仿真。处理单元102还可以通过电路来仿真，而其输入和输出连接可以通过软件代码来仿真。在本公开的一方面，计算网络中的处理单元102可以包括模拟电路。在另一方面，处理单元102可以包括数字电路。在又一方面，处理单元102可以包括具有模拟和数字组件两者的混合信号电路。计算网络可以包括以上述形式中的任何形式的处理单元。使用此类处理单元的计算网络（神经系统）可以用在很大范围的应用中，诸如图像和模式识别、机器学习、电机控制及类似应用等等。

具有L1约束的局部竞争性学习规则

本公开的某些方面支持用于更新与计算网络（神经系统）的一个或多个处理单元（神经元）相关联的权重（诸如图1中所解说的权重106₁-106_N）的局部竞争性学习规则。所应用的局部竞争性学习规则可导致各处理单元之间的稀疏连通性，即，一旦该学习过程结束，其中一些权重就可能等于0，或者低于某个阈值。

在一方面，一般的Hebb突触权重学习规则可被表达为：

Δw_i=ηx_iy， (1)

其中Δw_i是第i个突触权重w_i的变化，η是学习速率，x_i是第i个输入（突触前响应），并且y是神经元输出（突触后响应）。由式(1)定义的规则可能导致无界的权重增长，由此没能考虑到大脑用于突触增强的资源有限以及结果所导致的在突触之间对于这些资源的竞争。

对Hebb规则的若干修改可帮助克服其缺点。例如，可向式(1)添加被动权重衰减项以限制权重增长：

Δw_i=ηx_iy-γw_i，0＜γ＜1. (2)

此规则可修剪掉具有低活动性的连接，并且若γ未被仔细选取则可能修剪掉全部连接。此外，所谓的“内星（instar）规则”（其中可用突触后活动性y来选通衰减项）可如下式给出的那样规避此问题：

Δw_i=η(x_i-w_i)y. (3)

与式(3)定义的规则类似的规则可在自组织的映射中使用。应当注意，此规则可收敛至w_i=x_i。

可提议协方差规则，其可移除Hebb规则中因x_i和y的非零均值所导致的偏差，并且同时可以如下式给出的那样添加突触抑制：

Δw_i=η(x_i-<x_i>)(y-<y>)， (4)

其中<x_i>和<y>分别是平均的突触前活动性和突触后活动性。就像Hebb规则那样，由式(4)定义的规则可能并不限制权重增长并且可能并不强制突触竞争。

为了达成突触竞争，可使用突触后阈值，该阈值随平均的突触后活动性<y>的增长快于线性增长。结果得到的称为BCM规则（Bienenstock-Cooper-Munro规则）的学习规则可被写为：

Δ w_{i} = μ x_{i} [y - &lang; y &rang; {(\frac{&lang; y &rang;}{y_{0}})}^{p}], - - - (5)

其中y₀表示<y>的渐近目标，并且p>1是常数。

为了防止权重的无界增长，可以如下式给出的那样将这些权重除以其总和以保持它们恒定：

w_{i} (t) = \frac{α w_{i}^{'} (t)}{Σ_{i} w_{i}^{'} (t)}, - - - (6)

其中w′_i(t)=w_i(t-1)+ηx_iy，α是∑_iw_i(t)的目标，并且t是时间索引。这种类型的权重限界可被称为乘性归一化。以其原始形式，乘性归一化可被应用于单极权重。然而，可以通过将式(6)中的分母改变为L1范数∑_i|w′_i(t)|来将该乘性归一化扩展到双极权重。还可以通过将分母改变为来修改该乘性归一化以限制权重向量长度（L₂范数）。因为式(6)中的权重可通过Hebb规则来训练并且随后通过公因子来比例缩放，所以由式(1)和(6)定义的这两个学习规则均可收敛到指向相同方向但是具有不同长度的权重向量。

在通过由式(1)定义的学习规则修改这些权重之后，还可从每个权重减去相等的量，其中该量被选择成使得这些权重的总和可保持恒定：

w_{i} (t) = w_{i}^{'} (t) - \frac{1}{N} (\underset{i}{Σ} w_{i}^{'} (t) - α), - - - (7)

其中N是输入的数目。这种类型的权重限界可被称为减性归一化。将w′_i(t)=w_i(t-1)+ηx_iy代入式(7)并且考虑到∑_iw_i(t-1)=α，则由式(7)定义的学习规则可约简为

Δ w_{i} = η (x_{i} - \frac{1}{N} \underset{i}{Σ} x_{i}) y . - - - (8)

减性归一化通常可被应用于单极权重，并且因此可能需要零界限以防止权重改变其符号。有了零界限，通过式(7)训练的神经元的所有输入权重中除了一个输入权重之外的其他输入权重均可渐近地收敛到0。为了防止单个非零权重，还可对权重幅值施加上限。乘性和减性归一化两者的主要缺点可能在于，它们是非局部的，即，它们可能需要神经元的所有输入权重或输入的知识才能个体地计算每个权重。

称为Oja学习规则的局部学习规则可将输入权重向量的L₂范数约束在平衡点。

以一般形式，Oja规则可被写为：

Δ w_{i} = η (x_{i} y - \frac{w_{i} y^{2}}{α}) . - - - (9)

其中α是在平衡点处的目标。虽然此规则可以创建各突触权重之间对有限资源的竞争，但是将这些资源建模为经平方权重的总和可能不具有生物学合理性。

以上提及的学习规则通常可应用于单极权重以遵守一原则，根据该原则，来自兴奋性神经元的连接可能需要具有正的权重并且来自抑制性神经元的连接可能需要具有负的权重。在一方面，可以通过使用零界限来使权重不被允许改变其符号。如果规则可隔离传入物，则零界限往往可导致具有许多零元素的权重向量（稀疏向量）。然而，如果权重被允许改变其符号，则以上提及的规则可收敛到具有少数零元素的权重向量（非稀疏向量）。

根据本公开的某些方面，如下式给出的那样提议对由式(9)定义的Oja规则的修改：

Δ w_{i} = η (x_{i} y - \frac{sgn (w_{i}) y^{2}}{α}), - - - (10)

其中△w_i是第i个突触权重w_i的变化，η是学习速率，x_i是第i个输入（突触前响应），y是神经元输出（突触后响应），α是∑_i|w_i|的目标，并且sgn()是符号函数。

为了证明由式(10)给出的所提议的规则在平衡点处约束到∑_i|w_i|，可以假定输出y被生成为该神经元的各输入的加权总和，即：

y = \underset{k}{Σ} w_{k} x_{k} . - - - (11)

在假定权重变化相对于输入模式所呈现的时间变化较慢的情况下，将式(11)代入式(10)中并且对结果取时间平均<>可导致：

\begin{matrix} \frac{&lang; Δ w_{i} &rang;}{η} = &lang; \underset{k}{Σ} w_{k} x_{i} x_{k} - \frac{sgn (w_{i})}{α} \underset{j, k}{Σ} w_{j} x_{j} w_{k} &rang; \\ = \underset{k}{Σ} C_{ik} w_{k} - \frac{sgn (w_{i})}{α} \underset{j, k}{Σ} w_{j} C_{jk} w_{k}, \end{matrix} - - - (12)

或者以矩阵形式为：

\frac{&lang; Δw &rang;}{η} = Cw - \frac{sgn (w)}{α} [w^{T} Cw], - - - (13)

其中w是输入权重向量，上标中的T表示转置，并且具有元素C_ik=<x_ix_k>的矩阵C是各输入的相关矩阵。

在平衡点处，平均的权重变化应当等于0，即：

0 = Cw - \frac{sgn (w)}{α} [w^{T} Cw] . - - - (14)

将式(14)的两边左乘w^T，将结果得到的等式除以标量[w^TCw]，并且重排这些项可导致：

w^Tsgn(w)=||w||₁=α， (15)

即，权重向量w的L₁范数在平衡点处可以等于α。

以类似的方式，可以证明以下规则可以约束权重向量在平衡点处的L₀范数。

其中β是常数（例如，β=1或β=0），并且α是w中的非零元素计数的目标。由于除以w_i，因而由式(16)定义的规则可在w_i接近0时创建较大的△w_i更新，从而使其围绕0振荡并且除非使用零界限否则从不抵达目标。另一方面，由式(10)定义的学习规则可能并不示出此类行为并且可能在有零界限的情况下或者在没有零界限的情况下收敛到稀疏的w，如以下将进一步示出的。

作为简单示例，可以考虑具有两个输入x₁和x₂以及相应的权重w₁和w₂的线性神经元。那么，神经元输出可通过下式给出：

y=w₁x₁+w₂x₂， (17)

其中所有的量可以是正的、负的或为零。如果这些输入为零均值，则输出y也可以是零均值，并且由式(4)定义的协方差规则可约简到由式(1)定义的Hebb规则。Hebb规则可被视为在成本函数E的梯度方向上的优化步骤：

Δ w_{i} = η \frac{dE}{d w_{i}} . - - - (18)

可以表明E=y²/2，即，Hebb规则可使神经元能量最大化，由此使权重幅值的无界增长最大化。梯度上升可以有两条可能的求解路径：取决于y的初值，沿抛物线y²/2的左侧（y<0）和右侧（y>0）。为简单化，此初值可被假定为是正的，以使得由式(18)定义的学习规则沿抛物线y²/2的右侧移动。在此情形中，y²/2的最大化可以等效于y的最大化。为了防止无界的权重增长，可以对权重幅值施加约束：|w₁|≤α并且|w₂|≤α。此约束可在(w₁;w₂)平面上画出正方形202，如图2A中所解说的。直线204可画出关于给定的y、x₁和x₂的所有可能的(w₁;w₂)解。线204的斜率可以由-x₁/x₂来决定，并且其相对于中心的位置可以由y/x₂来决定。y的最大化可使线204移离中心（若x₂>0则向上或者若x₂<0则向下）。渐近解(w₁(∞);w₂(∞))可通过使线204朝y增大的方向移动直至线204仅在一个点处接触正方形202来找到，该点可以总是角点之一（除非x₁=0或者x₂=0）。如可在图2A中观察到的，对于绝大多数输入，具有指定界限的Hebb规则可导致在其中所有权重均具有最大幅值（即，|w₁|=|w₂|=α）的解。

具有由式(7)定义的减性归一化的Hebb规则可使这些权重的总和保持恒定，即，w₁+w₂=α。此约束可在(w₁;w₂)平面上画出通过(α,0)和(0,α)的直线206，如图2B中所解说的。解说了两个约束：线206可与非负权重相关联，并且另一条线208可与双极权重相关联。用210来标记可能的渐近解。减性归一化通常可应用于非负权重，在此情形中，α>0并且权重以0为界，即，w₁≥0且w₂≥0。这些渐近解可以是(α,0)和(0,α)，其均为稀疏的。如果允许权重改变其符号，则渐近解可以是无界的，除非可以施加界限。如果最大权重幅值被约束在α处，则渐近解可以是(-α,α)和(α,-α)，其均为非稀疏的。

为了一阶逼近，由式(9)定义的Oja规则可被分拆为Hebbian项（式(9)的括号中的第一项）和约束项（式(9)的括号中的第二项）。Hebbian项在假定初始输出y为正的情况下可使输出y最大化，并且第二项可对渐近解施加约束此约束可以在(w₁;w₂)平面上画出半径为的圆212，如图2C中所解说的。渐近解(w₁(∞);w₂(∞))可以被发现是在其处由式(17)定义的解直线214与圆212相切的点。如可在图2C中观察到的，要用Oja规则获得稀疏解也许是不可能的，除非x₁=0或x₂=0。更严格的分析可以表明，Oja规则可以收敛到具有C_ik=<x_ix_k>的数据协方差矩阵C的主本征向量。

本公开的某些方面支持由式(10)定义的局部学习规则，该局部学习规则可以施加渐近约束|w₁|+|w₂|=α。此约束可以在(w₁;w₂)平面上画出所有边都等于的菱形216，如图2D中所解说的。渐近解(w₁(∞);w₂(∞))可通过使由式(17)定义的解直线218朝输出y增大的方向移动直至其仅在一个点处接触菱形216来找到，该点可以总是顶点之一，除非|x1|=|x2|。因此，对于绝大多数输入，所提议的规则可以提供稀疏解（即，这两个权重之一可以为0）。

在N个输入权重的一般情形中，由式(10)定义的规则理论上可以收敛到仅具有幅值为α的一个非零权重的解。可以希望允许权重向量具有一个以上非零元素。为了达成这点，可以对每个权重幅值施加上限w_max，以使得w_max<α，其中α/w_max可以是w中的非零元素的计数的目标。在一方面，α的选择可以是任意的。然而，如果希望网络中的所有输入和输出都在相同的界限内（例如x_i∈[-1;1]且y∈[-1;1]），则α的恰适值可以为1。在此情形中，学习规则所需要的输入参数可以仅仅是学习速率η，并且权重幅值限制w_max≤1。

也可施加由式(16)定义的L₀约束规则以通过将最大权重幅值限制为w_max=1/α来保持网络输入和输出在相同的界限内，其中α是每个权重向量中非零元素的数目。

图3解说了根据本公开的各方面的用于训练计算网络（神经网络）的示例操作300。在302，可以至少部分地基于至少一个现有的权重来计算该计算网络中的处理单元（神经元）的输出。在304，可使用局部训练规则来改变处理单元的该至少一个权重，其中该局部训练规则可创建该计算网络的各处理单元之间的稀疏连通性。

根据本公开的某些方面，使用局部训练规则来改变该至少一个权重可包括基于以下至少一者来更新该至少一个权重：该处理单元中的一个或多个输入，输出，或者改变之前的该至少一个现有权重。根据某些实施例，可以在对该至少一个权重的多次更新之后创建稀疏连通性。

为了演示本公开的某些实施例，由式(10)定义的学习规则及其与其他规则的差别可被用于训练初级视觉皮层（V1）神经网络模型中的前馈连接权重。网络可由四个二维层构成：受光体、视网膜神经节细胞（RGC）、V1简单细胞（S1）、和V1复杂细胞（C1）。受光体可1:1映射到输入图像的像素。每个受光体可将对应像素的发光度编码在范围[-1,1]内。受光体输出可通过固定权重的连接馈送到经视网膜定位地映射的RGC，这些固定权重的连接利用高斯差分（DoG）来执行对输入图像的空间滤波。

每个RGC的输出可被计算为各加权输入的线性总和。该输出可以是正的、负的或为零。此类RGC可将具有相同输入以及极性相反的输入权重的ON（开）细胞和OFF（关）细胞相组合。其输出可以等于相应的ON细胞输出和OFF细胞输出之差。这些RGC输出可通过自适应双极权重被馈送到简单细胞，这些自适应双极权重可对来自相应ON细胞和OFF细胞的权重之差进行建模。这些RGC至S1权重可决定这些简单细胞的感受域。S1层还可具有与短程刺激及长程抑制的横向连接。这些横向连接可帮助这些简单细胞自组织成具有针轮和线性区域的取向地图。每个简单细胞S1可被建模为通过半波整流器的各加权输入的总和，该半波整流器可以保留输出的正部分并且将负部分限幅为0。各S1的正输出可通过自适应正权重来馈送到各C1。

首先，使用四种规则来训练RGC至S1连接：具有由式(7)定义的减性归一化的Hebb规则，由式(9)定义的Oja规则，所提议的由式(10)定义的局部学习规则，以及由式(16)定义的经修改的局部学习规则。所有四种规则均可导致权重限界，其中正被学习的权重可被限界于[-w_max,w_max]的范围。

图4A-4D解说了所显现的RGC至S1权重矩阵的示例，其中经填充的圆表示正权重（ON区域），并且空心圆表示负权重（OFF区域）。圆直径可以与权重幅值成比例。这些权重可以通过以上提及的具有[-w_max,w_max]限界的四种规则来训练。图4A解说了通过具有减性归一化的Hebb规则来训练的权重。图4B解说了通过Oja规则来训练的权重。图4C解说了通过由式(10)定义的具有L1约束的规则来训练的权重。图4D解说了通过由式(16)定义的具有L₀约束的规则来训练的权重。

图5A-5D解说了所有RGC至S1权重的相应分布。如图5A中所解说的，具有减性归一化的Hebb规则可收敛到有最大幅值的权重。图5B中解说的Oja规则可收敛到分级权重，这些分级权重的一些可具有较小的但不为零的值。图5C中解说的、所提议的由式(10)定义的规则可收敛到具有良好定义的ON和OFF区域并且具有许多接近于0的元素的权重矩阵。图5D中解说的由式(16)定义的规则可能因为除以w_i而不能收敛到稀疏的权重矩阵，除以w_i可能使较小的权重围绕0振荡。在这些规则中的任何规则中，要在没有零界限的情况下获得严格为0的权重也许是不可能的。因此，为了估计权重矩阵的稀疏性，可以对在所选取的取整误差以内为0的权重进行计数。在取整误差为0:01w_max的情况下，通过所提议的由式(10)定义的规则训练的RGC至S1权重中的大约54%可以为0，而通过其他三种规则训练的权重中不到3%可以为0。

图6A-6D解说了相同的四种规则被用于训练S1至C1连接。这一次，每种规则可具有所添加的限至[0,w_max]的权重限界。图6A-6D中解说了S1层的片段，该片段示出简单细胞的二维排列为其优选取向的等取向轮廓标绘（这些轮廓上的值表示位于这些轮廓下面的简单细胞的优选取向）。框602、604、606、608可以勾勒其输出可以被馈送到相同的复杂细胞的S1细胞池。这些框内的空心圆612、614、616、618可以指示从这些简单细胞至所选取的复杂细胞的连接强度：圆越大，权重越大。图6A解说了通过具有减性归一化的Hebb规则来训练的权重。图6B解说了通过Oja规则来训练的权重。图6C解说了通过由式(10)定义的具有L₁约束的规则来训练的权重。图6D解说了通过由式(16)定义的具有L₀约束的规则来训练的权重。

图7A-7D解说了所有S1至C1权重的相应分布。可在图7A中观察到，具有减性归一化的Hebb规则可以因零下界而创建稀疏的S1至C1连通性。图7B解说了Oja规则创建至框内的所有简单细胞（甚至那些具有正交取向的简单细胞）的有可变强度的连接。根据本公开的某些方面，如图7C中所解说的，所提议的由式(10)定义的局部学习规则可以创建至有相似取向的各简单细胞的强连接以及至有其他取向的简单细胞的零强度连接，这可以与取向选择性和移不变的复杂细胞的生物学数据相一致。如图7D中所解说的由式(16)定义的学习规则也可以因将负权重限幅到0而创建稀疏的S1至C1连通性。

图8解说了根据本公开的某些方面的使用通用处理器802来实现以上提及的局部训练规则的示例软件实现800。与计算网络（神经网络）的每个处理单元（神经元）相关联的现有权重可被存储在存储器块804中，而与正在通用处理器802处执行的局部训练规则有关的指令可从程序存储器806加载。根据本公开的某些方面，所加载的指令可包括用于至少部分地基于存储在存储器块804中的至少一个现有权重来计算该计算网络中的每个处理单元的输出的代码。此外，所加载的指令可包括用于根据局部训练规则来改变该处理单元的该至少一个权重的代码，其中局部训练规则可创建该计算网络的各处理单元之间的稀疏连通性。在本公开的一方面，用于改变该处理单元的该至少一个权重的代码可包括用于基于以下至少一者来更新该至少一个权重的代码：该处理单元中的一个或多个输入，先前计算出的输出，或者改变之前的该至少一个现有权重。经更新的权重可被存储在存储器块804中以替代旧权重。

图9解说了根据本公开的某些方面的以上提及的局部训练规则的示例实现900，其中权重存储器902经由互连网络904与计算网络（神经网络）的各个体（分布式）处理单元（神经元）906对接。与处理单元906相关联的至少一个现有权重可经由互连网络904的（诸）连接从存储器902加载到该处理单元906中。处理单元906可被配置成至少部分地基于该至少一个现有权重来计算其输出。此外，处理单元906可被配置成根据局部训练规则来改变与该处理单元相关联的该至少一个权重，其中该局部训练规则可创建计算网络的各处理单元906之间的稀疏连通性。在本公开的一方面，根据局部训练规则来改变该至少一个权重可进一步包括基于以下至少一者来更新该至少一个权重：处理单元906中的一个或多个输入，处理单元906的先前计算出的输出、或者改变之前的该至少一个现有权重。经更新的权重可被存储在存储器904中以替代与该处理单元906相关联的旧权重。

图10解说根据本公开的某些方面的基于分布式权重存储器1002和分布式处理单元1004来实现以上所提及的局部训练规则的示例实现1000。如图10中所解说的，一个权重存储器组1002可以与计算网络（神经网络）的一个处理单元（神经元）1004直接对接，其中该存储器组1002可存储与该处理单元1004相关联的至少一个现有权重。处理单元1004可被配置成至少部分地基于从相应的权重存储器组1002加载的该至少一个现有权重来计算其输出。此外，处理单元1004可被配置成根据局部训练规则来改变与该处理单元相关联的该至少一个权重，其中该局部训练规则可创建计算网络的各处理单元1004之间的稀疏连通性。在本公开的一方面，由处理单元1004根据局部训练规则来改变该至少一个权重可进一步包括基于以下至少一者来更新该至少一个权重：该处理单元1004中的一个或多个输入，处理单元1004的先前计算出的输出，或者改变之前的该至少一个现有权重。经更新的权重可被存储在相应的存储器组1002中以替代旧权重。

根据本公开的诸方面，所提议的学习规则可将神经元的输入权重向量的L1范数约束在平衡点处。该学习规则可以是局部的且内在的，这可以使软件和硬件实现较简单。与通过具有或不具有零界限的原始Oja规则来学习的权重向量相比，此规则可收敛到更稀疏的权重向量。此类稀疏连通性可导致神经元对特定特征的更高选择性，这可在许多生物学研究中发现。约束L1范数而不是L2范数的另一优点可以是通过选取α=1来保持网络中的各输入和各输出落在相同界限内的简单性。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路（ASIC）、或处理器。一般而言，在附图中解说操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。例如，图3中所解说的操作300对应于图3A中所解说的组件300A。

如本文中所使用的，术语“确定”广泛涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找（例如，在表、数据库或其他数据结构中查找）、查明、及类似动作。而且，“确定”可包括接收（例如，接收信息）、访问（例如，访问存储器中的数据）、及类似动作。而且，“确定”还可包括解析、选择、选取、确立、及类似动作。

如本文中所使用的，引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一个”旨在涵盖：a、b、c、a-b、a-c、b-c、以及a-b-c。

上面描述的方法的各种操作可由能够执行这些操作的任何合适的装置来执行，诸如各种硬件和/或软件组件，电路，和/或模块。一般而言，在附图中所解说的任何操作可由能够执行这些操作的相对应的功能性装置来执行。

结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文所描述功能的通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列信号（FPGA）或其他可编程逻辑器件（PLD）、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或更多个微处理器、或任何其他此类配置。

结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器（RAM）、只读存储器（ROM）、闪存、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间、以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。替换地，存储介质可以被整合到处理器。

本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现，则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线（DSL）、或无线技术（诸如红外（IR）、无线电、以及微波）从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或无线技术（诸如红外、无线电、以及微波）就被包括在介质的定义之中。如本文中所使用的盘（disk）和碟（disc）包括压缩碟（CD）、激光碟、光碟、数字多用碟（DVD）、软盘、和蓝光碟，其中盘（disk）常常磁性地再现数据，而碟（disc）用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质（例如，有形介质）。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质（例如，信号）。上述的组合也应被包括在计算机可读介质的范围内。

因而，某些方面可包括用于执行本文中介绍的操作的计算机程序产品。例如，此类计算机程序产品可包括其上存储（和/或编码）有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

软件或指令还可以在传输介质上传送。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线（DSL）、或诸如红外、无线电、以及微波等无线技术从web站点、服务器或其它远程源传送而来的，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波等无线技术就被包括在传输介质的定义里。

此外，应当领会，用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地，本文中所描述的各种方法能经由存储装置（例如，RAM、ROM、诸如压缩碟（CD）或软盘之类的物理存储介质等）来提供，以使得一旦将该存储装置耦合到或提供给用户终端和/或基站，该设备就能获得各种方法。此外，能利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。

应该理解的是，权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

尽管上述内容针对本公开的各方面，然而可设计出本公开的其他和进一步的方面而不会脱离其基本范围，且其范围是由所附权利要求来确定的。

Claims

1.一种训练计算网络的方法，包括：

至少部分地基于至少一个现有的权重来计算所述计算网络中的处理单元的输出；以及

使用局部训练规则来改变所述处理单元的所述至少一个现有的权重，其中所述局部训练规则通过在平均的权重变化等于0时将包括与所述处理单元之间的连接相关联的权重的权重向量的范数约束到定义值来创建所述计算网络的各处理单元之间的稀疏连通性。

2.如权利要求1所述的方法，其特征在于，使用所述局部训练规则来改变所述至少一个现有的权重包括：

基于以下至少一者来更新所述至少一个现有的权重：所述处理单元中的一个或多个输入，所述输出，或者所述改变之前的所述至少一个现有的权重。

3.如权利要求2所述的方法，其特征在于，所述稀疏连通性是在对所述至少一个现有的权重的多次更新之后创建的。

4.如权利要求1所述的方法，其特征在于，

所述计算网络包括神经网络，并且

所述处理单元包括神经元电路。

5.如权利要求1所述的方法，其特征在于，所述局部训练规则对所述权重的绝对值的总和施加约束。

6.如权利要求5所述的方法，其特征在于，经约束的权重与至所述处理单元的输入连接相关联。

7.如权利要求1所述的方法，其特征在于，所述局部训练规则将与至所述处理单元的输入连接相关联的输入权重向量约束在平衡点处。

8.如权利要求1所述的方法，其特征在于，所述局部训练规则约束非零权重的数目。

9.如权利要求8所述的方法，其特征在于，经约束的权重与至所述处理单元的输入连接相关联。

10.如权利要求1所述的方法，其特征在于，所述处理单元利用一个或多个非线性运算。

11.如权利要求1所述的方法，其特征在于，所述局部训练规则对与至所述处理单元的输入连接相关联的个体权重施加界限。

12.如权利要求11所述的方法，其特征在于，所述个体权重的最大值由上界来限界。

13.如权利要求11所述的方法，其特征在于，所述个体权重的最小值由下界来限界。

14.如权利要求11所述的方法，其特征在于，所述个体权重的最大值和最小值两者都是有界的。

15.如权利要求11所述的方法，其特征在于，所述界限针对所述个体权重而变动。

16.一种计算网络的装置，包括：

第一电路，其配置成至少部分地基于至少一个现有的权重来计算所述计算网络中的所述装置的输出；以及

第二电路，其配置成使用局部训练规则来改变所述装置的所述至少一个现有的权重，其中所述局部训练规则通过在平均的权重变化等于0时将包括与所述装置之间的连接相关联的权重的权重向量的范数约束到定义值来创建所述计算网络的各装置之间的稀疏连通性。

17.如权利要求16所述的装置，其特征在于，所述第二电路还被配置成基于以下至少一者来更新所述至少一个现有的权重：所述装置中的一个或多个输入，所述输出，或者所述改变之前的所述至少一个现有的权重。

18.如权利要求17所述的装置，其特征在于，所述稀疏连通性是在对所述至少一个现有的权重的多次更新之后创建的。

19.如权利要求16所述的装置，其特征在于，

所述计算网络包括神经网络，并且

所述装置包括神经元电路。

20.如权利要求16所述的装置，其特征在于，所述局部训练规则对所述权重的绝对值的总和施加约束。

21.如权利要求20所述的装置，其特征在于，经约束的权重与至所述装置的输入连接相关联。

22.如权利要求16所述的装置，其特征在于，所述局部训练规则将与至所述装置的输入连接相关联的输入权重向量约束在平衡点处。

23.如权利要求16所述的装置，其特征在于，所述局部训练规则约束非零权重的数目。

24.如权利要求23所述的装置，其特征在于，经约束的权重与至所述装置的输入连接相关联。

25.如权利要求16所述的装置，其特征在于，所述装置利用一个或多个非线性运算。

26.如权利要求16所述的装置，其特征在于，所述局部训练规则对与至所述装置的输入连接相关联的个体权重施加界限。

27.如权利要求26所述的装置，其特征在于，所述个体权重的最大值由上界来限界。

28.如权利要求26所述的装置，其特征在于，所述个体权重的最小值由下界来限界。

29.如权利要求26所述的装置，其特征在于，所述个体权重的最大值和最小值两者都是有界的。

30.如权利要求26所述的装置，其特征在于，所述界限针对所述个体权重而变动。

31.一种计算网络的设备，包括：

用于至少部分地基于至少一个现有的权重来计算所述计算网络中的所述设备的输出的装置；以及

用于使用局部训练规则来改变所述设备的所述至少一个现有的权重的装置，其中所述局部训练规则通过在平均的权重变化等于0时将包括与所述设备之间的连接相关联的权重的权重向量的范数约束到定义值来创建所述计算网络的各设备之间的稀疏连通性。

32.如权利要求31所述的设备，其特征在于，所述用于使用所述局部训练规则来改变所述至少一个现有的权重的装置包括：

用于基于以下至少一者来更新所述至少一个现有的权重的装置：所述设备中的一个或多个输入，所述输出，或者所述改变之前的所述至少一个现有的权重。

33.如权利要求32所述的设备，其特征在于，所述稀疏连通性是在对所述至少一个现有的权重的多次更新之后创建的。

34.如权利要求31所述的设备，其特征在于，

所述计算网络包括神经网络，并且

所述设备包括神经元电路。

35.如权利要求31所述的设备，其特征在于，所述局部训练规则对所述权重的绝对值的总和施加约束。

36.如权利要求35所述的设备，其特征在于，经约束的权重与至所述设备的输入连接相关联。

37.如权利要求31所述的设备，其特征在于，所述局部训练规则将与至所述设备的输入连接相关联的输入权重向量约束在平衡点处。

38.如权利要求31所述的设备，其特征在于，所述局部训练规则约束非零权重的数目。

39.如权利要求38所述的设备，其特征在于，经约束的权重与至所述设备的输入连接相关联。

40.如权利要求31所述的设备，其特征在于，所述设备利用一个或多个非线性运算。

41.如权利要求31所述的设备，其特征在于，所述局部训练规则对与至所述设备的输入连接相关联的个体权重施加界限。

42.如权利要求41所述的设备，其特征在于，所述个体权重的最大值由上界来限界。

43.如权利要求41所述的设备，其特征在于，所述个体权重的最小值由下界来限界。

44.如权利要求41所述的设备，其特征在于，所述个体权重的最大值和最小值两者都是有界的。

45.如权利要求41所述的设备，其特征在于，所述界限针对所述个体权重而变动。