CN110945535A

CN110945535A - 用于从具有变化显著性的带符号模拟电导对构建用于人工神经网络的突触权重的系统和方法

Info

Publication number: CN110945535A
Application number: CN201880049214.4A
Authority: CN
Inventors: G·布尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-07-26
Filing date: 2018-06-27
Publication date: 2020-03-31
Anticipated expiration: 2038-06-27
Also published as: GB2579494A; US20190034788A1; GB202001857D0; DE112018002950B4; US11270194B2; WO2019021081A1; DE112018002950T5; JP2020528611A; GB2579494B; CN110945535B; JP7095069B2

Abstract

人工神经网络(ANNs)是分布式计算模型，其中计算用许多被称为神经元的简单处理单元来实现，其中数据由被称为突触的神经元之间的连接以及这些连接的强度、突触权重所体现。ANNs的有吸引力的实现使用非易失性存储器(NVM)元件的电导来记录突触权重，其中重要的乘法‑累积步骤在数据处被执行就位。在本申请中，与理想网络实现方式相比，响应于编程脉冲的NVM的响应的非理想性(诸如非线性、饱和、同步性和不对称性)导致降低的网络性能。示出了一种方法，该方法通过将突触权重分布在具有变化的显著性的多个电导上来改进性能，实施在较低显著性的带符号的模拟电导对到较高显著性的模拟电导对之间的进位操作。

Description

用于从具有变化显著性的带符号模拟电导对构建用于人工神经网络的突触权重的系统和方法

技术领域

本发明总体上涉及人工神经网络(ANN)领域。更具体地，本发明涉及用于从具有变化显著性的带符号模拟电导对构建人工神经网络的突触权重的系统和方法。

背景技术

人工神经网络(ANN)是分布式计算系统，其由通过被称为突触的连接点互连的多个神经元组成。每一突触编码一神经元的输出与另一神经元的输入之间的连接的强度。每个神经元的输出由从与其连接的其他神经元接收的聚集输入确定，并且因此由这些“上游”连接的神经元的输出和由突触权重确定的连接的强度确定。ANN被训练以通过调整突触的权重以使得特定类别的输入产生期望的输出来解决特定问题(例如，模式识别)。权重调整过程被称为“学习”。在ANN文献中存在许多用于执行学习的算法，这些算法适合于不同任务，例如图像识别、语音识别、语言处理等。理想地，这些算法导致突触权重的模式，其在学习过程期间朝向给定问题的最优解收敛。

ANN的有吸引力的实现使用一些(例如，CMOS)电路来表示神经元，其功能是对来自特定神经元所连接的上游神经元的聚合输入进行积分或求和，并且应用该输入的一些非线性函数来导出该神经元的输出。因为一般而言，每个神经元连接到其他神经元的某一大部分，所以突触(连接)的数量远大于神经元的数量；因此，使用可以在神经形态计算芯片上实现非常高的密度的突触的一些实现是有利的。一个吸引人的选择是一些非易失性存储器(NVM)技术，诸如电阻随机存取存储器(RRAM)或相变存储器(PCM)。由于正负(即，兴奋性和抑制性)权重两者都是所期望的，因此一个方案使用一对NVM来将权重表示为两者之间的电导差(参见M.Suri等人，“Phase Change Memory as Synapse for Ultra-DenseNeurotypes Systems：Application to Complex Visual Pattern Extraction，”IEDMTechnical Digest，4.4，2011)。该方案如图1所示。上游N_i神经元的输出通过NVM电导对并行地求和到下游神经元M_i的正输入和负输入。这种并行性对于高效计算是非常有利的。

在学习期间，通过发送NVM元件的脉冲来编程NVM元件的电导，所述脉冲可以根据学习规则增大或减小电导。我们已经研究的一个常见学习规则是反向传播(参见Rumelhart等人，“Learning Internal Representations by Error Propagation，”ParallelDistributed Processing：Explorations in the Microstructure of Cognition，Vol 1，1986)，其被广泛地用在当前在图形处理单元(GPU)上实现用于图像识别、学习玩视频游戏等的深度学习网络中。反向传播算法要求权重更新Δw_ij＝η·χ_i·δ_j，该权重更新与上游神经元的输出χ_i与来自下游神经元的误差贡献δ_j的积与被称为学习速率的比例常数η成比例。我们先前已经显示(参见Burr等人，“Experimental demonstration and tolerancing ofa large scale neural network(165,000synapses),using phase-change memory asthe synaptic weight element,”IEDM Technical Digest,2014)，“交叉式兼容的”学习规则与常规反向传播规则一样有效。

任何真实的NVM元件具有非理想响应。它是非线性的并且对其可实现的最大电导具有限制。对于设计为增加电导的脉冲的电导变化不同于设计为减小电导的脉冲的电导变化，即，响应是不对称的。在装置之间存在变化，一些装置将不可操作，或者卡在高电导状态中或者卡在低电导状态中。我们的工作表明，这些缺陷中的许多导致ANN性能的非常小的降低。然而，非线性、有界电导和不对称响应导致MNIST数字识别问题的准确度从训练期间的99+％准确度降低到80％和85％之间。

在训练期间，许多不同的输入被呈现给网络，并且反向传播学习规则被用于在每个输入之后(或在一些小数量的输入之后，被称为小批)更新NVM传导。网络中的一些权重趋向于稳定地朝着某个稳定值演进，而其他权重趋向于上下抖动，有时增加，其他次数减少。当NVM响应是非线性的或非对称的时，对旨在减小权重值的脉冲的响应将通常比旨在增加权重的响应更强。这倾向于将这些权重中的许多推向零，使得反向传播学习规则无效并降低网络性能。

现有技术已经涉及基于两种传导率来引入带符号的突触权重。然而，对于一些NVM设备，如相变存储器(PCM)、基于细丝的RRAM(如使用HfOx或TaOx)或基于金属细丝的导电桥接RAM，只能在一个方向上实现小的电导变化。作为这种情况的直接结果，幅度大的突触权重趋向于极易碎，很好地响应于其较小的电导的阶跃(这减小了权重幅度)，但是难以响应于其较大的电导的阶跃(这增大了权重幅度)。由此，网络性能降级，因为网络想要做大的权重具有停留大的困难时间。

本发明的实施例是对现有技术系统和方法的改进。

发明内容

在一个实施例中，本发明提供了一种在人工神经网络(ANN)中实施的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，每个突触的突触权重的大小由来自多个电导对的加权电流来表示，其中，当观察ANN的输出时，多个训练示例被串行输入到ANN，其中反向传播算法响应于来自给定层的输出与来自所述给定层的期望输出之间的差来更新突触权重，该方法包括：(a)周期性地将该突触权重的一部分从具有较低显著性的电导对转移到具有较高显著性的电导对，使得总突触权重保持基本不变；以及(b)重复训练示例，直到网络输出在预定准确度内接近期望输出。

在另一个实施例中，本发明提供了一种在人工神经网络(ANN)中实施的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，由来自多个电导对的加权电流表示的每个所述突触的权重的大小，所述多个电导对中的每个电导对表示共同贡献(joint contribution)并且具有较高显著性电导对和较低显著性电导对，其中，当观察ANN的输出时，多个训练示例被串行输入到ANN，其中反向传播算法响应于来自给定层的输出与来自所述给定层的期望输出之间的差来更新突触权重，该方法包括：(a)暂停网络训练并测量跨ANN网络中的模拟存储器元件的电导；(b)识别电导对中的一个或多个测量的电导中的有效突触权重值，所述电导对的绝对值比其成对的电导大预定量；以及(c)重新配置所述较低显著性电导对相等，对应于对整体突触权重的零共同贡献，以及重新配置所述较高显著性电导对中的一个，直到获得所识别的有效突触权重值。

在另一个实施例中，本发明提供了一种在人工神经网络(ANN)中实施的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，由来自多个电导对的加权电流表示的每个所述突触的权重的大小，所述多个电导对中的每个电导对表示共同贡献并且具有较高显著性电导对和较低显著性电导对，其中，当观察ANN的输出时，多个训练示例被串行输入到ANN，其中反向传播算法响应于来自给定层的输出与来自所述给定层的期望输出之间的差来更新突触权重，该方法包括：(a)暂停网络训练并测量跨ANN网络中的模拟存储器元件的电导；(b)识别电导对中的一个或多个测量的电导中的有效突触权重值，所述电导对的绝对值比其配对的电导大预定量；以及(c)重新配置所述较低显著性电导对相等，对应于对整体突触权重的零共同贡献，以及重新配置所述较高显著性电导对中的一个电导对，直到获得所识别的有效突触权重值，并且其中ANN中的突触权重中的一些突触权重使用连接到读取晶体管的栅极的电容器来实现，该读取晶体管的栅极还与用于将电荷添加到该容量的第一组编程晶体管以及用于从该电容器中减去电荷的第二组晶体管相联系，根据与所述下游神经元和所述上游神经元相关联的信号来进行加或减。

附图说明

现在将仅参考以下附图通过举例来描述本发明的优选实施例，在附图中：

图1图示每个突触具有一个电导对的现有技术阵列；

图2描绘了每个突触具有多于一个电导对的阵列，其中一组对的读取电流相对于另一个放大F倍；

图3描绘了示出多电导对技术的益处的模拟结果；

图4示出了具有变化重要性的导数的概念；

图5描绘了根据与下游和上游神经元相关联的信号使用模拟存储器元件(诸如电容器)实现的ANN中的突触权重，该模拟存储器元件与编程晶体管(用于向电容器添加电荷和从电容器减去电荷)一起绑定到读取晶体管的栅极；

图6描绘了与共享偏置电导一起使用的较高显著性电导和较低显著性对；并且，

图7示出了与现有技术系统相比体现本发明的电导对的准确性。

具体实施方式

虽然关于优选实施例展示和描述了本发明，但本发明可以按许多不同的构型生产。在附图中描绘并且在本文中将详细描述本发明的优选实施例，应理解该描述应被视为本发明的原理和用于其构造的相关功能规范的示范，并且不旨在将本发明限于所描述的实施例。本领域的技术人员将想到在本发明的范围内的许多其他可能的变化。

在此描述的本发明的实施例通过将突触权重分布在多对传导率上来帮助减轻传导率响应中非线性和不对称性的影响，每个传导率对具有不同的显著性。每一对以常规方式通过兴奋电导(excitatory conductance)G+与抑制电导(inhibitory conductance)G-之间的差来贡献突触权重。然而，每对的贡献在位线的端部处实现的放大因子中变化，其中这些对求和。可以通过许多方式来实现示例编程——在一个特定表现中，在网络训练期间更新最低有效电导对。因为大部分权重值通常包含在较高显著性电导对中，所以较低显著性电导对中的一个或多个可以包括易失性模拟存储器元件，诸如连接到读取晶体管的栅极的电容器。在这种情况下，对电容器添加或减去电荷改变了读取晶体管的栅极电压并因此改变了其有效电导。在电导率值是完全双向的并且因此能够在电导率中上下编程的情况下，每个电导率对中的电导率之一可以跨许多不同的突触共享，其中所有单独的突触编程通过调节非共享电导而发生。

图2披露了每个突触具有多于一个电导对的阵列，其中一组对的读取电流相对于另一个放大F倍。在该图中，每个突触权重由两对传导率组成。该第一对相对于第二对以增益因子F对其下游神经元在该阵列底部的总和电流作出贡献。这意味着第二对中的大电导差对第一对中的总突触权重具有与第一对中的小电导差相同的贡献。因此，此技术增加了整个突触的总动态范围，并且允许展现更线性和对称电导变化的快速但易失性的模拟存储器元件用作用于逐示例编程(example-by-example programming)的ANN的第二或更低显著性电导对，其中累积的突触权重变化偶尔仔细转移到第一电导对中。注意，这不是与数字词的或多或少有效位的直接匹配，因为在此存在表示完全相同的总突触权重的多个传导的多个模拟配置。类似地，从较低至较高显著性电导对的转移操作与数字加法器中的数字“进位”操作不同，并且可以根据需要被延迟，因为模拟配置到整体突触权重的映射中的冗余。尽管附图示出了两个电导对，但是延伸至三个或更多对当然是可能的。

当已经发展了大突触权重时，此信息从较低有效电导对中的较大电导差传递至下一较高有效电导对中的较小(并且因此更容易维持)电导差。因为更显著的电导对被更不频繁地更新，所以这个大的突触权重现在被更好地保护以免通过电导的非线性和异对称性而丢失，但是如果网络选择这样做的话，它仍然可以减小这个权重。在某种程度上，网络已经将此权重“归类”(“banked”)到具有更高意义的电导对中。图3显示当与实验证明的基线性能[参见上文Burr等人的论文]相比时，这显著改善了在相同模拟条件(关于PCM缺陷的假设)下的性能。

如果，如在迄今为止的我们的实验性演示[参见上文Burr等人的论文]中，训练已经被周期性地暂停(例如，在每100-1000个示例之后)以用于“偶尔复位”，则这提供包括权重转移的现成机会。因为必须测量所有导电率以便识别需要复位的那些导电率(其将它们从G-菱形的“右侧”移动到“左侧”[参见上文Burr等人的论文]，使用相同的测量，我们还可以识别幅度大的权重，并且调度权重信息从较低显著性电导对到下一较高显著性电导对的转移。

可替代地，该较显著性电导对可以是易失性模拟存储器元件，如连接到晶体管的栅极的电容器，只要这些较高显著性电导对中的至少一个提供足够的非易失性以支持训练期间和随后读出所训练的权重的权重稳定性。

图4展示了具有变化显著性的电导的概念。示出了两个G-菱形，由增益因子F缩放。因此，这些G-菱形上的垂直位置代表对整体突触权重的贡献。在训练过程中，正向评估和反向传播使用所有传导率连同相关联的增益因子以通过读取电流的简单积分来获得所希望的突触权重。在编程期间，能够以许多不同的方案应用权重更新；在这里示出的示例中，权重更新仅被应用于较低显著性电导对。每隔一定时间，可启动转移过程。

该转移过程涉及测量较低显著性对的两个电导。在图4所示的一个实例中，仅传递两个电感之间的差大的电导对。在其他示例中，较低有效电导对之间的电导差总是被传递到较高显著性对。将两个较低显著性导电率重新编程为相等的导电率，从而将它们对总突触权重的共同贡献归零。同时，这些更显著的导电率中的一个或多个被重新配置，其方式为使得跨两对的整体突触贡献基本上不变。由于对较高显著性对的贡献的增益因子，对整体重量的类似影响所需的电导的改变比较低显著性电导对中小F倍。

在图4中所示的实例中，偶尔暂停正常训练以测量所有电导。然后，识别与较低显著性(“1x”)G-菱形的顶部或底部对应的导电率，其中，两个较低显著性导电率均被复位，并且其中，这些较高显著性导电率之一被迭代地设置，直到获得相同的有效权重。例如，设权重为F w₂+w₁，假设训练后w₁变大(如G+、G-电导图所示)，w₁降为0，w₂上推Δw₂＝w₁/F(如G2+、G2-电导图所示)。这样的电导重新配置允许更好地保护权重免受NVM瑕疵的影响。

再次，在其中任何一个电导的双向电导变化是可行的替代示例中，每个电导对的一个成员可以在多个突触之间共享，其中所有编程(权重更新和权重转移)发生在唯一或非共享电导上。

应注意的是，因为这种技术将放大较高显著性电导对上的任何随机读取噪声，所以将可能对应使用的最大增益因子存在限制。此外，这些增益因子意味着在高电导状态下结束“卡住”的损坏传导甚至比在现有技术配置中对神经网络的性能更成问题。然而，应注意的是，导体可以被有意地放置在低电导状态以保护故障的接入设备(例如，参见授予Burr等人的US 8,811,060)，并且因此可以容易地被适配成用于极大地减少这种“卡住”电导的数量。

在一个实施例中，本发明提供了一种在人工神经网络(ANN)中实施的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，每个突触的突触权重的大小由来自多个电导对的加权电流来表示，其中，当观察ANN的输出时，多个训练示例被串行输入到ANN，其中反向传播算法响应于来自给定层的输出与来自所述给定层的期望输出之间的差来更新突触权重，该方法包括：(a)周期性地将该突触权重的一部分从具有较低显著性的电导对转移到具有较高显著性的电导对，从而使得该总突触权重保持基本上不变；以及(b)重复训练示例，直到网络输出在预定准确度内接近期望输出。

在另一个实施例中，本发明提供了一种在人工神经网络(ANN)中实施的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，由来自多个电导对的加权电流表示的每个所述突触的权重的大小，所述多个电导对中的每个电导对表示关节贡献并且具有较高显著性电导对和较低显著性电导对，其中多个训练示例被串行输入到ANN，同时观察其从所述给定层的输出，该方法包括：(a)暂停训练并测量跨ANN网络中的模拟存储器元件的电导；(b)识别给定电导对中的至少一个测量电导，其绝对值比其成对电导大预定量；以及(c)重新配置所述较低显著性电导对基本上相等，对应于对整体突触权重的零共同贡献，以及重新配置所述较高显著性电导对中的一个，直到获得类似的有效突触权重值。

在一个示例中，如图5中所示，ANN中的突触权重是使用与读取晶体管mRead的栅极联接的模拟存储器元件(诸如电容器Cg)连同编程电路(例如，加电荷块和包括一个或多个晶体管的减电荷块)来实现的，用于根据与下游和上游神经元相关联的信号分别向电容器Cg添加电荷和从电容器Cg中减去电荷：Upstream-ADD、Upstream-SUBTRACT、Downstream-ADD、和Downstream-SUBTRACT。在这样的场景中，(电导对的)每对中的一个元件跨许多突触共享，并且较低电导对可以由易失性模拟存储器(而不是非易失性存储器)组成，该易失性模拟存储器包括与读取晶体管的栅极mRead(例如，调制其有效电导)联接的电容器Cg。可包括与读取晶体管mRead串联的LOAD(加载)块(包括电阻器和/或晶体管的某种组合)，以便限制最大读取电流。

如图6中所示，示例可以包括以下两者：即，作为更具显著性的两个PCM，每个突触中的一个3T+1C电导(例如，“g+”)，并且然后每8个或16个突触共享一个另外的3T+1C单位细胞(unit cell)(例如，“g-”)。在这样的示例中，一个晶体管是其电导由模拟电容器电压调制的读取晶体管，并且一个晶体管用于隔离电容器，除了在上拉其电压(增加电荷)时，并且另一个晶体管用于隔离，除了在下拉其电压(移除电荷)时。

图7描绘了示出与现有技术相比体现本发明的多电导对方法的效率的模拟。绘图是作为训练时期(将相同的5000个训练示例呈现给网络的次数)的函数的训练准确度以及最终测试准确度(图的右边缘之外的星号)。蓝色曲线和符号示出了我们来自我们的现有技术出版物(具有非线性电导响应IEDM 2014的一对PCM装置(one pair of PCM deviceswith nonlinear conductance response IEDM 2014))的匹配仿真，而红色曲线示出了使用两对相似非线性PCM装置的仿真效果，其中权重周期性地从较低显著性电导对转移到较高显著性电导对。性能更好，因为有效动态范围更大，并且因为由网络发展的大权重值比可能另外由PCM设备的缺陷引起的更大权重值被更好地保护免受意外的权重损失。下部曲线简单地从上部曲线图重新绘制相同数据，但在拉伸垂直轴以用于高准确度值的对数尺度上。

在此描述的本发明实施例提供用于从具有变化显著性的有符号模拟电导对构建人工神经网络的突触权重的系统和方法的有效实现方式。尽管已经示出和描述了本发明的各种优选实施例，但应当理解，并不旨在将本发明限于这些实施例，而是旨在覆盖落入如所附权利要求书所限定的本发明的范围内的所有修改。

Claims

1.一种在人工神经网络(ANN)中实现的方法，ANN包括多个分层布置的神经元，其中一层的输出连接到后续层的多个神经元的输入，其中，神经元经由多个突触彼此连接，所述突触中的每一个具有对两个连接的神经元之间的连接强度进行编码的突触权重，每个突触的突触权重的大小由来自多个电导对的加权电流来表示，其中，当观察ANN的输出时，多个训练示例被串行输入到ANN，其中反向传播算法响应于来自给定层的输出与来自所述给定层的期望输出之间的差来更新突触权重，该方法包括：

周期性地将所述突触权重的一部分从较低显著性的电导对转移到较高显著性的电导对，使得所述总突触权重保持基本不变；以及

重复所述训练示例，直到所述网络输出在预定准确度内接近所述期望输出。

2.如权利要求1所述的方法，其中，该多个电导对中的每个电导对表示共同贡献，该方法包括：

(a)暂停网络训练并测量跨ANN网络中的模拟存储器元件的电导；

(b)识别电导对中的一个或多个测量的电导中的有效突触权重值，所述电导对的绝对值比其成对的电导大预定量；以及

(c)重新配置所述较低显著性电导对相等，对应于对整体突触权重的零共同贡献，以及重新配置所述较高显著性电导对中的一个，直到获得所识别的有效突触权重值。

3.如权利要求3所述的方法，其中，ANN中的突触权重中的一些突触权重使用与读取晶体管的栅极联接的电容器以及用于根据与下游神经元和上游神经元相关联的信号向该电容器添加电荷并从该电容器减去电荷的编程晶体管来实现。

4.以上任一项权利要求的方法，其中，该神经元用CMOS电路来实现。

5.以上任一项权利要求的方法，其中使用非易失性存储器(NVM)来实现该ANN中的该突触权重。

6.以上任一项权利要求的方法，其中该NVM是选自下组，该组由以下各项组成：相变存储器、电阻性随机存取存储器、以及传导桥随机存取存储器。

7.如权利要求1或权利要求2所述的方法，其中，该ANN被用作选自下组的应用的一部分，该组由以下各项组成：模式识别应用、图像识别应用、语音识别应用、以及语言处理应用。

8.如权利要求1所述的方法，其中使用模拟存储器元件来实现该ANN中的该突触权重。

9.如权利要求1所述的方法，其中，该ANN中的该突触权重中的一些突触权重是使用链接到读取晶体管的栅极的电容器来实现的，该读取晶体管的栅极还链接到用于向该电容器添加电荷的第一组编程晶体管以及用于从该电容器中减去电荷的第二组晶体管，该添加或减去是根据与该下游神经元和该上游神经元相关联的信号来完成的。