CN110807519B

CN110807519B - 基于忆阻器的神经网络的并行加速方法及处理器、装置

Info

Publication number: CN110807519B
Application number: CN201911082236.3A
Authority: CN
Inventors: 吴华强; 姚鹏; 高滨; 钱鹤
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2023-01-17
Anticipated expiration: 2039-11-07
Also published as: KR20220088943A; WO2021088248A1; US20220335278A1; JP2022554371A; JP7399517B2; CN110807519A

Abstract

一种基于忆阻器的神经网络的并行加速方法及处理器、装置。该神经网络包括：多个依次设置的功能层，其中，该多个功能层包括第一功能层和位于第一功能层之后的第二功能层，该第一功能层包括并行的多个第一忆阻器阵列，该多个第一忆阻器阵列用于执行所述第一功能层的操作并将操作结果输出至第二功能层。该并行加速方法包括：使用多个第一忆阻器阵列并行地执行第一功能层的操作，并将操作结果输出至第二功能层。同时，针对具体的并行加速处理器，设计了合适的硬件架构，该并行加速处理器及装置可以执行上述并行加速方法。

Description

基于忆阻器的神经网络的并行加速方法及处理器、装置

技术领域

本公开的实施例涉及一种基于忆阻器的神经网络的并行加速方法及处理器、装置。

背景技术

深度神经网络算法的兴起，带来了智能化的信息技术革命。基于各种深度神经网络算法，可以实现图像识别与分割、物体探测以及完成对语音和文本的翻译、生成等处理。使用深度神经网络算法处理不同工作负载是一类以数据为中心的计算，实现该算法的硬件平台需要具有高性能、低功耗的处理能力。然而，传统的实现该算法的硬件平台是基于存储和计算分离的冯诺依曼架构，这种架构在计算时需要数据在存储器件和计算器件之间来回搬移，因此在包含大量参数的深度神经网络的计算过程中，该架构的能效较低。为此，开发一种新型计算硬件来运行深度神经网络算法成为当前亟需解决的问题。

发明内容

本公开至少一实施例提供一种基于忆阻器的神经网络的并行加速方法，其中，所述神经网络包括：多个依次设置的功能层，所述多个功能层包括第一功能层和位于所述第一功能层之后的第二功能层，所述第一功能层包括并行的多个第一忆阻器阵列，所述多个第一忆阻器阵列用于并行地执行所述第一功能层的操作并将操作结果输出至所述第二功能层；所述并行加速方法包括：使用所述多个第一忆阻器阵列并行地执行所述第一功能层的操作并将所述操作结果输出至所述第二功能层。

例如，在本公开一些实施例提供的并行加速方法中，使用所述多个第一忆阻器阵列并行地执行所述第一功能层的操作并将所述操作结果输出至所述第二功能层，包括：将所述第一功能层接收的输入数据拆分为与所述多个第一忆阻器阵列一一对应的多个子输入数据；以及使用所述多个第一忆阻器阵列并行地对所述多个子输入数据执行所述第一功能层的操作，以对应产生多个子操作结果。

例如，本公开一些实施例提供的并行加速方法，还包括：将所述多个子操作结果进行拼合并使用所述第二功能层对拼合结果执行所述第二功能层的操作。

例如，在本公开一些实施例提供的并行加速方法中，所述多个子输入数据的尺寸大小基本相同。

例如，在本公开一些实施例提供的并行加速方法中，使用所述多个第一忆阻器阵列并行地执行所述第一功能层的操作并将所述操作结果输出至所述第二功能层，包括：将所述第一功能层接收的多个输入数据分别提供给所述多个第一忆阻器阵列；以及使用所述多个第一忆阻器阵列至少部分并行地对接收的所述多个输入数据执行所述第一功能层的操作，以对应产生多个子操作结果。

例如，本公开一些实施例提供的并行加速方法，还包括：使用所述第二功能层分别对所述多个子操作结果执行所述第二功能层的操作。

例如，在本公开一些实施例提供的并行加速方法中，所述多个输入数据互不相同。

例如，在本公开一些实施例提供的并行加速方法中，所述神经网络为卷积神经网络。

例如，在本公开一些实施例提供的并行加速方法中，所述第一功能层为所述神经网络的初始卷积层。

例如，在本公开一些实施例提供的并行加速方法中，所述多个功能层还包括第三功能层，所述第三功能层的输出被提供至所述第一功能层。

例如，在本公开一些实施例提供的并行加速方法中，所述神经网络的权重参数通过片外训练得到，所述神经网络的权重参数包括所述第一功能层的权重参数，所述第一功能层的权重参数被写入所述多个第一忆阻器阵列，以确定所述多个第一忆阻器阵列的电导。

例如，在本公开一些实施例提供的并行加速方法中，所述神经网络的权重参数还包括除所述第一功能层之外的其它功能层的权重参数，所述其他功能层的权重参数被写入所述其他功能层对应的忆阻器阵列，以确定所述其他功能层对应的忆阻器阵列的电导。

本公开至少一实施例还提供一种基于忆阻器的神经网络的并行加速处理器，其中，所述神经网络包括多个依次设置的功能层，所述多个功能层包括第一功能层，所述并行加速处理器包括多个忆阻器阵列计算单元，所述多个忆阻器阵列计算单元包括多个第一忆阻器阵列计算单元，所述第一功能层的权重参数被写入所述多个第一忆阻器阵列计算单元中，所述多个第一忆阻器阵列计算单元被配置为并行地执行所述第一功能层的操作对应的运算。

本公开至少一实施例还提供一种基于忆阻器的神经网络的并行加速装置，包括：本公开任一实施例提供的并行加速处理器，以及与所述并行加速处理器连接的输入接口和输出接口；所述输入接口被配置为接收指令以控制所述并行加速处理器的运行，所述输出接口被配置为输出所述并行加速处理器的运行结果。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为一种忆阻器单元电路的示意图；

图2为一种忆阻器阵列的示意图；

图3为一种卷积神经网络的示意图；

图4为一种卷积神经网络的工作过程示意图；

图5A为一种基于忆阻器阵列的卷积神经网络的卷积计算的示意图；

图5B为一种基于忆阻器阵列的卷积神经网络的全连接计算的示意图；

图6为本公开一些实施例提供的一种神经网络的结构示意框图；

图7A为图6所示的神经网络的并行加速方法中的第一功能层的一种并行处理方式；

图7B为图6所示的神经网络的并行加速方法中的第一功能层的另一种并行处理方式；

图8为本公开一些实施例提供的一种神经网络的片外训练方法的流程图；

图9为本公开一些实施例提供的一种基于忆阻器的神经网络的并行加速处理器的示意图；

图10为图9所示的并行加速处理器中的忆阻器阵列计算单元的结构示意图；以及

图11为本公开一些实施例提供的一种基于忆阻器的神经网络的并行加速装置的示意框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。 “上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

忆阻器(阻变存储器、相变存储器、导电桥存储器等)是一种可以通过施加外部激励，调节其电导状态的非易失型器件。根据基尔霍夫电流定律和欧姆定律，由这类器件构成的阵列可以并行的完成乘累加计算，且存储和计算都发生在阵列各器件中。基于这种计算架构，可以实现不需要大量数据搬移的存算一体计算。同时，乘累加是运行神经网络需要的核心计算任务。因此，使用阵列中的忆阻器型器件的电导表示权重值，可以基于这种存算一体计算实现高能效的神经网络运算。

图1为一种忆阻器单元电路的示意图。如图1所示，该忆阻器单元电路采用1T1R结构，即该忆阻器单元电路包括一个晶体管M1和一个忆阻器R1。

需要说明的是，本公开的实施例中采用的晶体管均可以为薄膜晶体管或场效应晶体管(例如MOS场效应晶体管)或其他特性相同的开关器件。这里采用的晶体管的源极、漏极在结构上可以是对称的，所以其源极、漏极在结构上可以是没有区别的。在本公开的实施例中，为了区分晶体管除栅极之外的两极，直接描述了其中一极为第一极，而另一极为第二极。

本公开的实施例对采用的晶体管的类型不作限定，例如当晶体管M1采用N型晶体管时，其栅极和字线端WL连接，例如字线端WL输入高电平时晶体管M1导通；晶体管M1的第一极可以是源极并被配置为和源线端SL 连接，例如晶体管M1可以通过源线端SL接收复位电压；晶体管M1的第二极可以是漏极并被配置为和忆阻器R1的第二极(例如负极)连接，忆阻器R1的第一极(例如正极)和位线端BL连接，例如忆阻器R1可以通过位线端BL接收置位电压。例如当晶体管M1采用P型晶体管时，其栅极和字线端WL连接，例如字线端WL输入低电平时晶体管M1导通；晶体管M1 的第一极可以是漏极并被配置为和源线端SL连接，例如晶体管M1可以通过源线端SL接收复位电压；晶体管M1的第二极可以是源极并被配置为和忆阻器R1的第二极(例如负极)连接，忆阻器R1的第一极(例如正极) 和位线端BL连接，例如忆阻器R1可以通过位线端BL接收置位电压。需要说明的是，阻变存储器结构还可以实现为其他结构，例如忆阻器R1的第二极与源线端SL连接的结构，本公开的实施例对此不作限制。下面各实施例均以晶体管M1采用N型晶体管为例进行说明。

字线端WL的作用是对晶体管M1的栅极施加相应电压，从而控制晶体管M1导通或关闭。在对忆阻器R1进行操作时，例如进行置位操作或复位操作，均需要先开启晶体管M1，即需要通过字线端WL对晶体管M1的栅极施加导通电压。在晶体管M1导通后，例如，可以通过在源线端SL和位线端BL向忆阻器R1施加电压，以改变忆阻器R1的阻态。例如，可以通过位线端BL施加置位电压，以使得该忆阻器R1处于低阻态；又例如，可以通过源线端SL施加复位电压，以使得该忆阻器R1处于高阻态。

需要说明的是，在本公开的实施例中，通过字线端WL和位线端BL同时施加电压，使得忆阻器R1的电阻值越来越小，即忆阻器R1从高阻态变为低阻态，将使得忆阻器R1从高阻态变为低阻态的操作称为置位操作；通过字线端WL和源线端SL同时施加电压，使得忆阻器R1的电阻值越来越大，即忆阻器R1从低阻态变为高阻态，将使得忆阻器R1从低阻态变为高阻态的操作称为复位操作。例如，忆阻器R1具有阈值电压，在输入电压幅度小于忆阻器R1的阈值电压时，不会改变忆阻R1的电阻值(或电导值)。在这种情况下，可以通过输入小于阈值电压的电压，利用忆阻器R1的电阻值(或电导值)进行计算；可以通过输入大于阈值电压的电压，改变忆阻器 R1的电阻值(或电导值)。

图2示出了一种忆阻器阵列，该忆阻器阵列由多个如图1中所示的忆阻器单元电路构成，例如多个忆阻器单元电路构成一个m行n列的阵列，m为大于1的整数，n为大于等于1的整数。图2中BL<1>、BL<2>……BL<m> 分别表示第一行、第二行……第m行的位线，每一行的忆阻器单元电路中的忆阻器和该行对应的位线连接；图2中WL<1>、WL<2>……WL<n>分别表示第一列、第二列……第n列的字线，每一列的忆阻器单元电路中的晶体管的栅极和该列对应的字线连接；图2中SL<1>、SL<2>……SL<n>分别表示第一列、第二列……第n列的源线，每一列的忆阻器单元电路中的晶体管的源极和该列对应的源线连接。

图2所示的m行n列的忆阻器阵列可以表示一个m行n列大小的神经网络权重矩阵。例如，第一层神经元层具有m个神经元节点，与图2所示的忆阻器阵列的m行位线对应连接；第二层神经元层具有n个神经元节点，与图2所示的忆阻器阵列的n列源线对应连接。通过向第一层神经元层并行输入电压激励，可以在第二层神经元层得到由电压激励向量和忆阻器阵列的电导矩阵(电导为电阻的倒数)相乘得到的输出电流。

具体地，根据基尔霍夫定律，忆阻器阵列的输出电流可以根据下述公式得出：

其中，j＝1,…,n，k＝1,…,m。

在上述公式中，v_k表示第一层神经元层中的神经元节点k输入的电压激励，i_j表示第二层神经元层的神经元节点j的输出电流，g_k,j表示忆阻器阵列的电导矩阵。

根据基尔霍夫定律可知，忆阻器阵列可以并行地完成乘累加计算。

需要说明的是，例如在某些示例中，神经网络权重矩阵的每个权重也可以使用两个忆阻器来实现。也就是说，可以通过忆阻器阵列中的两列忆阻器实现一列输出电流的输出。在此情况下，表示一个m行n列大小的神经网络权重矩阵需要m行2n列的忆阻器阵列。

需要说明的是，忆阻器阵列输出的电流为模拟电流，在一些示例中，可以通过模数转换电路(ADC)将模拟电流转换为数字电压传递给第二层神经元层，从而第二层神经元层还可以通过数模转换电路(DAC)将数字电压转换为模拟电压，并通过另一忆阻器阵列与另一层神经元层连接；在另一些示例中，还可以通过采样保持电路将模拟电流转换为模拟电压传输给第二层神经元层。

卷积神经网络(Convolutional Neural Network，CNN)主要用于识别二维形状，其对图像的平移、比例缩放、倾斜或其他形式的变形具有高度不变性。CNN主要通过局部感知野和权值共享来简化神经网络模型的复杂性、减少权重的数量。随着深度学习技术的发展，CNN的应用范围已经不仅仅限于图像识别领域，其也可以应用在人脸识别、文字识别、动物分类、图像处理等领域。

图3示出了一种卷积神经网络的示意图。例如，该卷积神经网络可以用于图像处理，其使用图像作为输入和输出，并通过卷积核替代标量的权重。图3中仅示出了具有3层神经元层的卷积神经网络，本公开的实施例对此不作限制。如图3所示，卷积神经网络包括3层神经元层，分别为输入层101、隐藏层102和输出层103。输入层101具有4个输入，隐藏层102具有3个输出，输出层103具有2个输出。

例如，输入层101的4个输入可以为4幅图像，或者1幅图像的四种特征图像。隐藏层102的3个输出可以为经过输入层101输入的图像的特征图像。

例如，如图3所示，卷积层具有权重

和偏置

权重

表示卷积核，偏置

是叠加到卷积层的输出的标量，其中，k是表示输入层101的标签，i 和j分别是输入层101的单元和隐藏层102的单元的标签。例如，第一卷积层201 包括第一组卷积核(图1中的

)和第一组偏置(图1中的

)。第二卷积层 202包括第二组卷积核(图1中的

)和第二组偏置(图1中的

)。通常，每个卷积层包括数十个或数百个卷积核，若卷积神经网络为深度卷积神经网络，则其可以包括至少五层卷积层。

例如，如图3所示，该卷积神经网络还包括第一激活层203和第二激活层 204。第一激活层203位于第一卷积层201之后，第二激活层204位于第二卷积层202之后。激活层(例如，第一激活层203和第二激活层204)包括激活函数，激活函数用于给卷积神经网络引入非线性因素，以使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。ReLU函数为非饱和非线性函数，Sigmoid函数和tanh函数为饱和非线性函数。例如，激活层可以单独作为卷积神经网络的一层，或者激活层也可以被包含在卷积层 (例如，第一卷积层201可以包括第一激活层203，第二卷积层202可以包括第二激活层204)中。

例如，在第一卷积层201中，首先，对每个输入应用第一组卷积核中的若干卷积核

和第一组偏置中的若干偏置

以得到第一卷积层201的输出；然后，第一卷积层201的输出可以通过第一激活层203进行处理，以得到第一激活层203的输出。在第二卷积层202中，首先，对输入的第一激活层203 的输出应用第二组卷积核中的若干卷积核

和第二组偏置中的若干偏置

以得到第二卷积层202的输出；然后，第二卷积层202的输出可以通过第二激活层204进行处理，以得到第二激活层204的输出。例如，第一卷积层 201的输出可以为对其输入应用卷积核

后再与偏置

相加的结果，第二卷积层202的输出可以为对第一激活层203的输出应用卷积核

后再与偏置

相加的结果。

在利用卷积神经网络进行图像处理前，需要对卷积神经网络进行训练。经过训练之后，卷积神经网络的卷积核和偏置在图像处理期间保持不变。在训练过程中，各卷积核和偏置通过多组输入/输出示例图像以及优化算法进行调整，以获取优化后的卷积神经网络模型。

图4示出了一种卷积神经网络的工作过程示意图。例如，如图4所示，输入图像输入到卷积神经网络后，依次经过若干个处理过程(如图4中的卷积计算、降采样(即下采样)、展开成向量、全连接计算等)后得到对应的输出。卷积神经网络的主要组成部分可以包括多个卷积层、多个降采样层(即下采样层)、平坦化层和全连接层。在本公开中，应该理解的是，多个卷积层、多个降采样层、平坦化层和全连接层等这些层每个都指代对应的处理/ 操作，即卷积处理/操作(如图4中的卷积计算所示)、降采样处理/操作(如图4中降采样所示)、平坦化处理/操作(如图4中的展开成向量所示)、全连接处理/操作(如图4中的全连接计算所示)等，后续不再重复赘述。需要说明的是，在本公开中，这些层用于指代对应的处理/操作的层统称为功能层，以区别于神经元层。还需要说明的是，功能层还可以包括升采样层(上采样层)、标准化层等，本公开的实施例对此不作限制。

卷积层是卷积神经网络的核心层。在卷积神经网络的卷积层中，一个神经元只与部分相邻层的神经元连接。卷积层可以对输入图像应用若干个卷积核(也称为滤波器)，以提取输入图像的多种类型的特征。每个卷积核可以提取一种类型的特征。卷积核一般以随机小数矩阵的形式初始化，在卷积神经网络的训练过程中卷积核将通过学习以得到合理的权值。对输入图像应用一个卷积核之后得到的结果被称为特征图像(feature map)，特征图像的数目与卷积核的数目相等。每个特征图像由一些矩形排列的神经元组成，同一特征图像的神经元共享权值，这里共享的权值就是卷积核。一个层级的卷积层输出的特征图像可以被输入到相邻的下一个层级的卷积层并再次处理以得到新的特征图像。例如，如图4所示，第一层级的卷积层可以输出第一特征图像，该第一特征图像被输入到第二层级的卷积层再次处理以得到第二特征图像。

例如，如图4所示，卷积层可以使用不同的卷积核对输入图像的某一个局部感受域的数据进行卷积，卷积结果可以被输入激活层，由激活层根据相应的激活函数进行计算以得到输入图像的特征信息。

例如，如图4示，降采样层设置在相邻的卷积层之间，降采样层是降采样的一种形式。一方面，降采样层可以用于缩减输入图像的规模，简化计算的复杂度，在一定程度上减小过拟合的现象；另一方面，降采样层也可以进行特征压缩，提取输入图像的主要特征。降采样层能够减少特征图像的尺寸，但不改变特征图像的数量。例如，一个尺寸为12×12的输入图像，通过6×6 的卷积核对其进行采样，那么可以得到2×2的输出图像，这意味着输入图像上的36个像素合并为输出图像中的1个像素。最后一个降采样层的输出可以被输入到平坦化层以进行平坦化操作(Flatten)。平坦化层可以将特征图像 (二维图像)转换为向量(一维)。该平坦化操作可以按照如下的方式进行：

v_k＝f_k/j,k％j

其中，v是包含k个元素的向量，f是具有i行j列的矩阵。

然后，平坦化层的输出(即一维向量)可以被输入到一个全连接层 (FCN)。全连接层可以具有与图3所示的卷积神经网络相似的结构，但不同之处在于，全连接层使用不同的标量值以替代卷积核。全连接层用于连接提取的所有特征。全连接层的输出可以为一维向量。

卷积神经网络中的卷积计算和全连接计算等计算过程主要包括乘累加计算，因此，卷积层和全连接层等功能层可以通过忆阻器阵列实现。例如，卷积层和全连接层的权重均可以通过忆阻器阵列的阵列电导表示，同时卷积层和全连接层的输入可以通过对应的电压激励表示，从而可以根据前述基尔霍夫定律分别实现卷积计算和全连接计算。

图5A为一种基于忆阻器阵列的卷积神经网络的卷积计算的示意图，图 5B为一种基于忆阻器阵列的卷积神经网络的全连接计算的示意图。

如图5A所示，可以用一个忆阻器阵列来实现一个卷积层的卷积计算，例如可以对输入图像(如图5A中的数字图像“2”所示)进行卷积处理。例如，在一些示例中，该卷积层包括多个卷积核，该忆阻器阵列的每一行对应一个卷积核，且每一行的多个忆阻器分别用于表示一个卷积核的各个元素的值。例如，对于一个3×3的卷积核，该忆阻器阵列的每一行用9个忆阻器表示该卷积核的9个元素的值。需要说明的是，上述使用忆阻器阵列表征卷积层的方式是示例性的，本公开的实施例包括但不限于此。

应当理解的是，卷积层对其输入图像进行卷积处理，需要将输入图像划分为多个图像子块(其尺寸与卷积核的尺寸大小相同)，然后使用卷积核对每个图像子块进行卷积操作。在使用忆阻器阵列实现卷积层的卷积运算的情况下，虽然多个卷积核可以并行地对每个图像子块进行处理，但是，仍然需要将各个图像子块的数据分批次(即一个个图像子块)串行地输入到该忆阻器阵列中，以实现对整个输入图像的卷积处理。

如图5B所示，可以用一个忆阻器阵列来实现一个全连接层的全连接计算。例如，在一些示例中，如图5B所示，该忆阻器阵列的各列用于接收全连接层的输入，各行用于提供全连接层的输出，每一行的多个忆阻器分别用于表示该行的输出对应的各个权重。需要说明的是，上述使用忆阻器阵列表征全连接层的方式是示例性的，本公开的实施例包括但不限于此。

应当理解的是，全连接层的全连接计算可以一次性完成。由于卷积层的卷积计算需要分批次串行完成，且需要处理完所有批次后，卷积层的卷积计算才完成。因此，卷积计算和全连接计算之间往往存在严重的速度失配(卷积计算耗用的时间远大于全连接计算耗用的时间)。因此，当基于忆阻器阵列实现卷积神经网络时，该卷积神经网络的性能往往受限于效率最低的忆阻器阵列(称为效率瓶颈)，例如卷积层对应的忆阻器阵列。

本公开至少一实施例提供一种基于忆阻器的神经网络的并行加速方法。该神经网络包括：多个依次设置的功能层，其中，该多个功能层包括第一功能层和位于第一功能层之后的第二功能层，该第一功能层包括并行的多个第一忆阻器阵列，该多个第一忆阻器阵列用于执行所述第一功能层的操作并将操作结果输出至第二功能层。该并行加速方法包括：使用多个第一忆阻器阵列并行地执行第一功能层的操作，并将操作结果输出至第二功能层。

本公开至少一实施例还提供对应于上述并行加速方法的处理器及装置。

本公开的实施例提供的基于忆阻器的神经网络的并行加速方法及处理器、装置，将第一功能层的操作通过多个第一忆阻器阵列并行执行，从而可以实现对基于忆阻器的神经网络的运行过程的加速。该基于忆阻器的神经网络的架构思路及并行加速方法可以广泛适用于各种深度神经网络模型和不同类型的忆阻器，有助于解决深度神经网络模型的速度失配问题。

下面结合附图对本公开的一些实施例及其示例进行详细说明。

本公开至少一实施例提供一种基于忆阻器的神经网络的并行加速方法。图6示出了本公开一些实施例提供的一种神经网络的结构示意框图，图7A 示出了图6所示的神经网络的并行加速方法中的第一功能层的一种并行处理方式，图7B示出了图6所示的神经网络的并行加速方法中的第一功能层的另一种并行处理方式。

如图6所示，该神经网络包括多个依次设置的功能层。例如，如图6所示，该多个功能层包括第一功能层和位于第一功能层之后的第二功能层。例如，在一些实施例中，该多个功能层还可以包括第一功能层和第二功能层之外的其他功能层，本公开对此不作限制。

例如，在一些实施例中，如图7A和图7B所示，第一功能层包括并行的多个第一忆阻器阵列，第一功能层对应的多个第一忆阻器阵列用于并行地执行第一功能层的操作并将操作结果输出至第二功能层，从而实现对神经网络的运行过程的加速。例如，在一些实施例中，在第一功能层仅包括一个第一忆阻器阵列的情况下，第一功能层为限制该神经网络运行性能的效率瓶颈，例如第一功能层为卷积层。

例如，在一些实施例中，该神经网络为包括多个卷积层的卷积神经网络；由于通常情况下，用于对神经网络的输入图像进行卷积处理的初始卷积层(即第一个卷积层)的运算量最大、耗用时间最长，即初始卷积层通常是神经网络的效率瓶颈，因此，第一功能层通常可以包括该初始卷积层。需要说明的是，本公开包括但不限于此。例如，在另一些实施例中，如图6所示，神经网络的多个功能层还可以包括位于第一功能层之前的第三功能层，第三功能层的输出被提供至第一功能层以作为第一功能层的输入，因此，第一功能层也可以是神经网络的初始卷积层之外的其他卷积层，例如中间卷积层等。

应当理解的是，神经网络可以包括多个第一功能层(例如，卷积层)，从而通过每个第一功能层对应的多个第一忆阻器阵列并行执行该第一功能层的操作，从而可以提高神经网络的并行度，进而可以实现对神经网络的运行过程的进一步加速。例如，各个第一功能层对应的第一忆阻器阵列的数量可以相同，也可以不同，本公开的实施例对此不作限制。

例如，上述第二功能层可以包括卷积层、降采样层、平坦化层和全连接层等之一；例如，上述第三功能层可以包括卷积层和降采样层等之一。需要说明的是，本公开的实施例对此均不做限制。

例如，图7A和图7B均示例性地示出了第一功能层包括3个第一忆阻器阵列的情形，但不应视作对本公开的限制。也就是说，第一功能层包括的第一忆阻器阵列的数量可以根据实际需求进行设置，本公开的实施例对此不作限制。

例如，如图7A和图7B所示，上述基于忆阻器的神经网络的并行加速方法包括：使用多个第一忆阻器阵列并行地执行第一功能层的操作并将操作结果输出至第二功能层(图7A和图7B中未示出)。

例如，在一些实施例中，如图7A所示，首先，可以将第一功能层接收的输入数据(如图7A中的数字图像“2”所示)拆分为与多个第一忆阻器阵列一一对应的多个子输入数据(如图7A中的数字图像“2”拆分成的三部分所示)；然后，可以使用该多个第一忆阻器阵列并行地对该多个子输入数据执行第一功能层的操作，以对应产生多个子操作结果；接着，还可以将该多个子操作结果进行拼合并使用第二功能层对拼合结果执行第二功能层的操作。

例如，在一些示例中，如图7A所示，第一功能层为卷积层，第一功能层包括的每个第一忆阻器阵列都可以采用如图5A所示的方式实现第一功能层的卷积操作。

例如，在一些示例中，在由输入图像(即输入数据)拆分得到的多个子输入图像(即子输入数据)中，相邻的子输入图像之间通常可以相互交叠，当然也可以不交叠，本公开的实施例对此不作限制。例如，在一些示例中，该多个子输入数据的尺寸大小基本相同，从而，各子输入数据由对应的第一忆阻器阵列进行卷积处理需要耗用的时间基本相同，进而就整体而言可以加快第一功能层的处理速度，即加快神经网络的处理速度。

例如，在一些示例中，该多个子输入数据可以按照任意顺序分别提供给该多个第一忆阻器阵列，在此情况下，每个第一忆阻器阵列可以处理任一子输入数据；例如，在另一些示例中，该多个子输入数据应当按照预定顺序分别一一对应地提供给该多个第一忆阻器阵列，在此情况下，每个第一忆阻器阵列可以处理与之对应的子输入数据。

例如，在使用一个第一忆阻器阵列对输入图像进行处理(参考图5A所示)的情况下，第一功能层的操作耗用的时间记为t；在使用例如三个第一忆阻器阵列对输入图像拆分得到的三幅子输入图像进行并行处理(参考图 7A所示)的情况下，第一功能层的操作耗用的时间减少为t/3。由此，图7A 所示的并行加速方法可以实现对神经网络处理单个输入数据的运行过程的加速。

例如，在一些示例中，第二功能层可以为卷积层、降采样层、平坦化层和全连接层等之一，本公开的实施例对此不作限制。

例如，在另一些实施例中，如图7B所示，首先，可以将第一功能层接收的多个输入数据(如图7B中的数字图像“2”、“1”、“4”所示)分别提供给多个第一忆阻器阵列；然后，可以使用该多个第一忆阻器阵列至少部分并行地对接收的多个输入数据执行第一功能层的操作，以对应产生多个子操作结果；接着，还可以使用第二功能层分别对该多个子操作结果执行第二功能层的操作。

例如，在一些示例中，如图7B所示，第一功能层为卷积层，第一功能层包括的每个第一忆阻器阵列都可以采用如图5A所示的方式实现第一功能层的卷积操作。例如，该多个输入数据可以按照任意顺序分配给该多个第一忆阻器阵列，在此情况下，每个第一忆阻器阵列可以处理任一输入数据。例如，该多个输入数据可以互不相同，当然也可以部分或全部相同，本公开的实施例对此不作限制。

例如，在使用一个第一忆阻器阵列对输入图像进行处理(参考图5A所示)的情况下，第一功能层的操作耗用的时间记为t1，后续功能层的操作耗用的时间记为t2，若t1>t2，则使用神经网络处理三幅输入图像所耗用的时间至少约为3*t1+t2(例如，在第一功能层处理当前的一幅输入图像的数据时，后续功能层可以处理完上一幅输入图像的相关数据)。相比之下，在使用例如三个第一忆阻器阵列对三幅输入图像进行并行处理(参考图7B所示) 的情况下，则使用神经网络处理三幅输入图像所耗用的时间约为t1+3*t2，由此，节省的时间为2*(t1-t2)。即，图7B所示的并行加速方法可以实现对神经网络处理多个输入数据的运行过程的加速。

应当理解的是，图7A所示的并行加速方法和图7B所示的并行加速方法，可以综合性地应用于同一个神经网络(例如，同一个神经网络的不同的第一功能层)，本公开的实施例对此不作限制。

本公开的实施例提供的神经网络，可以采用上述并行加速方法使之运行，在其运行过程中，将第一功能层的操作通过多个第一忆阻器阵列并行执行，从而可以实现对神经网络的运行过程的加速。该神经网络的架构思路及其并行加速方法可以广泛适用于各种深度神经网络模型和不同类型的忆阻器，有助于解决深度神经网络模型的速度失配问题。

本公开至少一实施例还提供一种基于忆阻器的神经网络的片外训练方法。例如，该训练方法可以用于得到前述实施例提供的神经网络的参数。例如，结合图6、图7A和图7B所示，该神经网络包括：多个依次设置的功能层，其中，该多个功能层包括第一功能层和位于第一功能层之后的第二功能层，第一功能层包括并行的多个第一忆阻器阵列，该多个第一忆阻器阵列用于执行第一功能层的操作并将操作结果输出至第二功能层。

应当理解的是，神经网络的训练方法通常包括以下步骤：使用神经网络对训练输入数据进行处理，以得到训练输出数据；基于训练输出数据，通过损失函数计算神经网络的损失值；根据损失值对神经网络的参数进行修正；以及，判断神经网络的训练是否满足预定条件，若不满足预定条件，则重复执行上述训练过程；若满足预定条件，则停止上述训练过程，得到训练好的神经网络。当然，在对神经网络进行训练时，通常还需要对神经网络的参数进行初始化。例如，通常可以将神经网络的参数初始化为随机数，例如随机数符合高斯分布，本公开的实施例对此不作限制。应当理解的是，本公开的实施例提供的神经网络的训练方法也可以参考上述常用的训练步骤和过程。

通过片外训练得到各权重参数后，对忆阻器阵列中的各个器件的电导通过置位和复位操作进行编程，实现相应的权重。具体的编程方法以及忆阻器权重的组织方式不受限制。

图8为本公开一些实施例提供的一种神经网络的片外训练方法的流程图。例如，如图8所示，该片外训练方法可以包括以下步骤S10至步骤S30。

步骤S10：构建神经网络的数学模型。

例如，在一些示例中，可以使用软件(例如，程序代码等)构建本公开的实施例提供的数学模型。

步骤S20：对数学模型进行训练，以得到训练好的数学模型。

例如，在一些示例中，可以基于处理器和存储器等运行及训练上述数学模型。例如，数学模型的训练步骤和过程可以参考常用的训练步骤和过程，在此不再重复赘述。

步骤S30：将训练好的数学模型的权重参数写入神经网络对应的忆阻器阵列。

例如，在一些示例中，数学模型中的第一功能层包括一份第一权重参数。在数学模型的训练过程中，正向传播时，由该份第一权重参数对第一功能层的训练输入数据进行处理；反向传播时，对该份第一权重参数进行修正以得到训练好的第一功能层的第一权重参数。在此情况下，将训练好的数学模型的权重参数写入神经网络对应的忆阻器阵列，即步骤S30，包括：将训练好的数学模型中的第一功能层的该份第一权重参数分别写入多个第一忆阻器阵列。此时，第一功能层对应的各第一忆阻器阵列包括相同的电导权重矩阵。

例如，在另一些示例中，数学模型中的第一功能层包括多份第一权重参数。在数学模型的训练过程中，正向传播时，将数学模型中的第一功能层接收的训练输入数据拆分为与该多份第一权重参数一一对应的多个训练子输入数据；使用该多份第一权重参数并行地对该多个训练子输入数据执行第一功能层的操作，以产生多个训练子操作结果；以及，基于每份第一权重参数对应的训练子操作结果以及该训练子操作结果对应的训练中间数据，更新该份第一权重参数的参数值。根据片外训练具体方式的不同，各个阵列可以写入相同的权重参数，也可以写入不同的权重参数。

在此情况下，将训练好的数学模型的权重参数写入神经网络对应的忆阻器阵列，即步骤S30，包括：将训练好的数学模型中的第一功能层的多份第一权重参数分别一一对应地写入多个第一忆阻器阵列。此时，得到的神经网络可以用于执行图7A所示的并行加速方法。

例如，在又一些示例中，数学模型中的第一功能层包括多份第一权重参数。在数学模型的训练过程中，正向传播时，将数学模型中的第一功能层接收的多个训练输入数据分别提供给该多份第一权重参数；使用该多份第一权重参数至少部分并行地对该多个训练输入数据执行第一功能层的操作，以产生多个训练子操作结果；以及，基于每份第一权重参数对应的训练子操作结果以及该训练子操作结果对应的训练中间数据，更新该份第一权重参数的参数值。

在此情况下，将训练好的数学模型的权重参数写入神经网络对应的忆阻器阵列，即步骤S30，包括：将训练好的数学模型中的第一功能层的多份第一权重参数分别一一对应地写入多个第一忆阻器阵列。此时，得到的神经网络可以用于执行图7B所示的并行加速方法，也可以用于执行图7A所示的并行加速方法。

因此，在本公开的另一些实施例提供的基于忆阻器的神经网络的并行加速方法中，神经网络的权重参数通过上述片外训练方法得到，神经网络的权重参数包括第一功能层的权重参数，第一功能层的权重参数被写入多个第一忆阻器阵列，以确定多个第一忆阻器阵列的电导。还应当理解的是，通过上述片外训练方法得到的神经网络的权重参数还可以包括除所述第一功能层之外的其它功能层的权重参数，所述其他功能层的权重参数可以被写入其他功能层对应的忆阻器阵列，以确定其他功能层对应的忆阻器阵列的电导。

本公开至少一实施例还提供一种基于忆阻器的神经网络的并行加速处理器，该并行加速处理器可以用于执行前述并行加速方法。图9为本公开一些实施例提供的一种基于忆阻器的神经网络的并行加速处理器的示意图。

例如，如图6所示，该神经网络包括多个依次设置的功能层，该多个功能层包括第一功能层。例如，如图9所示，该并行加速处理器包括多个计算核心，各个忆阻器计算核心之间可以互相通信；同时，每个计算核心内部又包括多个忆阻器阵列计算单元。

例如，在一些实施例中，多个忆阻器阵列计算单元包括多个第一忆阻器阵列计算单元，第一功能层的权重参数被写入多个第一忆阻器阵列计算单元中，多个第一忆阻器阵列计算单元被配置为并行地执行所述第一功能层的操作对应的运算。也就是说，可以将神经网络中某一功能层的权重编程写入不同计算核心或忆阻器阵列计算单元，从而实现多个忆阻器阵列对该功能层的操作的并行加速计算。例如，多个第一忆阻器阵列的可以采用前述任一实施例提供的并行加速方法实现第一功能层的操作的并行加速计算。

图10为图9所示的并行加速处理器中的忆阻器阵列计算单元的结构示意图。以下，结合图9所示的忆阻器阵列计算单元的结构，对忆阻器阵列计算单元的工作原理进行详细说明。

例如，如图10所示，忆阻器阵列计算单元包括忆阻器阵列和外围电路。例如，在一些示例中，如图10所示，忆阻器阵列包括128×128个忆阻器，本公开的实施例包括但不限于此。例如，在一些示例中，如图10所示，外围电路包括开关阵列、多路选择器、采样保持模块(S&H模块)、模数转换模块(ADC)和移位&累加器(Sh&A)等。

例如，在一些示例中，如图10所示，忆阻器阵列计算单元的输入包括多个8比特(8-bit)的输入数据。例如，每个输入数据的每一比特对应一个控制脉冲，每个控制脉冲按每一比特的取值进行编码，具体编码方式如下所示：

其中，s＝0,…,B-1，B表示输入数据的比特数(例如，如图10所示，B＝8)， V_k表示第k行输入数据对应的电压激励，V_R表示恒定的基准电压(例如，图10中所示的读电压)，a_k,s表示第[s]个控制脉冲的电平。例如，在一些示例中，a_k,s可以对应于8比特的输入数据a_k的二进制编码(a_k,7，a_k,6，…，a_k,0) 之一。a_k,s＝1时，表示第[s]个控制脉冲为高电平，从而可以开启开关阵列中相应的开关，将读电压V_R提供至忆阻器阵列的第k行；a_k,s＝0时，表示第[s] 个控制脉冲为低电平，从而可以关闭开关阵列中相应的开关，同时，开关阵列中的另一开关开启，将接地电平提供至忆阻器阵列的第k行，即此时不向忆阻器阵列的第k行提供信号。

应当理解的是，如图10所示，一方面，多个输入数据并行地输入忆阻器阵列；另一方面，每个输入数据被对应表征为多个(例如，8个)控制脉冲，该多个控制脉冲串行地输入忆阻器阵列。当然，不同的输入数据对应的同一次序的控制脉冲并行地输入忆阻器阵列。

根据基尔霍夫定律，忆阻器阵列的输出电流可以根据下述公式得出：

其中，k＝1,…,m，j＝1,…,n，m表示忆阻器阵列的行数，n表示忆阻器阵列的列数，i_j表示全部输入数据对应的忆阻器阵列的第j列的输出电流，i_j,s表示全部的第[s]个控制脉冲对应的忆阻器阵列的第j列的脉冲输出电流，g_k,j表示忆阻器阵列的电导矩阵。

根据该公式可知，当全部的输入数据对应的全部的第[s]个控制脉冲施加至开关阵列时，读电压V_R可以在高电平的控制脉冲的调控下并行地施加至忆阻器阵列，从而，忆阻器阵列相应地输出多个脉冲输出电流i_j,s，其中，

需要说明的是，在图10所示的实施例中，并不直接根据上述公式对各个控制脉冲对应的脉冲输出电流进行加权(脉冲输出电流i_j,s对应的权值为 2^s)求和以得到第j列的输出电流i_j。例如，如图10所示，每个脉冲输出电流经过采样保持(S&H)模块转换为可以保持住的电压信号，然后通过模数转换模块量化为数字信息(例如，二进制数字信息)，最后通过移位&累加器将各脉冲输出电流对应的二进制数字信息进行移位累加。例如，脉冲输出电流i_j,1对应的二进制数字信息相对于脉冲输出电流i_j,0对应的二进制数字信息前移一位(即前者的最低比特位对应于后者的倒数第二低比特位)，脉冲输出电流i_j,2对应的二进制数字信息相对于脉冲输出电流i_j,1对应的二进制数字信息前移一位，…，以此类推。

例如，在一些实施例中，如图10所示，忆阻器阵列的每一列的输出可以通过两组采样保持模块交替进行转换，从而增加硬件工作时的并行性。同时，为节省处理器芯片的功耗和面积，对模数转换(ADC)模块可以采用时分复用的方式进行工作，例如4列输出共享一个模数转换模块。在忆阻器阵列计算单元工作时，如果当前时刻以第[s]个比特(即第[s]个控制脉冲)作为计算单元的输入信号，通过切换信号控制开关阵列以选通第一组采样保持模块，将列上的脉冲输出电流同时转化为相应的电压输出；同时，模数转换模块在多路选择器的辅助下，高速量化上一时刻(即第[s-1]个控制脉冲对应的时刻)的脉冲输出电流。紧接着，在下一时刻，以第[s+1]个比特(即第[s+1] 个控制脉冲)作为计算单元的输入信号，通过切换信号控制开关阵列以选通第二组采样保持模块，同时模数转换模块量化之前第一组采样保持模块保持下来的电压值。例如，在忆阻器阵列计算单元工作过程中，所有的开关切换操作都可以通过控制多路选择器实现。

需要说明的是，图9所示的并行加速处理器和图10所示的忆阻器阵列计算单元均是示例性的，本公开的实施例对其具体实现形式和细节均不作限制。

本公开的实施例提供的并行加速处理器的技术效果可以参考前述实施例中关于并行加速方法的相应描述，在此不再赘述。

本公开至少一实施例还提供一种基于忆阻器的神经网络的并行加速装置。图11为本公开一些实施例提供的一种基于忆阻器的神经网络的并行加速装置的示意框图。例如，如图11所示，该并行加速装置包括上述实施例提供的并行加速处理器以及与该并行加速处理器连接的输入接口和输出接口。例如，该并行加速装置可以通过其中的并行加速处理器执行前述并行加速方法。

例如，在一些示例中，如图11所示，该并行加速装置还可以包括系统总线，并行加速处理器及输入接口和输出接口之间可以通过系统总线互相通信。例如，输入接口被配置为从外部计算机设备、从用户等处接收指令以控制所述并行加速处理器的运行等。例如，并行加速装置被配置为输出所述并行加速处理器的运行结果等。例如，通过输入接口和输出接口与并行加速装置通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与并行加速装置交互。相对地，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。

另外，并行加速装置尽管在图11中被示出为单个系统，但可以理解，并行加速装置500也可以是分布式系统，还可以布置为云设施(包括公有云或私有云)。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由并行加速装置执行的任务。

例如，并行加速方法的运行过程可以参考上述并行加速方法的实施例中的相关描述，重复之处在此不再赘述。

需要说明的是，本公开的实施例提供的并行加速装置是示例性的，而非限制性的，根据实际应用需要，该并行加速装置还可以包括其他常规部件或结构，例如，为实现并行加速装置的必要功能，本领域技术人员可以根据具体应用场景设置其他的常规部件或结构，本公开的实施例对此不作限制。

本公开的实施例提供的并行加速装置的技术效果可以参考上述实施例中关于并行加速方法和并行加速处理器的相应描述，在此不再赘述。

对于本公开，有以下几点需要说明：

(1)本公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开同一实施例及不同实施例中的特征可以相互组合。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于忆阻器的神经网络的并行加速方法，其中，所述神经网络包括：多个依次设置的功能层，多个功能层包括第一功能层和位于所述第一功能层之后的第二功能层，所述第一功能层包括并行的多个第一忆阻器阵列，所述多个第一忆阻器阵列用于并行地独立执行所述第一功能层的操作并分别将操作结果输出至所述第二功能层，所述神经网络的权重参数包括所述第一功能层的多份权重参数，所述第一功能层的多份权重参数被分别一一对应写入所述多个第一忆阻器阵列，以分别确定所述多个第一忆阻器阵列的电导；

所述并行加速方法包括：

使用所述多个第一忆阻器阵列并行地独立执行所述第一功能层的操作并分别将所述操作结果输出至所述第二功能层。

2.根据权利要求1所述的并行加速方法，其中，使用所述多个第一忆阻器阵列并行地执行所述第一功能层的操作并将所述操作结果输出至所述第二功能层，包括：

将所述第一功能层接收的输入数据拆分为与所述多个第一忆阻器阵列一一对应的多个子输入数据；以及

使用所述多个第一忆阻器阵列并行地对所述多个子输入数据执行所述第一功能层的操作，以对应产生多个子操作结果。

3.根据权利要求2所述的并行加速方法，还包括：

将所述多个子操作结果进行拼合并使用所述第二功能层对拼合结果执行所述第二功能层的操作。

4.根据权利要求2或3所述的并行加速方法，其中，所述多个子输入数据的尺寸大小基本相同。

5.根据权利要求1所述的并行加速方法，其中，使用所述多个第一忆阻器阵列并行地执行所述第一功能层的操作并将所述操作结果输出至所述第二功能层，包括：

将所述第一功能层接收的多个输入数据分别提供给所述多个第一忆阻器阵列；以及

使用所述多个第一忆阻器阵列至少部分并行地对接收的所述多个输入数据执行所述第一功能层的操作，以对应产生多个子操作结果。

6.根据权利要求5所述的并行加速方法，还包括：

使用所述第二功能层分别对所述多个子操作结果执行所述第二功能层的操作。

7.根据权利要求5或6所述的并行加速方法，其中，所述多个输入数据互不相同。

8.根据权利要求1-3和5-6中任一项所述的并行加速方法，其中，所述神经网络为卷积神经网络。

9.根据权利要求8所述的并行加速方法，其中，所述第一功能层为所述神经网络的初始卷积层。

10.根据权利要求1-3和5-6中任一项所述的并行加速方法，其中，所述多个功能层还包括第三功能层，所述第三功能层的输出被提供至所述第一功能层。

11.根据权利要求1-3和5-6中任一项所述的并行加速方法，其中，所述神经网络的权重参数通过片外训练得到。

12.根据权利要求11所述的并行加速方法，其中，所述神经网络的权重参数还包括除所述第一功能层之外的其它功能层的权重参数，所述其他功能层的权重参数被写入所述其他功能层对应的忆阻器阵列，以确定所述其他功能层对应的忆阻器阵列的电导。

13.一种基于忆阻器的神经网络的并行加速处理器，其中，所述神经网络包括多个依次设置的功能层，多个功能层包括第一功能层，所述并行加速处理器包括多个忆阻器阵列计算单元，所述多个忆阻器阵列计算单元包括多个第一忆阻器阵列计算单元，所述多个第一忆阻器阵列计算单元被配置为并行地独立执行所述第一功能层的操作对应的运算，

所述神经网络的权重参数包括所述第一功能层的多份权重参数，所述第一功能层的多份权重参数被分别一一对应写入所述多个第一忆阻器阵列，以分别确定所述多个第一忆阻器阵列的电导。

14.一种基于忆阻器的神经网络的并行加速装置，包括：根据权利要求13所述的并行加速处理器，以及与所述并行加速处理器连接的输入接口和输出接口；所述输入接口被配置为接收指令以控制所述并行加速处理器的运行，所述输出接口被配置为输出所述并行加速处理器的运行结果。