CN114399037B

CN114399037B - 基于忆阻器的卷积神经网络加速器核心的模拟方法及装置

Info

Publication number: CN114399037B
Application number: CN202210293602.5A
Authority: CN
Inventors: 王志斌; 时拓; 顾子熙; 李一琪; 张程高; 高丽丽
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-15
Anticipated expiration: 2042-03-24
Also published as: CN114399037A

Abstract

本发明公开了基于忆阻器的卷积神经网络加速器核心的模拟方法及装置，支持除常见的正负权值映射形式外还支持补码形式的RRAM权重映射，通过将RRAM核心与外围电路抽象成各个模块并将位移寄存器与RRAM的卷积过程封装成更粗粒度的事务，在保证模型功能与精度的前提下简化芯片上外围数字电路的模型结构。本发明利用高级语言搭建RRAM核心的TLM模型，支持模拟RRAM核心的功耗、延迟、算力、面积等关键参数，比传统RTL模型仿真速度快1000倍以上，帮助芯片设计人员在芯片RTL模型完成前对芯片特性进行研究，缩短芯片的研发周期。

Description

基于忆阻器的卷积神经网络加速器核心的模拟方法及装置

技术领域

本发明涉及新型智能计算领域，尤其是涉及基于忆阻器的卷积神经网络加速器核心的模拟方法及装置。

背景技术

实现高能源效率和高集成度的卷积神经网络硬件，可为未来物联网和人工智能的数据处理挑战提供一个有效的解决方案。近年来，基于电阻随机存取存储器可重构CNN（Convolutional Neural Network 卷积神经网络）芯片，因其集成密度高、功耗低、存算一体等特点而受到广泛关注。因此，基于RRAM（Resistive Random Access Memory，阻变存储器）的CNN芯片在集成度和能效方面可能会有进一步的提高。但是，该芯片的设计将面临以下问题：

（1）复杂的逻辑控制和核间通信；

（2）高风险的数字电路、模拟电路和RRAM混合设计；

（3）模拟电路和RRAM的非理想特性；

（4）较长的设计周期；

（5）传统RTL（Register Transfer Level 寄存器转移层次）模型的设计与仿真消耗大量时间与资源。

为了有效地弥合器件、电路、算法和体系结构之间的差距，提出一种模拟神经元电路、RRAM模型和多阵列体系结构的仿真模型，用于验证CNN芯片的功能、耗时和功耗。这些信息不仅可以用来验证架构的合理性，而且可以指导芯片的设计。

发明内容

为解决现有技术的不足，实现验证CNN芯片的功能、耗时和功耗目的，本发明采用如下的技术方案：

一种基于忆阻器的卷积神经网络加速器核心的模拟装置，包括存储模块、向量配置器、阻变存储器核心，阻变存储器核心包括位移寄存器、阻变存储器阵列、电流电压转换模块、模拟/数字转换模块；

存储模块，用于存储待处理图像；

向量配置器，根据网络结构描述文件，将待处理图像处理成一维向量，并添加额外信息，网络结构描述文件用于图像识别卷积神经网络到阻变存储器阵列的映射，额外信息包括阻变存储器阵列输入方向的行开启情况和阻变存储器阵列输出方向的列开启情况，分别用于控制一维向量对应的权值区域，以及对应输出列方向打开的模拟/数字转换模块与位置；

位移寄存器，从向量配置器获取一维向量，并发送至阻变存储器阵列；

阻变存储器阵列，是由忆阻器构成的阵列，忆阻器上储存的权值通过权值配置文件进行记录，一维向量与阻变存储器阵列上对应权值进行卷积操作后，输出卷积结果向量，并重新通过向量配置器配置新的额外信息，进行下一层网络计算，直至遍历整个图像识别卷积神经网络，通过打开的模拟/数字转换模块功率、电流电压转换模块功率、与一维向量长度相关的单列上寄生电容的功率、单个周期时长及阻变存储器阵列的功耗，得到当前周期阻变存储器核心总能耗。

进一步地，阻变存储器阵列将输入的一维向量及其对应的权值按位分列，按补码形式映射，将按位分列的向量矩阵与其对应的权值矩阵进行乘加操作，所述模拟/数字转换模块将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

进一步地，采用一对所述阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

进一步地，额外信息还包括向量起始标志、向量在神经网络中对应的层数、该层神经网络类型、向量结束标志。

进一步地，阻变存储器阵列输出方向多列打开时，输入的一维向量与多个卷积核同时进行卷积运算，从而实现阻变存储器核心的并行计算。

一种基于忆阻器的卷积神经网络加速器核心的模拟方法，包括如下步骤：

步骤S1：获取待识别图像，根据网络结构描述文件，将待识别图像处理成一维向量，并添加额外信息，网络结构描述文件将图像识别卷积神经网络映射到阻变存储器阵列；

步骤S2：由忆阻器构成的阻变存储器阵列，通过权值配置文件记录忆阻器上储存的权值，通过额外信息中一维向量对应阻变存储器阵列输入方向的行开启情况，控制一维向量对应的权值区域，一维向量与阻变存储器阵列上对应权值进行卷积操作，得到卷积结果向量；

步骤S3：卷积结果向量通过额外信息中一维向量对应的阻变存储器阵列输出方向的列开启情况，输出到对应输出列方向打开的模拟/数字转换模块与位置；通过打开的模拟/数字转换模块功率、电流电压转换模块功率、与一维向量长度相关的单列上寄生电容的功率、单个周期时长及阻变存储器阵列的功耗，得到当前周期阻变存储器核心总能耗；

步骤S4：向量配置器重新配置额外信息，进行下一层网络计算，直至遍历整个图像识别卷积神经网络。

进一步地，映射采用补码形式映射，将输入的一维向量按位分列，分别与对应按位分列的权值矩阵进行乘加操作，再将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

进一步地，映射采用正负权值映射，通过一对阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

进一步地，步骤S3中，单个周期的阻变存储器核心总能耗如下：

其中

表示当前周期阻变存储器核心总能耗、

表示模拟/数字转换模块总数、

表示单个电流电压转换模块功率、

表示当前周期打开的模拟/数字转换模块数量、

表示单个模拟/数字转换模块功率、

表示与输入向量长度

相关的单列上寄生电容的功率、t表示单个周期时长、

表示当前周期阻变存储器阵列的功耗。

与

为模拟装置输入参数，可根据仿真情况修改。

进一步地，因为忆阻器为二值，卷积过程中阵列上的所有忆阻器只会产生三种不同的能耗状态，分别为输入打开的低电阻状态、输入打开的高电阻状态、输入关闭的无能耗状态，只需要统计输入的一维向量中高电位的数量

，以及乘操作后高电位的数量

，得到此次卷积中三种能耗状态的分布，计算当前时间片内阻变存储器阵列产生的功耗：

其中

、

分别表示忆阻器器件在高、低电导下的功耗，n表示权值宽度（即权值所占比特位数，等于输入向量所占比特位数，等于执行的次数），t为单个周期时长。

本发明的优势和有益效果在于：

本发明的基于忆阻器的卷积神经网络加速器核心的模拟方法及装置，利用高级语言搭建RRAM核心的TLM（Transactiion-level modeling 事务级建模方法）模型，支持模拟RRAM核心的功耗、耗时、算力、面积等关键参数，比传统RTL仿真速度快1000倍以上，帮助芯片设计人员在芯片RTL模型完成前对芯片特性进行研究，缩短芯片的研发周期。

附图说明

图1是本发明的实施例中模拟装置结构示意图；

图2是本发明的实施例中模拟方法的流程图；

图3是本发明的实施例中RRAM阵列功耗的计算原理图；

图4是本发明的实施例中RRAM阵列功耗的计算的结构示意图；

图5是本发明的实施例中数据集图像用Verilog EDA方法和本发明方法仿真的结果比较图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，基于忆阻器的卷积神经网络加速器核心的，基于忆阻器的卷积神经网络加速器核心的模拟装置，包括存储模块、向量配置器、阻变存储器核心，阻变存储器核心包括阻变存储器阵列、电流电压转换模块、模拟/数字转换模块。

存储模块，用于存储待处理图像；

向量配置器，根据网络结构描述文件，将待处理图像处理成一维向量，并添加额外信息，网络结构描述文件用于图像识别卷积神经网络到阻变存储器阵列的映射，额外信息包括阻变存储器阵列输入方向的行开启情况和阻变存储器阵列输出方向的列开启情况，分别用于控制一维向量对应的权值区域，以及对应输出列方向打开的模拟/数字转换模块与位置；额外信息还包括向量起始标志、向量在神经网络中对应的层数、该层神经网络类型、向量结束标志。

位移寄存器，从向量配置器获取一维向量，并发送至阻变存储器阵列。

阻变存储器阵列，是由忆阻器构成的阵列，忆阻器上储存的权值通过权值配置文件进行记录，一维向量与阻变存储器阵列上对应权值进行卷积操作后，输出卷积结果向量，并重新通过向量配置器配置新的额外信息，进行下一层网络计算，直至遍历整个图像识别卷积神经网络，通过打开的模拟/数字转换模块功率、电流电压转换模块功率、与一维向量长度相关的单列上寄生电容的功率、单个周期时长及阻变存储器阵列的功耗，得到当前周期阻变存储器核心总能耗。阻变存储器阵列输出方向多列打开时，输入的一维向量与多个卷积核同时进行卷积运算，从而实现阻变存储器核心的并行计算。

本实施例中，阻变存储器阵列将输入的一维向量及其对应的权值按位分列，按补码形式映射，将按位分列的向量矩阵与其对应的权值矩阵进行乘加操作，所述模拟/数字转换模块将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

另一个实施例中，采用一对阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

具体地，模拟装置包括SRAM（Static Random-Access Memory 静态随机存取存储器）存储模块、向量配置器和RRAM（Resistive Random Access Memory，阻变存储器）核心，RRAM核心主要包括位移寄存器、RRAM阵列、I to V（Electron to Voltage 电流电压转换）模块、ADC（Analog to Digital Converter 模拟/数字转换器）模块等。创建加速器模型实例前，根据网络结构描述文件和权值映射文件，可在限制范围内在模型上加载不同神经网络模型进行仿真。在实际加速器结构中，同样使用网络结构描述文件，通过配置其中的参数寄存器，加载不同网络结构，可以通过一份文件同时配置仿真系统和硬件系统的网络结构。权值配置文件记录每个忆阻器上储存的权值，决定RRAM阵列上的实际映射值）。

下面将用一个实例来说明模拟装置的运行过程。如图2所示，基于忆阻器的卷积神经网络加速器核心的模拟方法，包括如下步骤：

具体地，通过网络结构描述文件和权值映射文件，一个小型的图像识别卷积神经网络通过上文的方法映射到RRAM阵列上，RRAM阵列上的每个小方块代表存储权值的一个最小单元，其中第一层为单通道卷积层，第二层为双通道卷积层，第三层为全连接层，具体情况如图1所示。

待识别图像开始存储在SRAM存储器模块中，开始流程后被输入向量配置器，向量配置器会根据网络结构描述文件将图像处理、切割成一维向量并添加额外信息（如在进入第一层前，这些处理切割主要模拟第一层5×5卷积核在图像上的滑动过程，并拉长成一维向量），在图1中可以看出此时输入RRAM核心的向量长度为25，如果待识别图像大小为8×8，则共产生(8-5+1)²=16条一维向量。同时，为了RRAM能够给这些向量分配正确的权值块进行计算以及数据统计需要，向量配置器会在每一条向量的头部添加额外数据，额外数据包括：向量起始标志、向量在神经网络中对应的层数、该层神经网络类型、向量对应的RRAM阵列输入方向的行开启情况、向量对应的RRAM阵列输出方向的列开启情况、向量结束标志，其中RRAM阵列输入方向的行开启情况，控制该向量对应的权值区域（假设该拥有32×32个存储单元的RRAM阵列左上角的存储单元为原点，下标沿水平方向从左到右、垂直方向从上到下增大，实例中图1时刻输入开启行0~行24，共25行），RRAM阵列输出方向的列开启情况，对应输出列方向打开的ADC数量与位置（实例中图1时刻输出开启列0~列7共8列，每列需要一个ADC参与计算，所以该时刻打开8个ADC，打开ADC数量不能超过ADC总量，ADC总量为模拟装置输入参数，可根据仿真情况修改，在该实例中ADC总量为8），多列打开时，表示输入向量与多个卷积核同时进行卷积运算，即核心的并行计算情况。

本实施例中，映射采用补码形式映射，将输入的一维向量按位分列，分别与对应按位分列的权值矩阵进行乘加操作，再将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

具体地，如图3所示，以补码映射情况为例，卷积运算的具体流程，RRAM阵列的每个忆阻器都为二值，可以储存1bit的数据，输入向量宽度为3bit；权值宽度为3bit，按补码形式映射，其中第一列表示正负符号，后两列表示2bit数据。将输入向量按位分为3列分别与对应权值矩阵进行乘加过程，分别得到3、1、-2三个值，然后分别向左移0、1、2位相加，即可得到卷积结果-3。如图4所示，本实施例中，位移寄存器依次发送一比特位向量，与输入向量在RRAM阵列上对应的权重块，逐条进行乘加操作，每一条由三个RRAM阵列中的小方块（即忆阻器）组成，表示一个最小权值存储单元，然后通过ADC模块，将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

另一个实施例中，映射采用正负权值映射，通过一对阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

具体地，正负权值映射形式，是用两块RRAM阵列分别映射正权值与负权值，计算时分别计算后相减得到真实结果（具体地，正的权值的绝对值全部映射到一块RRAM阵列上，负的权值的绝对值映射到另一块RRAM阵列上，计算时，负的RRAM阵列整块反接，使两块RRAM阵列电流相减来计算，从而使得电路设计更为简单）。

单个周期的阻变存储器核心总能耗如下：

其中

表示当前周期阻变存储器核心总能耗、

表示模拟/数字转换模块总数、

表示单个电流电压转换模块功率、

表示当前周期打开的模拟/数字转换模块数量、

表示单个模拟/数字转换模块功率、

表示与输入向量长度

相关的单列上寄生电容的功率、t表示单个周期时长、

表示当前周期阻变存储器阵列的功耗。

与

为模拟装置输入参数，可根据仿真情况修改。

具体地，每条向量与RRAM阵列上对应权值的卷积过程，可以分解为ADC模块移位相加与RRAM阵列乘加两个过程的双层循环（详细情况见图3、图4），执行的次数分别与权值所占比特位数、输入向量所占比特位数相同，确定循环次数与所占时钟周期后，计算该时间片内RRAM阵列的总功耗，总功耗为每个周期的功耗之和。单个周期的计算公式如下：

其中

表示当前周期RRAM核心总能耗、

表示RRAM核心中ADC总数、

表示单个I to V模块功率、

表示当前周期打开的ADC数量、

表示单个ADC模块功率、

表示单列上寄生电容的功率，它是与输入向量长度

相关的函数、t表示单个周期时长、

表示当前周期阵列的功耗。

与

为模拟装置输入参数，可根据仿真情况修改，该实例由Design Compiler模拟电路仿真工具得到，功耗大小与这两个模块模拟电路的具体设计有关。

统计输入的一维向量中高电位的数量

，以及乘操作后高电位的数量

，计算当前时间片内阻变存储器阵列产生的功耗：

其中

、

分别表示忆阻器器件在高、低电导下的功耗，n表示权值宽度，t为单个周期时长。

具体地，因为忆阻器为二值，卷积过程中阵列上的所有忆阻器只会产生三种不同的能耗状态，分别为输入打开的低电阻状态、输入打开的高电阻状态、输入关闭的无能耗状态，只需要统计输入向量中高电位即“1”的数量

，以及图3中竖框中“1”的数量

就可以得到此次卷积中三种能耗状态的分布，计算该时间片内阵列产生的功耗公式如下：

其中

、

分别为忆阻器器件在高、低电导下的功耗，是模拟装置输入参数，可根据仿真情况修改，n为权值宽度（即权值所占比特位数，等于执行的次数，也等于输入向量所占比特位数），t为单个周期时长。

具体地，通过RRAM阵列乘加计算与ADC模块移加计算后，RRAM核心输出第一层卷积结果向量，结果向量的额外数据中，神经网络对应层数标记加一，并重新通过向量配置器进行配置新的额外数据包，以进行下一层网络计算，直到遍历整个神经网络，模拟出完整的数据流，每层的输入情况见图1，流程与第一层类似。

第一层卷积（第1-n个周期）输入行：0、1……24，输出列：0、1……7；第二层卷积分为两部分，一部分（第1-n个周期）输入行：0、1……8，输出列：8、9……15，另一部（第n+1-2n个周期）分输入行：9、10……17，输出列：8、9……15；第三层卷积，由于并行数为10，超过了设置的ADC总量8，因此分为两部分，一部分（第1-n个周期）输入行：0、1……15，输出列：16、17……23，另一部分（第n+1-2n个周期）输入行：0、1……15，输出列：24、25；n为执行的次数（等于输入向量所占比特位数，也等于权值所占比特位数）。

如图5所示，100张MNIST数据集图像，通过Verilog EDA（Electronic DesignAutomation 电子自动化设计）方法和本发明方法进行仿真的结果，仿真时间从使用Verilog EDA工具的大约3个小时缩短到本发明的1.31秒，由于完全模拟了数据流所以得到了一样的识别准确率，与Verilog EDA工具相比还增加了仿真功耗和仿真延迟（芯片处理图像的速度）的功能，进一步完善了仿真参数。

传统的芯片设计是通过Verilog代码生成具体结构，再通过Verilog工具进行仿真。在此过程中存在两个问题：1、RRAM核心部分是模拟电路，Verilog只能作为一个行为模型来使用，虽然可以满足数据流动的需求，但是功耗等均不能计算；2、在此情况下，其实整个芯片已经设计完成，再进行结构的优化很不方便。本方法的模拟装置，在编写Verilog代码之前使用，可以快速的了解不同网络对芯片的影响，通过本方法的模拟装置，模拟出一些关键结果，用于指导Verilog代码的编写，从而提高了整个仿真的速度。

本发明利用高级语言搭建RRAM核心的TLM模型，支持模拟RRAM核心的功耗、耗时、算力、面积等关键参数，比传统RTL仿真速度快1000倍以上，帮助芯片设计人员在芯片RTL模型完成前对芯片特性进行研究，缩短芯片的研发周期。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于忆阻器的卷积神经网络加速器核心的模拟装置，包括存储模块、向量配置器、阻变存储器核心，其特征在于：所述阻变存储器核心包括位移寄存器、阻变存储器阵列、电流电压转换模块、模拟/数字转换模块；

所述存储模块，用于存储待处理图像；

所述向量配置器，根据网络结构描述文件，将待处理图像处理成一维向量，并添加额外信息，网络结构描述文件用于图像识别卷积神经网络到阻变存储器阵列的映射，额外信息包括阻变存储器阵列输入方向的行开启情况和阻变存储器阵列输出方向的列开启情况，分别用于控制一维向量对应的权值区域，以及对应输出列方向打开的模拟/数字转换模块与位置；

所述位移寄存器，从向量配置器获取一维向量，并发送至阻变存储器阵列；

所述阻变存储器阵列，是由忆阻器构成的阵列，忆阻器上储存的权值通过权值配置文件进行记录，一维向量与阻变存储器阵列上对应权值进行卷积操作后，输出卷积结果向量，并重新通过向量配置器配置新的额外信息，进行下一层网络计算，直至遍历整个图像识别卷积神经网络，通过打开的模拟/数字转换模块功率、电流电压转换模块功率、与一维向量长度相关的单列上寄生电容的功率、单个周期时长及当前周期阻变存储器阵列的功耗，得到当前周期阻变存储器核心总能耗。

2.根据权利要求1所述的一种基于忆阻器的卷积神经网络加速器核心的模拟装置，其特征在于：所述阻变存储器阵列将输入的一维向量及其对应的权值按位分列，按补码形式映射，将按位分列的向量矩阵与其对应的权值矩阵进行乘加操作，所述模拟/数字转换模块将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

3.根据权利要求1所述的一种基于忆阻器的卷积神经网络加速器核心的模拟装置，其特征在于：采用一对所述阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

4.根据权利要求1所述的一种基于忆阻器的卷积神经网络加速器核心的模拟装置，其特征在于：所述额外信息还包括向量起始标志、向量在神经网络中对应的层数、该层神经网络类型、向量结束标志。

5.根据权利要求1所述的一种基于忆阻器的卷积神经网络加速器核心的模拟装置，其特征在于：所述阻变存储器阵列输出方向多列打开时，输入的一维向量与多个卷积核同时进行卷积运算。

6.一种基于忆阻器的卷积神经网络加速器核心的模拟方法，其特征在于包括如下步骤：

步骤S3：卷积结果向量通过额外信息中一维向量对应的阻变存储器阵列输出方向的列开启情况，输出到对应输出列方向打开的模拟/数字转换模块的位置；通过打开的模拟/数字转换模块功率、电流电压转换模块功率、与一维向量长度相关的单列上寄生电容的功率、单个周期时长及当前周期阻变存储器阵列的功耗，得到当前周期阻变存储器核心总能耗；

7.根据权利要求6所述的一种基于忆阻器的卷积神经网络加速器核心的模拟方法，其特征在于：所述映射采用补码形式映射，将输入的一维向量按位分列，分别与对应按位分列的权值矩阵进行乘加操作，再将每次乘加的结果，进行移位相加，得到相应的卷积结果向量。

8.根据权利要求6所述的一种基于忆阻器的卷积神经网络加速器核心的模拟方法，其特征在于：所述映射采用正负权值映射，通过一对阻变存储器阵列，分别映射正权值与负权值，分别计算后相减，得到输出结果。

9.根据权利要求6所述的一种基于忆阻器的卷积神经网络加速器核心的模拟方法，其特征在于：所述步骤S3中，单个周期的阻变存储器核心总能耗如下：