CN112308222B

CN112308222B - 一种基于rram存算一体全系统模拟器及其设计方法

Info

Publication number: CN112308222B
Application number: CN202011162580.6A
Authority: CN
Inventors: 邹兴奇; 闫亮
Original assignee: Institute of Computing Technology of CAS; Zhejiang Lab
Current assignee: Institute of Computing Technology of CAS; Zhejiang Lab
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2023-06-23
Anticipated expiration: 2040-10-27
Also published as: CN112308222A

Abstract

本发明属于计算机体系结构模拟器设计领域，涉及一种基于RRAM存算一体全系统模拟器及其设计方法，该方法为：在神经网络计算代码中，将要在存算一体阵列模块中执行的代码进行标记，根据标记进行程序划分，然后将标记出的代码进行程序加载，加载到RRAM存算一体阵列上，利用GEM5模拟器转换为伪指令并提供译码支持，所述伪指令被指定加载至特定的可操作地址空间，对应于RRAM存算一体阵列，最后通过RRAM存算一体阵列模拟模块进行模拟仿真，未标记代码分配至CPU模块进行模拟仿真。本发明能够实现全系统模拟，模拟出RRAM存算一体模块、控制器模块、内存模块以及整个系统的性能参数，为实际的存算一体体系结构设计提供方案，减少存算一体体系结构研究的设计周期。

Description

一种基于RRAM存算一体全系统模拟器及其设计方法

技术领域

本发明属于计算机体系结构模拟器设计领域，涉及一种基于RRAM存算一体全系统模拟器及其设计方法。

背景技术

传统的冯诺依曼体系结构采用计算和存储功能分离结构，随着处理器和存储器的工艺不断演进，二者之间的性能差距越来越大。数据需要在处理器和存储器之间频繁的搬运，由于受到存储器的带宽限制，从而引起“存储墙”问题，同时由于数据的频繁搬运也带来了额外的功耗。随着大数据时代的到来，现有计算系统的计算性能和能效瓶颈愈发凸显，难以满足海量数据的处理需求。

采用存算一体新型计算架构是解决“存储墙”问题的一种有效方案。通过改变传统系统中存储与计算的交互方式，存算一体新型计算架构将会大幅度提高计算系统的计算能力和能效。

新型存储技术的发展使存算一体成为了可能。忆阻器作为新型存储器件具有高速、低功耗、高密度、非易失等优点。同时，在神经网络计算中，其核心运算主要是大量的向量-矩阵乘法（Vector-Matrix Multiplication, VMM）。忆阻器阵列可以高效进行VMM计算，从而实现存算一体功能。

为了减少存算一体体系结构研究的设计周期，近十年来，绝大多数存算一体研究开始使用模拟仿真工具，以避免流片带来的繁杂过程和长设计周期。尽管已经有基于DRAM的存算一体模拟器出现，但基于忆阻器的存算一体体系结构由于采用了新型存储介质，其模拟器仍然处于初期探索阶段。忆阻器阵列不仅具有存储功能还可以进行计算运算，其源程序、编程模型、编译器、操作系统支持、模块通讯协议、指令控制流、数据一致性等方面相较于现有体系结构都存在巨大变动，需要设计新的存算一体指令集和对应的编译器。目前基于忆阻器的模拟器只能模拟存算一体模块或加速器的特性，仍然缺少功能完善的全系统模拟工具支持，无法模拟存算一体系统的性能，难以面向忆阻器件特性和存算一体体系结构开展深入探索和研究。全系统的模拟器可以针对存算一体体系结构从指令集、编译器到处理器、存算一体阵列进行全面的系统的模拟，为实际的存算一体体系结构设计提供方案。

针对现有的模拟器无法进行全系统的模拟，即无法评估整个系统的性能和功耗。本发明在现有的开源GEM5的基础上进行改进，GEM5是一款模块化的离散事件驱动全系统模拟器,它结合了M5和GEMS中最优秀的部分,是一款高度可配置、集成多种ISA和多种CPU模型的全系统体系结构模拟器，在此基础上加入存算一体模块，从而实现对全系统的性能和功耗模拟。GEM5为事件驱动的模拟器，可提供伪指令，所述伪指令是专供仿真使用的特殊指令，其特殊性在于其可跨指令集使用，GEM5还可用于模拟经典的冯诺依曼架构，包括对控制器和内存的模拟。存算一体模块可以在现有的RRAM模拟器（如NeuroSim、NVSim等）上进行修改，也可以采用自行设计的存算一体模块。本专利的技术难点为：

1、如何实现全系统模拟，即在进行神经网络计算时，模拟器可以模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数，如延时、能耗等；

2、如何进行程序的划分，即控制器如何将要执行的计算或者操作加载到RRAM模块。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于RRAM存算一体全系统模拟器及其设计方法，其具体技术方案如下。

一种基于RRAM存算一体全系统模拟器，包括GEM5模拟模块和RRAM存算一体阵列模拟模块，所述GEM5模拟模块包括：基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块，内存模块由相互连接的缓存与DRAM内存组成；所述RRAM存算一体阵列模拟模块，包括：存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路，所述控制电路还与CPU模块相互连接，所述输入输出电路还与内存模块相互连接。

一种基于RRAM存算一体全系统模拟器设计方法，为：在神经网络计算代码中，将要在存算一体阵列模块中执行的代码进行标记，根据标记进行程序划分，然后将标记出的代码进行程序加载，加载到RRAM存算一体阵列上，利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持，所述伪指令被指定加载至特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，最后通过RRAM存算一体阵列模拟模块进行模拟仿真，未标记代码分配至CPU模块进行模拟仿真。

进一步的，所述代码标注，具体为：神经网络计算代码中，采用增加预编译宏，通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记，该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令，因此代码片段部分需进行少量的标注。

进一步的，所述程序划分，具体为：根据代码标注，在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令，标记出的代码直接在RRAM存算一体阵列上执行，未标记代码分配在CPU模块上执行；

进一步的，所述译码，具体为：根据程序需要，利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持，对于CPU模块端执行的代码段采用传统的译码方式，不涉及伪指令。

进一步的，所述程序加载，具体为：通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列，即采用指令级的加载方式，将特定的操作指令加载到RRAM存算一体阵列上，并被指定特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，经GEM5模拟器将代码转换为伪指令，所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。

进一步的，所述模拟仿真，具体为：使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块，RRAM存算一体阵列模拟模块接收存算一体计算指令，包括矩阵乘加操作等，然后模拟出该指令所需的延时、功耗性能参数，同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用，同时CPU模块模拟非存算一体计算的操作，包括：控制操作、激活函数的运行、池化计算。

本发明能够实现全系统模拟，模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数，为实际的存算一体体系结构设计提供方案，减少存算一体体系结构研究的设计周期。

附图说明

图1是本发明的硬件结构示意图；

图2是本发明的存算一体全系统模拟器结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种基于RRAM存算一体全系统模拟器，包括GEM5模拟模块和RRAM存算一体阵列模拟模块，所述GEM5模拟模块包括：基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块，内存模块由相互连接的缓存与DRAM内存组成；所述RRAM存算一体阵列模拟模块，包括：存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路，所述控制电路还与CPU模块相互连接，所述输入输出电路还与内存模块相互连接。

所述CPU模块控制整个神经网络计算的数据交互，激活函数、池化的计算。

所述RRAM存算一体阵列模拟模块完成矩阵计算，所述计算包括矩阵乘加计算，RRAM存算一体阵列计算后的数据通过输入输出电路存到DRAM内存当中供CPU模块使用。

如图2所示，一种基于RRAM存算一体全系统模拟器设计方法，为：在神经网络计算代码中，将要在存算一体阵列模块中执行的代码进行标记，采用增加预编译宏，通过特定的编程模型，源代码修改等方式将标注的代码进行程序划分和程序加载，采用指令级的加载方式，将特定的操作指令加载到RRAM存算一体阵列上，利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持，所述伪指令被指定加载至特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，最后通过RRAM存算一体阵列模拟模块进行模拟仿真操作，未标记代码分配至CPU模块进行模拟仿真操作。

所述代码标注，具体为：神经网络计算代码中，采用增加预编译宏，如#RRAM_START、 #RRAM_END，通过特定的编程模型，源代码修改等方式，将要在RRAM存算一体阵列模拟模块中执行的代码进行标记，该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作等，因此代码片段部分需进行少量的标注，如用#RRAM_START和#RRAM_END来显示的标注出需要在RRAM存算一体阵列上执行的代码段。

所述程序划分，具体为：根据代码标注进行程序划分，在CPU端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令，标记出的代码直接在RRAM存算一体阵列上执行，其他任务分配在CPU模块上执行；

所述译码，具体为：根据程序需要，事先基于GEM5模拟器添加相关的存算一体计算伪指令以使其适配RRAM存算一体阵列，即对于需要在RRAM存算一体阵列执行的代码，在该阶段先转换成适配RRAM存算一体阵列的伪指令，GEM5模拟器能够对所述伪指令提供译码支持，对于CPU模块端执行的代码段采用传统的译码方式，不涉及伪指令。

程序加载，具体为：通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列，即采用指令级的加载方式，将特定的操作指令加载到RRAM存算一体阵列上，并被指定特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，经GEM5模拟器将代码转换为伪指令，所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。

所述模拟仿真，具体为：使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块，接收存算一体计算指令，如矩阵乘加操作等，然后模拟出该指令所需的延时、功耗等性能参数，同时将计算得出的结果通过输入输出电路存到存到DRAM内存当中供CPU模块使用，同时CPU模块模拟非存算一体计算的操作，如：控制操作、激活函数的运行、池化计算等。

Claims

1.一种基于RRAM存算一体全系统模拟器设计方法，其中所述全系统模拟器包括GEM5模拟模块和RRAM存算一体阵列模拟模块，所述GEM5模拟模块包括：基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块，内存模块由相互连接的缓存与DRAM内存组成；所述RRAM存算一体阵列模拟模块，包括：存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路，所述控制电路还与CPU模块相互连接，所述输入输出电路还与内存模块相互连接；

其特征在于，在神经网络计算代码中，将要在存算一体阵列模块中执行的代码进行标记，根据标记进行程序划分，然后将标记出的代码进行程序加载，加载到RRAM存算一体阵列上，利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持，所述伪指令被指定加载至特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，最后通过RRAM存算一体阵列模拟模块进行模拟仿真，未标记代码分配至CPU模块进行模拟仿真；所述模拟仿真，具体为：使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块，RRAM存算一体阵列模拟模块接收存算一体计算指令，包括矩阵乘加操作，然后模拟出该指令所需的延时、功耗性能参数，同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用，同时CPU模块模拟非存算一体计算的操作，包括：控制操作、激活函数的运行、池化计算；

所述程序划分，具体为：根据代码标注，在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令，标记出的代码直接在RRAM存算一体阵列上执行，未标记代码分配在CPU模块上执行；

所述译码，具体为：根据程序需要，利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持，对于CPU模块端执行的代码段采用传统的译码方式，不涉及伪指令；

所述程序加载，具体为：通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列，即采用指令级的加载方式，将特定的操作指令加载到RRAM存算一体阵列上，并被指定特定的可操作地址空间，所述特定的可操作地址空间对应于RRAM存算一体阵列，经GEM5模拟器将代码转换为伪指令，所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。

2.如权利要求1所述的一种基于RRAM存算一体全系统模拟器设计方法，其特征在于，所述代码标注，具体为：神经网络计算代码中，采用增加预编译宏，通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记，该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令，因此代码片段部分需进行少量的标注。