CN112308222B - 一种基于rram存算一体全系统模拟器及其设计方法 - Google Patents
一种基于rram存算一体全系统模拟器及其设计方法 Download PDFInfo
- Publication number
- CN112308222B CN112308222B CN202011162580.6A CN202011162580A CN112308222B CN 112308222 B CN112308222 B CN 112308222B CN 202011162580 A CN202011162580 A CN 202011162580A CN 112308222 B CN112308222 B CN 112308222B
- Authority
- CN
- China
- Prior art keywords
- rram
- integrated
- module
- array
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C27/00—Electric analogue stores, e.g. for storing instantaneous values
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Neurology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
Abstract
本发明属于计算机体系结构模拟器设计领域,涉及一种基于RRAM存算一体全系统模拟器及其设计方法,该方法为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真。本发明能够实现全系统模拟,模拟出RRAM存算一体模块、控制器模块、内存模块以及整个系统的性能参数,为实际的存算一体体系结构设计提供方案,减少存算一体体系结构研究的设计周期。
Description
技术领域
本发明属于计算机体系结构模拟器设计领域,涉及一种基于RRAM存算一体全系统模拟器及其设计方法。
背景技术
传统的冯诺依曼体系结构采用计算和存储功能分离结构,随着处理器和存储器的工艺不断演进,二者之间的性能差距越来越大。数据需要在处理器和存储器之间频繁的搬运,由于受到存储器的带宽限制,从而引起“存储墙”问题,同时由于数据的频繁搬运也带来了额外的功耗。随着大数据时代的到来,现有计算系统的计算性能和能效瓶颈愈发凸显,难以满足海量数据的处理需求。
采用存算一体新型计算架构是解决“存储墙”问题的一种有效方案。通过改变传统系统中存储与计算的交互方式,存算一体新型计算架构将会大幅度提高计算系统的计算能力和能效。
新型存储技术的发展使存算一体成为了可能。忆阻器作为新型存储器件具有高速、低功耗、高密度、非易失等优点。同时,在神经网络计算中,其核心运算主要是大量的向量-矩阵乘法(Vector-Matrix Multiplication, VMM)。忆阻器阵列可以高效进行VMM计算,从而实现存算一体功能。
为了减少存算一体体系结构研究的设计周期,近十年来,绝大多数存算一体研究开始使用模拟仿真工具,以避免流片带来的繁杂过程和长设计周期。尽管已经有基于DRAM的存算一体模拟器出现,但基于忆阻器的存算一体体系结构由于采用了新型存储介质,其模拟器仍然处于初期探索阶段。忆阻器阵列不仅具有存储功能还可以进行计算运算,其源程序、编程模型、编译器、操作系统支持、模块通讯协议、指令控制流、数据一致性等方面相较于现有体系结构都存在巨大变动,需要设计新的存算一体指令集和对应的编译器。目前基于忆阻器的模拟器只能模拟存算一体模块或加速器的特性,仍然缺少功能完善的全系统模拟工具支持,无法模拟存算一体系统的性能,难以面向忆阻器件特性和存算一体体系结构开展深入探索和研究。全系统的模拟器可以针对存算一体体系结构从指令集、编译器到处理器、存算一体阵列进行全面的系统的模拟,为实际的存算一体体系结构设计提供方案。
针对现有的模拟器无法进行全系统的模拟,即无法评估整个系统的性能和功耗。本发明在现有的开源GEM5的基础上进行改进,GEM5是一款模块化的离散事件驱动全系统模拟器,它结合了M5和GEMS中最优秀的部分,是一款高度可配置、集成多种ISA和多种CPU模型的全系统体系结构模拟器,在此基础上加入存算一体模块,从而实现对全系统的性能和功耗模拟。GEM5为事件驱动的模拟器,可提供伪指令,所述伪指令是专供仿真使用的特殊指令,其特殊性在于其可跨指令集使用,GEM5还可用于模拟经典的冯诺依曼架构,包括对控制器和内存的模拟。存算一体模块可以在现有的RRAM模拟器(如NeuroSim、NVSim等)上进行修改,也可以采用自行设计的存算一体模块。本专利的技术难点为:
1、如何实现全系统模拟,即在进行神经网络计算时,模拟器可以模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数,如延时、能耗等;
2、如何进行程序的划分,即控制器如何将要执行的计算或者操作加载到RRAM模块。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于RRAM存算一体全系统模拟器及其设计方法,其具体技术方案如下。
一种基于RRAM存算一体全系统模拟器,包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接。
一种基于RRAM存算一体全系统模拟器设计方法,为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真。
进一步的,所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令,因此代码片段部分需进行少量的标注。
进一步的,所述程序划分,具体为:根据代码标注,在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,未标记代码分配在CPU模块上执行;
进一步的,所述译码,具体为:根据程序需要,利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令。
进一步的,所述程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
进一步的,所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,RRAM存算一体阵列模拟模块接收存算一体计算指令,包括矩阵乘加操作等,然后模拟出该指令所需的延时、功耗性能参数,同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,包括:控制操作、激活函数的运行、池化计算。
本发明能够实现全系统模拟,模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数,为实际的存算一体体系结构设计提供方案,减少存算一体体系结构研究的设计周期。
附图说明
图1是本发明的硬件结构示意图;
图2是本发明的存算一体全系统模拟器结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种基于RRAM存算一体全系统模拟器,包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接。
所述CPU模块控制整个神经网络计算的数据交互,激活函数、池化的计算。
所述RRAM存算一体阵列模拟模块完成矩阵计算,所述计算包括矩阵乘加计算,RRAM存算一体阵列计算后的数据通过输入输出电路存到DRAM内存当中供CPU模块使用。
如图2所示,一种基于RRAM存算一体全系统模拟器设计方法,为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,采用增加预编译宏,通过特定的编程模型,源代码修改等方式将标注的代码进行程序划分和程序加载,采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真操作,未标记代码分配至CPU模块进行模拟仿真操作。
所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,如#RRAM_START、 #RRAM_END,通过特定的编程模型,源代码修改等方式,将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作等,因此代码片段部分需进行少量的标注,如用#RRAM_START和#RRAM_END来显示的标注出需要在RRAM存算一体阵列上执行的代码段。
所述程序划分,具体为:根据代码标注进行程序划分,在CPU端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,其他任务分配在CPU模块上执行;
所述译码,具体为:根据程序需要,事先基于GEM5模拟器添加相关的存算一体计算伪指令以使其适配RRAM存算一体阵列,即对于需要在RRAM存算一体阵列执行的代码,在该阶段先转换成适配RRAM存算一体阵列的伪指令,GEM5模拟器能够对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令。
程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,接收存算一体计算指令,如矩阵乘加操作等,然后模拟出该指令所需的延时、功耗等性能参数,同时将计算得出的结果通过输入输出电路存到存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,如:控制操作、激活函数的运行、池化计算等。
Claims (2)
1.一种基于RRAM存算一体全系统模拟器设计方法,其中所述全系统模拟器包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接;
其特征在于,在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真;所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,RRAM存算一体阵列模拟模块接收存算一体计算指令,包括矩阵乘加操作,然后模拟出该指令所需的延时、功耗性能参数,同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,包括:控制操作、激活函数的运行、池化计算;
所述程序划分,具体为:根据代码标注,在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,未标记代码分配在CPU模块上执行;
所述译码,具体为:根据程序需要,利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令;
所述程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
2.如权利要求1所述的一种基于RRAM存算一体全系统模拟器设计方法,其特征在于,所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令,因此代码片段部分需进行少量的标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011162580.6A CN112308222B (zh) | 2020-10-27 | 2020-10-27 | 一种基于rram存算一体全系统模拟器及其设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011162580.6A CN112308222B (zh) | 2020-10-27 | 2020-10-27 | 一种基于rram存算一体全系统模拟器及其设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308222A CN112308222A (zh) | 2021-02-02 |
CN112308222B true CN112308222B (zh) | 2023-06-23 |
Family
ID=74330334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011162580.6A Active CN112308222B (zh) | 2020-10-27 | 2020-10-27 | 一种基于rram存算一体全系统模拟器及其设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308222B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127065B (zh) * | 2021-04-19 | 2022-07-08 | 之江实验室 | 一种基于纯缺失检测方法的存算一体程序划分方法及装置 |
CN113205848B (zh) * | 2021-04-27 | 2024-05-31 | 山东华芯半导体有限公司 | 基于忆阻器的存算一体固态硬盘及存算实现方法 |
CN113257312B (zh) * | 2021-05-07 | 2022-11-15 | 清华大学 | 一种在忆阻器阵列模块的电路级验证中添加随机数的方法 |
TWI825980B (zh) * | 2022-09-07 | 2023-12-11 | 英業達股份有限公司 | 記憶體內計算的模擬器的設定方法 |
CN116432603B (zh) * | 2023-03-27 | 2023-10-13 | 之江实验室 | 一种存算一体汉语盲文芯片 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229726B1 (en) * | 2006-10-05 | 2012-07-24 | Oracle America, Inc. | System for application level analysis of hardware simulations |
CN103218250A (zh) * | 2013-03-29 | 2013-07-24 | 北京控制工程研究所 | 一种处理器模拟方法 |
CN107704760A (zh) * | 2017-09-30 | 2018-02-16 | 北京梆梆安全科技有限公司 | 一种基于底层指令的模拟器检测方法、装置及设备 |
CN110222006A (zh) * | 2019-05-15 | 2019-09-10 | 杭州电子科技大学 | 基于rram的处理器架构及控制方法 |
CN110990060A (zh) * | 2019-12-06 | 2020-04-10 | 北京瀚诺半导体科技有限公司 | 一种存算一体芯片的嵌入式处理器、指令集及数据处理方法 |
CN111737932A (zh) * | 2020-06-09 | 2020-10-02 | 安徽大学 | 基于盲分离与卡尔曼滤波器的忆阻器窄带干扰处理系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452539B2 (en) * | 2016-07-19 | 2019-10-22 | Sap Se | Simulator for enterprise-scale simulations on hybrid main memory systems |
-
2020
- 2020-10-27 CN CN202011162580.6A patent/CN112308222B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229726B1 (en) * | 2006-10-05 | 2012-07-24 | Oracle America, Inc. | System for application level analysis of hardware simulations |
CN103218250A (zh) * | 2013-03-29 | 2013-07-24 | 北京控制工程研究所 | 一种处理器模拟方法 |
CN107704760A (zh) * | 2017-09-30 | 2018-02-16 | 北京梆梆安全科技有限公司 | 一种基于底层指令的模拟器检测方法、装置及设备 |
CN110222006A (zh) * | 2019-05-15 | 2019-09-10 | 杭州电子科技大学 | 基于rram的处理器架构及控制方法 |
CN110990060A (zh) * | 2019-12-06 | 2020-04-10 | 北京瀚诺半导体科技有限公司 | 一种存算一体芯片的嵌入式处理器、指令集及数据处理方法 |
CN111737932A (zh) * | 2020-06-09 | 2020-10-02 | 安徽大学 | 基于盲分离与卡尔曼滤波器的忆阻器窄带干扰处理系统及方法 |
Non-Patent Citations (8)
Title |
---|
《CIM-SIM: Computation In Memory SIMulator》;Ali BanaGozar et al.;《https://es.ele.tue.nl/-sander/publications/scopes19-cim.pdf》;20191231;全文 * |
《CONCEPT: A Column-Oriented Memory Controller for Efficient Memory and PIM Operations in RRAM》;Nishil Talati et al.;《IEEE Micro》;20190228;第39卷(第1期);全文 * |
《Experimental Study of Artificial Neural Networks Using a Digital Memristor Simulator》;Ntinas Vasileios et al.;《 IEEE Transactions on Neural Networks and Learning Systems》;20181031;第29卷(第10期);全文 * |
《LazyPIM: An Efficient Cache Coherence Mechanism for Processing-in-Memory》;Amirali Boroumand et al.;《IEEE COMPUTER ARCHITECTURE LETTERS》;20170630;第16卷(第1期);第46-50页 * |
《PIMSim: A Flexible and Detailed Processing-in-Memory Simulator》;Sheng xu et al.;《IEEE COMPUTER ARCHITECTURE LETTERS》;20190331;第18卷(第1期);第6-9页 * |
《基于忆阻器的PIM结构实现深度卷积神经网络近似计算》;李楚曦 等;《计算机研究与发展》;20170630;第54卷(第6期);全文 * |
《存内计算计算技术发展趋势分析》;周正 等;《信息通信技术与政策》;20190930(第9期);全文 * |
Sheng xu et al..《PIMSim: A Flexible and Detailed Processing-in-Memory Simulator》.《IEEE COMPUTER ARCHITECTURE LETTERS》.2019,第18卷(第1期), * |
Also Published As
Publication number | Publication date |
---|---|
CN112308222A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308222B (zh) | 一种基于rram存算一体全系统模拟器及其设计方法 | |
Fuller et al. | Computing performance: Game over or next level? | |
CN106383695B (zh) | 基于fpga的聚类算法的加速系统及其设计方法 | |
Pedram et al. | Codesign tradeoffs for high-performance, low-power linear algebra architectures | |
CN116909985A (zh) | 对数据分区的动态排序 | |
Kelly | GPU computing for atmospheric modeling | |
CN110750265B (zh) | 一种面向图计算的高层次综合方法及系统 | |
US11977885B2 (en) | Utilizing structured sparsity in systolic arrays | |
CN106030453A (zh) | 支持图形处理单元频率的动态调整的方法和装置 | |
CN115658323A (zh) | 基于软硬件协同的fpga潮流计算加速架构和方法 | |
CN113220630A (zh) | 一种硬件加速器的可重构阵列优化方法及自动调优方法 | |
CN114511094B (zh) | 一种量子算法的优化方法、装置、存储介质与电子装置 | |
Haris et al. | SECDA-TFLite: A toolkit for efficient development of FPGA-based DNN accelerators for edge inference | |
CN102567079A (zh) | 基于渐进式踪迹更新的并行程序能耗模拟评估方法 | |
CN105404611A (zh) | 一种基于矩阵模型的多计算引擎的自动选择方法 | |
Roozmeh et al. | Design space exploration of multi-core RTL via high level synthesis from OpenCL models | |
Davis et al. | Paradigmatic shifts for exascale supercomputing | |
CN110490317A (zh) | 神经网络运算装置及运算方法 | |
Misbahuddin et al. | Efficient data communication techniques for controller area network (CAN) protocol | |
Masood | Risc and cisc | |
Popov et al. | Teragraph heterogeneous system for ultra-large graph processing | |
CN114462612A (zh) | 基于高性能异构集群的量子计算仿真原理验证方法 | |
Wang et al. | MemUnison: A Racetrack-ReRAM-Combined Pipeline Architecture for Energy-Efficient in-Memory CNNs | |
CN102760097B (zh) | 一种计算机体系结构性能模拟方法及系统 | |
Raghavan et al. | Distributed loop controller for multithreading in unithreaded ILP architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |