CN112308222B - 一种基于rram存算一体全系统模拟器及其设计方法 - Google Patents

一种基于rram存算一体全系统模拟器及其设计方法 Download PDF

Info

Publication number
CN112308222B
CN112308222B CN202011162580.6A CN202011162580A CN112308222B CN 112308222 B CN112308222 B CN 112308222B CN 202011162580 A CN202011162580 A CN 202011162580A CN 112308222 B CN112308222 B CN 112308222B
Authority
CN
China
Prior art keywords
rram
integrated
module
array
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011162580.6A
Other languages
English (en)
Other versions
CN112308222A (zh
Inventor
邹兴奇
闫亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Zhejiang Lab
Original Assignee
Institute of Computing Technology of CAS
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, Zhejiang Lab filed Critical Institute of Computing Technology of CAS
Priority to CN202011162580.6A priority Critical patent/CN112308222B/zh
Publication of CN112308222A publication Critical patent/CN112308222A/zh
Application granted granted Critical
Publication of CN112308222B publication Critical patent/CN112308222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C27/00Electric analogue stores, e.g. for storing instantaneous values
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Abstract

本发明属于计算机体系结构模拟器设计领域,涉及一种基于RRAM存算一体全系统模拟器及其设计方法,该方法为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真。本发明能够实现全系统模拟,模拟出RRAM存算一体模块、控制器模块、内存模块以及整个系统的性能参数,为实际的存算一体体系结构设计提供方案,减少存算一体体系结构研究的设计周期。

Description

一种基于RRAM存算一体全系统模拟器及其设计方法
技术领域
本发明属于计算机体系结构模拟器设计领域,涉及一种基于RRAM存算一体全系统模拟器及其设计方法。
背景技术
传统的冯诺依曼体系结构采用计算和存储功能分离结构,随着处理器和存储器的工艺不断演进,二者之间的性能差距越来越大。数据需要在处理器和存储器之间频繁的搬运,由于受到存储器的带宽限制,从而引起“存储墙”问题,同时由于数据的频繁搬运也带来了额外的功耗。随着大数据时代的到来,现有计算系统的计算性能和能效瓶颈愈发凸显,难以满足海量数据的处理需求。
采用存算一体新型计算架构是解决“存储墙”问题的一种有效方案。通过改变传统系统中存储与计算的交互方式,存算一体新型计算架构将会大幅度提高计算系统的计算能力和能效。
新型存储技术的发展使存算一体成为了可能。忆阻器作为新型存储器件具有高速、低功耗、高密度、非易失等优点。同时,在神经网络计算中,其核心运算主要是大量的向量-矩阵乘法(Vector-Matrix Multiplication, VMM)。忆阻器阵列可以高效进行VMM计算,从而实现存算一体功能。
为了减少存算一体体系结构研究的设计周期,近十年来,绝大多数存算一体研究开始使用模拟仿真工具,以避免流片带来的繁杂过程和长设计周期。尽管已经有基于DRAM的存算一体模拟器出现,但基于忆阻器的存算一体体系结构由于采用了新型存储介质,其模拟器仍然处于初期探索阶段。忆阻器阵列不仅具有存储功能还可以进行计算运算,其源程序、编程模型、编译器、操作系统支持、模块通讯协议、指令控制流、数据一致性等方面相较于现有体系结构都存在巨大变动,需要设计新的存算一体指令集和对应的编译器。目前基于忆阻器的模拟器只能模拟存算一体模块或加速器的特性,仍然缺少功能完善的全系统模拟工具支持,无法模拟存算一体系统的性能,难以面向忆阻器件特性和存算一体体系结构开展深入探索和研究。全系统的模拟器可以针对存算一体体系结构从指令集、编译器到处理器、存算一体阵列进行全面的系统的模拟,为实际的存算一体体系结构设计提供方案。
针对现有的模拟器无法进行全系统的模拟,即无法评估整个系统的性能和功耗。本发明在现有的开源GEM5的基础上进行改进,GEM5是一款模块化的离散事件驱动全系统模拟器,它结合了M5和GEMS中最优秀的部分,是一款高度可配置、集成多种ISA和多种CPU模型的全系统体系结构模拟器,在此基础上加入存算一体模块,从而实现对全系统的性能和功耗模拟。GEM5为事件驱动的模拟器,可提供伪指令,所述伪指令是专供仿真使用的特殊指令,其特殊性在于其可跨指令集使用,GEM5还可用于模拟经典的冯诺依曼架构,包括对控制器和内存的模拟。存算一体模块可以在现有的RRAM模拟器(如NeuroSim、NVSim等)上进行修改,也可以采用自行设计的存算一体模块。本专利的技术难点为:
1、如何实现全系统模拟,即在进行神经网络计算时,模拟器可以模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数,如延时、能耗等;
2、如何进行程序的划分,即控制器如何将要执行的计算或者操作加载到RRAM模块。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于RRAM存算一体全系统模拟器及其设计方法,其具体技术方案如下。
一种基于RRAM存算一体全系统模拟器,包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接。
一种基于RRAM存算一体全系统模拟器设计方法,为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真。
进一步的,所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令,因此代码片段部分需进行少量的标注。
进一步的,所述程序划分,具体为:根据代码标注,在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,未标记代码分配在CPU模块上执行;
进一步的,所述译码,具体为:根据程序需要,利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令。
进一步的,所述程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
进一步的,所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,RRAM存算一体阵列模拟模块接收存算一体计算指令,包括矩阵乘加操作等,然后模拟出该指令所需的延时、功耗性能参数,同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,包括:控制操作、激活函数的运行、池化计算。
本发明能够实现全系统模拟,模拟出RRAM存算一体模块、控制器模块、内存模块、以及整个系统的性能参数,为实际的存算一体体系结构设计提供方案,减少存算一体体系结构研究的设计周期。
附图说明
图1是本发明的硬件结构示意图;
图2是本发明的存算一体全系统模拟器结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种基于RRAM存算一体全系统模拟器,包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接。
所述CPU模块控制整个神经网络计算的数据交互,激活函数、池化的计算。
所述RRAM存算一体阵列模拟模块完成矩阵计算,所述计算包括矩阵乘加计算,RRAM存算一体阵列计算后的数据通过输入输出电路存到DRAM内存当中供CPU模块使用。
如图2所示,一种基于RRAM存算一体全系统模拟器设计方法,为:在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,采用增加预编译宏,通过特定的编程模型,源代码修改等方式将标注的代码进行程序划分和程序加载,采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真操作,未标记代码分配至CPU模块进行模拟仿真操作。
所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,如#RRAM_START、 #RRAM_END,通过特定的编程模型,源代码修改等方式,将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作等,因此代码片段部分需进行少量的标注,如用#RRAM_START和#RRAM_END来显示的标注出需要在RRAM存算一体阵列上执行的代码段。
所述程序划分,具体为:根据代码标注进行程序划分,在CPU端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,其他任务分配在CPU模块上执行;
所述译码,具体为:根据程序需要,事先基于GEM5模拟器添加相关的存算一体计算伪指令以使其适配RRAM存算一体阵列,即对于需要在RRAM存算一体阵列执行的代码,在该阶段先转换成适配RRAM存算一体阵列的伪指令,GEM5模拟器能够对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令。
程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,接收存算一体计算指令,如矩阵乘加操作等,然后模拟出该指令所需的延时、功耗等性能参数,同时将计算得出的结果通过输入输出电路存到存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,如:控制操作、激活函数的运行、池化计算等。

Claims (2)

1.一种基于RRAM存算一体全系统模拟器设计方法,其中所述全系统模拟器包括GEM5模拟模块和RRAM存算一体阵列模拟模块,所述GEM5模拟模块包括:基于GEM5模拟器的CPU模块和与CPU模块相互连接的内存模块,内存模块由相互连接的缓存与DRAM内存组成;所述RRAM存算一体阵列模拟模块,包括:存算一体阵列模块和连接存算一体阵列模块的输入输出电路、控制电路,所述控制电路还与CPU模块相互连接,所述输入输出电路还与内存模块相互连接;
其特征在于,在神经网络计算代码中,将要在存算一体阵列模块中执行的代码进行标记,根据标记进行程序划分,然后将标记出的代码进行程序加载,加载到RRAM存算一体阵列上,利用GEM5模拟器转换为伪指令并对所述伪指令提供译码支持,所述伪指令被指定加载至特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,最后通过RRAM存算一体阵列模拟模块进行模拟仿真,未标记代码分配至CPU模块进行模拟仿真;所述模拟仿真,具体为:使基于GEM5模拟器的CPU模块兼容RRAM存算一体阵列模拟模块,RRAM存算一体阵列模拟模块接收存算一体计算指令,包括矩阵乘加操作,然后模拟出该指令所需的延时、功耗性能参数,同时将计算得出的结果通过输入输出电路存到DRAM内存当中供CPU模块使用,同时CPU模块模拟非存算一体计算的操作,包括:控制操作、激活函数的运行、池化计算;
所述程序划分,具体为:根据代码标注,在CPU模块端分辨出需要分别置于CPU模块和RRAM存算一体阵列进行操作的指令,标记出的代码直接在RRAM存算一体阵列上执行,未标记代码分配在CPU模块上执行;
所述译码,具体为:根据程序需要,利用GEM5模拟器将对于需要在RRAM存算一体阵列执行的代码转换成适配RRAM存算一体阵列的伪指令并对所述伪指令提供译码支持,对于CPU模块端执行的代码段采用传统的译码方式,不涉及伪指令;
所述程序加载,具体为:通过程序加载模块将需要在RRAM存算一体阵列执行的指令加载发送至RRAM存算一体阵列,即采用指令级的加载方式,将特定的操作指令加载到RRAM存算一体阵列上,并被指定特定的可操作地址空间,所述特定的可操作地址空间对应于RRAM存算一体阵列,经GEM5模拟器将代码转换为伪指令,所述伪指令将相应的加载到RRAM存算一体阵列模拟模块。
2.如权利要求1所述的一种基于RRAM存算一体全系统模拟器设计方法,其特征在于,所述代码标注,具体为:神经网络计算代码中,采用增加预编译宏,通过特定的编程模型、源代码修改的方式将要在RRAM存算一体阵列模拟模块中执行的代码进行标记,该代码执行的主要为适合在RRAM存算一体阵列上进行的矩阵乘加操作指令,因此代码片段部分需进行少量的标注。
CN202011162580.6A 2020-10-27 2020-10-27 一种基于rram存算一体全系统模拟器及其设计方法 Active CN112308222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011162580.6A CN112308222B (zh) 2020-10-27 2020-10-27 一种基于rram存算一体全系统模拟器及其设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011162580.6A CN112308222B (zh) 2020-10-27 2020-10-27 一种基于rram存算一体全系统模拟器及其设计方法

Publications (2)

Publication Number Publication Date
CN112308222A CN112308222A (zh) 2021-02-02
CN112308222B true CN112308222B (zh) 2023-06-23

Family

ID=74330334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011162580.6A Active CN112308222B (zh) 2020-10-27 2020-10-27 一种基于rram存算一体全系统模拟器及其设计方法

Country Status (1)

Country Link
CN (1) CN112308222B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127065B (zh) * 2021-04-19 2022-07-08 之江实验室 一种基于纯缺失检测方法的存算一体程序划分方法及装置
CN113205848B (zh) * 2021-04-27 2024-05-31 山东华芯半导体有限公司 基于忆阻器的存算一体固态硬盘及存算实现方法
CN113257312B (zh) * 2021-05-07 2022-11-15 清华大学 一种在忆阻器阵列模块的电路级验证中添加随机数的方法
TWI825980B (zh) * 2022-09-07 2023-12-11 英業達股份有限公司 記憶體內計算的模擬器的設定方法
CN116432603B (zh) * 2023-03-27 2023-10-13 之江实验室 一种存算一体汉语盲文芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229726B1 (en) * 2006-10-05 2012-07-24 Oracle America, Inc. System for application level analysis of hardware simulations
CN103218250A (zh) * 2013-03-29 2013-07-24 北京控制工程研究所 一种处理器模拟方法
CN107704760A (zh) * 2017-09-30 2018-02-16 北京梆梆安全科技有限公司 一种基于底层指令的模拟器检测方法、装置及设备
CN110222006A (zh) * 2019-05-15 2019-09-10 杭州电子科技大学 基于rram的处理器架构及控制方法
CN110990060A (zh) * 2019-12-06 2020-04-10 北京瀚诺半导体科技有限公司 一种存算一体芯片的嵌入式处理器、指令集及数据处理方法
CN111737932A (zh) * 2020-06-09 2020-10-02 安徽大学 基于盲分离与卡尔曼滤波器的忆阻器窄带干扰处理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452539B2 (en) * 2016-07-19 2019-10-22 Sap Se Simulator for enterprise-scale simulations on hybrid main memory systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229726B1 (en) * 2006-10-05 2012-07-24 Oracle America, Inc. System for application level analysis of hardware simulations
CN103218250A (zh) * 2013-03-29 2013-07-24 北京控制工程研究所 一种处理器模拟方法
CN107704760A (zh) * 2017-09-30 2018-02-16 北京梆梆安全科技有限公司 一种基于底层指令的模拟器检测方法、装置及设备
CN110222006A (zh) * 2019-05-15 2019-09-10 杭州电子科技大学 基于rram的处理器架构及控制方法
CN110990060A (zh) * 2019-12-06 2020-04-10 北京瀚诺半导体科技有限公司 一种存算一体芯片的嵌入式处理器、指令集及数据处理方法
CN111737932A (zh) * 2020-06-09 2020-10-02 安徽大学 基于盲分离与卡尔曼滤波器的忆阻器窄带干扰处理系统及方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
《CIM-SIM: Computation In Memory SIMulator》;Ali BanaGozar et al.;《https://es.ele.tue.nl/-sander/publications/scopes19-cim.pdf》;20191231;全文 *
《CONCEPT: A Column-Oriented Memory Controller for Efficient Memory and PIM Operations in RRAM》;Nishil Talati et al.;《IEEE Micro》;20190228;第39卷(第1期);全文 *
《Experimental Study of Artificial Neural Networks Using a Digital Memristor Simulator》;Ntinas Vasileios et al.;《 IEEE Transactions on Neural Networks and Learning Systems》;20181031;第29卷(第10期);全文 *
《LazyPIM: An Efficient Cache Coherence Mechanism for Processing-in-Memory》;Amirali Boroumand et al.;《IEEE COMPUTER ARCHITECTURE LETTERS》;20170630;第16卷(第1期);第46-50页 *
《PIMSim: A Flexible and Detailed Processing-in-Memory Simulator》;Sheng xu et al.;《IEEE COMPUTER ARCHITECTURE LETTERS》;20190331;第18卷(第1期);第6-9页 *
《基于忆阻器的PIM结构实现深度卷积神经网络近似计算》;李楚曦 等;《计算机研究与发展》;20170630;第54卷(第6期);全文 *
《存内计算计算技术发展趋势分析》;周正 等;《信息通信技术与政策》;20190930(第9期);全文 *
Sheng xu et al..《PIMSim: A Flexible and Detailed Processing-in-Memory Simulator》.《IEEE COMPUTER ARCHITECTURE LETTERS》.2019,第18卷(第1期), *

Also Published As

Publication number Publication date
CN112308222A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112308222B (zh) 一种基于rram存算一体全系统模拟器及其设计方法
Fuller et al. Computing performance: Game over or next level?
CN106383695B (zh) 基于fpga的聚类算法的加速系统及其设计方法
Pedram et al. Codesign tradeoffs for high-performance, low-power linear algebra architectures
CN116909985A (zh) 对数据分区的动态排序
Kelly GPU computing for atmospheric modeling
CN110750265B (zh) 一种面向图计算的高层次综合方法及系统
US11977885B2 (en) Utilizing structured sparsity in systolic arrays
CN106030453A (zh) 支持图形处理单元频率的动态调整的方法和装置
CN115658323A (zh) 基于软硬件协同的fpga潮流计算加速架构和方法
CN113220630A (zh) 一种硬件加速器的可重构阵列优化方法及自动调优方法
CN114511094B (zh) 一种量子算法的优化方法、装置、存储介质与电子装置
Haris et al. SECDA-TFLite: A toolkit for efficient development of FPGA-based DNN accelerators for edge inference
CN102567079A (zh) 基于渐进式踪迹更新的并行程序能耗模拟评估方法
CN105404611A (zh) 一种基于矩阵模型的多计算引擎的自动选择方法
Roozmeh et al. Design space exploration of multi-core RTL via high level synthesis from OpenCL models
Davis et al. Paradigmatic shifts for exascale supercomputing
CN110490317A (zh) 神经网络运算装置及运算方法
Misbahuddin et al. Efficient data communication techniques for controller area network (CAN) protocol
Masood Risc and cisc
Popov et al. Teragraph heterogeneous system for ultra-large graph processing
CN114462612A (zh) 基于高性能异构集群的量子计算仿真原理验证方法
Wang et al. MemUnison: A Racetrack-ReRAM-Combined Pipeline Architecture for Energy-Efficient in-Memory CNNs
CN102760097B (zh) 一种计算机体系结构性能模拟方法及系统
Raghavan et al. Distributed loop controller for multithreading in unithreaded ILP architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant