CN111061676B - 一种深度学习芯片的全异步存储系统及其生产方法、设备 - Google Patents

一种深度学习芯片的全异步存储系统及其生产方法、设备 Download PDF

Info

Publication number
CN111061676B
CN111061676B CN201911172001.3A CN201911172001A CN111061676B CN 111061676 B CN111061676 B CN 111061676B CN 201911172001 A CN201911172001 A CN 201911172001A CN 111061676 B CN111061676 B CN 111061676B
Authority
CN
China
Prior art keywords
module
deep learning
storage system
learning chip
language description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911172001.3A
Other languages
English (en)
Other versions
CN111061676A (zh
Inventor
林俊树
刘伟坤
肖山林
虞志益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911172001.3A priority Critical patent/CN111061676B/zh
Publication of CN111061676A publication Critical patent/CN111061676A/zh
Application granted granted Critical
Publication of CN111061676B publication Critical patent/CN111061676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F2015/761Indexing scheme relating to architectures of general purpose stored programme computers
    • G06F2015/763ASIC
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System (AREA)

Abstract

本发明公开了一种深度学习芯片的全异步存储系统及其生产方法、设备。该系统包括至少一个存储阵列,所述存储阵列包括至少一个存储单元,所述存储单元包括:至少一个读使能传输模块,至少一个空信号模块、至少一个满信号模块、至少一个计数模块和至少一个写读模块。所述方法用于实现所述的深度学习芯片的全异步存储系统。通过使用本发明中的所述存储系统,能够提供兼具高性能、低功耗、鲁棒性强、可移植性好、模块化程度高和电磁兼容性强的存储功能,用于深度学习芯片中可有效达到高性能、低功耗的目标。本发明可广泛应用于集成电路技术领域内。

Description

一种深度学习芯片的全异步存储系统及其生产方法、设备
技术领域
本发明涉及集成电路技术领域,尤其是一种深度学习芯片的全异步存储系统及其生产方法、设备。
背景技术
人工智能是未来的战略性产业。属于人工智能范畴的深度学习框架因其在图像分类、目标检测、自然语言处理等等应用领域具有良好的性能而备受关注。然而,使用专用集成电路(ASIC)作为载体实现深度学习算法网络的功能时,通常会遇到以下两个问题:第一是每一次的网络推理都有可能执行上亿次操作,计算量十分庞大;第二是需要存储、利用海量的参数,存储访问非常密集。因此,该领域内的芯片要求系统具有快速访问存储以及降低访问功耗的能力。
正如上面所说,深度学习芯片追求高性能、低功耗,然而传统的深度学习芯片采用的是同步电路的设计方法,这并不能同时满足高性能和低功耗的需求。同步电路具有成熟的EDA工具链支持,其设计相对于异步电路则简单得多,但随着制造工艺的发展,特别是特征尺寸到了亚微米时代,同步电路的设计和制造面临着很多棘手的问题:高速的同步电路面临着越来越多的问题,如时钟偏移、时钟抖动、时序难以收敛、鲁棒性差和设计复杂度提高等。此外,同步电路所有的事件触发均由时钟信号来控制,由于每次都要等待时钟沿的到来才触发,这样将浪费大量的时间,访问速度受到限制,很难实现高性能。时钟树的功耗和面积对芯片带来了额外的开销,同样也很难实现低功耗。而异步电路设计相对复杂,异步电路EDA的开发需要资金、市场等等因素的驱动,目前仍然缺乏成熟的商用异步电路EDA工具链,导致异步电路的制造非常缓慢,难以推广。现有技术中存在的这些问题亟待解决。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。为此,本发明实施例提供了一种深度学习芯片的全异步存储系统及其生产方法、设备,能够提高深度学习芯片存储工作的效率,降低功耗,实现深度学习芯片高性能、低功耗的目标。
本发明实施例所采取的技术方案是:
第一方面,本发明实施例提供了一种深度学习芯片的全异步存储系统,包括:
至少一个存储阵列,所述存储阵列包括至少一个存储单元,所述存储单元包括:
至少一个读使能传输模块,用于根据传输读信号输出数据;
至少一个空信号模块,用于产生空信号;
至少一个满信号模块,用于产生满信号;
至少一个计数模块,用于记录所述存储单元里面的数据个数;
至少一个写读模块,用于进行写存储或读存储操作。
进一步,所述读使能传输模块、空信号模块、满信号模块、计数模块和写读模块之间采用异步四相双轨的形式进行通信。
进一步,所述空信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述空信号模块用于在初始化时产生空信号给计数模块和/或写读模块;
所述空信号模块还用于在进行写操作时产生非空信号,且在进行读操作至计数模块输出为0时产生空信号。
进一步,所述满信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述满信号模块用于在初始化时产生非满信号给计数模块和/或写读模块;
所述满信号模块还用于在进行读操作时产生非满信号,且在进行写操作至计数模块输出为预定阈值时产生满信号。
进一步,所述存储单元可用于接收存储阵列传递的四相双轨数据和两相单轨数据,并返回对应的四相双轨数据和两相单轨数据给存储阵列。
第二方面,本发明实施例提供一种深度学习芯片的全异步存储系统生产方法,包括以下步骤:
使用CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述,得到CHP语言描述结果;
对所述CHP语言描述结果进行握手扩展,得到HSE语言描述结果;
对所述HSE语言描述结果进行PR重合,得到PRS语言描述结果;
将所述PRS语言描述结果进行综合,得到HDL门级网表;
使用C单元替换所述HDL门级网表中的部分单元,并将其导入传统后端EDA进行布线。
进一步,所述使用CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述这一步骤,其具体包括:
使用串行的CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述,得到串行CHP语言描述结果;
对所述串行描述结果进行CHP分解,得到并行CHP语言描述结果。
进一步,所述对所述HSE语言描述结果进行PR重合这一步骤之前,还包括:对所述HSE语言描述结果进行重新排序,得到重排后的HSE语言描述结果。
进一步,所述将所述PRS语言描述结果进行综合这一步骤之前,还包括以下步骤:
判断所述PRS语言描述结果是否稳定,若不稳定则重新对所述HSE语言描述结果进行PR重合。
第三方面,本发明实施例提供了一种设备,包括所述的深度学习芯片的全异步存储系统。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本发明实施例采用异步电路的通信模式来搭建所述存储系统,各个模块之间采用请求-应答信号进行通讯,摒弃了同步电路依赖全局时钟触发事件的形式,由于舍弃了全局时钟,其运行速度不受限于关键路径,处理性能得到了提升;有效规避了复杂的时钟树设计,将可以很大程度降低芯片的面积和功耗;还可以规避时钟偏移、抖动的问题,兼具高性能、低功耗、鲁棒性强、可移植性好、模块化程度高和电磁兼容性强等优点。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明一种深度学习芯片的全异步存储系统具体实施例的模块框图;
图2为本发明一种深度学习芯片的全异步存储系统生产方法的流程示意图;
图3为本发明一种深度学习芯片的全异步存储系统生产方法优选实施例的流程示意图;
图4为本发明一种深度学习芯片的全异步存储系统生产方法的底层原理图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明实施例提供了一种深度学习芯片的全异步存储系统,包括:
至少一个存储阵列10,所述存储阵列10包括至少一个存储单元100,所述存储单元100包括:
至少一个读使能传输模块1001,用于根据传输读信号输出数据;
至少一个空信号模块1002,用于产生空信号;
至少一个满信号模块1003,用于产生满信号;
至少一个计数模块1004,用于记录所述存储单元里面的数据个数;
至少一个写读模块1005,用于进行写存储或读存储操作。
进一步作为优选的实施方式,所述读使能传输模块1001、空信号模块1002、满信号模块1003、计数模块1004和写读模块1005之间采用异步四相双轨的形式进行通信。
本发明实施例中,存储单元100中各个模块间的数据基于四相双轨协议进行传输,该协议通过使用两条线表示一个信息位的方式将请求信号和数据信号放在一起编码,形成用于通信的信号。四相双轨协议的握手过程可简单概括为:1.发送方发出一个有效码字;2.接收方收到码字后把应答信号置为高电平;3.发送方响应应答信号同时发出空值码字;4.接收方把应答信号置为低电平。每完成以上四个步骤一次,发送方便可以开启新的通信周期,也就是说:四相双轨协议可以认为是通道内有效码字被空值码字所隔开,形成传输的数据流。这种数据传输方式具有很强的鲁棒性,通信双方可以很稳定地进行通信而不受到导线延迟的影响,因此能够有效提高数据的存储访问能力,从而增强深度学习芯片的反应性能。
进一步作为优选的实施方式,所述空信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述空信号模块用于在初始化时产生空信号给计数模块和/或写读模块;
所述空信号模块还用于在进行写操作时产生非空信号,且在进行读操作至计数模块输出为0时产生空信号。
进一步作为优选的实施方式,所述满信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述满信号模块用于在初始化时产生非满信号给计数模块和/或写读模块;
所述满信号模块还用于在进行读操作时产生非满信号,且在进行写操作至计数模块输出为预定阈值时产生满信号。
进一步作为优选的实施方式,所述存储单元可用于接收存储阵列传递的四相双轨数据和两相单轨数据,并返回对应的四相双轨数据和两相单轨数据给存储阵列。
下面结合图1,对本发明实施例中的全异步存储系统工作原理和过程作以下说明:
本发明实施例中,所述存储单元100是二级结构,而且是三级结构读使能传输模块1001、空信号模块1002、满信号模块1003、计数模块1004和写读模块1005的顶层结构,能够控制其内各个子模块之间的信号传递。所述存储阵列10是一级结构,而且是存储单元100的顶层结构,能够控制存储单元100与其他阵列之间的数据传输和通信,例如处理元阵列PEArray,在接收到处理元阵列发送的传输读信号时,所述存储阵列10控制存储单元100输出对应的数据到处理元阵列进行处理。所述存储单元100可以接收存储阵列10传递的四相双轨数据ctrl、data_in和两相单轨数据ack_in,并返回四相双轨数据data_out和两相单轨数据ack_out给存储阵列10。
其中,所述读使能传输模块1001、空信号模块1002、满信号模块1003、计数模块1004和写读模块1005进行通信的过程如下:
所述空信号模块1002传递四相双轨数据给计数模块1004和写读模块1005,并且接收计数模块1004和写读模块1005返回的应答信号。当存储系统初始化时,所述的空信号模块1002产生空信号给计数模块1004和写读模块1005;当存储系统进行写操作时,所述的空信号模块1002产生非空信号;当存储系统持续进行读操作直到计数模块1004的输出为0时,所述的空信号模块1002产生空信号。
所述满信号模块1003传递四相双轨数据给计数模块1004和写读模块1005,并且接收计数模块1004和写读模块1005返回的应答信号。当存储系统初始化时,所述满信号模块1003产生非满信号给计数模块1004和写读模块1005;当存储系统进行读操作时,所述满信号模块1003产生非满信号;当存储系统持续进行写操作直到计数模块1004输出为该存储系统的存储数据容量最大值时,所述满信号模块1003产生满信号。
所述计数模块1004传递四相双轨数据给空信号模块1002和满信号模块1003,并且接收空信号模块1002和满信号模块1003返回的应答信号。当存储系统初始化时,所述计数模块1004输出0给空信号模块1002和满信号模块1003;当存储系统进行写操作时,所述计数模块1004计数值自增;当存储系统进行读操作时,所述计数模块1004计数值自减。
所述读使能传输模块1001传递四相双轨数据给写读模块1005,并且接收写读模块1005返回的应答信号。当存储系统初始化时,所述读使能传输模块1001输出0;当存储系统进行读操作时,所述读使能传输模块1001可传递输入的传输读信号给下一个存储单元100。
所述写读模块1005用于执行写读操作。当存储系统初始化时,所述写读模块1005输出为0;当存储系统进行写操作时,所述写读模块1005保存写入的双轨数据;当存储系统进行读操作时,所述写读模块1005输出要读的双轨数据。
本发明实施例中,采用异步电路的通信模式来搭建所述存储系统,能够很好地解决同步电路设计和制造中遇到的问题。各个模块之间采用请求-应答信号进行通讯,摒弃了同步电路依赖全局时钟触发事件的形式,由于舍弃了全局时钟,本发明实施例中的存储系统没有了路径(Path)的概念,其运行速度不像同步电路那样受限于关键路径,处理性能得到了提升。此外,在大规模同步集成电路中,时钟树所消耗的功耗约占整块芯片功耗的1/3,而异步电路有效规避了复杂的时钟树设计,将可以很大程度降低芯片的面积和功耗。综上,本发明实施例中的所述存储系统还可以规避时钟偏移、抖动的问题,兼具高性能、低功耗、鲁棒性强、可移植性好、模块化程度高和电磁兼容性强等优点。
参照图2,本发明实施例还提供了一种深度学习芯片的全异步存储系统生产方法,包括以下步骤:
S1:使用CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述,得到CHP语言描述结果;
S2:对所述CHP语言描述结果进行握手扩展,得到HSE语言描述结果;
S3:对所述HSE语言描述结果进行PR重合,得到PRS语言描述结果;
S4:将所述PRS语言描述结果进行综合,得到HDL门级网表;
S5:使用C单元替换所述HDL门级网表中的一部分单元,并将其导入传统后端EDA进行布线。
进一步作为优选的实施方式,所述使用CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述这一步骤,其具体包括:
使用串行的CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述,得到串行CHP语言描述结果;
对所述串行描述结果进行CHP分解,得到并行CHP语言描述结果。
进一步作为优选的实施方式,所述对所述HSE语言描述结果进行PR重合这一步骤之前,还包括:对所述HSE语言描述结果进行重新排序,得到重排后的HSE语言描述结果。
进一步作为优选的实施方式,所述将所述PRS语言描述结果进行综合这一步骤之前,还包括以下步骤:
判断所述PRS语言描述结果是否稳定,若不稳定则重新对所述HSE语言描述结果进行PR重合。
结合图2、3和4,下面对本发明实施例中一种深度学习芯片的全异步存储系统生产方法流程作以下说明:
步骤1,串行CHP语言描述,将所述的一种深度学习芯片的全异步存储系统用串行的CHP语言进行描述,串行的CHP语言是高层语言,用来实现循环、多路选择器等描述;
步骤2,并行CHP语言描述,将步骤1所述的串行的CHP语言描述结果进行CHP分解,得到并行的CHP语言描述结果,并行的CHP语言描述结果是一个更小的、并行进程的通信系统;
步骤3,HSE语言描述,将步骤2所述的并行的CHP语言描述结果进行握手扩展,得到HSE语言描述结果;在HSE语言描述中,所有的变量都是布尔类型,本发明实施例中可采用4相握手扩展;
步骤4,HSE语言描述结果重排,将步骤3所述的HSE语言描述结果进行重新排序,得到重排后的HSE语言描述。经过重新排序,可以提高运行速度,减少芯片的面积;
步骤5,PRS描述描述,将步骤4所述的重排后的HSE语言描述结果进行PR重合,得到PRS语言描述结果;PRS描述没有显式的顺序,属于并发规则集;
步骤6,判断是否稳定或者存在干扰,判断步骤5所述的PRS语言描述结果是否稳定,若稳定且不存在干扰,则可以进行步骤7;若存在不稳定或者干扰,则重新进行步骤5;
步骤7,HDL门级网表,将步骤6所述的稳定且无干扰的PRS语言描述结果进行综合,得到HDL门级网表;
步骤8,有C单元的门级网表,将步骤7所述的HDL门级网表用C单元替换部分单元,得到有C单元的门级网表;
步骤9,后端传统EDA,将步骤8所述的有C单元的门级网表送到后端传统EDA,即可利用传统商用的EDA进行后端布局布线等操作,即可得到所述存储系统的产品。
本发明实施例针对同步深度学习芯片难以同时达到高性能和低功耗的目标,提供了一种深度学习芯片的全异步存储系统生产方法。本发明实施例中的所述系统提高了深度学习芯片存储工作的效率,降低了功耗,能够实现深度学习芯片高性能、低功耗的目标。本发明实施例中提出的生产方法结合了传统商用EDA,有利于芯片的工程化和量产。
本发明实施例另提供了一种设备,包括所述的深度学习芯片的全异步存储系统。
可见,上述系统实施例中的内容均适用于本方法、设备实施例中,本方法、设备实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种深度学习芯片的全异步存储系统,其特征在于,包括:至少一个存储阵列,所述存储阵列包括至少一个存储单元,所述存储单元包括:
至少一个读使能传输模块,用于根据传输读信号输出数据;
至少一个空信号模块,用于产生空信号;
至少一个满信号模块,用于产生满信号;
至少一个计数模块,用于记录所述存储单元里面的数据个数;
至少一个写读模块,用于进行写存储或读存储操作;
其中,所述空信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述空信号模块用于在初始化时产生空信号给计数模块和/或写读模块;
所述空信号模块还用于在进行写操作时产生非空信号,且在进行读操作至计数模块输出为0时产生空信号。
2.根据权利要求1所述的一种深度学习芯片的全异步存储系统,其特征在于:所述读使能传输模块、空信号模块、满信号模块、计数模块和写读模块之间采用异步四相双轨的形式进行通信。
3.根据权利要求2所述的一种深度学习芯片的全异步存储系统,其特征在于:
所述满信号模块用于传递四相双轨数据给计数模块和/或写读模块,并且接收所述计数模块和写读模块返回的应答信号;
所述满信号模块用于在初始化时产生非满信号给计数模块和/或写读模块;
所述满信号模块还用于在进行读操作时产生非满信号,且在进行写操作至计数模块输出为预定阈值时产生满信号。
4.根据权利要求1-3中任一项所述的一种深度学习芯片的全异步存储系统,其特征在于:所述存储单元可用于接收存储阵列传递的四相双轨数据和两相单轨数据,并返回对应的四相双轨数据和两相单轨数据给存储阵列。
5.一种深度学习芯片的全异步存储系统生产方法,其特征在于,包括以下步骤:
使用CHP语言对如权利要求1-4中任一项所述的一种深度学习芯片的全异步存储系统进行描述,得到CHP语言描述结果;
对所述CHP语言描述结果进行握手扩展,得到HSE语言描述结果;
对所述HSE语言描述结果进行PR重合,得到PRS语言描述结果;
将所述PRS语言描述结果进行综合,得到HDL门级网表;
使用C单元替换所述HDL门级网表中的部分单元,并将其导入传统后端EDA进行布线。
6.根据权利要求5所述的一种深度学习芯片的全异步存储系统生产方法,其特征在于:所述使用CHP语言对如权利要求1-4中任一项所述的一种深度学习芯片的全异步存储系统进行描述这一步骤,其具体包括:
使用串行的CHP语言对所述的一种深度学习芯片的全异步存储系统进行描述,得到串行CHP语言描述结果;
对所述串行描述结果进行CHP分解,得到并行CHP语言描述结果。
7.根据权利要求5所述的一种深度学习芯片的全异步存储系统生产方法,其特征在于,所述对所述HSE语言描述结果进行PR重合这一步骤之前,还包括:对所述HSE语言描述结果进行重新排序,得到重排后的HSE语言描述结果。
8.根据权利要求7所述的一种深度学习芯片的全异步存储系统生产方法,其特征在于,所述将所述PRS语言描述结果进行综合这一步骤之前,还包括以下步骤:
判断所述PRS语言描述结果是否稳定,若不稳定则重新对所述HSE语言描述结果进行PR重合。
9.一种设备,其特征在于:包括如权利要求1-4中任一项所述的深度学习芯片的全异步存储系统。
CN201911172001.3A 2019-11-26 2019-11-26 一种深度学习芯片的全异步存储系统及其生产方法、设备 Active CN111061676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911172001.3A CN111061676B (zh) 2019-11-26 2019-11-26 一种深度学习芯片的全异步存储系统及其生产方法、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911172001.3A CN111061676B (zh) 2019-11-26 2019-11-26 一种深度学习芯片的全异步存储系统及其生产方法、设备

Publications (2)

Publication Number Publication Date
CN111061676A CN111061676A (zh) 2020-04-24
CN111061676B true CN111061676B (zh) 2021-11-30

Family

ID=70298686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911172001.3A Active CN111061676B (zh) 2019-11-26 2019-11-26 一种深度学习芯片的全异步存储系统及其生产方法、设备

Country Status (1)

Country Link
CN (1) CN111061676B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7436726B1 (en) * 2005-11-21 2008-10-14 Xilinx, Inc. Circuit for and method of reading data in an asynchronous FIFO including a backup address circuit for re-reading data
CN101373424A (zh) * 2008-09-19 2009-02-25 北京中星微电子有限公司 一种异步先进先出存储器的数据读写方法、装置及系统
CN102004626A (zh) * 2010-11-17 2011-04-06 华亚微电子(上海)有限公司 双口存储器
CN202736496U (zh) * 2011-12-30 2013-02-13 西安国能科技有限公司 一种钟控异步先入先出fifo存储器的读字线控制电路
CN104484011A (zh) * 2014-11-25 2015-04-01 上海高性能集成电路设计中心 一种分布控制双时钟异步发送、接收模块及fifo装置
CN105320490A (zh) * 2014-07-31 2016-02-10 德克萨斯仪器股份有限公司 用于异步fifo电路的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150121003A1 (en) * 2010-09-07 2015-04-30 Daniel L. Rosenband Storage controllers
US10719079B2 (en) * 2017-06-22 2020-07-21 Nokomis, Inc. Asynchronous clock-less digital logic path planning apparatus and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7436726B1 (en) * 2005-11-21 2008-10-14 Xilinx, Inc. Circuit for and method of reading data in an asynchronous FIFO including a backup address circuit for re-reading data
CN101373424A (zh) * 2008-09-19 2009-02-25 北京中星微电子有限公司 一种异步先进先出存储器的数据读写方法、装置及系统
CN102004626A (zh) * 2010-11-17 2011-04-06 华亚微电子(上海)有限公司 双口存储器
CN202736496U (zh) * 2011-12-30 2013-02-13 西安国能科技有限公司 一种钟控异步先入先出fifo存储器的读字线控制电路
CN105320490A (zh) * 2014-07-31 2016-02-10 德克萨斯仪器股份有限公司 用于异步fifo电路的方法和设备
CN104484011A (zh) * 2014-11-25 2015-04-01 上海高性能集成电路设计中心 一种分布控制双时钟异步发送、接收模块及fifo装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于异步工作方式的数模混合神经网络芯片关键模块的设计研究;罗冲;《中国优秀硕士学位论文全文数据库(电子期刊)》;20180630;I135-284 *

Also Published As

Publication number Publication date
CN111061676A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
US8078789B2 (en) Serially interfaced random access memory
CN109086228B (zh) 具有多个独立访问通道的高速存储器芯片
US20140376569A1 (en) Multiple clock domains in noc
Ferretti et al. Single-track asynchronous pipeline templates using 1-of-N encoding
US8766665B2 (en) Reconfigurable logic automata
Carloni et al. Latency insensitive protocols
JP2000155777A (ja) 電子回路
CN102866980B (zh) 用于多核微处理器片上互连网络的网络通信胞元
CN101004674B (zh) 数据处理系统和包括数据处理系统的高清晰度电视机
CN111061676B (zh) 一种深度学习芯片的全异步存储系统及其生产方法、设备
CN102308538B (zh) 报文处理方法及装置
CN102819418A (zh) 超细粒度门控时钟的fifo数据存储方法及装置
Lee et al. Universal delay-insensitive circuits with bidirectional and buffering lines
CN115935894A (zh) 一种基于分离字线的双6t-sram存储单元和双比特局部计算单元的加速器设计方法
Lee et al. A partitioned cellular automaton approach for efficient implementation of asynchronous circuits
Jewajinda et al. A cooperative approach to compact genetic algorithm for evolvable hardware
CN102280138B (zh) 具有累积写入特征的存储方法、存储器和存储系统
Lee et al. Universal delay-insensitive systems with buffering lines
Patra et al. Building-blocks for designing DI circuits
Plana et al. Pulse-mode macromodular systems
CN101149763A (zh) 猝发模式异步控制电路设计方法
CN202003695U (zh) 具有累积写入特征的存储器和存储系统
Zhou Investigation of asynchronous pipeline circuits based on bundled-data encoding: Implementation styles, behavioral modeling, and timing analysis
CN112740192B (zh) 大数据运算加速系统及数据传输方法
Lee et al. A Direct Proof of Turing Universality of Delay-Insensitive Circuits.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant