CN110096308A - 一种并行存储运算装置及其方法 - Google Patents

一种并行存储运算装置及其方法 Download PDF

Info

Publication number
CN110096308A
CN110096308A CN201910334560.3A CN201910334560A CN110096308A CN 110096308 A CN110096308 A CN 110096308A CN 201910334560 A CN201910334560 A CN 201910334560A CN 110096308 A CN110096308 A CN 110096308A
Authority
CN
China
Prior art keywords
data
storage unit
unit
computing
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910334560.3A
Other languages
English (en)
Other versions
CN110096308B (zh
Inventor
鲁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Exploration Technology Co Ltd
Original Assignee
Beijing Exploration Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Exploration Technology Co Ltd filed Critical Beijing Exploration Technology Co Ltd
Priority to CN201910334560.3A priority Critical patent/CN110096308B/zh
Publication of CN110096308A publication Critical patent/CN110096308A/zh
Application granted granted Critical
Publication of CN110096308B publication Critical patent/CN110096308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3818Decoding for concurrent execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Memory System (AREA)
  • Multi Processors (AREA)

Abstract

本发明所涉及一种并行存储运算装置及其方法,所述装置包括多个存储单元、多个计算单元及控制模块;其中,所述控制模块用于建立所述多个存储单元间的一个或多个数据通路,其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接,所述数据通路经过所述多个计算单元中至少一个第一计算单元;所述第一存储单元用于存储第一数据;所述第一计算单元用于对所述第一数据执行第一运算;所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。本发明具有分布式存储和计算,支持高并发的计算,解决了由高并发引起的带宽问题和同步问题。

Description

一种并行存储运算装置及其方法
技术领域
本发明涉及电子信息技术领域,更具体的说,涉及一种并行存储计算装置及其方法。
背景技术
目前,包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks,DNN)。DNN在很多人工智能任务之中表现出了当前最佳的准确度,但同时也存在着计算复杂度高的问题。因此,那些能帮助DNN高效处理并提升效率和吞吐量,同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN的关键。
深度神经网络的运算具有高并发、高耦合的特点,不仅有大量的数据参与到整个算法运行的过程中,这些数据之间的耦合性也非常紧密,因此对存储带宽提出了非常高的要求。
类似传统CPU的处理器在处理深度学习算法时,提供算力相对简单易行,但当运算部件达到一定的能力,存储器无法跟上运算部件消耗的数据,再增加运算部件也无法进一步提高性能。虽然通过提升并行度进行庞大计算力的结构调整,但是对存储资源的使用和调度,依然依赖于编译器或传统的缓存管理算法,无法解决存储瓶颈问题。
在某些计算任务中,所执行的运算不依赖外部状态,也不修改外部状态,但是运算的输入与输出数据的传递和存储,具有不确定性,由此产生了对运算模块与存储模块的不同要求。运算模块要独立于数据,数据传递要灵活可配置,数据存储需要性能高效可共享。
发明内容
为了解决深度神经网络相关运算的带宽瓶颈、功耗瓶颈的问题,提出一种并行存储运算装置及其方法,本发明具有分布式存储和计算,总存储量可以达到较高的内部带宽,支持高并发的计算,解决了由高并发引起的带宽问题。本发明采用数据驱动的方式,支持可计算存储的使用,实现了极高的计算资源利用率、解决高耦合和时间域上的高差异性。
本发明所述的一种并行存储运算装置,所述装置包括多个存储单元、多个计算单元及控制模块;其中,所述控制模块用于建立所述多个存储单元间的一个或多个数据通路,其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接,所述数据通路经过所述多个计算单元中至少一个第一计算单元;所述第一存储单元用于存储第一数据;所述第一计算单元用于对所述第一数据执行第一运算;所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。
优选的,其中数据通路至少为2个。
优选的,所述数据通路顺序经过所述多个计算单元中多个第一计算单元;所述多个第一计算单元用于对所述第一数据执行第一运算,其中,所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。
优选的,所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接;所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。
优选的,所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接;所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。
本发明所述的一种基于并行存储运算装置的计算方法,所述运算装置包括多个存储单元、多个计算单元及控制模块;所述计算方法包括下述步骤:根据待计算的计算任务,所述控制模块建立所述多个存储单元间的一个或多个数据通路,其中,每个数据通路经过所述多个计算单元中一个或多个计算单元,并连接所述多个存储单元间的两个存储单元;执行所述一个或多个数据通路,其中,每个数据通路对应的起点存储单元的数据在该数据通路所经过的计算单元被执行相应的运算,对应的运算结果被写入该数据通路对应的目的存储单元;将所述一个或多个数据通路的执行结果作为所述计算任务的计算结果。
优选的,所述存储单元本身可执行特定运算,运算发生在存储单元内部,进入存储单元的数据的内容,与存储单元读出数据的内容不相同。
优选的,所述数据通路顺序经过所述多个计算单元中多个第一计算单元;所述多个第一计算单元用于对第一数据执行第一运算,其中,所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。
优选的,所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接;第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。
优选的,所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接;所述多个第二存储单元中每个第二存储单元用于接收并存储对第一数据执行第一运算后的结果数据。本发明以存储驱动计算,不同于常见的解决内存瓶颈的方法,数据在存储之间的搬移过程之中就完成了计算,计算对于数据来说只是一种演变。对于深度神经网络应用,通过设置对应的计算单元与数据航线,可以灵活适用于各种神经网络。本发明具有如下技术效果:1.运算单元的调用与组合不依赖于外部数据;2.数据与运算相互独立,可以在运算单元间自由流动;3.数据在传输流动过程中完成运算,实现了可运算的存储;计算过程等同于数据流动,计算单元之所以可以连接,是因为其不依赖外部状态和具体数据,也不修改外部状态。
附图说明
图1为本发明所述的并行存储运算装置的结构图。
图2为本发明所述的并行存储运算装置的可计算通路的结构示意图。
图3为本发明所述的并行存储运算方法的流程图。
图4为本发明所述的并行存储运算方法的流程拆解图1。
图5为本发明所述的并行存储运算方法的流程拆解图2。
图6为本发明所述的并行存储运算方法的流程拆解图3。
具体实施方式
以下将结合附图对本发明技术方案做进一步的阐述。
为了更加详细的阐述本发明为了完成预定的目的所采用的技术手段及其功能,以下结合附图说明及实例,对根据本发明提出的并行存储运算装置和方法的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为为本发明所述的并行存储运算装置的结构图。本发明所述的并行存储运算装置,其架构由控制层、数据层和计算层构成,所述控制层通过微型通用控制器配置计算单元(EC)、可计算通路(CC);所述数据层支持常规存储和可计算存储;所述计算层由可计算通路(CC)与计算单元(EC)构成;所述数据层与计算层之间以数据航线为连接,数据在传送过程中完成计算。
所述可计算通路(CC)是数据层的存储单元经数据航线连接的到数据层的存储单元之间的数据通路,所述计算单元(EC)就是逻辑和算术运算电路或程序。
所述可计算通路(CC)的规模和数量决定了所述装置本身的算力。
所述计算单元之间通过可配置的数据航线来连接,比如计算单元A可以连接计算单元B,或可以连接计算单元C或可以不连。即,计算单元之间由数据航线相连,可以串联计算单元。
所述计算层是虚线长方形,包括白色、灰色和黑色的圈(即不同计算单元)。
其中图1、2中的双向箭头表示的是数据航线和数据流动的方向。
可计算通路指的是数据层的第一存储单元(输入存储单元)沿着数据航线,经过计算层的计算单元计算,再到数据层的第二存储单元(输出存储单元),这样算一个可计算通路。
如图2中加粗部分为一个可计算通路,即数据从数据层的第一存储单元经过第一计算单元A和第一计算单元B到数据层的第二数据单元。
为了实现并行存储计算,数据通路至少为2个,以实现计算层可以同时并行计算。
所述数据通路顺序经过所述多个计算单元中多个第一计算单元,如第一计算单元A和第一计算单元B,用于对所述第一数据执行第一运算,其中,所述第一计算单元A输出作为第一计算单元B的输入。
所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接(即数据多对一);所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。
所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接(即数据一对多);所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。
图3-6为一项计算任务图以及任务拆解流程图,以说明本发明所述的并行存储运算方法。
其中圆形代表数据,正方形和三角形代表不同的运算类型。1、2、3、4、7为输入数据,5、6、8、9为中间结果,10为输出数据。数据的内涵定义灵活可变,但可以任意对接运算单元进行运算。运算a-f实际上就是在数据传输过程中完成。
以上计算任务按计算顺序可以拆解为以下三步,图4-6为本发明所述的并行存储运算方法的拆解图1-3,表示了如何映射到整个计算框架内。
其中运算单元与数据可以自由组合,数据可以经过运算单元输出结果,也可以不保存结果而是直接接入下一级运算单元。不保存数据结果,可以节省存储空间,保存结果有利于后续步骤的数据调用。
本发明所述的一种基于运算装置的计算方法,所述运算装置包括多个存储单元、多个计算单元及控制模块;
所述计算方法包括下述步骤:
根据待计算的计算任务,所述控制模块建立所述多个存储单元间的一个或多个数据通路,其中,每个数据通路经过所述多个计算单元中一个计算单元,并连接所述多个存储单元间的两个存储单元;
执行所述一个或多个数据通路,其中,每个数据通路对应的起点存储单元的数据在该数据通路所经过的计算单元被执行相应的运算,对应的运算结果被写入该数据通路对应的目的存储单元;
将所述一个或多个数据通路的执行结果作为所述计算任务的计算结果。
参照图3,数据1、2、3、4、7为输入数据,需要经过运算a-f得到输出数据。
第一步,参照图4,数据1、2经运算a得到数据5,数据3经运算b得到数据6;
第二步,参照图5,数据4、5经运算c得到数据8,数据6、7经运算d得到数据9;
第三步,参照图6,数据8经过运算e再进入运算f,数据9进入运算f,最后得到数据10。
第一步到第三步只是示例性的较优运算过程,以上计算分解过程可以变换数据或运算顺序,自由组合。
也可以不并行,即由数据1、2经运算a得到数据5,再与数据4经运算c得到数据8,然后而数据3经运算b得到数据6,再与数据7经运算d得到数据9,数据8经过运算e再进入运算f,数据9进入运算f,最后得到数据10。并行运算速度快,如果并行不保存数据结果,也可以节省存储空间。本发明具有函数式编程的优点,即不依赖外部的状态也不修改外部的状态;具有良好的并行性,不会造成资源争用从而导致死锁;复用性好。将此理念引入到运算装置设计中。
本发明具有如下技术效果:
1.运算单元的调用与组合不依赖于外部数据;
2.数据与运算相互独立,可以在运算单元间自由流动;
3.数据在传输流动过程中完成运算,实现了可运算的存储;
计算过程等同于数据流动,计算单元之所以可以连接,是因为其不依赖外部状态和具体数据,也不修改外部状态。
本发明所述的并行存储运算可以用于一种全新的AI芯片架构——SFA(StorageFirst Architectur)。在执行AI运算的集成电路中,新架构可以使数据在搬移过程中就完成计算,即存储驱动计算。
本说明书中所提到的实施方式仅作为本发明技术方案的示例性说明,而不应解释为对本发明的限制,任何对本发明进行显而易见的局部更改、等同变化和修饰都应视为本发明的替代方案。这种替代方案包括改变高光谱成像光谱仪的型号、数据采集控制设备的类型以及他们之间的位置关系等,这些更改和变化不脱离本发明的实质范围。

Claims (10)

1.一种并行存储运算装置,其特征在于,所述装置包括多个存储单元、多个计算单元及控制模块;其中,
所述控制模块用于建立所述多个存储单元间的一个或多个数据通路,其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接,所述数据通路经过所述多个计算单元中至少一个第一计算单元;
所述第一存储单元用于存储第一数据;
所述第一计算单元用于对所述第一数据执行第一运算;
所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。
2.根据权利要求1所述的并行存储运算装置,其中数据通路至少为2个。
3.根据权利要求1或2所述的并行存储运算装置,其中,所述数据通路顺序经过所述多个计算单元中多个第一计算单元;
所述多个第一计算单元用于对所述第一数据执行第一运算,其中,所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。
4.根据权利要求1或2或所述的并行存储运算装置,其中,所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接;
所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。
5.根据权利要求1或2所述的并行存储运算装置,其中,所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接;
所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。
6.一种基于并行存储运算装置的计算方法,其特征在于,所述运算装置包括多个存储单元、多个计算单元及控制模块;
所述计算方法包括下述步骤:
根据待计算的计算任务,所述控制模块建立所述多个存储单元间的一个或多个数据通路,其中,每个数据通路经过所述多个计算单元中一个或多个计算单元,并连接所述多个存储单元间的两个存储单元;
执行所述一个或多个数据通路,其中,每个数据通路对应的起点存储单元的数据在该数据通路所经过的计算单元被执行相应的运算,对应的运算结果被写入该数据通路对应的目的存储单元;
将所述一个或多个数据通路的执行结果作为所述计算任务的计算结果。
7.根据权利要求6所述的一种基于并行存储运算装置的计算方法,所述存储单元本身可执行特定运算,运算发生在存储单元内部,进入存储单元的数据的内容,与存储单元读出数据的内容不相同。
8.根据权利要求6所述的一种基于运算装置的计算方法,其中,所述数据通路顺序经过所述多个计算单元中多个第一计算单元;
所述多个第一计算单元用于对第一数据执行第一运算,其中,所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。
9.根据权利要求6所述的一种基于并行存储运算装置的计算方法,其中,所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接;
第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。
10.根据权利要求6所述的一种基于并行存储运算装置的计算方法,其中,所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接;
所述多个第二存储单元中每个第二存储单元用于接收并存储对第一数据执行第一运算后的结果数据。
CN201910334560.3A 2019-04-24 2019-04-24 一种并行存储运算装置及其方法 Active CN110096308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334560.3A CN110096308B (zh) 2019-04-24 2019-04-24 一种并行存储运算装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334560.3A CN110096308B (zh) 2019-04-24 2019-04-24 一种并行存储运算装置及其方法

Publications (2)

Publication Number Publication Date
CN110096308A true CN110096308A (zh) 2019-08-06
CN110096308B CN110096308B (zh) 2022-02-25

Family

ID=67445770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334560.3A Active CN110096308B (zh) 2019-04-24 2019-04-24 一种并行存储运算装置及其方法

Country Status (1)

Country Link
CN (1) CN110096308B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080222360A1 (en) * 2002-11-01 2008-09-11 Semiconductor Technology Academic Research Center Multi-port integrated cache
CN102609379A (zh) * 2012-02-07 2012-07-25 无锡众志和达存储技术有限公司 一种存储系统的控制器硬件架构
US20130205171A1 (en) * 2012-02-07 2013-08-08 Samsung Electronics Co., Ltd. First and second memory controllers for reconfigurable computing apparatus, and reconfigurable computing apparatus capable of processing debugging trace data
CN104657111A (zh) * 2013-11-20 2015-05-27 方正信息产业控股有限公司 一种并行计算方法和装置
US9367487B1 (en) * 2009-06-10 2016-06-14 Nvidia Corporation Mitigating main crossbar load using dedicated connections for certain traffic types
CN106325820A (zh) * 2015-06-30 2017-01-11 孟凡金 一种异构处理器构架
US20170288400A1 (en) * 2016-03-29 2017-10-05 Donald Williams Energy process handling system, assembly, and apparatus, and method of using or assembling the same
CN107632965A (zh) * 2017-10-17 2018-01-26 中国科学院计算技术研究所 可重构的s型运算装置及运算方法
CN108197705A (zh) * 2017-12-29 2018-06-22 国民技术股份有限公司 卷积神经网络硬件加速装置及卷积计算方法及存储介质
CN108335716A (zh) * 2018-01-26 2018-07-27 北京航空航天大学 一种基于非易失存储器的内存计算方法
CN108388527A (zh) * 2018-02-02 2018-08-10 上海兆芯集成电路有限公司 直接存储器存取引擎及其方法
CN108874730A (zh) * 2018-06-14 2018-11-23 北京理工大学 一种数据处理器及数据处理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080222360A1 (en) * 2002-11-01 2008-09-11 Semiconductor Technology Academic Research Center Multi-port integrated cache
US9367487B1 (en) * 2009-06-10 2016-06-14 Nvidia Corporation Mitigating main crossbar load using dedicated connections for certain traffic types
CN102609379A (zh) * 2012-02-07 2012-07-25 无锡众志和达存储技术有限公司 一种存储系统的控制器硬件架构
US20130205171A1 (en) * 2012-02-07 2013-08-08 Samsung Electronics Co., Ltd. First and second memory controllers for reconfigurable computing apparatus, and reconfigurable computing apparatus capable of processing debugging trace data
CN104657111A (zh) * 2013-11-20 2015-05-27 方正信息产业控股有限公司 一种并行计算方法和装置
CN106325820A (zh) * 2015-06-30 2017-01-11 孟凡金 一种异构处理器构架
US20170288400A1 (en) * 2016-03-29 2017-10-05 Donald Williams Energy process handling system, assembly, and apparatus, and method of using or assembling the same
CN107632965A (zh) * 2017-10-17 2018-01-26 中国科学院计算技术研究所 可重构的s型运算装置及运算方法
CN108197705A (zh) * 2017-12-29 2018-06-22 国民技术股份有限公司 卷积神经网络硬件加速装置及卷积计算方法及存储介质
CN108335716A (zh) * 2018-01-26 2018-07-27 北京航空航天大学 一种基于非易失存储器的内存计算方法
CN108388527A (zh) * 2018-02-02 2018-08-10 上海兆芯集成电路有限公司 直接存储器存取引擎及其方法
CN108874730A (zh) * 2018-06-14 2018-11-23 北京理工大学 一种数据处理器及数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C. DOU ET AL: "A highly-parallel match architecture for AI production systems using application-specific associative matching processors", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON APPLICATION SPECIFIC ARRAY PROCESSORS (ASAP "93)》 *
张蔚敏: "人工智能芯片产业现状", 《电信网技术》 *

Also Published As

Publication number Publication date
CN110096308B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
US10282659B2 (en) Device for implementing artificial neural network with multiple instruction units
US20180307973A1 (en) Device for implementing artificial neural network with flexible buffer pool structure
US9311596B2 (en) Methods for memory management in parallel networks
CN104035751B (zh) 基于多图形处理器的数据并行处理方法及装置
US8712941B2 (en) Elementary network description for efficient link between neuronal models and neuromorphic systems
US20180307976A1 (en) Device for implementing artificial neural network with separate computation units
CN104036451B (zh) 基于多图形处理器的模型并行处理方法及装置
US8719199B2 (en) Systems and methods for providing a neural network having an elementary network description for efficient implementation of event-triggered plasticity rules
US9104973B2 (en) Elementary network description for neuromorphic systems with plurality of doublets wherein doublet events rules are executed in parallel
US11070623B2 (en) Methods and apparatus for iterative nonspecific distributed runtime architecture and its application to cloud intelligence
US11321607B2 (en) Machine learning network implemented by statically scheduled instructions, with compiler
CN107085562B (zh) 一种基于高效复用数据流的神经网络处理器及设计方法
US20210390460A1 (en) Compute and memory based artificial intelligence model partitioning using intermediate representation
Conte et al. Multi-microprocessor systems for real-time applications
CN114841345A (zh) 一种基于深度学习算法的分布式计算平台及其应用
US20210326189A1 (en) Synchronization of processing elements that execute statically scheduled instructions in a machine learning accelerator
CN111767995A (zh) 运算方法、装置及相关产品
CN110096308A (zh) 一种并行存储运算装置及其方法
CN106909343B (zh) 一种基于数据流的指令调度方法及装置
Tanaka et al. Distributed deep learning with GPU-FPGA heterogeneous computing
US20240112076A1 (en) Synchronization of compute elements executing statically scheduled instructions for a machine learning accelerator
CN116302620B (zh) 一种支持乱序回写和并行化的命令通道
Geyer Optimizing Analytical Query Processing on Disaggregated Hardware.
Liu et al. APapo: An asynchronous parallel optimization method for DNN models
Numan Mapping of processing elements of hardware-based production systems on networks on chip

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant