CN114844757B - 一种面向分布式并行运算类算法的片上网络设计方法 - Google Patents

一种面向分布式并行运算类算法的片上网络设计方法 Download PDF

Info

Publication number
CN114844757B
CN114844757B CN202210174904.0A CN202210174904A CN114844757B CN 114844757 B CN114844757 B CN 114844757B CN 202210174904 A CN202210174904 A CN 202210174904A CN 114844757 B CN114844757 B CN 114844757B
Authority
CN
China
Prior art keywords
network
node
multicast
data
unicast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210174904.0A
Other languages
English (en)
Other versions
CN114844757A (zh
Inventor
黄乐天
邓子阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202210174904.0A priority Critical patent/CN114844757B/zh
Publication of CN114844757A publication Critical patent/CN114844757A/zh
Priority to US18/068,710 priority patent/US20230269200A1/en
Application granted granted Critical
Publication of CN114844757B publication Critical patent/CN114844757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • H04L49/109Integrated on microchip, e.g. switch-on-chip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/20Support for services
    • H04L49/201Multicast operation; Broadcast operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • H04L49/3063Pipelined operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/54Store-and-forward switching systems 
    • H04L12/56Packet switching systems
    • H04L12/5601Transfer mode dependent, e.g. ATM
    • H04L2012/5638Services, e.g. multimedia, GOS, QOS
    • H04L2012/564Connection-oriented
    • H04L2012/5641Unicast/point-to-point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/54Store-and-forward switching systems 
    • H04L12/56Packet switching systems
    • H04L12/5601Transfer mode dependent, e.g. ATM
    • H04L2012/5638Services, e.g. multimedia, GOS, QOS
    • H04L2012/564Connection-oriented
    • H04L2012/5642Multicast/broadcast/point-multipoint, e.g. VOD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及计算机算法技术领域,尤其涉及一种面向分布式并行运算类算法的片上网络设计方法,根据片上网络分布式并行计算类算法,将该片上网络分为双层,包括单播网络和多播网络,单播网络实现各节点之间的点对点传播,将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点;多播网络为面向分布式并行计算类算法的定制多播网络,用于向所有运算节点传输共有运算数据,通过单播网络和多播网络的结合实现网络中数据包的高效传输,通过设计面向分布式并行计算类算法的多播树状传输架构,在每个运算节点设置二向复制节点或接收节点,这种架构区别于传统多播片上网络中每个节点都具有多播发送和接收模块,最大限度地减少片上资源的使用。

Description

一种面向分布式并行运算类算法的片上网络设计方法
技术领域
本发明涉及计算机算法技术领域,尤其涉及一种面向分布式并行运算类算法的片上网络设计方法。
背景技术
分布式并行运算广泛存在于各类深度学习、目标跟踪类算法中.分布式并行计算其可以定义为进行一系列运算步骤相同且计算过程中不同计算数据间无数据依赖且可以并行执行的算法。比较典型的分布式运算包括两坐标向量间距离运算、各类矩阵乘法、深度学习算法中的卷积运算等。
分布式并行运算的特点在于运算稠密且去中心化,各数据间运算独立,这类运算在当今的通用处理器(CPU)和通用图形处理器(GPGPU)由于涉及大量运算,实际运算效率很低,因此本专利设计了针对此类运算的片上网络架构,采用定制化硬件加速的形式对此类算法进行加速。
针对分布式并行运算设计硬件加速器,最通常的方法就是使用多个运算单元并每个单元负责一部分运算,所有单元一起并行运算,再将最终的结果整合到一起。然而这种方法带来的最大问题就是在计算结果整合并存储到存储单元的过程中由于运算单元个数数目较多导致在结果存储时存储单元控制信号的译码、选择组合逻辑过大,时序较差。这会影响最高频率的时钟,从而降低整体的性能。
针对多运算单元的并行运算组合逻辑延迟过大这个问题,业内常采用片上网络而非总线、交换矩阵的方式进行各运算单元间的互联,网络化的通信结构在片上众核系统中相比于总线具有多方优势:它能够支持并发数据传输,拥有更易于扩展的拓扑结构,具有更大的通信带宽。网络化的通信结构还提供了丰富的冗余资源,其在可靠性设计上具有更多的选择。片上网络作为网络化通信结构代表被广泛关注和应用。图1为片上网络常见的2D-Mesh结构,其主要由路由器、链路、网络接口组成,其中处理单元可以由存储器接口、通用处理器、硬件加速单元、IO口等组成。
片上网络间传输主要通过收发包的形式,路由器是片上网络主要的组件,它主要负责数据包的暂存和定向,可以理解为网络中数据传输的中转站。链路将片上网络的各个组件连接成一个连通的网络,其通过上游路由器输出寄存级和下游路由器输入缓存器的连接来实现收发包。网络接口负责将处理单元的数据打包发送和将路由器发来的包拆解后发送给处理单元。
片上网络的数据包由一个源节点发出,其目的节点可能有一个或多个,当目的节点只有一个称为单播,有多个则称为多播。由于多播数据包需要保存多个目的节点位置,其数据包格式相比于单播数据包格式更为复杂,目前常见的多播策略包括以单播形式进行多播操作,即依次向多个目标节点发送单播数据包,但这种方案实现简单但带来的问题就是会极大的增加网络流量。另一种方式被称为虚拟电路多播树(VCTM),其在每个路由表上都增加了一个路由表,在每次多播开始前用单播形式将该次多播的配置包发送到对应节点的路由表上,发送多播包的时候会根据路由表的对应相同索引ID来配置分叉方向以及路由器是否分叉通过。这类通用性的多播网络带来的问题就是会增加网络中的包负载,并且会极大增加片上网络的布线资源消耗。
目前的通用处理器(CPU)和通用图像处理器(GPGPU)都难以满足分布式并行计算类算法的实时性要求。因此我们需要针对该算法的特点,设计了定制化的硬件。
本申请通过设计了面向此类算法的定制化片上网络解决了传统包含多运算单元的硬件加速器因总线互联组合逻辑延迟过大带来的时钟频率较低的问题,同时还解决了通用片上网络单播和多播共用一个网络导致的网络通信效率低下、网络耗费硬件资源多等问题。
由于本片上网络面向分布式并行运算类算法,此类算法具有相似的运算结构,可以将此类运算拆分为多组,例如此类算法中典型的几种算法:在两坐标向量中进行各坐标间的所有距离运算,依次进行一个坐标M与不同的坐标N之间的运算;两矩阵乘法,行P与不同的列Q间乘法运算;卷积运算中同一个卷积核与不同的矩阵之间做卷积……这一类算法用同样的数据计算这一特性对应于片上网络的多播场景,即只将相同的运算数据从数据接收节点发送到每一个运算节点。而传统多播方法所有节点都可发送多播包,此类方法在实现过程中占用大量的片上资源,同时也造成了硬件资源的冗余。
为了最大限度的在保证分布式并行计算类算法在片上网络实现的多播效率的同时节约片上资源,本申请提出了单播网加定向多播网这一新式网络结构,在常见的mesh网络的基础上设计了面向分布式并行计算类算法的多播网络。该多播网络为定向多播网络,由数据输入节点为源头向各运算节点发送多播数据。本申请通过设计针对该多播场景的树状复制电路单元来实现多播数据的快速传递并且不消耗较多的片上资源,进而有效的提高了网络整体通信效率。
发明内容
(一)要解决的技术问题
解决传统包含多运算单元的硬件加速器因总线互联组合逻辑延迟过大带来的时钟频率较低,同时还解决了通用片上网络单播和多播共用一个网络导致的网络通信效率低下、网络耗费硬件资源多的问题,提供了一种面向分布式并行运算类算法的片上网络设计方法。
(二)技术方案
一种面向分布式并行计算算法的片上网络设计方法,根据片上网络分布式并行计算类算法,将该片上网络分为双层,包括单播网络和多播网络,单播网络实现各节点之间的点对点传播,将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点;多播网络为面向分布式并行计算类算法的定制多播网络,用于向所有运算节点传输共有运算数据,通过单播网络和多播网络的结合实现网络中数据包的高效传输。
作为优选的技术方案,多播网络包含两种节点,分别为二向复制节点和接收节点,每一个二向复制节点的下一级都连接两个二向复制节点或接收节点,多播网络中所有的节点共同组成了一个树状的节点图,每次多播操作都由树的最顶端节点传向所有树的最低端节点,二向复制节点加接收节点的合理设计,能够保证资源使用量较小时获得较好的性能。
作为优选的技术方案,二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点,最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。
作为优选的技术方案,整个片上网络运行流程如下:
s1、当一次算法运算开始时数据输入节点会接收到传感器发来的多播数据和单播数据,而后该节点会将多播数据打包并通过多播网络进行多播操作,将多播数据发送到每个运算节点中,而后将单播数据依次打包,并在单播网络中通过单播操作发送到对应的运算节点中;
s2、各运算节点在接收到对应的多播数据和单播数据后开始运算,并在运算过程中不断将运算结果打包并发往存储节点,直到所有的分布式并行运算都完成后,RISC-V处理器节点会通过单播网络的方式对存储的数据进行一个访问。
(三)有益效果
本发明的有益效果在于:
1、本片上网络面向分布式并行计算类算法,提供了这一类算法的片上网络硬件加速方案。
2、本片上网络通过设计独立的多播网络将多播和单播行为分开,解决了单个网络中流量大、网络容易堵塞的问题。
3、通过设计面向分布式并行计算类算法的多播树状传输架构,只在每个运算节点设置二向复制节点或接收节点,这种架构区别于传统多播片上网络中每个节点都具有多播发送和接收模块,最大限度地减少了片上资源的使用,树状结构每一级挂载的节点数的指数增长特性也有效降低了多播数据包从最上级传到最下级的总时延,有效的提高了片上网络运行算法的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为MESH片上网络典型结构图;
图2为双层片上网络架构图;
图3为二向复制节点微架构;
具体实施方式
结合附图对本发明一种面向分布式并行运算类算法的片上网络设计方法,做进一步说明,下面结合实施例对本发明作进一步详述:
一种面向分布式并行计算算法的片上网络设计方法,根据片上网络分布式并行计算类算法,将该片上网络分为双层,包括单播网络和多播网络,单播网络实现各节点之间的点对点传播,将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点;多播网络为面向分布式并行计算类算法的定制多播网络,用于向所有运算节点传输共有运算数据,通过单播网络和多播网络的结合实现网络中数据包的高效传输。
进一步的,多播网络包含两种节点,分别为二向复制节点和接收节点,每一个二向复制节点的下一级都连接两个二向复制节点或接收节点,多播网络中所有的节点共同组成了一个树状的节点图,每次多播操作都由树的最顶端节点传向所有树的最低端节点,二向复制节点加接收节点的合理设计,能够保证资源使用量较小时获得较好的性能。
进一步的,二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点,最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。
进一步的,整个片上网络运行流程如下:
s1、当一次算法运算开始时数据输入节点会接收到传感器发来的多播数据和单播数据,而后该节点会将多播数据打包并通过多播网络进行多播操作,将多播数据发送到每个运算节点中,而后将单播数据依次打包,并在单播网络中通过单播操作发送到对应的运算节点中;
s2、各运算节点在接收到对应的多播数据和单播数据后开始运算,并在运算过程中不断将运算结果打包并发往存储节点,直到所有的分布式并行运算都完成后,RISC-V处理器节点会通过单播网络的方式对存储的数据进行一个访问。
工作原理:如图2所示,单播网络采取N*N的Mesh网络拓扑的片上网络。该网络中单播网络中节点有以下几种:1、数据输入节点,负责接收传感器或网络上级传输过来的新探测到的数据,并将这些数据对应的打包成单播数据包和多播数据包,并分别通过单播网络和多播网络将这些数据包发送到对应的运算节点。2、包含运算单元的节点,其负责在接收到发往此节点的单播和多播数据包后将数据包解包并存储,而后运算单元调用多播包和单播包对应的数据进行运算,并将计算结果打包并发往对应的存储单元。3、只负责收发包的节点,该类节点只负责将单播网络中的包根据其目的节点按X方向或Y方向传播,不包含解包和数据存储单元。4、包含存储单元的节点,该类节点存储所有的有效结果,并支持其他节点向该节点发出请求,该节点接收到请求后会返回包含有求数据的包至该节点。5、包含RISC-V处理器的节点,该节点上挂载了一个RISC-V处理器,该处理器用于完成片上网络计算单元运算内容之外的算法,例如在该片上网络在完成深度学习算法中的卷积运算后,RISC-V处理器会调用存储节点中的数据完成后续的池化、全连接等操作。
多播网络包含二向复制节点和接收节点,每一个二向复制节点的下一级都连接两个二向复制节点或接收节点,多播网络中所有的节点共同组成了一个树状的节点图。每次多播操作都由树的最顶端节点传向所有树的最低端节点。二向复制节点的微架构如图3所示,其包含控制逻辑和双口缓存两部分组成,当控制逻辑接收到Start_In信号后,代表上一级双口缓存的B端开始传输数据,之后本级的控制逻辑会向双口缓存的A口发送写入的地址、使能信号,并将上级发来的数据保存下来,直到上级发送Finish_In信号,完成所有数据的保存。而后本级控制逻辑会发送Start_Out信号并开始向双口存储的B口发出读地址和读使能信号,直到将上一级发来的所有数据全部发送后发出Finish_Out信号,当该级完成多播操作后,控制逻辑会再次调用A口的读操作,读出多播包中的有效数据,并结合单播包中数据,调用运算单元完成运算。
上面的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (2)

1.一种面向分布式并行运算类算法的片上网络设计方法,其特征在于:根据片上网络分布式并行计算类算法,将该片上网络分为双层,包括单播网络和多播网络,所述单播网络实现各节点之间的点对点传播,将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点;所述多播网络为面向分布式并行计算类算法的定制多播网络,用于向所有运算节点传输共有运算数据,所述多播网络包含两种节点,分别为二向复制节点和接收节点,每一个所述二向复制节点的下一级都连接两个二向复制节点或接收节点,多播网络中所有的节点共同组成了一个树状的节点图,每次多播操作都由树的最顶端节点传向所有树的最低端节点,所述二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点,最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。
2.如权利要求1所述的一种面向分布式并行运算类算法的片上网络设计方法,其特征在于:整个片上网络运行流程如下:
s1、当一次算法运算开始时数据输入节点会接收到传感器发来的多播数据和单播数据,而后该节点会将多播数据打包并通过多播网络进行多播操作,将多播数据发送到每个运算节点中,而后将单播数据依次打包,并在单播网络中通过单播操作发送到对应的运算节点中;
s2、各运算节点在接收到对应的多播数据和单播数据后开始运算,并在运算过程中不断将运算结果打包并发往存储节点,直到所有的分布式并行运算都完成后,RISC-V处理器节点会通过单播网络的方式对存储的数据进行一个访问。
CN202210174904.0A 2022-02-24 2022-02-24 一种面向分布式并行运算类算法的片上网络设计方法 Active CN114844757B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210174904.0A CN114844757B (zh) 2022-02-24 2022-02-24 一种面向分布式并行运算类算法的片上网络设计方法
US18/068,710 US20230269200A1 (en) 2022-02-24 2022-12-20 On-chip network design method for distributed parallel operation algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210174904.0A CN114844757B (zh) 2022-02-24 2022-02-24 一种面向分布式并行运算类算法的片上网络设计方法

Publications (2)

Publication Number Publication Date
CN114844757A CN114844757A (zh) 2022-08-02
CN114844757B true CN114844757B (zh) 2023-11-24

Family

ID=82561436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210174904.0A Active CN114844757B (zh) 2022-02-24 2022-02-24 一种面向分布式并行运算类算法的片上网络设计方法

Country Status (2)

Country Link
US (1) US20230269200A1 (zh)
CN (1) CN114844757B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102883277A (zh) * 2012-10-25 2013-01-16 赵久旸 基于可靠多播mac层协议的协同通信方法
CN103124420A (zh) * 2013-01-21 2013-05-29 电子科技大学 一种无线片上网络架构方法
CN107046500A (zh) * 2017-05-19 2017-08-15 合肥工业大学 一种应用于层次化片上网络的两级拆分路由器及其路由算法
CN108256628A (zh) * 2018-01-15 2018-07-06 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式
CN108924055A (zh) * 2018-08-23 2018-11-30 北京理工大学 一种基于斯坦纳树的命名数据网络多播路由方法
CN111786911A (zh) * 2020-05-26 2020-10-16 重庆邮电大学 一种混合无线光片上网络架构及其多播路由算法
CN112468401A (zh) * 2020-11-26 2021-03-09 中国人民解放军国防科技大学 用于类脑处理器的片上网络路由通信方法及片上网络
CN112729395A (zh) * 2020-12-23 2021-04-30 电子科技大学 一种面向复杂SoC可靠性监测的片上传感器读出系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL150281A0 (en) * 2002-06-18 2002-12-01 Teracross Ltd Method and system for multicast and unicast scheduling
US9813327B2 (en) * 2014-09-23 2017-11-07 Cavium, Inc. Hierarchical hardware linked list approach for multicast replication engine in a network ASIC

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102883277A (zh) * 2012-10-25 2013-01-16 赵久旸 基于可靠多播mac层协议的协同通信方法
CN103124420A (zh) * 2013-01-21 2013-05-29 电子科技大学 一种无线片上网络架构方法
CN107046500A (zh) * 2017-05-19 2017-08-15 合肥工业大学 一种应用于层次化片上网络的两级拆分路由器及其路由算法
CN108256628A (zh) * 2018-01-15 2018-07-06 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式
CN108924055A (zh) * 2018-08-23 2018-11-30 北京理工大学 一种基于斯坦纳树的命名数据网络多播路由方法
CN111786911A (zh) * 2020-05-26 2020-10-16 重庆邮电大学 一种混合无线光片上网络架构及其多播路由算法
CN112468401A (zh) * 2020-11-26 2021-03-09 中国人民解放军国防科技大学 用于类脑处理器的片上网络路由通信方法及片上网络
CN112729395A (zh) * 2020-12-23 2021-04-30 电子科技大学 一种面向复杂SoC可靠性监测的片上传感器读出系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
mTREE: A Customized Multicast-Enabled Tree-Based Network on Chip for AI Chips;Yong Zheng; Haigang Yang; Yi Shu; Yiping Jia; Zhihong Huang;《IEEE Embedded Systems Letters》;第第14卷卷(第第3期期);全文 *
同构与异构片上多核系统的演进过程;黄乐天,别丽华;《电子技术应用》;第第43卷卷(第第3期期);全文 *

Also Published As

Publication number Publication date
US20230269200A1 (en) 2023-08-24
CN114844757A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN110610236B (zh) 一种用于执行神经网络运算的装置及方法
US6795886B1 (en) Interconnect switch method and apparatus
US5175733A (en) Adaptive message routing for multi-dimensional networks
US8769459B2 (en) High-end fault-tolerant computer system and method for same
EP0439693B1 (en) Multiprocessing packet switching connection system having provision for error correction and recovery
Kumar et al. Optimization of all-to-all communication on the blue gene/l supercomputer
CN101488922B (zh) 具备自适应路由能力的片上网络路由器及其实现方法
JP2642049B2 (ja) 任意に変化するデータ・ストライドで情報を転送する方法及び装置
US7889725B2 (en) Computer cluster
CN109873771B (zh) 一种片上网络系统及其通信方法
JP2004525449A (ja) 相互接続システム
CN114647602B (zh) 一种跨芯片访问控制的方法、装置、设备及介质
US20240045869A1 (en) A method and device of data transmission
CN112189324B (zh) 带宽匹配的调度器
CN114564434B (zh) 一种通用多核类脑处理器、加速卡及计算机设备
CN106844263B (zh) 一种基于可配置的多处理器计算机系统及实现方法
CN112367279A (zh) 一种基于二维mesh结构多核芯片组的路由方法及系统
CN103902505A (zh) 一种基于开关网络的可配置fft处理器电路结构
CN114138707B (zh) 一种基于fpga的数据传输系统
CN116383114B (zh) 芯片、芯片互联系统、数据传输方法、电子设备和介质
CN114844757B (zh) 一种面向分布式并行运算类算法的片上网络设计方法
CN111901257B (zh) 一种交换机、报文转发方法及电子设备
CN104035896A (zh) 一种适用于2.5d多核系统的融合存储器的片外加速器
US20110270942A1 (en) Combining multiple hardware networks to achieve low-latency high-bandwidth point-to-point communication
Bay et al. Deterministic on-line routing on area-universal networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant