CN114844757B

CN114844757B - 一种面向分布式并行运算类算法的片上网络设计方法

Info

Publication number: CN114844757B
Application number: CN202210174904.0A
Authority: CN
Inventors: 黄乐天; 邓子阳
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-11-24
Anticipated expiration: 2042-02-24
Also published as: US20230269200A1; CN114844757A

Abstract

本发明涉及计算机算法技术领域，尤其涉及一种面向分布式并行运算类算法的片上网络设计方法，根据片上网络分布式并行计算类算法，将该片上网络分为双层，包括单播网络和多播网络，单播网络实现各节点之间的点对点传播，将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点；多播网络为面向分布式并行计算类算法的定制多播网络，用于向所有运算节点传输共有运算数据，通过单播网络和多播网络的结合实现网络中数据包的高效传输，通过设计面向分布式并行计算类算法的多播树状传输架构，在每个运算节点设置二向复制节点或接收节点，这种架构区别于传统多播片上网络中每个节点都具有多播发送和接收模块，最大限度地减少片上资源的使用。

Description

一种面向分布式并行运算类算法的片上网络设计方法

技术领域

本发明涉及计算机算法技术领域，尤其涉及一种面向分布式并行运算类算法的片上网络设计方法。

背景技术

分布式并行运算广泛存在于各类深度学习、目标跟踪类算法中.分布式并行计算其可以定义为进行一系列运算步骤相同且计算过程中不同计算数据间无数据依赖且可以并行执行的算法。比较典型的分布式运算包括两坐标向量间距离运算、各类矩阵乘法、深度学习算法中的卷积运算等。

分布式并行运算的特点在于运算稠密且去中心化，各数据间运算独立，这类运算在当今的通用处理器(CPU)和通用图形处理器(GPGPU)由于涉及大量运算，实际运算效率很低，因此本专利设计了针对此类运算的片上网络架构，采用定制化硬件加速的形式对此类算法进行加速。

针对分布式并行运算设计硬件加速器，最通常的方法就是使用多个运算单元并每个单元负责一部分运算，所有单元一起并行运算，再将最终的结果整合到一起。然而这种方法带来的最大问题就是在计算结果整合并存储到存储单元的过程中由于运算单元个数数目较多导致在结果存储时存储单元控制信号的译码、选择组合逻辑过大，时序较差。这会影响最高频率的时钟，从而降低整体的性能。

针对多运算单元的并行运算组合逻辑延迟过大这个问题，业内常采用片上网络而非总线、交换矩阵的方式进行各运算单元间的互联，网络化的通信结构在片上众核系统中相比于总线具有多方优势：它能够支持并发数据传输，拥有更易于扩展的拓扑结构，具有更大的通信带宽。网络化的通信结构还提供了丰富的冗余资源，其在可靠性设计上具有更多的选择。片上网络作为网络化通信结构代表被广泛关注和应用。图1为片上网络常见的2D-Mesh结构,其主要由路由器、链路、网络接口组成，其中处理单元可以由存储器接口、通用处理器、硬件加速单元、IO口等组成。

片上网络间传输主要通过收发包的形式，路由器是片上网络主要的组件，它主要负责数据包的暂存和定向，可以理解为网络中数据传输的中转站。链路将片上网络的各个组件连接成一个连通的网络，其通过上游路由器输出寄存级和下游路由器输入缓存器的连接来实现收发包。网络接口负责将处理单元的数据打包发送和将路由器发来的包拆解后发送给处理单元。

片上网络的数据包由一个源节点发出，其目的节点可能有一个或多个，当目的节点只有一个称为单播，有多个则称为多播。由于多播数据包需要保存多个目的节点位置，其数据包格式相比于单播数据包格式更为复杂，目前常见的多播策略包括以单播形式进行多播操作，即依次向多个目标节点发送单播数据包，但这种方案实现简单但带来的问题就是会极大的增加网络流量。另一种方式被称为虚拟电路多播树(VCTM)，其在每个路由表上都增加了一个路由表，在每次多播开始前用单播形式将该次多播的配置包发送到对应节点的路由表上，发送多播包的时候会根据路由表的对应相同索引ID来配置分叉方向以及路由器是否分叉通过。这类通用性的多播网络带来的问题就是会增加网络中的包负载，并且会极大增加片上网络的布线资源消耗。

目前的通用处理器(CPU)和通用图像处理器(GPGPU)都难以满足分布式并行计算类算法的实时性要求。因此我们需要针对该算法的特点，设计了定制化的硬件。

本申请通过设计了面向此类算法的定制化片上网络解决了传统包含多运算单元的硬件加速器因总线互联组合逻辑延迟过大带来的时钟频率较低的问题，同时还解决了通用片上网络单播和多播共用一个网络导致的网络通信效率低下、网络耗费硬件资源多等问题。

由于本片上网络面向分布式并行运算类算法，此类算法具有相似的运算结构，可以将此类运算拆分为多组，例如此类算法中典型的几种算法：在两坐标向量中进行各坐标间的所有距离运算，依次进行一个坐标M与不同的坐标N之间的运算；两矩阵乘法，行P与不同的列Q间乘法运算；卷积运算中同一个卷积核与不同的矩阵之间做卷积……这一类算法用同样的数据计算这一特性对应于片上网络的多播场景，即只将相同的运算数据从数据接收节点发送到每一个运算节点。而传统多播方法所有节点都可发送多播包，此类方法在实现过程中占用大量的片上资源，同时也造成了硬件资源的冗余。

为了最大限度的在保证分布式并行计算类算法在片上网络实现的多播效率的同时节约片上资源，本申请提出了单播网加定向多播网这一新式网络结构，在常见的mesh网络的基础上设计了面向分布式并行计算类算法的多播网络。该多播网络为定向多播网络，由数据输入节点为源头向各运算节点发送多播数据。本申请通过设计针对该多播场景的树状复制电路单元来实现多播数据的快速传递并且不消耗较多的片上资源，进而有效的提高了网络整体通信效率。

发明内容

(一)要解决的技术问题

解决传统包含多运算单元的硬件加速器因总线互联组合逻辑延迟过大带来的时钟频率较低，同时还解决了通用片上网络单播和多播共用一个网络导致的网络通信效率低下、网络耗费硬件资源多的问题，提供了一种面向分布式并行运算类算法的片上网络设计方法。

(二)技术方案

一种面向分布式并行计算算法的片上网络设计方法，根据片上网络分布式并行计算类算法，将该片上网络分为双层，包括单播网络和多播网络，单播网络实现各节点之间的点对点传播，将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点；多播网络为面向分布式并行计算类算法的定制多播网络，用于向所有运算节点传输共有运算数据，通过单播网络和多播网络的结合实现网络中数据包的高效传输。

作为优选的技术方案，多播网络包含两种节点，分别为二向复制节点和接收节点，每一个二向复制节点的下一级都连接两个二向复制节点或接收节点，多播网络中所有的节点共同组成了一个树状的节点图，每次多播操作都由树的最顶端节点传向所有树的最低端节点，二向复制节点加接收节点的合理设计，能够保证资源使用量较小时获得较好的性能。

作为优选的技术方案，二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点，最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。

作为优选的技术方案，整个片上网络运行流程如下：

s1、当一次算法运算开始时数据输入节点会接收到传感器发来的多播数据和单播数据，而后该节点会将多播数据打包并通过多播网络进行多播操作，将多播数据发送到每个运算节点中，而后将单播数据依次打包，并在单播网络中通过单播操作发送到对应的运算节点中；

s2、各运算节点在接收到对应的多播数据和单播数据后开始运算，并在运算过程中不断将运算结果打包并发往存储节点，直到所有的分布式并行运算都完成后，RISC-V处理器节点会通过单播网络的方式对存储的数据进行一个访问。

(三)有益效果

本发明的有益效果在于：

1、本片上网络面向分布式并行计算类算法，提供了这一类算法的片上网络硬件加速方案。

2、本片上网络通过设计独立的多播网络将多播和单播行为分开，解决了单个网络中流量大、网络容易堵塞的问题。

3、通过设计面向分布式并行计算类算法的多播树状传输架构，只在每个运算节点设置二向复制节点或接收节点，这种架构区别于传统多播片上网络中每个节点都具有多播发送和接收模块，最大限度地减少了片上资源的使用，树状结构每一级挂载的节点数的指数增长特性也有效降低了多播数据包从最上级传到最下级的总时延，有效的提高了片上网络运行算法的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为MESH片上网络典型结构图；

图2为双层片上网络架构图；

图3为二向复制节点微架构；

具体实施方式

结合附图对本发明一种面向分布式并行运算类算法的片上网络设计方法，做进一步说明，下面结合实施例对本发明作进一步详述：

进一步的，多播网络包含两种节点，分别为二向复制节点和接收节点，每一个二向复制节点的下一级都连接两个二向复制节点或接收节点，多播网络中所有的节点共同组成了一个树状的节点图，每次多播操作都由树的最顶端节点传向所有树的最低端节点，二向复制节点加接收节点的合理设计，能够保证资源使用量较小时获得较好的性能。

进一步的，二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点，最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。

进一步的，整个片上网络运行流程如下：

工作原理：如图2所示，单播网络采取N*N的Mesh网络拓扑的片上网络。该网络中单播网络中节点有以下几种：1、数据输入节点，负责接收传感器或网络上级传输过来的新探测到的数据，并将这些数据对应的打包成单播数据包和多播数据包，并分别通过单播网络和多播网络将这些数据包发送到对应的运算节点。2、包含运算单元的节点，其负责在接收到发往此节点的单播和多播数据包后将数据包解包并存储，而后运算单元调用多播包和单播包对应的数据进行运算，并将计算结果打包并发往对应的存储单元。3、只负责收发包的节点，该类节点只负责将单播网络中的包根据其目的节点按X方向或Y方向传播，不包含解包和数据存储单元。4、包含存储单元的节点，该类节点存储所有的有效结果，并支持其他节点向该节点发出请求，该节点接收到请求后会返回包含有求数据的包至该节点。5、包含RISC-V处理器的节点，该节点上挂载了一个RISC-V处理器，该处理器用于完成片上网络计算单元运算内容之外的算法，例如在该片上网络在完成深度学习算法中的卷积运算后，RISC-V处理器会调用存储节点中的数据完成后续的池化、全连接等操作。

多播网络包含二向复制节点和接收节点，每一个二向复制节点的下一级都连接两个二向复制节点或接收节点，多播网络中所有的节点共同组成了一个树状的节点图。每次多播操作都由树的最顶端节点传向所有树的最低端节点。二向复制节点的微架构如图3所示，其包含控制逻辑和双口缓存两部分组成，当控制逻辑接收到Start_In信号后，代表上一级双口缓存的B端开始传输数据，之后本级的控制逻辑会向双口缓存的A口发送写入的地址、使能信号，并将上级发来的数据保存下来，直到上级发送Finish_In信号，完成所有数据的保存。而后本级控制逻辑会发送Start_Out信号并开始向双口存储的B口发出读地址和读使能信号，直到将上一级发来的所有数据全部发送后发出Finish_Out信号，当该级完成多播操作后，控制逻辑会再次调用A口的读操作，读出多播包中的有效数据，并结合单播包中数据，调用运算单元完成运算。

上面的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.一种面向分布式并行运算类算法的片上网络设计方法，其特征在于：根据片上网络分布式并行计算类算法，将该片上网络分为双层，包括单播网络和多播网络，所述单播网络实现各节点之间的点对点传播，将各运算节点所需的独立运算数据通过单播的形式传递给每一个运算节点；所述多播网络为面向分布式并行计算类算法的定制多播网络，用于向所有运算节点传输共有运算数据，所述多播网络包含两种节点，分别为二向复制节点和接收节点，每一个所述二向复制节点的下一级都连接两个二向复制节点或接收节点，多播网络中所有的节点共同组成了一个树状的节点图，每次多播操作都由树的最顶端节点传向所有树的最低端节点，所述二向复制节点解码并保存上一级发送过来的多播包中数据的同时将该数据包复制并传送给下级的两个节点，最后一级的节点为接收并解码多播包并将数据保存下来的接收节点。

2.如权利要求1所述的一种面向分布式并行运算类算法的片上网络设计方法，其特征在于：整个片上网络运行流程如下：