CN108415771A

CN108415771A - 多芯片分布式并行计算加速系统

Info

Publication number: CN108415771A
Application number: CN201810103246.XA
Authority: CN
Inventors: 陆洪毅; 张志文; 刘玖阳; 卢仕
Original assignee: Shenzhen Anxin Intelligent Control Technology Co Ltd
Current assignee: Shenzhen Anxin Intelligent Control Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-08-17

Abstract

本发明涉及并行运算加速领域，公开了一种多芯片分布式并行计算加速系统，包括含有n个加速芯片单元的加速芯片级联阵列、控制端、命令/任务分发通路和计算结果上传通路，加速芯片单元包括计算核心、子任务缓存器和计算结果缓存器，控制端通过命令/任务分发通路向加速芯片单元发送任务数据包，子任务缓存器接收子任务并缓存后，计算核心按照计算命令依次执行子任务，并将计算结果暂存在计算结果缓存器，接收上传指令的加速芯片单元通过计算结果上传通路与控制端形成回路，将暂存的计算结果上传至控制端。本发明充分利用每个加速芯片单元的计算能力，降低命令/任务分发和计算结果上传时间，提升整个加速系统的加速计算效果。

Description

多芯片分布式并行计算加速系统

技术领域

本发明涉及并行运算加速领域，具体涉及一种多芯片分布式并行计算加速系统。

背景技术

分布式计算是一种新的计算方式，它研究的是如何将一个需要非常巨大的计算能力、或者需要非常长计算时间才能解决的问题分成许多小部分，再将这些小的部分分别分配给多个专用芯片进行计算处理，最后再把每个芯片的计算结果综合起来，得到最终的结果。在这个过程中，控制端负责对外通信，获取总的计算任务，然后将这个总的计算任务分成多个小的计算部分，并将这些部分分配给系统内级联的专用加速芯片阵列进行并行处理，每个专用加速芯片则分别处理各自的子任务，并将各自的计算结果返回至控制端，再由控制端进行综合评定得到最终结果。

迄今为止，已经有应用采用并行专用加速来解决实际问题。例如将单片机与多个DSP相结合进行数字信号处理，其中单片机为控制端，负责系统对外的通信，并分发计算任务和回收计算结果；DSP为专用加速芯片，负责对由单片机发送的数据进行专用数字信号处理，然后将计算结果发回至单片机，这就是一种分布式并行计算专用加速思想。需要注意的是，现今的并行专用加速系统主要研究重点在于提升单个专用加速芯片的计算能力，对整个系统计算资源的调配和控制则研究较少。

对于并行计算加速系统而言，虽然决定整个系统运算能力的主要因素是每个专用加速芯片的计算能力，但当总任务更新较快且总任务所需计算能力较大的情况下，多个子任务由控制端传输至每个专用加速芯片的时间，以及每个专用加速芯片上传结果数据至控制端的时间等也会成为限制整个并行计算专用加速系统计算能力的关键因素。因此，除了在芯片设计时提升单个加速芯片的计算能力之外，还必须采用合适的加速系统体系结构，降低任务分发和结果上传时间，并对每个加速系统进行良好地调度，以确保每个专用加速芯片的计算能力能得到充分利用。

中国发明专利申请(公开日：2013年12月04日、公开号：103428217A)公开了一种分布式并行计算的作业分配方法及分配系统，该分配方法包括：客户端与多个服务器建立网络联接，将复杂计算任务划分为一系列独立计算任务；客户端创建多个线程并由这些线程将独立计算任务分别分配至多个服务器及客户端自身；多个服务器及客户端采用共享内存式并行方法对分配到的计算任务进行运算；计算完毕后，客户端接收各服务器返回的运算结果。本发明分布式并行分配方法，通过将总的计算任务集划分为一系列独立计算任务，同时在在多个服务器及客户端上采用共享内存式的方法进行并行计算，简化了服务器端的安装程序，并节省了大量数据网络传输的耗时，提高了并行计算的效率，但是在任务分发和结果上传时间，并对每个加速系统进行调度，以确保每个专用加速芯片的计算能力能得到充分利用的问题上没有很好的解决。

发明内容

本发明的目的就是针对上述技术的不足，提供一种多芯片分布式并行计算加速系统充分利用每个加速芯片单元的计算能力，降低命令/任务分发和计算结果上传时间，提升整个加速系统的加速计算效果。

为实现上述目的，本发明所设计的多芯片分布式并行计算加速系统，包括含有第1～第n共n个加速芯片单元的加速芯片级联阵列，还包括控制端、命令/任务分发通路和计算结果上传通路，n个所述加速芯片单元并联连接，每个所述加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器，所述控制端获取总任务并将总任务拆分成若干个子任务，然后通过所述命令/任务分发通路向所述加速芯片级联阵列内的加速芯片单元发送任务数据包，所述任务数据包包括若干个与所述加速芯片单元计算能力匹配的子任务及与所述子任务相对应的计算命令，所述加速芯片单元的子任务缓存器接收所述子任务并缓存后，所述计算核心按照所述计算命令依次执行所述子任务，并将计算结果暂存在所述计算结果缓存器，所述加速芯片级联阵列中生成一个上传指令，所述上传指令在并联的n个加速芯片单元之间逐级传输，接收所述上传指令的加速芯片单元通过所述计算结果上传通路与所述控制端形成回路，所述计算结果缓存器将暂存的计算结果上传至所述控制端。

优选地，每个所述加速芯片单元接收到的子任务总量与所述加速芯片单元的计算能力线性相关，使所有所述加速芯片单元在同一时刻完全当前总任务的计算，以同时进入下一个总任务的计算，提升并行计算的效率。

优选地，所述控制端通过所述命令/任务分发通路向第x(x≤n)个所述加速芯片单元发送任务数据包时，所述任务数据包包括第x个加速芯片单元的ID信息，所述任务数据包经由第1个加速芯片单元向后逐级传输，第1至第x-1个加速芯片单元验证所述ID信息后不对所述任务数据包进行操作，直接将所述任务数据包传输至下一级加速芯片单元，第x个加速芯片单元验证所述ID信息后接收所述数据包。

优选地，所述任务数据包从第1个加速芯片单元依次传输至第n个加速芯片单元后，继续传输至所述控制端进行数据校验。

优选地，所述上传指令传输至第x(x≤n)个加速芯片单元时，第x个加速芯片单元独享所述计算结果上传通路，其它加速芯片单元处于旁路模式，当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至所述控制端后，第x个加速芯片单元释放所述上传指令，所述上传指令传输至第x+1个加速芯片单元。

优选地，当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时，所述上传指令直接传输至第x+2个加速芯片单元。

本发明与现有技术相比，具有以下优点：

1、通过将命令/任务分发通路和计算结果上传通路分开减少了数据分发与计算结果上传的时间，降低了数据传输的冲突率，提升并行计算效率；

2、任务数据包传输至控制端进行数据校验，保证了发送数据的正确性；

3、通过加速芯片单元的子任务缓存器缓存多个子任务，避免当前子任务完成后处于新任务等待状态，造成计算资源的浪费；

4、控制端根据加速芯片单元的计算能力分发每个加速芯片单元处理的子任务难度或计算空间，使所有加速芯片单元在同一时刻完全当前总任务的计算，以同时进入下一个总任务的计算，提升并行计算的效率；

5、通过唯一的上传指令，防止计算结果上传冲突。

6、本多芯片分布式并行计算加速系统能够充分利用每个加速芯片单元的计算能力，并降低命令/任务分发和计算结果上传时间，进而提升整个加速系统的加速计算效果。

附图说明

图1为本发明多芯片分布式并行计算加速系统的流程示意图；

图2为本发明多芯片分布式并行计算加速系统中加速芯片单元的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

一种多芯片分布式并行计算加速系统，如图1所示，包括含有第1～第n共n个加速芯片单元的加速芯片级联阵列，还包括控制端、命令/任务分发通路和计算结果上传通路，n个加速芯片单元并联连接，每个加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器，如图2所示，控制端获取总任务并将总任务拆分成若干个子任务，然后通过命令/任务分发通路向加速芯片级联阵列内的加速芯片单元发送任务数据包，任务数据包包括若干个与加速芯片单元计算能力匹配的子任务及与子任务相对应的计算命令，每个加速芯片单元接收到的子任务总量与加速芯片单元的计算能力线性相关，加速芯片单元的子任务缓存器接收子任务并缓存后，计算核心按照计算命令依次执行子任务，并将计算结果暂存在计算结果缓存器，加速芯片级联阵列中生成一个上传指令，上传指令在并联的n个加速芯片单元之间逐级传输，接收上传指令的加速芯片单元通过计算结果上传通路与控制端形成回路，计算结果缓存器将暂存的计算结果上传至控制端。

如图1所示，控制端通过命令/任务分发通路向第x(x≤n)个加速芯片单元发送任务数据包时，任务数据包包括第x个加速芯片单元的ID信息，任务数据包经由第1个加速芯片单元向后逐级传输，第1至第x-1个加速芯片单元验证ID信息后不对任务数据包进行操作，直接将任务数据包传输至下一级加速芯片单元，第x个加速芯片单元验证ID信息后接收数据包，然后任务数据包继续传输至第n个加速芯片单元，然后传输至控制端进行数据校验。

如图1所示，上传指令传输至第x(x≤n)个加速芯片单元时，第x个加速芯片单元独享计算结果上传通路，其它加速芯片单元处于旁路模式，当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至控制端后，第x个加速芯片单元释放上传指令，上传指令传输至第x+1个加速芯片单元，然后重复上述操作，当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时，上传指令直接传输至第x+2个加速芯片单元。

Claims

1.一种多芯片分布式并行计算加速系统，包括含有第1～第n共n个加速芯片单元的加速芯片级联阵列，其特征在于：还包括控制端、命令/任务分发通路和计算结果上传通路，n个所述加速芯片单元并联连接，每个所述加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器，所述控制端获取总任务并将总任务拆分成若干个子任务，然后通过所述命令/任务分发通路向所述加速芯片级联阵列内的加速芯片单元发送任务数据包，所述任务数据包包括若干个与所述加速芯片单元计算能力匹配的子任务及与所述子任务相对应的计算命令，所述加速芯片单元的子任务缓存器接收所述子任务并缓存后，所述计算核心按照所述计算命令依次执行所述子任务，并将计算结果暂存在所述计算结果缓存器，所述加速芯片级联阵列中生成一个上传指令，所述上传指令在并联的n个加速芯片单元之间逐级传输，接收所述上传指令的加速芯片单元通过所述计算结果上传通路与所述控制端形成回路，所述计算结果缓存器将暂存的计算结果上传至所述控制端。

2.根据权利要求1所述多芯片分布式并行计算加速系统，其特征在于：每个所述加速芯片单元接收到的子任务总量与所述加速芯片单元的计算能力线性相关。

3.根据权利要求1所述多芯片分布式并行计算加速系统，其特征在于：所述控制端通过所述命令/任务分发通路向第x(x≤n)个所述加速芯片单元发送任务数据包时，所述任务数据包包括第x个加速芯片单元的ID信息，所述任务数据包经由第1个加速芯片单元向后逐级传输，第1至第x-1个加速芯片单元验证所述ID信息后不对所述任务数据包进行操作，直接将所述任务数据包传输至下一级加速芯片单元，第x个加速芯片单元验证所述ID信息后接收所述数据包。

4.根据权利要求3所述多芯片分布式并行计算加速系统，其特征在于：所述任务数据包从第1个加速芯片单元依次传输至第n个加速芯片单元后，继续传输至所述控制端进行数据校验。

5.根据权利要求1所述多芯片分布式并行计算加速系统，其特征在于：所述上传指令传输至第x(x≤n)个加速芯片单元时，第x个加速芯片单元独享所述计算结果上传通路，其它加速芯片单元处于旁路模式，当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至所述控制端后，第x个加速芯片单元释放所述上传指令，所述上传指令传输至第x+1个加速芯片单元。

6.根据权利要求5所述多芯片分布式并行计算加速系统，其特征在于：当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时，所述上传指令直接传输至第x+2个加速芯片单元。