CN108415771A - 多芯片分布式并行计算加速系统 - Google Patents

多芯片分布式并行计算加速系统 Download PDF

Info

Publication number
CN108415771A
CN108415771A CN201810103246.XA CN201810103246A CN108415771A CN 108415771 A CN108415771 A CN 108415771A CN 201810103246 A CN201810103246 A CN 201810103246A CN 108415771 A CN108415771 A CN 108415771A
Authority
CN
China
Prior art keywords
acceleration
chip unit
calculation
chip
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810103246.XA
Other languages
English (en)
Inventor
陆洪毅
张志文
刘玖阳
卢仕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Anxin Intelligent Control Technology Co Ltd
Original Assignee
Shenzhen Anxin Intelligent Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Anxin Intelligent Control Technology Co Ltd filed Critical Shenzhen Anxin Intelligent Control Technology Co Ltd
Priority to CN201810103246.XA priority Critical patent/CN108415771A/zh
Publication of CN108415771A publication Critical patent/CN108415771A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及并行运算加速领域,公开了一种多芯片分布式并行计算加速系统,包括含有n个加速芯片单元的加速芯片级联阵列、控制端、命令/任务分发通路和计算结果上传通路,加速芯片单元包括计算核心、子任务缓存器和计算结果缓存器,控制端通过命令/任务分发通路向加速芯片单元发送任务数据包,子任务缓存器接收子任务并缓存后,计算核心按照计算命令依次执行子任务,并将计算结果暂存在计算结果缓存器,接收上传指令的加速芯片单元通过计算结果上传通路与控制端形成回路,将暂存的计算结果上传至控制端。本发明充分利用每个加速芯片单元的计算能力,降低命令/任务分发和计算结果上传时间,提升整个加速系统的加速计算效果。

Description

多芯片分布式并行计算加速系统
技术领域
本发明涉及并行运算加速领域,具体涉及一种多芯片分布式并行计算加速系统。
背景技术
分布式计算是一种新的计算方式,它研究的是如何将一个需要非常巨大的计算能力、或者需要非常长计算时间才能解决的问题分成许多小部分,再将这些小的部分分别分配给多个专用芯片进行计算处理,最后再把每个芯片的计算结果综合起来,得到最终的结果。在这个过程中,控制端负责对外通信,获取总的计算任务,然后将这个总的计算任务分成多个小的计算部分,并将这些部分分配给系统内级联的专用加速芯片阵列进行并行处理,每个专用加速芯片则分别处理各自的子任务,并将各自的计算结果返回至控制端,再由控制端进行综合评定得到最终结果。
迄今为止,已经有应用采用并行专用加速来解决实际问题。例如将单片机与多个DSP相结合进行数字信号处理,其中单片机为控制端,负责系统对外的通信,并分发计算任务和回收计算结果;DSP为专用加速芯片,负责对由单片机发送的数据进行专用数字信号处理,然后将计算结果发回至单片机,这就是一种分布式并行计算专用加速思想。需要注意的是,现今的并行专用加速系统主要研究重点在于提升单个专用加速芯片的计算能力,对整个系统计算资源的调配和控制则研究较少。
对于并行计算加速系统而言,虽然决定整个系统运算能力的主要因素是每个专用加速芯片的计算能力,但当总任务更新较快且总任务所需计算能力较大的情况下,多个子任务由控制端传输至每个专用加速芯片的时间,以及每个专用加速芯片上传结果数据至控制端的时间等也会成为限制整个并行计算专用加速系统计算能力的关键因素。因此,除了在芯片设计时提升单个加速芯片的计算能力之外,还必须采用合适的加速系统体系结构,降低任务分发和结果上传时间,并对每个加速系统进行良好地调度,以确保每个专用加速芯片的计算能力能得到充分利用。
中国发明专利申请(公开日:2013年12月04日、公开号:103428217A)公开了一种分布式并行计算的作业分配方法及分配系统,该分配方法包括:客户端与多个服务器建立网络联接,将复杂计算任务划分为一系列独立计算任务;客户端创建多个线程并由这些线程将独立计算任务分别分配至多个服务器及客户端自身;多个服务器及客户端采用共享内存式并行方法对分配到的计算任务进行运算;计算完毕后,客户端接收各服务器返回的运算结果。本发明分布式并行分配方法,通过将总的计算任务集划分为一系列独立计算任务,同时在在多个服务器及客户端上采用共享内存式的方法进行并行计算,简化了服务器端的安装程序,并节省了大量数据网络传输的耗时,提高了并行计算的效率,但是在任务分发和结果上传时间,并对每个加速系统进行调度,以确保每个专用加速芯片的计算能力能得到充分利用的问题上没有很好的解决。
发明内容
本发明的目的就是针对上述技术的不足,提供一种多芯片分布式并行计算加速系统充分利用每个加速芯片单元的计算能力,降低命令/任务分发和计算结果上传时间,提升整个加速系统的加速计算效果。
为实现上述目的,本发明所设计的多芯片分布式并行计算加速系统,包括含有第1~第n共n个加速芯片单元的加速芯片级联阵列,还包括控制端、命令/任务分发通路和计算结果上传通路,n个所述加速芯片单元并联连接,每个所述加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器,所述控制端获取总任务并将总任务拆分成若干个子任务,然后通过所述命令/任务分发通路向所述加速芯片级联阵列内的加速芯片单元发送任务数据包,所述任务数据包包括若干个与所述加速芯片单元计算能力匹配的子任务及与所述子任务相对应的计算命令,所述加速芯片单元的子任务缓存器接收所述子任务并缓存后,所述计算核心按照所述计算命令依次执行所述子任务,并将计算结果暂存在所述计算结果缓存器,所述加速芯片级联阵列中生成一个上传指令,所述上传指令在并联的n个加速芯片单元之间逐级传输,接收所述上传指令的加速芯片单元通过所述计算结果上传通路与所述控制端形成回路,所述计算结果缓存器将暂存的计算结果上传至所述控制端。
优选地,每个所述加速芯片单元接收到的子任务总量与所述加速芯片单元的计算能力线性相关,使所有所述加速芯片单元在同一时刻完全当前总任务的计算,以同时进入下一个总任务的计算,提升并行计算的效率。
优选地,所述控制端通过所述命令/任务分发通路向第x(x≤n)个所述加速芯片单元发送任务数据包时,所述任务数据包包括第x个加速芯片单元的ID信息,所述任务数据包经由第1个加速芯片单元向后逐级传输,第1至第x-1个加速芯片单元验证所述ID信息后不对所述任务数据包进行操作,直接将所述任务数据包传输至下一级加速芯片单元,第x个加速芯片单元验证所述ID信息后接收所述数据包。
优选地,所述任务数据包从第1个加速芯片单元依次传输至第n个加速芯片单元后,继续传输至所述控制端进行数据校验。
优选地,所述上传指令传输至第x(x≤n)个加速芯片单元时,第x个加速芯片单元独享所述计算结果上传通路,其它加速芯片单元处于旁路模式,当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至所述控制端后,第x个加速芯片单元释放所述上传指令,所述上传指令传输至第x+1个加速芯片单元。
优选地,当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时,所述上传指令直接传输至第x+2个加速芯片单元。
本发明与现有技术相比,具有以下优点:
1、通过将命令/任务分发通路和计算结果上传通路分开减少了数据分发与计算结果上传的时间,降低了数据传输的冲突率,提升并行计算效率;
2、任务数据包传输至控制端进行数据校验,保证了发送数据的正确性;
3、通过加速芯片单元的子任务缓存器缓存多个子任务,避免当前子任务完成后处于新任务等待状态,造成计算资源的浪费;
4、控制端根据加速芯片单元的计算能力分发每个加速芯片单元处理的子任务难度或计算空间,使所有加速芯片单元在同一时刻完全当前总任务的计算,以同时进入下一个总任务的计算,提升并行计算的效率;
5、通过唯一的上传指令,防止计算结果上传冲突。
6、本多芯片分布式并行计算加速系统能够充分利用每个加速芯片单元的计算能力,并降低命令/任务分发和计算结果上传时间,进而提升整个加速系统的加速计算效果。
附图说明
图1为本发明多芯片分布式并行计算加速系统的流程示意图;
图2为本发明多芯片分布式并行计算加速系统中加速芯片单元的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
一种多芯片分布式并行计算加速系统,如图1所示,包括含有第1~第n共n个加速芯片单元的加速芯片级联阵列,还包括控制端、命令/任务分发通路和计算结果上传通路,n个加速芯片单元并联连接,每个加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器,如图2所示,控制端获取总任务并将总任务拆分成若干个子任务,然后通过命令/任务分发通路向加速芯片级联阵列内的加速芯片单元发送任务数据包,任务数据包包括若干个与加速芯片单元计算能力匹配的子任务及与子任务相对应的计算命令,每个加速芯片单元接收到的子任务总量与加速芯片单元的计算能力线性相关,加速芯片单元的子任务缓存器接收子任务并缓存后,计算核心按照计算命令依次执行子任务,并将计算结果暂存在计算结果缓存器,加速芯片级联阵列中生成一个上传指令,上传指令在并联的n个加速芯片单元之间逐级传输,接收上传指令的加速芯片单元通过计算结果上传通路与控制端形成回路,计算结果缓存器将暂存的计算结果上传至控制端。
如图1所示,控制端通过命令/任务分发通路向第x(x≤n)个加速芯片单元发送任务数据包时,任务数据包包括第x个加速芯片单元的ID信息,任务数据包经由第1个加速芯片单元向后逐级传输,第1至第x-1个加速芯片单元验证ID信息后不对任务数据包进行操作,直接将任务数据包传输至下一级加速芯片单元,第x个加速芯片单元验证ID信息后接收数据包,然后任务数据包继续传输至第n个加速芯片单元,然后传输至控制端进行数据校验。
如图1所示,上传指令传输至第x(x≤n)个加速芯片单元时,第x个加速芯片单元独享计算结果上传通路,其它加速芯片单元处于旁路模式,当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至控制端后,第x个加速芯片单元释放上传指令,上传指令传输至第x+1个加速芯片单元,然后重复上述操作,当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时,上传指令直接传输至第x+2个加速芯片单元。

Claims (6)

1.一种多芯片分布式并行计算加速系统,包括含有第1~第n共n个加速芯片单元的加速芯片级联阵列,其特征在于:还包括控制端、命令/任务分发通路和计算结果上传通路,n个所述加速芯片单元并联连接,每个所述加速芯片单元均包括计算核心、子任务缓存器和计算结果缓存器,所述控制端获取总任务并将总任务拆分成若干个子任务,然后通过所述命令/任务分发通路向所述加速芯片级联阵列内的加速芯片单元发送任务数据包,所述任务数据包包括若干个与所述加速芯片单元计算能力匹配的子任务及与所述子任务相对应的计算命令,所述加速芯片单元的子任务缓存器接收所述子任务并缓存后,所述计算核心按照所述计算命令依次执行所述子任务,并将计算结果暂存在所述计算结果缓存器,所述加速芯片级联阵列中生成一个上传指令,所述上传指令在并联的n个加速芯片单元之间逐级传输,接收所述上传指令的加速芯片单元通过所述计算结果上传通路与所述控制端形成回路,所述计算结果缓存器将暂存的计算结果上传至所述控制端。
2.根据权利要求1所述多芯片分布式并行计算加速系统,其特征在于:每个所述加速芯片单元接收到的子任务总量与所述加速芯片单元的计算能力线性相关。
3.根据权利要求1所述多芯片分布式并行计算加速系统,其特征在于:所述控制端通过所述命令/任务分发通路向第x(x≤n)个所述加速芯片单元发送任务数据包时,所述任务数据包包括第x个加速芯片单元的ID信息,所述任务数据包经由第1个加速芯片单元向后逐级传输,第1至第x-1个加速芯片单元验证所述ID信息后不对所述任务数据包进行操作,直接将所述任务数据包传输至下一级加速芯片单元,第x个加速芯片单元验证所述ID信息后接收所述数据包。
4.根据权利要求3所述多芯片分布式并行计算加速系统,其特征在于:所述任务数据包从第1个加速芯片单元依次传输至第n个加速芯片单元后,继续传输至所述控制端进行数据校验。
5.根据权利要求1所述多芯片分布式并行计算加速系统,其特征在于:所述上传指令传输至第x(x≤n)个加速芯片单元时,第x个加速芯片单元独享所述计算结果上传通路,其它加速芯片单元处于旁路模式,当第x个加速芯片单元计算结果缓存器内的计算结果全部上传至所述控制端后,第x个加速芯片单元释放所述上传指令,所述上传指令传输至第x+1个加速芯片单元。
6.根据权利要求5所述多芯片分布式并行计算加速系统,其特征在于:当第x+1个加速芯片单元加速芯片单元没有计算结果需要上传时,所述上传指令直接传输至第x+2个加速芯片单元。
CN201810103246.XA 2018-02-01 2018-02-01 多芯片分布式并行计算加速系统 Withdrawn CN108415771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810103246.XA CN108415771A (zh) 2018-02-01 2018-02-01 多芯片分布式并行计算加速系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810103246.XA CN108415771A (zh) 2018-02-01 2018-02-01 多芯片分布式并行计算加速系统

Publications (1)

Publication Number Publication Date
CN108415771A true CN108415771A (zh) 2018-08-17

Family

ID=63127712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810103246.XA Withdrawn CN108415771A (zh) 2018-02-01 2018-02-01 多芯片分布式并行计算加速系统

Country Status (1)

Country Link
CN (1) CN108415771A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376115A (zh) * 2018-08-31 2019-02-22 北京智云芯科技有限公司 一种基于工作量证明的计算装置及计算方法
CN109558368A (zh) * 2018-11-27 2019-04-02 武汉虹旭信息技术有限责任公司 一种多核dsp处理芯片核间通信系统及其方法
CN109840240A (zh) * 2018-12-31 2019-06-04 武汉芯动科技有限公司 芯片、分布式计算装置及方法
CN109951470A (zh) * 2019-03-12 2019-06-28 湖北大学 一种多计算设备分布式并行计算的信息下发和结果上传方法
CN110955461A (zh) * 2019-11-22 2020-04-03 北京达佳互联信息技术有限公司 计算任务的处理方法、装置、系统、服务器和存储介质
CN111290787A (zh) * 2019-06-19 2020-06-16 锐迪科(重庆)微电子科技有限公司 运算装置及运算方法
CN112118300A (zh) * 2020-09-03 2020-12-22 深圳市明微电子股份有限公司 级联设备回传数据方法、装置、系统及可读存储介质
CN113127173A (zh) * 2021-04-21 2021-07-16 浙江大学 一种异构感知的集群调度方法及装置
CN113342719A (zh) * 2021-06-30 2021-09-03 珠海市一微半导体有限公司 一种运算加速单元及其运算方法
CN113742270A (zh) * 2020-05-27 2021-12-03 合肥君正科技有限公司 一种芯片级联并行计算系统
CN114531459A (zh) * 2020-11-03 2022-05-24 深圳市明微电子股份有限公司 级联设备参数自适应获取方法及装置、系统及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376115A (zh) * 2018-08-31 2019-02-22 北京智云芯科技有限公司 一种基于工作量证明的计算装置及计算方法
CN109558368A (zh) * 2018-11-27 2019-04-02 武汉虹旭信息技术有限责任公司 一种多核dsp处理芯片核间通信系统及其方法
CN109840240A (zh) * 2018-12-31 2019-06-04 武汉芯动科技有限公司 芯片、分布式计算装置及方法
CN109951470A (zh) * 2019-03-12 2019-06-28 湖北大学 一种多计算设备分布式并行计算的信息下发和结果上传方法
CN111290787B (zh) * 2019-06-19 2022-11-08 锐迪科(重庆)微电子科技有限公司 运算装置及运算方法
CN111290787A (zh) * 2019-06-19 2020-06-16 锐迪科(重庆)微电子科技有限公司 运算装置及运算方法
CN110955461A (zh) * 2019-11-22 2020-04-03 北京达佳互联信息技术有限公司 计算任务的处理方法、装置、系统、服务器和存储介质
CN110955461B (zh) * 2019-11-22 2024-01-12 北京达佳互联信息技术有限公司 计算任务的处理方法、装置、系统、服务器和存储介质
CN113742270A (zh) * 2020-05-27 2021-12-03 合肥君正科技有限公司 一种芯片级联并行计算系统
CN112118300A (zh) * 2020-09-03 2020-12-22 深圳市明微电子股份有限公司 级联设备回传数据方法、装置、系统及可读存储介质
CN112118300B (zh) * 2020-09-03 2023-06-13 深圳市明微电子股份有限公司 级联设备回传数据方法、装置、系统及可读存储介质
CN114531459A (zh) * 2020-11-03 2022-05-24 深圳市明微电子股份有限公司 级联设备参数自适应获取方法及装置、系统及存储介质
CN114531459B (zh) * 2020-11-03 2024-05-07 深圳市明微电子股份有限公司 级联设备参数自适应获取方法及装置、系统及存储介质
CN113127173A (zh) * 2021-04-21 2021-07-16 浙江大学 一种异构感知的集群调度方法及装置
CN113127173B (zh) * 2021-04-21 2021-09-24 浙江大学 一种异构感知的集群调度方法及装置
CN113342719A (zh) * 2021-06-30 2021-09-03 珠海市一微半导体有限公司 一种运算加速单元及其运算方法

Similar Documents

Publication Publication Date Title
CN108415771A (zh) 多芯片分布式并行计算加速系统
CN104951372B (zh) 一种基于预测的Map/Reduce数据处理平台内存资源动态分配方法
CN108876702A (zh) 一种加速分布式深度神经网络的训练方法及装置
CN113157447B (zh) 一种基于智能网卡的rpc负载均衡方法
CN109254842A (zh) 分布式流式系统的资源管理方法、装置及可读存储介质
CN102724103B (zh) 代理服务器、分层次网络系统及分布式工作负载管理方法
CN103235835B (zh) 用于数据库集群的查询实现方法和装置
CN102681889A (zh) 一种云计算开放平台的调度方法
CN107621973A (zh) 一种跨集群的任务调度方法及装置
CN111861412B (zh) 面向完成时间优化的科学工作流调度方法及系统
CN109697082A (zh) 指令组
CN113472597B (zh) 分布式卷积神经网络细粒度的参数传输调度方法及装置
CN107797863A (zh) 一种云计算平台中细粒度资源匹配方法
CN105094981B (zh) 一种数据处理的方法及装置
CN107205248A (zh) 一种资源分配方法及系统
CN110908782A (zh) 一种基于遗传算法优化的封装类分布式作业任务调度方法及系统
CN113886034A (zh) 任务调度方法、系统、电子设备及存储介质
CN115994567A (zh) 一种深度神经网络模型并行计算任务异步调度方法
Wang et al. CEFS: Compute-efficient flow scheduling for iterative synchronous applications
CN106776032B (zh) 分布式块存储的io请求的处理方法和装置
CN109242240A (zh) 基于单位时间分配和时效控制的任务开发云平台
CN101388052A (zh) 用于与医学成像系统相关的操作多处理器系统的方法
CN103514042B (zh) 一种双调归并排序调优方法及装置
Mamat et al. An efficient algorithm for real-time divisible load scheduling
CN113614658B (zh) 管线运算装置、可编程逻辑控制器及管线处理的执行方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180817

WW01 Invention patent application withdrawn after publication