CN113986496A - 一种嵌套式通用计算并行处理架构 - Google Patents

一种嵌套式通用计算并行处理架构 Download PDF

Info

Publication number
CN113986496A
CN113986496A CN202111251850.5A CN202111251850A CN113986496A CN 113986496 A CN113986496 A CN 113986496A CN 202111251850 A CN202111251850 A CN 202111251850A CN 113986496 A CN113986496 A CN 113986496A
Authority
CN
China
Prior art keywords
general
task execution
level
task
nested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111251850.5A
Other languages
English (en)
Inventor
胡俊成
车喜龙
胡亮
王国毓
阚博文
陈甲旺
张园博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111251850.5A priority Critical patent/CN113986496A/zh
Publication of CN113986496A publication Critical patent/CN113986496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/545Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Multi Processors (AREA)

Abstract

本发明适用于并行计算任务处理以及处理器技术领域,提供了一种嵌套式通用计算并行处理架构,包括通用计算任务执行组件,所述通用计算任务执行组件通过嵌套的方式包括多级,每个级别相当于若干通用计算任务执行组件,第i+1级所述通用计算任务执行组件
Figure DDA0003318715070000011
包括:第i级若干子通用任务执行组件PEi、第i级核心数据交换组件Memoryi和第i级控制单元CUi。该发明通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高,使系统架构资源达到最大利用率和并行度。本发明适用于当前所有形式的大数据并行计算任务处理过程,同时具有灵活的扩展性与可移植性。

Description

一种嵌套式通用计算并行处理架构
技术领域
本发明属于并行计算任务处理以及处理器技术领域,尤其涉及一种嵌套式通用计算并行处理架构。
背景技术
随着近年来各行业应用数据量激增,人们对数据的处理要求日益提高,多核CPU和多核GPU的出现引入了高性能计算的新一个高潮,研究表明,当今或未来情况下,数据处理的能力包括处理器效率、存储资源、访存技术等的发展都不及人们的需求。虽然GPGPU通过计算掩盖访存的方式提升了效率,但传统芯片架构已经基本定型,内存墙这一问题始终得不到很好的解决,这也阻碍了芯片架构的发展并且驱动着芯片在架构层面上的革新。
在并行计算中,连续使用的和使用率高的数据都会存放在低级Cache中,催生了现代计算机的多层级存储结构,也就是类似CPU的内外存,但更低级的Cache总会有更小的时间开销但同时有更小的空间以及昂贵的造价和更复杂的调度过程,相反更高级别的硬盘虽然时间开销多但是也有更低廉的造价和简单的调用过程。
在并行计算算力需求增加这样的大背景下,GPGPU作为新型计算平台应运而生。它可以通过本身的层级结构以及最小的warp支持高并发的线程操作。GPGPU以他独有的调度方式使计算开销与访存开销进行overlap;CUDA计算架构以程序中可并行程序段为子操作对象进行并行执行,无论是层级还是子任务都启发了人们对芯片架构的崭新要求。
对于计算机来说处理这些数据的最根本也就莫过于程序设计了,程序设计语言分为高级语言、低级语言、二进制。每一段程序被计算机执行的过程都是从高级语言到中间语言再到低级语言再到二进制编码的层层编译解释过程,最后才是执行。从计算机操作角度,让计算机执行的每一个任务也都会被拆分成子任务,一直到最终的执行,这其中都有每一层级背后的对当前任务的划分派发,子任务的调度,需求数据访存,计算任务处理等,鉴于此,为了日后设计更适合并行计算任务处理的处理器,一种嵌套式多层次的多核通用计算并行处理的架构设计显得更加契合实际任务需要。
以PRAM模型为基础的并行计算架构,也称为共享存储的SIMD架构,很适合关于并行计算架构的表达,很多关于并行计算机的底层细节包括处理器间通信,存储系统管理和进程的同步都被隐含在架构当中,但共享的单一存储器的设计显然不适合分布存储结构的MIMD机器,并且这种大同步的模式更加耗费同步的时间开销,无法反映并行计算机的异步性。单位时间访问共享内存的方式、通信无延迟以及带宽、略去了诸如资源竞争以及有限的带宽等合理细节也是不现实的,故只能作为一个抽象表示,并不能成为一个通用计算并行处理架构发展导向。
以BSP、LogP模型为基础的并行计算架构,也称为分布式存储的MIMD架构,BSP强调了计算任务和通信任务的分离,引入了一个叫做“超级步”的特殊概念,将计算分割,有效的避免了死锁,路由器仅仅完成点到点的消息传递。共享存储的PRAM架构和互联网络的SIMD架构对于当今的并行计算机表达得不够合适,因为他们既没有包含符合并行计算导向的分布存储的情况也没考虑通信和同步等实际因素,不利于芯片架构的实际投产,并且当今并行计算的规模之大,仅仅采用单层的亦或是少数层级的计算架构模式已经不足以面对庞大的数据计算任务了。
在并行计算架构的描述方面,传统的并行计算模型过于抽象,并没有描述架构中详细的组件以及他们的逻辑关系,随着GPGPU的发展,更多的通用计算放到了GPU上进行,关于GPU的多版本架构白皮书上对GPU架构内部的组件、组件个数、所支持的编程方式等也进行了层次的划分,有了并行计算处理器发展的雏形,但依然没有详细的表达组件之间的逻辑关系以及他们的执行模型,不利于业界对其架构发展的深入探讨。
综上所述,给出一个满足当今并行计算数据规模和特点的,更适合对任务进行并行处理的,并且阐述出完全白盒的执行模式和组件逻辑关系的嵌套式通用计算并行处理架构,已经成为较为突出的需求。
发明内容
本发明实施例的目的在于提供一种嵌套式通用计算并行处理架构,旨在解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种嵌套式通用计算并行处理架构,包括通用计算任务执行组件,所述通用计算任务执行组件通过嵌套的方式包括多级,每个级别相当于若干通用计算任务执行组件,第i+1级所述通用计算任务执行组件
Figure BDA0003318715050000031
包括:第i级若干子通用任务执行组件PEi、第i级核心数据交换组件Memoryi和第i级控制单元CUi
进一步的,所述通用任务执行组件PE包括通用访存任务执行组件PEd和通用计算任务执行组件PEc
进一步的,每个所述通用访存任务执行组件PEd通过消耗通用访存任务脚本块PSd的方式完成对核心数据交换组件Memory的访存指令,实现stage-in和stage-out步骤。
进一步的,每个所述通用计算任务执行组件PEc通过消耗通用计算任务脚本块PSc的方式完成任务的继续分配或底层的数据计算。
进一步的,还包括第i级控制单元CUi,每层第i级控制单元CUi包括第i级任务接受组件TUi、第i级任务缓冲区TBi和第i级若干调度任务执行组件SEi,通过配合第i级若干子通用任务执行组件PEi和第i级核心数据交换组件Memoryi完成层间交互以及层内调度的任务。
进一步的,所述调度任务执行组件SEi通过消耗调度脚本块SSi的方式驱动通用任务脚本块PSi的流向。
进一步的,架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE1、一级核心数据交换组件Memory1、若干个一级调度任务执行组件组SE1、若干个一级接受任务组件TU1和一级任务缓冲区TB1
与现有技术相比,该嵌套式通用计算并行处理架构通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高,使系统架构资源达到最大利用率和并行度,解决了现有技术存在的上述问题。本发明以当前主流的多核处理器件、并行计算编程框架、大规模超级计算机节点框架与其整个系统原型为基础进行抽象建模,适用于当前大数据并行计算任务处理过程,并且同时具有灵活的扩展性与可移植性。
附图说明
图1为嵌套式通用计算并行处理架构的单个节点内部结构图。
图2为嵌套式通用计算并行处理架构中的宏观架构图。
图3为嵌套式通用计算并行处理架构中的层次拆分示意图。
图4为嵌套式通用计算并行处理架构中的stage-in时序图。
图5为嵌套式通用计算并行处理架构中的stage-out时序图。
图6为嵌套式通用计算并行处理架构中的系统流程图。
图7为嵌套式通用计算并行处理架构与NVIDIA GPU的组件对应关系与任务执行映射图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,为本发明一个实施例提供的一种嵌套式通用计算并行处理架构,包括通用计算任务执行组件,所述通用计算任务执行组件通过嵌套的方式包括多级,每个级别相当于若干通用计算任务执行组件,第i+1级所述通用计算任务执行组件
Figure BDA0003318715050000052
包括:第i级若干子通用任务执行组件PEi、第i级核心数据交换组件Memoryi和第i级控制单元CUi
在本发明实施例中,参考图1,嵌套式通用计算并行处理架构最本质的基础组成——单层单节点,包括核心数据交换组件Memory,互联网络IN,控制单元CU和通用任务执行组件组PE,其中控制单元CU包括任务接受组件TU、任务缓冲区TB和若干调度任务执行组件SE;通用任务执行组件组PE包括若干通用访存任务执行组件PEd和若干通用计算任务执行组件PEc。另外,图中组件布局与互联网络IN仅用于说明,不表示硬件架构中实际的存在位置。
如图2所示,作为本发明的一种优选实施例,所述通用任务执行组件PE包括通用访存任务执行组件PEd和通用计算任务执行组件PEc
在本发明实施例中,参考图2,嵌套式通用计算并行处理架构包括多级,不同级别结构对不同层级的通用子任务进行执行,该图为嵌套式通用计算并行处理架构,该架构以树型拓扑方式展开,根节点为任务执行发起点,通过若干
Figure BDA0003318715050000051
原子性拆分得到若干子节点以及内部组件,进而形成树形嵌套式任务处理架构,有效的对指令以及数据加以分配调度,以实现效率提升。
如图3所示,作为本发明的一种优选实施例,每个所述通用访存任务执行组件PEd通过消耗通用访存任务脚本块PSd的方式完成对核心数据交换组件Memory的访存指令,实现stage-in和stage-out步骤。
在本发明实施例中,参考图3,嵌套式通用计算并行处理架构的原子性拆分主要体现在对通用任务执行组件组PE中的通用计算任务执行组件PEc的进一步划分中,每一层调度任务执行组件组SE所执行的调度任务SS,为通用任务PS的分发服务,通用访存任务PSd实现了数据移动的驱动,为最根本的通用计算任务PSc服务,并达到最终解决通用计算任务并行处理的目的。在通用任务的调度与多核多层的任务处理操作期间,产生层间数据的移动。总的来说可以概括为三个处理阶段:数据向下分配(stage-in)、通用任务处理(computing)和数据向上传递(stage-out)。
如图4所示,作为本发明的一种优选实施例,每个所述通用计算任务执行组件PEc通过消耗通用计算任务脚本块PSc的方式完成任务的继续分配或底层的数据计算。
在本发明实施例中,参考图4,该时序图展示了从级别i+1中的子任务处理组件PEi接收到任务PSi+1,由任务接受组件TUi接收并形成了脚本索引SLi存入任务缓冲区TBi、形成调度脚本块SSi以及通用任务脚本块PSi存入核心数据交换组件Memoryi,调度任务执行组件SEi通过消耗调度脚本块SSi驱动并分配通用任务脚本块PSi,通用计算任务脚本块
Figure BDA0003318715050000061
继续向下分配,传入下层任务接受组件TUi-1;通用访存任务脚本块
Figure BDA0003318715050000062
被通用访存任务执行组件
Figure BDA0003318715050000066
Figure BDA0003318715050000067
消耗并产生向上层核心数据交换组件Memoryi+1的访存行为,最终驱动由核心数据交换组件Memoryi+1到Memoryi的数据移动,完成层间stage-in过程。
如图5所示,作为本发明的一种优选实施例,还包括第i级控制单元CUi,每层第i级控制单元CUi包括第i级任务接受组件TUi、第i级任务缓冲区TBi和第i级若干调度任务执行组件SEi,通过配合第i级若干子通用任务执行组件PEi和第i级核心数据交换组件Memoryi完成层间交互以及层内调度的任务。
在本发明实施例中,参考图5,该时序图展示了从级别i+1中的子任务处理组件PEi接收到任务PSi+1,由任务接受组件TUi接收并形成了脚本索引SLi存入任务缓冲区TBi、形成调度脚本块SSi和通用任务脚本块PSi存入核心数据交换组件Memoryi,调度任务执行组件SEi通过消耗调度脚本块SSi驱动并分配通用任务脚本块PSi,通用计算任务脚本块
Figure BDA0003318715050000063
继续向下分配,传入下层任务接收组件TUi-1;通用访存任务脚本块
Figure BDA0003318715050000064
被通用访存任务执行组件
Figure BDA0003318715050000065
消耗并产生向上层核心数据交换组件Memoryi+1的访存行为,最终产生由核心数据交换组件Memoryi+1到Memoryi的数据移动,完成层间stage-in过程。
如图6所示,作为本发明的一种优选实施例,所述调度任务执行组件SE通过消耗调度脚本块SS的方式驱动通用任务脚本块PS的流向。
在本发明实施例中,参考图6,该时序图展示了当级别i+1中的子任务处理组件完成子任务处理过程Compute并且下层子组件已经将计算结果返回至当前层核心数据交换组件Memoryi时,第i层对当前层数据进行stage-out的过程。调度任务执行组件SEi通过消耗核心数据交换组件Memoryi中调度脚本块SSi分配通用访存任务脚本块
Figure BDA0003318715050000071
到通用访存任务执行组件
Figure BDA0003318715050000072
通用访存任务执行组件
Figure BDA0003318715050000074
通过消耗通用访存任务脚本块
Figure BDA0003318715050000073
产生对本层核心数据交换组件Memoryi的访存行为,并且驱动数据由本层核心数据交换组件Memoryi移动至上层核心数据交换组件Memoryi+1,完成层间stage-out过程。
如图7所示,作为本发明的一种优选实施例,架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE1、一级核心数据交换组件Memory1、若干个一级调度任务执行组件组SE1、若干个一级接受任务组件TU1和一级任务缓冲区TB1
在本发明实施例中,上述组件组成若干个二级通用任务执行组件组PE2,也就形成了若干二级通用计算任务执行组件;对应若干二级通用任务执行组件组也有相应大小的二级核心数据交换组件Memory2,若干个二级调度任务执行组件组SE2,若干个二级接受任务组件TU2,二级任务缓冲区TB2;上述组件组成了若干个三级通用任务执行组件组PE3,也就形成了若干三级通用计算任务执行组件;以此类推。参考图7为本架构所述系统与当前主流并行处理芯片NVIDIA GPU的组件对应关系与任务执行映射,以配有Fermi架构的小型机处理计算任务为例,若该计算系统为当前情况下最高层通用计算任务执行组件(第三层PE3),则GPU为其子PE2,CPU为其子SE2,某通用计算任务为GPU执行的PS2,调度该任务的主机指令为CPU执行的SS2等。
本发明的工作原理是:
该嵌套式通用计算并行处理架构,通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高,使系统架构资源达到最大利用率和并行度,解决了现有技术存在的上述问题。本发明以当前主流的多核处理器件、并行计算编程框架、大规模超级计算机节点框架与其整个系统原型为基础进行抽象建模,适用于当前大数据并行计算任务处理过程,并且同时具有灵活的扩展性与可移植性。
以上仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些均不会影响本发明实施的效果和专利的实用性。

Claims (7)

1.一种嵌套式通用计算并行处理架构,其特征在于,包括通用计算任务执行组件,所述通用计算任务执行组件通过嵌套的方式包括多级,每个级别相当于若干通用计算任务执行组件的集合,第i+1级所述通用计算任务执行组件
Figure FDA0003318715040000011
包括:第i级若干子通用任务执行组件PEi、第i级核心数据交换组件Memoryi和第i级控制单元CUi
2.根据权利要求1所述的嵌套式通用计算并行处理架构,其特征在于,所述通用任务执行组件PE包括通用访存任务执行组件PEd和通用计算任务执行组件PEc
3.根据权利要求2所述的嵌套式通用计算并行处理架构,其特征在于,每个所述通用访存任务执行组件PEd通过消耗通用访存任务脚本块PSd的方式完成对核心数据交换组件Memory的访存指令,实现stage-in和stage-out步骤。
4.根据权利要求2所述的嵌套式通用计算并行处理架构,其特征在于,每个所述通用计算任务执行组件PEc通过消耗通用计算任务脚本块PSc的方式完成任务的继续分配或底层的数据计算。
5.根据权利要求1所述的嵌套式通用计算并行处理架构,其特征在于,还包括第i级控制单元CUi,每层第i级控制单元CUi包括第i级任务接受组件TUi、第i级任务缓冲区TBi和第i级若干调度任务执行组件SEi,通过配合第i级若干子通用任务执行组件PEi和第i级核心数据交换组件Memoryi完成层间交互以及层内调度的任务。
6.根据权利要求5所述的嵌套式通用计算并行处理架构,其特征在于,所述调度任务执行组件SEi通过消耗调度脚本块SSi的方式驱动通用任务脚本块PSi的流向。
7.根据权利要求1-6任一所述的嵌套式通用计算并行处理架构,其特征在于,架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE1、一级核心数据交换组件Memory1、若干个一级调度任务执行组件组SE1、若干个一级接受任务组件TU1和一级任务缓冲区TB1
CN202111251850.5A 2021-10-25 2021-10-25 一种嵌套式通用计算并行处理架构 Pending CN113986496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111251850.5A CN113986496A (zh) 2021-10-25 2021-10-25 一种嵌套式通用计算并行处理架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111251850.5A CN113986496A (zh) 2021-10-25 2021-10-25 一种嵌套式通用计算并行处理架构

Publications (1)

Publication Number Publication Date
CN113986496A true CN113986496A (zh) 2022-01-28

Family

ID=79742101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111251850.5A Pending CN113986496A (zh) 2021-10-25 2021-10-25 一种嵌套式通用计算并行处理架构

Country Status (1)

Country Link
CN (1) CN113986496A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441615A (zh) * 2008-11-24 2009-05-27 中国人民解放军信息工程大学 面向任务流的高效能立体并行柔性可重构计算架构模型
US20170068571A1 (en) * 2015-09-04 2017-03-09 Mediatek Inc. Fine-Grained Heterogeneous Computing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441615A (zh) * 2008-11-24 2009-05-27 中国人民解放军信息工程大学 面向任务流的高效能立体并行柔性可重构计算架构模型
US20170068571A1 (en) * 2015-09-04 2017-03-09 Mediatek Inc. Fine-Grained Heterogeneous Computing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIANG HU,XILONG CHE,SI-QING ZHENG: "A Closer Look at GPGPU", 《ACM COMPUTING SURVEYS》, vol. 48, no. 4, 31 March 2016 (2016-03-31), pages 1 - 20, XP058666207, DOI: 10.1145/2873053 *

Similar Documents

Publication Publication Date Title
WO2021057713A1 (zh) 用多核处理器实现神经网络模型拆分方法及相关产品
Herrero-Lopez et al. Parallel multiclass classification using SVMs on GPUs
Gent et al. A preliminary review of literature on parallel constraint solving
JP4959774B2 (ja) アプリケーション生成システム、方法及びプログラム
Wang et al. Exploiting parallelism for CNN applications on 3D stacked processing-in-memory architecture
Lu et al. MT-3000: a heterogeneous multi-zone processor for HPC
Gadiyar et al. Artificial Intelligence Software and Hardware Platforms
Wahib et al. Optimization of parallel genetic algorithms for nVidia GPUs
Zhao et al. Machine learning computers with fractal von Neumann architecture
Gepner Machine learning and high-performance computing hybrid systems, a new way of performance acceleration in engineering and scientific applications
Moustafa et al. 3D cartesian transport sweep for massively parallel architectures with PARSEC
Li et al. Parallel computing: review and perspective
CN116680063B (zh) 任务调度方法、装置、计算系统、电子设备和存储介质
Wang et al. Towards memory-efficient processing-in-memory architecture for convolutional neural networks
CN113986496A (zh) 一种嵌套式通用计算并行处理架构
Lin et al. STM-multifrontal QR: streaming task mapping multifrontal QR factorization empowered by GCN
Lin et al. swFLOW: A dataflow deep learning framework on sunway taihulight supercomputer
Henning et al. Trailblazing with roadrunner
Sharma et al. A Heterogeneous Chiplet Architecture for Accelerating End-to-End Transformer Models
Fan et al. Accelerating Convolutional Neural Networks by Exploiting the Sparsity of Output Activation
Miniskar et al. A Hierarchical Task Scheduler for Heterogeneous Computing
Wu et al. Heterogeneous Computing and Applications in Deep Learning: A Survey
Bai et al. Gtco: Graph and tensor co-design for transformer-based image recognition on tensor cores
Lei et al. MIC-THPCM: MIC-based heterogeneous parallel optimization for axial compressor rotor
Hirtz Coupe: A Modular, Multi-threaded Mesh Partitioning Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination