CN114942748A

CN114942748A - 一种异构编程模型并行方法

Info

Publication number: CN114942748A
Application number: CN202111157427.9A
Authority: CN
Inventors: 刘旭; 王洪磊; 余洪坤
Original assignee: Taichu Wuxi Electronic Technology Co ltd
Current assignee: Taichu Wuxi Electronic Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-08-26

Abstract

本发明所述的一种异构编程模型并行方法，适用于SWAI芯片，其中，该方法涉及主机端属性函数、设备端属性函数、核函数，主机端属性函数修饰变量时，该变量在CPU Memory里；主机端属性函数修饰函数时，该函数是CPU执行的函数；设备端属性函数修饰变量时，该变量在SWAI Memory里；设备端属性函数修饰函数时，该函数是CPU执行的函数；核函数是通用属性函数，在设备端执行，从主机端调用，返回类型是void，核函数的参数是不可变参数，包括：该程序需要用到的核组数量，该程序用到的从核数量。是基于CPU和SWAI芯片的异构编程模型，使用户可方便的使用SWAI芯片对AI应用进行加速。

Description

一种异构编程模型并行方法

技术领域

本发明涉及一种异构系统的编程模型，特别涉及一种异构编程模型并行方法。

背景技术

异构系统是由功能和性能相异的处理器，基于一定的互连结构连接起来构成的计算系统，通常是由通用微处理器和专用加速处理器构成，比较典型的异构系统有CPU(通用处理器)加GPU(指图形处理器)。

异构系统的编译系统和编译流程与同构系统(例如：CPU服务器集群)有很大差异，由于异构系统中不同的处理器具有不同的性能优化模型，很难以通用策略利用各个处理器，典型的异构编译系统包括NVDIA CUDA、AMD HIP、OpenCL、OpenAcc等。其中，CUDA是专门针对NVDIA GPU推出的计算平台，用户通过编写CUDA代码并使用CUDA编译系统进行编译。

CUDA计算平台支持混合编译，其编译流程更为复杂，CUDA编译器中，先利用NVCC编译器将异构混合编程代码.cu文件，预处理拆分成CPU端即主机端的预处理生成文件Host.ii以及GPU端即设备端的预处理生成文件Device.ii。Device.ii再经过GPU编译器最终生成了Device.fatbin文件(全称是Fat Binary文件)，fatbin文件里面包含了GPU的二进制代码。同时，cudafe++编译器将fatbin文件与Host.ii结合到一起生成二进制文件.o。如果用户代码是多个.cu文件，那么会多次重复上述过程，生成多个.o文件，最终，将多个.o文件链接生成为a.out文件。

为了隐藏底层细节，使得用户能够在异构系统上编程，CUDA异构编程是一种使用NVIDIA GPU的编程方式，其中CUDA的runtime接口使用最为广泛，如图1所示。

从图2所示的GPU示意图上来看，一块标准的GPU主要包括通用计算单元、控制器和寄存器，GPU具有高并行结构(highly parallel structure)、拥有更多的ALU(ArithmeticLogic Unit，逻辑运算单元)用于数据处理，这样的结构适合对密集型数据进行并行处理所以GPU在处理图形数据和复杂算法方面拥有比CPU更高的效率。

在GPU快速发展的基础上构建的上述现有异构编程模型给用户提供了更好的编程体验，使得用户可以通过模型提供的接口，使用异构系统，并发挥充分发挥系统的性能。

然而，SWAI芯片是用于AI计算领域的专用芯片，其主要的使用模式是CPU通过PCIE与SWAI芯片进行通信，CPU将不同的任务分发到SWAI芯片的各个运算核组上或运算核心上，采用现有异构编程模型无法挥充分发挥系统的性能，因而，亟待改进和完善。

发明内容

本发明所述的一种异构编程模型并行方法，是基于CPU和SWAI芯片的异构编程模型(简称SDAA编程模型)向用户提供的接口，使得用户不需要关注底层硬件之间的通信与相互协同的过程，可方便的使用SWAI芯片对AI应用进行加速。

本发明所述的一种异构编程模型并行方法，适用于SWAI芯片，SWAI芯片是AI领域的专用芯片，包括一个主核及4个核组，其中，主核负责调度，4个核组的每个核组包括32个从核，每个从核都有一个脉动阵列运算单元；其中，

该方法涉及主机端属性函数、设备端属性函数、核函数，

主机端属性函数修饰变量时，该变量在CPU Memory里；主机端属性函数修饰函数时，该函数是CPU执行的函数；

设备端属性函数修饰变量时，该变量在SWAI Memory里；设备端属性函数修饰函数时，该函数是CPU执行的函数；

核函数是通用属性函数，在设备端执行，从主机端调用，返回类型是void，核函数的参数是不可变参数，包括：该程序需要用到的核组数量，该程序用到的从核数量。

于一实施例中，设备端属性函数和/或核函数的可调用参数包括：从核局部快速存储的变量、单个核组内各从核共享空间存储的变量、每个从核私有的内存空间存储的变量，提供上述多种类参数，是为了适应SWAI芯片特有的内存结构，充分发挥系统的性能。

于一实施例中，该方法还包括核组拆分：当核函数调用的核组数量为n,从核数量为m，设备端的可调用核组数量为k，当2n<＝k时，核函数调用的核组数被拆分为2n个核组，每个核组的从核数量为m/2个。该种拆分方式，可以减少或避免资源导致排队阻塞情况时常发生。

于一实施例中，SDAA编程模型采用类似CUDA编程的C++扩展语法，使得CUDA程序员可以很快地上手编写本编程模型的的代码。

本发明的有益效果包括：SDAA异构编程模型解决了以下问题：

1)使得用户可以充分利用SWAI芯片4个核组的128个从核；

2)减少了用户的编程成本，简化编程的流程。

3)对SWAI芯片使用的一套类似CUDA的编程语法，包括但不限于主机端、设备端及通用的属性修饰，使得CUDA程序员可以很快地上手编写本编程模型的的代码。

附图说明

图1为CUDA异构编程模型示意图

图2为GPU及CPU的结构示意图

图3为SWAI芯片的结构示意图

图4为SDAA异构编程模型示意图

图5为SWAI芯片变量类型示意图

具体实施方式

为了进一步清楚描述本发明，现结合附图及实施例进一步说明。

实施例1

如图3、图4所示，本发明所述的一种异构编程模型并行方法，适用于SWAI芯片，SWAI芯片是AI领域的专用芯片，包括一个主核及4个核组，其中，主核负责调度，4个核组的每个核组包括32个从核(一共128个从核，如图3所示)，每个从核都有一个脉动阵列运算单元，如图4所示。

为了使CUDA程序员可以很快地上手使用本接口，SDAA编程模型提供了一套类似CUDA编程的C++扩展语法，采用了如下的技术方案：

1)采用提供了__host__、__device__的属性。

比方说对于函数有如下的定义方式：

__host__void foo(){}

__device__void foo(){}

__host__属性修饰的如果是变量，那是指该变量在CPU Memory里。如果__host__修饰的是函数，那是指该函数是CPU执行的函数。

__device__属性修饰的如果是变量，那是指该变量在SWAI Memory里。如果__device__修饰的是函数，那是指该函数是CPU执行的函数。

2)同时，SDAA编程模型支持__global__属性函数定义，这个函数在device上执行，从host中调用，返回类型必须是void，不支持可变参数。通常称之为kernel函数。

_global_定义的kernel函数是异步的，CPU不会等待kernel函数执行完，就会执行下一步。

下面给出一个简单示例：

这里slave_test<<<int coreGroupNumber，int slaveCoreNumer>>>是对标准C++语言的一个扩展。<<<>>>中第一项coreGroupNumber是该程序需要用到1个核组，第二项slaveCoreNumer是该程序用到8个从核。

如果slave_test<<<int coreGroupNumber，int slaveCoreNumer>>>核函数需要用到3个核组的计算资源，而目前SWAI芯片当前时间节点上可用的资源只有2个核组的计算资源。在多用户同时使用同一张加速卡时，这种情况会发生。目前资源不够用，用户程序会阻塞，等待有足够的计算资源时，用户程序才会继续运行。因此，由于这种阻塞等待经常发生，通常建议用户在核函数slave_test中使用一个核组的计算资源。比方说一个用户在核组1上运行slave_test1核函数，在核组2上运行slave_test2核函数。另一个用户的slave_test3核函数如果使用了三个核组的计算资源，那么可能造成两个用户相互等待。

核函数运行在哪几个核组上，是SWAI芯片上的操作系统在程序运行时进行自动调度的，核函数运行的核组号是随机的。

若用户在程序中只在使用部分核组的计算资源，其他核组是空闲状态。这种情况下其他用户是可以使用空闲核组的计算资源。

本编程模型的设计也充分考虑了多用户同时使用SWAI芯片的情景。

多用户下，各个用户可能没有资源导致排队阻塞情况时常发生，本专利在编译器中使用代码自动拆分。

当前用户调用用了SWAI芯片的1(n)个核组32(m)个从核，而当前剩余的资源是2(k)个核组，其中每个核组只有16个从核可以使用，在编译器中使用代码自动拆分后，对1(n)个核组32(m)从核的调用被拆分为2个核组，其中每个核组使用16个从核。

用户可以根据自己的需要选择是否打开这种拆分模式。如果资源有很多空闲，那么这种代码拆分模式就没有必要，该拆分会增加编译时间。如果资源紧张，那么这种根据现有资源，自动拆分用户代码，而不改变用户代码运行结果的编译器行为能有效的减少用户程序阻塞等待，可以更加充分的利用SWAI芯片的资源。

如图5所示是SWAI芯片特有的内存结构，为了适应SWAI芯片特有的内存结构，充分发挥系统的性能，设备端属性函数和/或核函数的可调用参数包括：从核局部快速存储的变量、单个核组内各从核共享空间存储的变量、每个从核私有的内存空间存储的变量，具体为：

__local__是指每个从核局部快速存储的变量。

__shared__是指单个核组内、32个从核共享的局部快速存储的变量。

__thread_private是指每个从核私有的内存空间，对应图中的SWAI Memory存储的变量。

__device__是指各个核组和各个从核共享的内存空间，对应图中的SWAI Memory存储的变量。

四种类型修饰符支持所有的数据类型比方说int、float、double、long等，同时也支持数组和结构体这样的数据结构。

如下为调用上述各存储变量的示例：

实施例2

本发明所述的一种异构编程模型并行方法，适用于SWAI芯片，SWAI芯片是AI领域的专用芯片，芯片结构与上述实施例1一致，如图3、图4所示。

1)采用提供了__host__、__device__的属性。

比方说对于函数有如下的定义方式：

__host__void foo(){}

__device__void foo(){}

下面给出一个简单示例：

kernel函数提供简化的使用方式，在slave_test<<<int coreGroupNumber>>>中只使用核组数量这一项，代表默认使用这些核组的所有从核，上述示例中的<<<1>>>指使用了32个从核，如果修改为<<<4>>>指使用了全部128个从核。

Claims

1.一种异构编程模型并行方法，适用于SWAI芯片，其特征在于，SWAI芯片是AI领域的专用芯片，包括一个主核及4个核组，其中，主核负责调度，4个核组的每个核组包括32个从核，每个从核都有一个脉动阵列运算单元；

该方法涉及主机端属性函数、设备端属性函数、核函数，

2.如权利要求1所述的异构编程模型并行方法，其特征在于，所述设备端属性函数和/或核函数的可调用参数包括：从核局部快速存储的变量、单个核组内各从核共享空间存储的变量、每个从核私有的内存空间存储的变量。

3.如权利要求1所述的异构编程模型并行方法，其特征在于，还包括核组拆分：当核函数调用的核组数量为n,从核数量为m，设备端的可调用核组数量为k，当2n<＝k时，核函数调用的核组数被拆分为2n个核组，每个核组的从核数量为m/2个。

4.如权利要求1所述的异构编程模型并行方法，其特征在于，SDAA编程模型采用类似CUDA编程的C++扩展语法，使得CUDA程序员可以很快地上手编写本编程模型的的代码。