CN114217807B

CN114217807B - 一种基于异构众核架构的直接内存访问编译优化方法

Info

Publication number: CN114217807B
Application number: CN202110381660.9A
Authority: CN
Inventors: 周文浩; 王飞; 沈莉; 肖谦; 武文浩; 李斌; 赵美佳
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2024-04-30
Anticipated expiration: 2041-04-09
Also published as: CN114217807A

Abstract

本发明公开一种基于异构众核架构的直接内存访问编译优化方法，包括以下步骤：S1、通过调度原语cache_read，将张量数据由主存搬移到局存；S2、通过调度原语pragma，将S11中的数据搬移操作改写为DMA GET操作；S3、通过调度原语double_buffer，将S2中的DMA GET操作优化为双缓冲模式；S4、通过调度原语pragma，在局存副本AA使用位置前插入回答字判断操作；S5、通过调度原语cache_write，将结果张量B的局存副本BB由局存搬移至主存。本发明充分利用硬件资源，最大程度实现算子的计算访存操作的重叠，从而提升深度学习负载在异构众核平台上的性能。

Description

一种基于异构众核架构的直接内存访问编译优化方法

技术领域

本发明涉及一种基于异构众核架构的直接内存访问编译优化方法，属于编译优化技术领域。

背景技术

当前深度学习模型越来越复杂，计算数据量暴增，访存逐渐成为性能优化的瓶颈，直接内存访问（DMA）方式可以很好解决该问题。直接内存访问（DMA）是一种无需CPU的参与就可以让外部设备与系统内存之间进行双向数据传输的硬件机制，完全由硬件执行I/O交换任务，数据不经过运算控制核心而直接在内存和运算核心之间进行，减少了大批量数据传输的开销，从而大大提高系统的吞吐率。

深度学习编译器的作用是将深度学习工作负载部署在特定硬件平台以高效完成训练和推理任务，其能够充分挖掘人工智能领域算法特点和模式化特征，将多种典型深度学习框架的模型转化为统一的计算图，再通过一系列领域算法指导的编译优化技术和体系结构相关的底层优化技术，生成面向不同硬件平台的高效代码，用以加速深度学习中的推理过程。TVM（Tensor Virtual Machine）是当今非常流行的一款深度学习编译器，它针对不同的深度学习框架和硬件平台，实现了统一的软件栈，以尽可能高效的方式，将不同框架下的深度学习模型部署到硬件平台。

国产异构众核处理器采用新型直接内存访问（DMA）机制，该机制不同于现有的CPU/GPU架构，采用“DMA操作+回答字判断“相结合的方式完成异步数据交换，完全由硬件执行I/O交换任务，数据不经过运算控制核心而直接在内存和运算核心之间进行，减少了大批量数据传输的开销，具有编程灵活，使用便捷的特点。但是，目前深度学习编译器TVM并不支持针对国产异构众核处理器的DMA调度优化。

发明内容

本发明的目的是提供一种基于异构众核架构的直接内存访问编译优化方法，其充分利用硬件资源，最大程度实现算子的计算访存操作的重叠，从而提升深度学习负载在异构众核平台上的性能。

为达到上述目的，本发明采用的技术方案是：提供一种基于异构众核架构的直接内存访问编译优化方法，包括以下步骤：

S1、通过调度原语cache_read，将张量数据由主存搬移到局存，具体如下：

S11、对结果张量B计算过程所依赖的张量数据A，为其定义局存副本AA，并通过调度原语cache_read将张量数据A由主存搬移到局存副本AA；

S12、将局存副本AA绑定到结果张量B计算过程的循环x的位置；

S2、通过调度原语pragma，将S11中的数据搬移操作改写为DMA GET操作，具体如下：对于局存副本AA，将其数据搬移方式由循环load改写为DMA GET操作；

S3、通过调度原语double_buffer，将S2中的DMA GET操作优化为双缓冲模式，具体如下：

S31、如果不进行双缓冲优化，则使用基本的异步DMA操作，则跳转S4；

S32、如果需要进行双缓冲优化，则在S2中调度原语pragma的基础上，将局存副本AA的DMA GET操作优化为双缓冲模式；

S4、通过调度原语pragma，在局存副本AA使用位置前插入回答字判断操作，具体如下：

S41、对于S31的情况，在局存副本AA使用位置前插入基本回答字判断操作；

S42、对于S32的情况，在局存副本AA使用位置前插入双缓冲回答字判断操作；

S5、通过调度原语cache_write，将结果张量B的局存副本BB由局存搬移至主存，具体如下：

S51、对结果张量B，为其定义局存副本BB，并且通过调度原语cache_write将局存副本BB搬移到结果张量B；

S52、将局存副本BB绑定到结果张量B计算过程的循环y的位置。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明提供了一种基于异构众核架构的直接内存访问编译优化方法，基于国产异构众核处理器的深度学习编译器TVM，通过一系列调度原语，将串行的访存操作变换为异步DMA方式，并且提供了双缓冲模式以支持具有依赖关系的计算访存优化，充分利用硬件资源，最大程度实现算子的计算访存操作的重叠，从而提升深度学习负载在异构众核平台上的性能。

附图说明

附图1为本发明编译优化方法流程图。

具体实施方式

实施例：本发明提供一种基于异构众核架构的直接内存访问编译优化方法，具体包括以下步骤：

S12、考虑到局存容量的限制，将局存副本AA绑定到结果张量B计算过程的循环x的位置；

S31、如果不进行双缓冲优化，仅使用基本的异步DMA操作，则跳转S4；

S52、考虑到局存容量的限制，将局存副本BB绑定到结果张量B计算过程的循环y的位置。

对上述实施例的进一步解释如下：

本发明提出一种基于异构众核架构的直接内存访问编译优化方法，具体流程如图1所示，主要包括将张量数据由主存搬移到局存、将数据搬移操作改写为DMA GET操作、在数据使用位置前插入回答字判断操作、将DMA GET操作优化为双缓冲模式、以及将局存数据搬移到主存五个步骤，具体如下：

S1、首先，通过调度原语cache_read，将张量数据由主存搬移到局存，具体如下：

S11、对结果张量B计算过程所依赖的张量数据A，为其定义局存副本AA，并通过调度原语cache_read将张量数据A由主存搬移到局存副本AA，相应的DSL如下：AA = s.cache_read(A, “local”, [B])；

S12、考虑到局存容量的限制，将局存副本AA绑定到结果张量B计算过程的循环x的位置，相应的DSL如下：s[AA].compute_at(s[B], x)；

S2、其次，通过调度原语pragma，将S11中的数据搬移操作改写为DMA GET操作，具体如下：

S21、对于局存副本AA，将其数据搬移方式由循环load改写为DMA GET操作，相应的DSL如下：s[AA].pragma(s[AA].op.axis[0], “dma_copy”)；

S3、再次，如果需要进行双缓冲优化，则通过调度原语double_buffer，将S21中的DMA GET操作优化为双缓冲模式，具体如下：

S32、如果需要进行双缓冲优化，则在S2中调度原语pragma的基础上，将局存副本AA的DMA GET操作优化为双缓冲模式，相应的DSL如下：s[AA].double_buffer()；

S4、再次，通过调度原语pragma，在局存副本AA使用位置前插入回答字判断操作，具体如下：

S41、对于S31的情况，在局存副本AA使用位置前插入基本回答字判断操作，相应的DSL如下：s[AA].pragma(s[AA].op.axis[0], “barrier_default 1”)；

S42、对于S32的情况，在局存副本AA使用位置前插入双缓冲回答字判断操作，相应的DSL如下：s[AA].pragma(s[AA].op.axis[0], “barrier_double_buffer 1”)；

S5、最后，通过调度原语cache_write，将结果张量B的局存副本BB由局存搬移至主存，具体如下：

S51、对结果张量B，为其定义局存副本BB，并且通过调度原语cache_write将局存副本BB搬移到结果张量B，相应的DSL如下：BB = s.cache_write(B, “local”)；

S52、考虑到局存容量的限制，将局存副本BB绑定到结果张量B计算过程的循环y的位置，相应的DSL如下：s[BB].compute_at(s[B], y)。

采用上述一种基于异构众核架构的直接内存访问编译优化方法时，其基于国产异构众核处理器的深度学习编译器TVM，通过一系列调度原语，将串行的访存操作变换为异步DMA方式，并且提供了双缓冲模式以支持具有依赖关系的计算访存优化，充分利用硬件资源，最大程度实现算子的计算访存操作的重叠，从而提升深度学习负载在异构众核平台上的性能。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

编译：将源程序（高级语言）翻译成目标程序（低级语言或机器语言）的过程。

异构众核：采用新型的片上异构融合体系结构。

深度神经网络：有很多隐藏层的神经网络，又称为深度前馈网络或多层感知机。

TVM：Tensor Virtual Machine，亚马逊公司推出的一款深度学习编译器，能够将深度学习工作负载部署在特定硬件平台以高效完成推理任务。

直接内存访问：Direct Memory Access，由硬件执行I/O交换任务，数据不经过CPU，直接由源地址批量搬运到目的地址。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异构众核架构的直接内存访问编译优化方法，其特征在于，包括以下步骤：

S12、将局存副本AA绑定到结果张量B计算过程的循环x的位置；

S52、将局存副本BB绑定到结果张量B计算过程的循环y的位置。