CN112445465B

CN112445465B - 基于c代码生成的神经网络模型推理和训练方法

Info

Publication number: CN112445465B
Application number: CN201910799245.8A
Authority: CN
Inventors: 肖谦; 周文浩; 钱宏; 沈莉; 管茂林; 武文浩; 朱琪; 吴伟
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-09-13
Anticipated expiration: 2039-08-28
Also published as: CN112445465A

Abstract

本发明公开一种基于C代码生成的神经网络模型推理和训练方法，包括以下步骤：S1、以通过各种AI编程框架开发的模型作为输入，AI框架编译器识别各种模型格式并转化为统一的计算图，将输入的模型转化为底层IR；S2、将S1中生成的计算图输入C代码生成模块，输出总控函数；S3、C代码生成模块针对不同的底层IR，生成对应的C代码；S4、将生成的总控函数、各IR对应的C代码以及C‑基础算子库，输入到支持C语言和相应硬件平台的基础编译器，通过基础编译器的优化过程转化为运行程序，并在对应硬件平台上执行推理过程、训练过程。本发明实现了AI框架编译器在LLVM不支持的硬件平台上的快速移植，能够快速实现神经网络模型在LLVM不支持的特定硬件平台上的训练和推理过程。

Description

基于C代码生成的神经网络模型推理和训练方法

技术领域

本发明涉及一种基于C代码生成的神经网络模型推理和训练方法，属于计算机技术领域。

背景技术

在深度学习领域，训练和推理应用的开发往往依赖于AI编程框架，AI编程框架是深度学习领域的重要开发工具，能够支撑用户在各种硬件平台开发出高能效的深度学习应用，而不需要对深度学习领域知识有非常深入和细节的了解。但当前，AI编程框架和后端硬件平台都存在多样化的特点，AI框架编译器作为一种端到端的编译系统，将多种框架开发的模型转化为统一的计算图，并进行层次化的lower和优化，转化为在不同硬件平台的可执行代码，具有非常广阔的应用前景。

AI框架编译器负责读取基于AI框架开发的神经网络模型，进行编译和优化后输出可执行程序。AI框架编译器底层依赖于基础编译器，目前几乎所有的开源框架编译器项目都依赖于LLVM编译器，即目前几乎所有AI框架编译器都依赖于LLVM编译器，在CPU端输出LLVM IR，在GPU端生成CUDA或OPENCL代码，不支持直接输出C代码，这对于LLVM不支持的非GPU处理器架构提出了挑战。

目前神经网络模型往往首先被转化为计算图，而后通过层次化的lower和优化，生成底层IR，底层IR转化为LLVM的中间表示进而通过LLVM编译器生成可执行程序。这一流程与LLVM编译器紧耦合，不可拆分。对于一些LLVM尚不支持的硬件平台，框架编译器就无法使用，而对于多样化的AI编程框架来说，如果逐个针对特定硬件平台做移植和优化，又是一件工作量和难度都很大的事。

发明内容

本发明的目的是提供一种基于C代码生成的神经网络模型推理和训练方法，该基于C代码生成的神经网络模型推理和训练方法实现了AI框架编译器在LLVM不支持的硬件平台上的快速移植，能够快速实现神经网络模型在LLVM不支持的特定硬件平台上的训练和推理过程。

为达到上述目的，本发明采用的技术方案是：一种基于C代码生成的神经网络模型推理和训练方法，包括以下步骤：

S1、以通过各种AI编程框架开发的模型作为输入，AI框架编译器识别各种模型格式并转化为统一的计算图，然后，AI框架编译器通过lower和优化流程，将输入的模型转化为底层IR；

S2、将S1中生成的计算图输入C代码生成模块，输出总控函数，此总控函数为训练、推理计算过程的主函数，负责调用各个底层IR生成的对应子函数，并准备各IR的参数；

S3、C代码生成模块针对不同的底层IR，生成对应的C代码，具体如下：

S31、对于对应于基础算子库的底层IR，生成基础算子的函数接口声明，由总控函数负责调用，对于AI框架编译器自定义的底层IR，C代码生成模块根据该IR的含义，输出对应的C代码；

S32、将基础算子库转化为C语言实现的C-基础算子库，并根据目标硬件平台完成初步优化；

S4、将生成的总控函数、各IR对应的C代码以及C-基础算子库，输入到支持C语言和相应硬件平台的基础编译器，通过基础编译器的优化过程转化为运行程序，并在对应硬件平台上执行推理过程、训练过程。

上述技术方案中进一步改进的方案如下：

1. 上述方案中，在S3中，所述AI框架编译器自定义的底层IR为规则循环kernelIR、细粒度基础运算IR。

2. 上述方案中，当所述AI框架编译器自定义的底层IR为规则循环kernel IR时，通过循环优化技术对kernel进行优化。

3. 上述方案中，所述C代码生成模块通过动态空间管理接口完成整个计算过程的统一内存申请和管理，计算过程中的各变量都使用动态申请的统一内存的一部分，以C指针的方式来表示。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明基于C代码生成的神经网络模型推理和训练方法，其实现了AI框架编译器在LLVM不支持的硬件平台上的快速移植，能够充分利用AI框架编译器的优化能力，快速实现神经网络模型在LLVM不支持的特定硬件平台上的训练和推理过程，从而实现在各种处理器或加速器上的深度学习应用开发和优化，且输出的C代码与LLVM IR相比，具有更强的可读性，也给了用户进一步深度优化的空间。

附图说明

附图1为本发明基于C代码生成的神经网络模型推理和训练方法流程图。

具体实施方式

实施例：一种基于C代码生成的神经网络模型推理和训练方法，包括以下步骤：

上述C代码生成模块通过动态空间管理接口完成整个计算过程的统一内存申请和管理，计算过程中的各变量都使用动态申请的统一内存的一部分，以C指针的方式来表示。

实施例进一步解释如下：

C代码是所有编程语言中最高效的，也是所有硬件平台都支持的基础编程语言，结合相应硬件平台的C编译器，本发明技术方案能帮助用户在特定硬件平台快速实现各种神经网络模型的移植和优化。

本发明方案支持将基于多种AI编程框架开发的模型，通过统一的代码生成模块，自动转换为等价的C代码实现，结合相应硬件平台的基础编译器和DNN库，能够快速实现神经网络模型在各种架构处理器或加速器上的训练和推理过程，从而帮助用户实现在各种处理器或加速器上的深度学习应用开发和优化，具体流程如图1所示：

（1）首先，以通过各种AI编程框架开发的模型作为输入，AI框架编译器识别各种模型格式并转化为统一的计算图。然而，AI编译器通过常规的lower和优化流程，将模型转化为底层IR。

（2）C代码生成模块以计算图为输入，输出总控函数，该函数为训练或推理计算过程的主函数，负责调用各个底层IR生成的对应子函数，并准备各IR的参数。

（3）C代码生成模块针对不同的底层IR，生成对应的C代码，具体如下：

a. 对于对应于基础算子库的底层IR，如卷积等基础操作，生成基础算子的函数接口声明，由总控函数负责调用。

b. 对于AI框架编译器自定义的底层IR，如规则循环kernel和细粒度的基础运算等，C代码生成模块根据该IR的含义，输出对应的C代码，并通过循环优化技术对kernel进行优化。

c. 将基础算子库转化为C语言实现的C-基础算子库，并根据目标硬件平台完成初步优化。

d. C代码生成模块通过动态空间管理接口完成整个计算过程的统一内存申请和管理，计算过程中的各变量都使用该内存空间的一部分，以C指针的方式来表示。

（4）最后，生成的总控函数、各IR对应的C代码以及C-基础算子库，都输入到支持C语言和相应硬件平台的基础编译器，通过编译器的优化过程转化为运行程序，并在对应硬件平台上执行推理过程或训练过程。

采用上述基于C代码生成的神经网络模型推理和训练方法时，其实现了AI框架编译器在LLVM不支持的硬件平台上的快速移植，能够充分利用AI框架编译器的优化能力，快速实现神经网络模型在LLVM不支持的特定硬件平台上的训练和推理过程，从而实现在各种处理器或加速器上的深度学习应用开发和优化，且输出的C代码与LLVM IR相比，具有更强的可读性，也给了用户进一步深度优化的空间。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

神经网络：是由大量的、简单的处理单元（神经元）广泛地相互连接而形成的复杂网络系统，是一个高度复杂的非线性动力学习系统。

神经网络模型：以神经元的数学模型为基础，用以描述神经网络的拓扑结构、节点特点和学习规则。

AI框架编译器：以利用AI编程框架开发的模型或用户自定义模型为输入、在不同硬件平台上生成相应的训练或推理代码、并直接运行得到结果的编译系统。

IR：AI框架编译器处理神经网络模型在不同层次生成的数据结构，一般可分为高层IR和底层IR，在高层IR进行体系结构无关优化，在底层IR进行体系结构相关优化。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于C代码生成的神经网络模型推理和训练方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于C代码生成的神经网络模型推理和训练方法，其特征在于：在S3中，所述对应于基础算子库的底层IR为卷积操作IR。

3.根据权利要求1所述的基于C代码生成的神经网络模型推理和训练方法，其特征在于：在S3中，所述AI框架编译器自定义的底层IR为规则循环kernel IR、细粒度基础运算IR。

4.根据权利要求3所述的基于C代码生成的神经网络模型推理和训练方法，其特征在于：当所述AI框架编译器自定义的底层IR为规则循环kernel IR时，通过循环优化技术对kernel进行优化。

5.根据权利要求1所述的基于C代码生成的神经网络模型推理和训练方法，其特征在于：所述C代码生成模块通过动态空间管理接口完成整个计算过程的统一内存申请和管理，计算过程中的各变量都使用动态申请的统一内存的一部分，以C指针的方式来表示。