CN115796284B

CN115796284B - 基于tvm编译器的推理方法、装置、存储介质及设备

Info

Publication number: CN115796284B
Application number: CN202310081890.2A
Authority: CN
Inventors: 何也
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-09
Anticipated expiration: 2043-02-08
Also published as: CN115796284A

Abstract

本发明提供了一种基于TVM编译器的推理方法、装置、存储介质及设备，涉及人工智能技术领域，方法包括：分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子；将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器对神经网络模型进行转化，得到转化模型；分析转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理。本发明加速了神经网络模型的推理速度，尤其对于大型神经网络模型，能极大缩短总的推理时间，提高推理效率。

Description

基于TVM编译器的推理方法、装置、存储介质及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于TVM编译器的推理方法、装置、存储介质及设备。

背景技术

大型神经网络模型作为深度学习发展的一个热点，典型特征是模型参数量，通常一张计算卡无法容纳它的全部参数，因此需要将模型进行拆分，放到多张计算卡上完成推理任务。

流水并行和张量并行是拆分大模型进行并行计算，加速推理速度，缩短总的推理时间的常用方法。流水并行是指将模型按层剖分到多张计算卡上，各个计算卡只负责分配到该卡上的计算任务，只要有输入，就会持续进行计算。张量并行是指将模型中的算子剖分到多张计算卡上，多张卡共同完成一个算子的计算，可能需要在计算完成后进行一次信息同步，以得到该算子的计算结果。

目前的推理框架有TVM（Tensor Virtual Machine，一款开源的、端到端的深度学习模型编译框架）、Faster Transformer（英伟达针对Transformer推理提出的性能优化方案）等。FasterTransformer针对Transformer结构的模型推理提供了流水并行和张量并行的方式，但在模型编译优化方面有所欠缺，且缺乏对一般模型（非transformer）的支持。TVM作为深度学习编译器的典型代表，当前提供了流水并行的推理方式，但缺乏张量并行的支持。

因此，亟需一种基于TVM编译器的张量并行方式的推理方法。

发明内容

有鉴于此，本发明的目的在于提出一种基于TVM编译器的推理方法、装置、存储介质及设备，用以解决目前TVM编译器不支持张量并行方式推理的问题。

基于上述目的，本发明提供了一种基于TVM编译器的推理方法，包括以下步骤：

分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子；

将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器对神经网络模型进行转化，得到转化模型；

分析转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理。

在一些实施例中，用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理包括：

用对应的通信算子替换当前通信结构，得到对应的通信算子与关联的计算算子的组合，并将该组合拆分为多个子函数，并使用多个子函数实现张量并行方式推理。

在一些实施例中，方法还包括：

使每个子函数包括至少一个通信操作。

在一些实施例中，使用多个子函数实现张量并行方式推理包括：

使多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理。

在一些实施例中，使用多个子函数实现张量并行方式推理还包括：

使每个子函数对应一个执行进程，并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译；

在编译过程中记录多个子函数之间的依赖逻辑，并根据依赖逻辑实现张量并行方式推理。

在一些实施例中，构建通信算子包括：

利用TVM编译器提供的算子注册机制构建通信算子。

在一些实施例中，方法还包括：

利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。

在一些实施例中，方法还包括：

将通信库与对应的通信算子进行关联。

在一些实施例中，方法还包括：

响应于计算卡为CPU，通信库为OpenMPI或mpi4py。

在一些实施例中，方法还包括：

响应于计算卡为GPU，通信库为NCCL。

在一些实施例中，通信算子为广播通信算子。

在一些实施例中，通信算子为规约通信算子。

在一些实施例中，通过TVM编译器对神经网络模型进行转化，得到转化模型包括：

通过TVM编译器对神经网络模型进行转化，得到Relay IR形式的转化模型。

在一些实施例中，方法还包括：

使用TVM编译器的优化器对转化模型进行优化。

在一些实施例中，优化方式包括算子融合、预计算及存储形式优化中的一种或多种。

本发明的另一方面，还提供了一种基于TVM编译器的推理装置，包括：

分析模块，配置用于分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并根据每个通信拓扑结构图构建通信算子；

转化模块，配置用于将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器对神经网络模型进行转化，得到转化模型；以及

推理模块，配置用于分析转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理。

在一些实施例中，推理模块包括拆分模块，拆分模块配置用于用对应的通信算子替换当前通信结构，得到对应的通信算子与关联的计算算子的组合，并将该组合拆分为多个子函数，其中，每个子函数包括至少一个通信操作，并使用多个子函数实现张量并行方式推理。

在一些实施例中，拆分模块包括并行执行模块，配置用于使多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理。

本发明的又一方面，还提供了一种计算机可读存储介质，存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述方法。

本发明的再一方面，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该计算机程序被处理器执行时执行上述方法。

本发明至少具有以下有益技术效果：

本发明的基于TVM编译器的推理方法，通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子，并将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器将神经网络模型转化为转化模型，并确定转化模型的当前通信结构对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理，从而加速了神经网络模型的推理速度，尤其对于大型神经网络模型，能极大缩短总的推理时间，提高推理效率；并且通过将通信算子也纳入模型结构中，可以使模型不再局限于仅包含常规计算算子，进而可以支持更广泛的模型推理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明实施例提供的基于TVM编译器的推理方法的示意图；

图2为根据现有技术提供的TVM编译器中广播通信结构的示意图；

图3为根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图；

图4为根据现有技术提供的TVM编译器中规约通信结构的示意图；

图5为根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图；

图6为根据本发明实施例提供的基于TVM编译器的推理装置的示意图；

图7为根据本发明实施例提供的实现基于TVM编译器的推理方法的计算机可读存储介质的示意图；

图8为根据本发明实施例提供的执行基于TVM编译器的推理方法的计算机设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备固有的其他步骤或单元。

基于上述目的，本发明实施例的第一个方面，提出了一种基于TVM编译器的推理方法的实施例。图1示出的是本发明提供的基于TVM编译器的推理方法的实施例的示意图。如图1所示，本发明实施例包括如下步骤：

步骤S10、分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子；

步骤S20、将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器对神经网络模型进行转化，得到转化模型；

步骤S30、分析转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理。

本发明实施例的基于TVM编译器的推理方法，通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子，并将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器将神经网络模型转化为转化模型，并确定转化模型的当前通信结构对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理，从而加速了神经网络模型的推理速度，尤其对于大型神经网络模型，能极大缩短总的推理时间；并且通过将通信算子也纳入模型结构中，可以使模型不再局限于仅包含常规计算算子，进而可以支持更广泛的模型推理。

在一些实施例中，用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理包括：用对应的通信算子替换当前通信结构，得到对应的通信算子与关联的计算算子的组合，并将该组合拆分为多个子函数，并使用多个子函数实现张量并行方式推理。

在一些实施例中，方法还包括：使每个子函数包括至少一个通信操作。在一些实施例中，使用多个子函数实现张量并行方式推理包括：使多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理。

较佳地，使每个子函数包括一个通信操作。这样能拆分出更多的子函数，使更多子函数并行执行，强化张量并行方式推理的效果。

在一些实施例中，使用多个子函数实现张量并行方式推理还包括：使每个子函数对应一个执行进程，并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译；在编译过程中记录多个子函数之间的依赖逻辑，并根据依赖逻辑实现张量并行方式推理。

在一些实施例中，通信算子为广播通信算子。

图2示出了根据现有技术提供的TVM编译器中广播通信结构的示意图。如图2所示，现有技术中广播通信（Bcast）操作包括将数据由B发送至C，以及由B发送至D。至于数据由C传递至E，以及由D传递至F，无需采用广播通信的方式，可直接传送。具体地，利用广播通信操作时，先由B发送至C，再由B发送至D，需要依次进行，因此导致推理速度慢。

图3示出了根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图。如图3所示，根据广播通信算子将B与C、B与D的连接分别拆开，使C和E分到一张计算卡上，D和F分到另一张计算卡上，形成了3个子函数，每个子函数具有一个广播通信（Bcast）操作。另外，每个子函数还包括至少一个计算算子。例如，B计算算子和Bcast包含在一个子函数中，C计算算子、E计算算子和Bcast包含在另一个子函数中。此时C-E计算卡和D-F计算卡便可同时进行计算，实现了对应2个子函数的并行执行。

在一些实施例中，通信算子为规约通信算子。

图4示出了根据现有技术提供的TVM编译器中规约通信结构的示意图。如图4所示，现有技术中规约通信（AllReduce）操作包括依次计算Input1、Input2、Input3，再将三者的计算结果求和，得到sum，之后将sum依次发送至Post1、Post2、Post3。在此过程中，计算Input1、Input2、Input3不能同时进行，将sum发送至Post1、Post2、Post3也不能同时进行，严重影响TVM编译器的推理效率。

图5示出了根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图。如图5所示，将图4中的规约通信结构拆成Input1+Post1，Input2+Post2，Input3+Post3并分别放到3张计算卡上进行计算，再将sum操作分别包含在每张计算卡上，此规约通信算子被拆成3个子函数，每个子函数具有一个规约通信（AllReduce）操作。该3个子函数可以并行执行。

在一些实施例中，方法还包括：利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。

在一些实施例中，方法还包括：响应于计算卡为CPU，通信库为OpenMPI或mpi4py。

在一些实施例中，方法还包括：响应于计算卡为GPU，通信库为NCCL。

上述实施例中，将计算卡的通信库集成至TVM编译器中属于前期准备工作。可以使用TVM编译器提供的集成第三方库接口，将计算卡的通信库集成至TVM编译器中。

CPU（Central ProcessingUnit，中央处理器）的通信库OpenMPI（一种高性能消息传递库）采用C语言或C++语言；mpi4py（一个构建在MPI之上的Python库）采用python语言。MPI（Multi Point Interface，信息传递接口）是一个跨语言的通讯协议，用于编写并行计算机。

GPU（Graphics ProcessingUnit，图形处理器）的通信库NCCL（英伟达的集合通信库）能够实现每个集合在单一内核上处理通信和计算操作。

在一些实施例中，构建通信算子包括：利用TVM编译器提供的算子注册机制构建通信算子。

在一些实施例中，方法还包括：将通信库与对应的通信算子进行关联。

上述实施例中，通过使用TVM（Tensor Virtual Machine，一款开源的、端到端的深度学习模型编译框架）编译器提供的算子注册机制，可以编写与通信拓扑结构图对应的通信算子。之后会将不同的通信库与对应的通信算子进行绑定，并为通信库添加标签。

在一些实施例中，通过TVM编译器对神经网络模型进行转化，得到转化模型包括：通过TVM编译器对神经网络模型进行转化，得到Relay IR形式的转化模型。

在一些实施例中，方法还包括：使用TVM编译器的优化器对转化模型进行优化。

上述实施例中，通过使用TVM编译器读取深度学习框架生成的神经网络模型，并将神经网络模型转化成TVM编译器的Relay IR（IntermediateRepresentation，中间表示）形式，得到转化模型。然后可以使用TVM编译器的优化器对该RelayIR形式的转化模型进行优化，优化方式包括算子融合，预计算，存储形式优化等。Relay是一种功能多样的编程语言，用于机器学习系统表达的中间表示。

本发明实施例的第二个方面，还提供了一种基于TVM编译器的推理装置。图6示出的是本发明提供的基于TVM编译器的推理装置的实施例的示意图。如图6所示，一种基于TVM编译器的推理装置包括：分析模块10，配置用于分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子；转化模块20，配置用于将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器对神经网络模型进行转化，得到转化模型；以及推理模块30，配置用于分析转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理。

本发明实施例的基于TVM编译器的推理装置，通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子，并将待推理的神经网络模型输入TVM编译器中，并通过TVM编译器将神经网络模型转化为转化模型，并确定转化模型的当前通信结构对应的通信拓扑结构图，并用对应的通信算子替换当前通信结构，并使用对应的通信算子实现张量并行方式推理，从而加速了神经网络模型的推理速度，尤其对于大型神经网络模型，能极大缩短总的推理时间；并且通过将通信算子也纳入模型结构中，可以使模型不再局限于仅包含常规计算算子，进而可以支持更广泛的模型推理。

在一些实施例中，推理模块30包括拆分模块，拆分模块配置用于将对应的通信算子拆分为多个子函数，其中，每个子函数包括至少一个通信操作，并使用多个子函数实现张量并行方式推理。

在一些实施例中，拆分模块包括并行执行模块，配置用于用对应的通信算子替换当前通信结构，得到对应的通信算子与关联的计算算子的组合，并将该组合拆分为多个子函数，以实现张量并行方式推理。

在一些实施例中，并行执行模块还配置用于使每个子函数对应一个执行进程，并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译；在编译过程中记录多个子函数之间的依赖逻辑，并根据依赖逻辑实现张量并行方式推理。

在一些实施例中，分析模块10包括构建模块，配置用于利用TVM编译器提供的算子注册机制构建通信算子。

在一些实施例中，系统还包括集成模块，配置用于利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。

在一些实施例中，系统还包括关联模块，配置用于将通信库与对应的通信算子进行关联。

在一些实施例中，系统还包括第一通信库模块，配置用于响应于计算卡为CPU，通信库为OpenMPI或mpi4py。

在一些实施例中，系统还包括第二通信库模块，配置用于响应于计算卡为GPU，通信库为NCCL。

CPU（Central ProcessingUnit，中央处理器）的通信库OpenMPI（一种高性能消息传递库）采用C语言或C++语言；mpi4py（一个构建在MPI之上的Python库）采用python语言。MPI（Multi Point Interface，信息传递接口）是一个跨语言的通讯协议，用于编写并行计算机。GPU（Graphics Processing Unit，图形处理器）的通信库NCCL（英伟达的集合通信库）能够实现每个集合在单一内核上处理通信和计算操作。

在一些实施例中，通信算子为广播通信算子。

图3示出了根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图。如图3所示，根据广播通信算子将B与C、B与D的连接分别拆开，使C和E分到一张计算卡上，D和F分到另一张计算卡上，形成了3个子函数，每个子函数具有一个广播通信（Bcast）操作。此时C-E计算卡和D-F计算卡便可同时进行计算，实现了对应2个子函数的并行执行。

在一些实施例中，通信算子为规约通信算子。

图5示出了根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图。如图5所示，将图4中的规约通信结构拆成Input1+Post1，Input2+Post2，Input3+Post3并分别放到3张计算卡上进行计算，再将sum操作分别包含在每张计算卡上，此规约通信算子被拆成3个子函数，每个子函数具有一个规约通信（AllReduce）操作，该3个子函数可以并行执行。

在一些实施例中，转化模块20进一步配置用于通过TVM编译器对神经网络模型进行转化，得到Relay IR形式的转化模型。

在一些实施例中，系统还包括优化模块，配置用于使用TVM编译器的优化器对转化模型进行优化。

需要说明的是，结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

本发明实施例的第三个方面，还提供了一种计算机可读存储介质，图7示出了根据本发明实施例提供的实现基于TVM编译器的推理方法的计算机可读存储介质的示意图。如图7所示，计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现如下步骤：

在一些实施例中，步骤还包括：使每个子函数对应一个通信操作。

在一些实施例中，使用多个子函数实现张量并行方式推理包括：使多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理。

在一些实施例中，步骤还包括：利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。

在一些实施例中，步骤还包括：将通信库与对应的通信算子进行关联。

在一些实施例中，步骤还包括：响应于计算卡为CPU，通信库为OpenMPI或mpi4py。

在一些实施例中，步骤还包括：响应于计算卡为GPU，通信库为NCCL。

在一些实施例中，通信算子为广播通信算子。

在一些实施例中，通信算子为规约通信算子。

在一些实施例中，步骤还包括：使用TVM编译器的优化器对转化模型进行优化。

应当理解，在相互不冲突的情况下，以上针对根据本发明的基于TVM编译器的推理方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的基于TVM编译器的推理装置和存储介质。

本发明实施例的第四个方面，还提供了一种计算机设备，包括如图8所示的存储器402和处理器401，该存储器402中存储有计算机程序，该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。

如图8所示，为本发明提供的执行基于TVM编译器的推理方法的计算机设备的一个实施例的硬件结构示意图。以如图8所示的计算机设备为例，在该计算机设备中包括一个处理器401以及一个存储器402，并还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图8中以通过总线连接为例。输入装置403可接收输入的数字或字符信息，以及产生与基于TVM编译器的推理装置的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于TVM编译器的推理方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储基于TVM编译器的推理方法的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于TVM编译器的推理方法。

最后需要说明的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦写可编程ROM（EEPROM）或快闪存储器。易失性存储器可以包括随机存取存储器（RAM），该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM（DRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据速率SDRAM（DDRSDRAM）、增强SDRAM（ESDRAM）、同步链路DRAM（SLDRAM）、以及直接Rambus RAM（DRRAM）。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于TVM编译器的推理方法，其特征在于，包括以下步骤：

将待推理的神经网络模型输入所述TVM编译器中，并通过所述TVM编译器对所述神经网络模型进行转化，得到转化模型；

分析所述转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换所述当前通信结构，并使用所述对应的通信算子实现张量并行方式推理，其进一步包括：

用对应的通信算子替换所述当前通信结构，得到所述对应的通信算子与关联的计算算子的组合，并将所述组合拆分为多个子函数，并使用所述多个子函数实现张量并行方式推理，其进一步包括：使所述多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理；

使每个子函数包括一个通信操作，所述每个子函数还包括至少一个计算算子。

2.根据权利要求1所述的方法，其特征在于，使用所述多个子函数实现张量并行方式推理还包括：

使所述每个子函数对应一个执行进程，并基于对应的执行进程将所述每个子函数传递至对应的计算卡进行编译；

在编译过程中记录所述多个子函数之间的依赖逻辑，并根据所述依赖逻辑实现张量并行方式推理。

3.根据权利要求1所述的方法，其特征在于，构建通信算子包括：

利用所述TVM编译器提供的算子注册机制构建通信算子。

4.根据权利要求1所述的方法，其特征在于，还包括：

利用所述TVM编译器提供的接口将计算卡的通信库集成至所述TVM编译器中。

5.根据权利要求4所述的方法，其特征在于，还包括：

将所述通信库与所述对应的通信算子进行关联。

6.根据权利要求4所述的方法，其特征在于，还包括：

响应于所述计算卡为CPU，所述通信库为OpenMPI或mpi4py。

7.根据权利要求4所述的方法，其特征在于，还包括：

响应于所述计算卡为GPU，所述通信库为NCCL。

8.根据权利要求1所述的方法，其特征在于，所述通信算子为广播通信算子。

9.根据权利要求1所述的方法，其特征在于，所述通信算子为规约通信算子。

10.根据权利要求1所述的方法，其特征在于，通过所述TVM编译器对所述神经网络模型进行转化，得到转化模型包括：

通过所述TVM编译器对所述神经网络模型进行转化，得到Relay IR形式的转化模型。

11.根据权利要求1所述的方法，其特征在于，还包括：

使用所述TVM编译器的优化器对所述转化模型进行优化。

12.根据权利要求11所述的方法，其特征在于，优化方式包括算子融合、预计算及存储形式优化中的一种或多种。

13.一种基于TVM编译器的推理装置，其特征在于，包括：

分析模块，配置用于分析TVM编译器在推理过程中的所有通信结构，并生成多个通信拓扑结构图，并为每个通信拓扑结构图构建通信算子；

转化模块，配置用于将待推理的神经网络模型输入所述TVM编译器中，并通过所述TVM编译器对所述神经网络模型进行转化，得到转化模型；以及

推理模块，配置用于分析所述转化模型的当前通信结构，并确定对应的通信拓扑结构图，并用对应的通信算子替换所述当前通信结构，并使用所述对应的通信算子实现张量并行方式推理；

所述推理模块包括拆分模块，所述拆分模块配置用于用对应的通信算子替换所述当前通信结构，得到所述对应的通信算子与关联的计算算子的组合，并将所述组合拆分为多个子函数，其中，每个子函数包括一个通信操作，并使用所述多个子函数实现张量并行方式推理，所述每个子函数还包括至少一个计算算子；

所述拆分模块包括并行执行模块，配置用于使所述多个子函数的部分或全部子函数并行执行，以实现张量并行方式推理。

14.一种计算机可读存储介质，其特征在于，存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-12任意一项所述的方法。

15.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时执行如权利要求1-12任意一项所述的方法。