CN115796284A - 基于tvm编译器的推理方法、装置、存储介质及设备 - Google Patents

基于tvm编译器的推理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN115796284A
CN115796284A CN202310081890.2A CN202310081890A CN115796284A CN 115796284 A CN115796284 A CN 115796284A CN 202310081890 A CN202310081890 A CN 202310081890A CN 115796284 A CN115796284 A CN 115796284A
Authority
CN
China
Prior art keywords
communication
tvm
compiler
operator
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310081890.2A
Other languages
English (en)
Other versions
CN115796284B (zh
Inventor
何也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310081890.2A priority Critical patent/CN115796284B/zh
Publication of CN115796284A publication Critical patent/CN115796284A/zh
Application granted granted Critical
Publication of CN115796284B publication Critical patent/CN115796284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Devices For Executing Special Programs (AREA)

Abstract

本发明提供了一种基于TVM编译器的推理方法、装置、存储介质及设备,涉及人工智能技术领域,方法包括:分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。本发明加速了神经网络模型的推理速度,尤其对于大型神经网络模型,能极大缩短总的推理时间,提高推理效率。

Description

基于TVM编译器的推理方法、装置、存储介质及设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于TVM编译器的推理方法、装置、存储介质及设备。
背景技术
大型神经网络模型作为深度学习发展的一个热点,典型特征是模型参数量,通常一张计算卡无法容纳它的全部参数,因此需要将模型进行拆分,放到多张计算卡上完成推理任务。
流水并行和张量并行是拆分大模型进行并行计算,加速推理速度,缩短总的推理时间的常用方法。流水并行是指将模型按层剖分到多张计算卡上,各个计算卡只负责分配到该卡上的计算任务,只要有输入,就会持续进行计算。张量并行是指将模型中的算子剖分到多张计算卡上,多张卡共同完成一个算子的计算,可能需要在计算完成后进行一次信息同步,以得到该算子的计算结果。
目前的推理框架有TVM(Tensor Virtual Machine,一款开源的、端到端的深度学习模型编译框架)、Faster Transformer(英伟达针对Transformer推理提出的性能优化方案)等。FasterTransformer针对Transformer结构的模型推理提供了流水并行和张量并行的方式,但在模型编译优化方面有所欠缺,且缺乏对一般模型(非transformer)的支持。TVM作为深度学习编译器的典型代表,当前提供了流水并行的推理方式,但缺乏张量并行的支持。
因此,亟需一种基于TVM编译器的张量并行方式的推理方法。
发明内容
有鉴于此,本发明的目的在于提出一种基于TVM编译器的推理方法、装置、存储介质及设备,用以解决目前TVM编译器不支持张量并行方式推理的问题。
基于上述目的,本发明提供了一种基于TVM编译器的推理方法,包括以下步骤:
分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;
将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;
分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。
在一些实施例中,用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理包括:
用对应的通信算子替换当前通信结构,得到对应的通信算子与关联的计算算子的组合,并将该组合拆分为多个子函数,并使用多个子函数实现张量并行方式推理。
在一些实施例中,方法还包括:
使每个子函数包括至少一个通信操作。
在一些实施例中,使用多个子函数实现张量并行方式推理包括:
使多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
在一些实施例中,使用多个子函数实现张量并行方式推理还包括:
使每个子函数对应一个执行进程,并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译;
在编译过程中记录多个子函数之间的依赖逻辑,并根据依赖逻辑实现张量并行方式推理。
在一些实施例中,构建通信算子包括:
利用TVM编译器提供的算子注册机制构建通信算子。
在一些实施例中,方法还包括:
利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。
在一些实施例中,方法还包括:
将通信库与对应的通信算子进行关联。
在一些实施例中,方法还包括:
响应于计算卡为CPU,通信库为OpenMPI或mpi4py。
在一些实施例中,方法还包括:
响应于计算卡为GPU,通信库为NCCL。
在一些实施例中,通信算子为广播通信算子。
在一些实施例中,通信算子为规约通信算子。
在一些实施例中,通过TVM编译器对神经网络模型进行转化,得到转化模型包括:
通过TVM编译器对神经网络模型进行转化,得到Relay IR形式的转化模型。
在一些实施例中,方法还包括:
使用TVM编译器的优化器对转化模型进行优化。
在一些实施例中,优化方式包括算子融合、预计算及存储形式优化中的一种或多种。
本发明的另一方面,还提供了一种基于TVM编译器的推理装置,包括:
分析模块,配置用于分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并根据每个通信拓扑结构图构建通信算子;
转化模块,配置用于将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;以及
推理模块,配置用于分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。
在一些实施例中,推理模块包括拆分模块,拆分模块配置用于用对应的通信算子替换当前通信结构,得到对应的通信算子与关联的计算算子的组合,并将该组合拆分为多个子函数,其中,每个子函数包括至少一个通信操作,并使用多个子函数实现张量并行方式推理。
在一些实施例中,拆分模块包括并行执行模块,配置用于使多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
本发明的又一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方法。
本发明的再一方面,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述方法。
本发明至少具有以下有益技术效果:
本发明的基于TVM编译器的推理方法,通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子,并将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器将神经网络模型转化为转化模型,并确定转化模型的当前通信结构对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理,从而加速了神经网络模型的推理速度,尤其对于大型神经网络模型,能极大缩短总的推理时间,提高推理效率;并且通过将通信算子也纳入模型结构中,可以使模型不再局限于仅包含常规计算算子,进而可以支持更广泛的模型推理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例提供的基于TVM编译器的推理方法的示意图;
图2为根据现有技术提供的TVM编译器中广播通信结构的示意图;
图3为根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图;
图4为根据现有技术提供的TVM编译器中规约通信结构的示意图;
图5为根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图;
图6为根据本发明实施例提供的基于TVM编译器的推理装置的示意图;
图7为根据本发明实施例提供的实现基于TVM编译器的推理方法的计算机可读存储介质的示意图;
图8为根据本发明实施例提供的执行基于TVM编译器的推理方法的计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备固有的其他步骤或单元。
基于上述目的,本发明实施例的第一个方面,提出了一种基于TVM编译器的推理方法的实施例。图1示出的是本发明提供的基于TVM编译器的推理方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
步骤S10、分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;
步骤S20、将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;
步骤S30、分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。
本发明实施例的基于TVM编译器的推理方法,通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子,并将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器将神经网络模型转化为转化模型,并确定转化模型的当前通信结构对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理,从而加速了神经网络模型的推理速度,尤其对于大型神经网络模型,能极大缩短总的推理时间;并且通过将通信算子也纳入模型结构中,可以使模型不再局限于仅包含常规计算算子,进而可以支持更广泛的模型推理。
在一些实施例中,用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理包括:用对应的通信算子替换当前通信结构,得到对应的通信算子与关联的计算算子的组合,并将该组合拆分为多个子函数,并使用多个子函数实现张量并行方式推理。
在一些实施例中,方法还包括:使每个子函数包括至少一个通信操作。在一些实施例中,使用多个子函数实现张量并行方式推理包括:使多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
较佳地,使每个子函数包括一个通信操作。这样能拆分出更多的子函数,使更多子函数并行执行,强化张量并行方式推理的效果。
在一些实施例中,使用多个子函数实现张量并行方式推理还包括:使每个子函数对应一个执行进程,并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译;在编译过程中记录多个子函数之间的依赖逻辑,并根据依赖逻辑实现张量并行方式推理。
在一些实施例中,通信算子为广播通信算子。
图2示出了根据现有技术提供的TVM编译器中广播通信结构的示意图。如图2所示,现有技术中广播通信(Bcast)操作包括将数据由B发送至C,以及由B发送至D。至于数据由C传递至E,以及由D传递至F,无需采用广播通信的方式,可直接传送。具体地,利用广播通信操作时,先由B发送至C,再由B发送至D,需要依次进行,因此导致推理速度慢。
图3示出了根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图。如图3所示,根据广播通信算子将B与C、B与D的连接分别拆开,使C和E分到一张计算卡上,D和F分到另一张计算卡上,形成了3个子函数,每个子函数具有一个广播通信(Bcast)操作。另外,每个子函数还包括至少一个计算算子。例如,B计算算子和Bcast包含在一个子函数中,C计算算子、E计算算子和Bcast包含在另一个子函数中。此时C-E计算卡和D-F计算卡便可同时进行计算,实现了对应2个子函数的并行执行。
在一些实施例中,通信算子为规约通信算子。
图4示出了根据现有技术提供的TVM编译器中规约通信结构的示意图。如图4所示,现有技术中规约通信(AllReduce)操作包括依次计算Input1、Input2、Input3,再将三者的计算结果求和,得到sum,之后将sum依次发送至Post1、Post2、Post3。在此过程中,计算Input1、Input2、Input3不能同时进行,将sum发送至Post1、Post2、Post3也不能同时进行,严重影响TVM编译器的推理效率。
图5示出了根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图。如图5所示,将图4中的规约通信结构拆成Input1+Post1,Input2+Post2,Input3+Post3并分别放到3张计算卡上进行计算,再将sum操作分别包含在每张计算卡上,此规约通信算子被拆成3个子函数,每个子函数具有一个规约通信(AllReduce)操作。该3个子函数可以并行执行。
在一些实施例中,方法还包括:利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。
在一些实施例中,方法还包括:响应于计算卡为CPU,通信库为OpenMPI或mpi4py。
在一些实施例中,方法还包括:响应于计算卡为GPU,通信库为NCCL。
上述实施例中,将计算卡的通信库集成至TVM编译器中属于前期准备工作。可以使用TVM编译器提供的集成第三方库接口,将计算卡的通信库集成至TVM编译器中。
CPU(Central ProcessingUnit,中央处理器)的通信库OpenMPI(一种高性能消息传递库)采用C语言或C++语言;mpi4py(一个构建在MPI之上的Python库)采用python语言。MPI(Multi Point Interface,信息传递接口)是一个跨语言的通讯协议,用于编写并行计算机。
GPU(Graphics ProcessingUnit,图形处理器)的通信库NCCL(英伟达的集合通信库)能够实现每个集合在单一内核上处理通信和计算操作。
在一些实施例中,构建通信算子包括:利用TVM编译器提供的算子注册机制构建通信算子。
在一些实施例中,方法还包括:将通信库与对应的通信算子进行关联。
上述实施例中,通过使用TVM(Tensor Virtual Machine,一款开源的、端到端的深度学习模型编译框架)编译器提供的算子注册机制,可以编写与通信拓扑结构图对应的通信算子。之后会将不同的通信库与对应的通信算子进行绑定,并为通信库添加标签。
在一些实施例中,通过TVM编译器对神经网络模型进行转化,得到转化模型包括:通过TVM编译器对神经网络模型进行转化,得到Relay IR形式的转化模型。
在一些实施例中,方法还包括:使用TVM编译器的优化器对转化模型进行优化。
在一些实施例中,优化方式包括算子融合、预计算及存储形式优化中的一种或多种。
上述实施例中,通过使用TVM编译器读取深度学习框架生成的神经网络模型,并将神经网络模型转化成TVM编译器的Relay IR(IntermediateRepresentation,中间表示)形式,得到转化模型。然后可以使用TVM编译器的优化器对该RelayIR形式的转化模型进行优化,优化方式包括算子融合,预计算,存储形式优化等。Relay是一种功能多样的编程语言,用于机器学习系统表达的中间表示。
本发明实施例的第二个方面,还提供了一种基于TVM编译器的推理装置。图6示出的是本发明提供的基于TVM编译器的推理装置的实施例的示意图。如图6所示,一种基于TVM编译器的推理装置包括:分析模块10,配置用于分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;转化模块20,配置用于将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;以及推理模块30,配置用于分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。
本发明实施例的基于TVM编译器的推理装置,通过将TVM编译器在推理过程中的所有通信结构生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子,并将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器将神经网络模型转化为转化模型,并确定转化模型的当前通信结构对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理,从而加速了神经网络模型的推理速度,尤其对于大型神经网络模型,能极大缩短总的推理时间;并且通过将通信算子也纳入模型结构中,可以使模型不再局限于仅包含常规计算算子,进而可以支持更广泛的模型推理。
在一些实施例中,推理模块30包括拆分模块,拆分模块配置用于将对应的通信算子拆分为多个子函数,其中,每个子函数包括至少一个通信操作,并使用多个子函数实现张量并行方式推理。
在一些实施例中,拆分模块包括并行执行模块,配置用于用对应的通信算子替换当前通信结构,得到对应的通信算子与关联的计算算子的组合,并将该组合拆分为多个子函数,以实现张量并行方式推理。
在一些实施例中,并行执行模块还配置用于使每个子函数对应一个执行进程,并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译;在编译过程中记录多个子函数之间的依赖逻辑,并根据依赖逻辑实现张量并行方式推理。
在一些实施例中,分析模块10包括构建模块,配置用于利用TVM编译器提供的算子注册机制构建通信算子。
在一些实施例中,系统还包括集成模块,配置用于利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。
在一些实施例中,系统还包括关联模块,配置用于将通信库与对应的通信算子进行关联。
在一些实施例中,系统还包括第一通信库模块,配置用于响应于计算卡为CPU,通信库为OpenMPI或mpi4py。
在一些实施例中,系统还包括第二通信库模块,配置用于响应于计算卡为GPU,通信库为NCCL。
上述实施例中,将计算卡的通信库集成至TVM编译器中属于前期准备工作。可以使用TVM编译器提供的集成第三方库接口,将计算卡的通信库集成至TVM编译器中。
CPU(Central ProcessingUnit,中央处理器)的通信库OpenMPI(一种高性能消息传递库)采用C语言或C++语言;mpi4py(一个构建在MPI之上的Python库)采用python语言。MPI(Multi Point Interface,信息传递接口)是一个跨语言的通讯协议,用于编写并行计算机。GPU(Graphics Processing Unit,图形处理器)的通信库NCCL(英伟达的集合通信库)能够实现每个集合在单一内核上处理通信和计算操作。
在一些实施例中,通信算子为广播通信算子。
图2示出了根据现有技术提供的TVM编译器中广播通信结构的示意图。如图2所示,现有技术中广播通信(Bcast)操作包括将数据由B发送至C,以及由B发送至D。至于数据由C传递至E,以及由D传递至F,无需采用广播通信的方式,可直接传送。具体地,利用广播通信操作时,先由B发送至C,再由B发送至D,需要依次进行,因此导致推理速度慢。
图3示出了根据本发明实施例提供的用于替换图2中广播通信结构的广播通信算子的结构示意图。如图3所示,根据广播通信算子将B与C、B与D的连接分别拆开,使C和E分到一张计算卡上,D和F分到另一张计算卡上,形成了3个子函数,每个子函数具有一个广播通信(Bcast)操作。此时C-E计算卡和D-F计算卡便可同时进行计算,实现了对应2个子函数的并行执行。
在一些实施例中,通信算子为规约通信算子。
图4示出了根据现有技术提供的TVM编译器中规约通信结构的示意图。如图4所示,现有技术中规约通信(AllReduce)操作包括依次计算Input1、Input2、Input3,再将三者的计算结果求和,得到sum,之后将sum依次发送至Post1、Post2、Post3。在此过程中,计算Input1、Input2、Input3不能同时进行,将sum发送至Post1、Post2、Post3也不能同时进行,严重影响TVM编译器的推理效率。
图5示出了根据本发明实施例提供的用于替换图4中规约通信结构的规约通信算子的结构示意图。如图5所示,将图4中的规约通信结构拆成Input1+Post1,Input2+Post2,Input3+Post3并分别放到3张计算卡上进行计算,再将sum操作分别包含在每张计算卡上,此规约通信算子被拆成3个子函数,每个子函数具有一个规约通信(AllReduce)操作,该3个子函数可以并行执行。
在一些实施例中,转化模块20进一步配置用于通过TVM编译器对神经网络模型进行转化,得到Relay IR形式的转化模型。
在一些实施例中,系统还包括优化模块,配置用于使用TVM编译器的优化器对转化模型进行优化。
在一些实施例中,优化方式包括算子融合、预计算及存储形式优化中的一种或多种。
上述实施例中,通过使用TVM编译器读取深度学习框架生成的神经网络模型,并将神经网络模型转化成TVM编译器的Relay IR(IntermediateRepresentation,中间表示)形式,得到转化模型。然后可以使用TVM编译器的优化器对该RelayIR形式的转化模型进行优化,优化方式包括算子融合,预计算,存储形式优化等。Relay是一种功能多样的编程语言,用于机器学习系统表达的中间表示。
需要说明的是,结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
本发明实施例的第三个方面,还提供了一种计算机可读存储介质,图7示出了根据本发明实施例提供的实现基于TVM编译器的推理方法的计算机可读存储介质的示意图。如图7所示,计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现如下步骤:
分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;
将待推理的神经网络模型输入TVM编译器中,并通过TVM编译器对神经网络模型进行转化,得到转化模型;
分析转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理。
在一些实施例中,用对应的通信算子替换当前通信结构,并使用对应的通信算子实现张量并行方式推理包括:用对应的通信算子替换当前通信结构,得到对应的通信算子与关联的计算算子的组合,并将该组合拆分为多个子函数,并使用多个子函数实现张量并行方式推理。
在一些实施例中,步骤还包括:使每个子函数对应一个通信操作。
在一些实施例中,使用多个子函数实现张量并行方式推理包括:使多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
在一些实施例中,使用多个子函数实现张量并行方式推理还包括:使每个子函数对应一个执行进程,并基于对应的执行进程将每个子函数传递至对应的计算卡进行编译;在编译过程中记录多个子函数之间的依赖逻辑,并根据依赖逻辑实现张量并行方式推理。
在一些实施例中,构建通信算子包括:利用TVM编译器提供的算子注册机制构建通信算子。
在一些实施例中,步骤还包括:利用TVM编译器提供的接口将计算卡的通信库集成至TVM编译器中。
在一些实施例中,步骤还包括:将通信库与对应的通信算子进行关联。
在一些实施例中,步骤还包括:响应于计算卡为CPU,通信库为OpenMPI或mpi4py。
在一些实施例中,步骤还包括:响应于计算卡为GPU,通信库为NCCL。
在一些实施例中,通信算子为广播通信算子。
在一些实施例中,通信算子为规约通信算子。
在一些实施例中,通过TVM编译器对神经网络模型进行转化,得到转化模型包括:通过TVM编译器对神经网络模型进行转化,得到Relay IR形式的转化模型。
在一些实施例中,步骤还包括:使用TVM编译器的优化器对转化模型进行优化。
在一些实施例中,优化方式包括算子融合、预计算及存储形式优化中的一种或多种。
应当理解,在相互不冲突的情况下,以上针对根据本发明的基于TVM编译器的推理方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的基于TVM编译器的推理装置和存储介质。
本发明实施例的第四个方面,还提供了一种计算机设备,包括如图8所示的存储器402和处理器401,该存储器402中存储有计算机程序,该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。
如图8所示,为本发明提供的执行基于TVM编译器的推理方法的计算机设备的一个实施例的硬件结构示意图。以如图8所示的计算机设备为例,在该计算机设备中包括一个处理器401以及一个存储器402,并还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图8中以通过总线连接为例。输入装置403可接收输入的数字或字符信息,以及产生与基于TVM编译器的推理装置的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于TVM编译器的推理方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储基于TVM编译器的推理方法的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于TVM编译器的推理方法。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (20)

1.一种基于TVM编译器的推理方法,其特征在于,包括以下步骤:
分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;
将待推理的神经网络模型输入所述TVM编译器中,并通过所述TVM编译器对所述神经网络模型进行转化,得到转化模型;
分析所述转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换所述当前通信结构,并使用所述对应的通信算子实现张量并行方式推理。
2.根据权利要求1所述的方法,其特征在于,用对应的通信算子替换所述当前通信结构,并使用所述对应的通信算子实现张量并行方式推理包括:
用对应的通信算子替换所述当前通信结构,得到所述对应的通信算子与关联的计算算子的组合,并将所述组合拆分为多个子函数,并使用所述多个子函数实现张量并行方式推理。
3.根据权利要求2所述的方法,其特征在于,还包括:
使每个子函数包括至少一个通信操作。
4.根据权利要求2所述的方法,其特征在于,使用所述多个子函数实现张量并行方式推理包括:
使所述多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
5.根据权利要求3所述的方法,其特征在于,使用所述多个子函数实现张量并行方式推理还包括:
使所述每个子函数对应一个执行进程,并基于对应的执行进程将所述每个子函数传递至对应的计算卡进行编译;
在编译过程中记录所述多个子函数之间的依赖逻辑,并根据所述依赖逻辑实现张量并行方式推理。
6.根据权利要求1所述的方法,其特征在于,构建通信算子包括:
利用所述TVM编译器提供的算子注册机制构建通信算子。
7.根据权利要求1所述的方法,其特征在于,还包括:
利用所述TVM编译器提供的接口将计算卡的通信库集成至所述TVM编译器中。
8.根据权利要求7所述的方法,其特征在于,还包括:
将所述通信库与所述对应的通信算子进行关联。
9.根据权利要求7所述的方法,其特征在于,还包括:
响应于所述计算卡为CPU,所述通信库为OpenMPI或mpi4py。
10.根据权利要求7所述的方法,其特征在于,还包括:
响应于所述计算卡为GPU,所述通信库为NCCL。
11.根据权利要求1所述的方法,其特征在于,所述通信算子为广播通信算子。
12.根据权利要求1所述的方法,其特征在于,所述通信算子为规约通信算子。
13.根据权利要求1所述的方法,其特征在于,通过所述TVM编译器对所述神经网络模型进行转化,得到转化模型包括:
通过所述TVM编译器对所述神经网络模型进行转化,得到RelayIR形式的转化模型。
14.根据权利要求1所述的方法,其特征在于,还包括:
使用所述TVM编译器的优化器对所述转化模型进行优化。
15.根据权利要求14所述的方法,其特征在于,优化方式包括算子融合、预计算及存储形式优化中的一种或多种。
16.一种基于TVM编译器的推理装置,其特征在于,包括:
分析模块,配置用于分析TVM编译器在推理过程中的所有通信结构,并生成多个通信拓扑结构图,并为每个通信拓扑结构图构建通信算子;
转化模块,配置用于将待推理的神经网络模型输入所述TVM编译器中,并通过所述TVM编译器对所述神经网络模型进行转化,得到转化模型;以及
推理模块,配置用于分析所述转化模型的当前通信结构,并确定对应的通信拓扑结构图,并用对应的通信算子替换所述当前通信结构,并使用所述对应的通信算子实现张量并行方式推理。
17.根据权利要求16所述的装置,其特征在于,所述推理模块包括拆分模块,所述拆分模块配置用于用对应的通信算子替换所述当前通信结构,得到所述对应的通信算子与关联的计算算子的组合,并将所述组合拆分为多个子函数,其中,每个子函数包括至少一个通信操作,并使用所述多个子函数实现张量并行方式推理。
18.根据权利要求17所述的装置,其特征在于,所述拆分模块包括并行执行模块,配置用于使所述多个子函数的部分或全部子函数并行执行,以实现张量并行方式推理。
19.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-15任意一项所述的方法。
20.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1-15任意一项所述的方法。
CN202310081890.2A 2023-02-08 2023-02-08 基于tvm编译器的推理方法、装置、存储介质及设备 Active CN115796284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310081890.2A CN115796284B (zh) 2023-02-08 2023-02-08 基于tvm编译器的推理方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310081890.2A CN115796284B (zh) 2023-02-08 2023-02-08 基于tvm编译器的推理方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN115796284A true CN115796284A (zh) 2023-03-14
CN115796284B CN115796284B (zh) 2023-05-09

Family

ID=85430506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310081890.2A Active CN115796284B (zh) 2023-02-08 2023-02-08 基于tvm编译器的推理方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN115796284B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766147A (zh) * 2018-07-25 2020-02-07 赛灵思公司 神经网络编译器架构及编译方法
CN110764744A (zh) * 2018-07-25 2020-02-07 赛灵思公司 用于神经网络计算的中间表示生成方法和装置
CN111860817A (zh) * 2020-07-10 2020-10-30 苏州浪潮智能科技有限公司 一种网络模型部署方法、装置、设备及可读存储介质
CN113885871A (zh) * 2021-09-13 2022-01-04 清华大学 支持机器学习训练的专用后端代码生成方法及装置
CN114117896A (zh) * 2021-11-09 2022-03-01 上海交通大学 面向超长simd管线的二值规约优化实现方法及系统
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114416045A (zh) * 2020-10-28 2022-04-29 华为技术有限公司 自动生成算子的方法和装置
CN114995822A (zh) * 2022-06-07 2022-09-02 重庆大学 专用于cnn加速器的深度学习编译器优化方法
CN115145588A (zh) * 2022-07-29 2022-10-04 北极雄芯信息科技(西安)有限公司 一种基于tvm的中间表示和数据生成方法
CN115423101A (zh) * 2022-08-19 2022-12-02 贝式计算(天津)信息技术有限公司 基于编译器的张量数据计算推理方法、装置及存储介质
CN115437760A (zh) * 2022-07-26 2022-12-06 北京旷视科技有限公司 计算资源分配方法、电子设备、存储介质及程序产品
CN115509539A (zh) * 2022-09-28 2022-12-23 苏州浪潮智能科技有限公司 一种数据调用方法、装置、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766147A (zh) * 2018-07-25 2020-02-07 赛灵思公司 神经网络编译器架构及编译方法
CN110764744A (zh) * 2018-07-25 2020-02-07 赛灵思公司 用于神经网络计算的中间表示生成方法和装置
CN111860817A (zh) * 2020-07-10 2020-10-30 苏州浪潮智能科技有限公司 一种网络模型部署方法、装置、设备及可读存储介质
CN114416045A (zh) * 2020-10-28 2022-04-29 华为技术有限公司 自动生成算子的方法和装置
CN113885871A (zh) * 2021-09-13 2022-01-04 清华大学 支持机器学习训练的专用后端代码生成方法及装置
CN114117896A (zh) * 2021-11-09 2022-03-01 上海交通大学 面向超长simd管线的二值规约优化实现方法及系统
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114995822A (zh) * 2022-06-07 2022-09-02 重庆大学 专用于cnn加速器的深度学习编译器优化方法
CN115437760A (zh) * 2022-07-26 2022-12-06 北京旷视科技有限公司 计算资源分配方法、电子设备、存储介质及程序产品
CN115145588A (zh) * 2022-07-29 2022-10-04 北极雄芯信息科技(西安)有限公司 一种基于tvm的中间表示和数据生成方法
CN115423101A (zh) * 2022-08-19 2022-12-02 贝式计算(天津)信息技术有限公司 基于编译器的张量数据计算推理方法、装置及存储介质
CN115509539A (zh) * 2022-09-28 2022-12-23 苏州浪潮智能科技有限公司 一种数据调用方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘荣达: "基于混合并行的深度卷积神经网络加速方法研究" *

Also Published As

Publication number Publication date
CN115796284B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Jain et al. Efficient execution of quantized deep learning models: A compiler approach
CN112445465B (zh) 基于c代码生成的神经网络模型推理和训练方法
US10387126B2 (en) Data marshalling optimization via intermediate representation of workflows
Fredriksson et al. Seamless distributed computing from the geometry of interaction
Paleyes et al. An empirical evaluation of flow based programming in the machine learning deployment context
CN115796284A (zh) 基于tvm编译器的推理方法、装置、存储介质及设备
Acampora et al. Distributing fuzzy reasoning through fuzzy markup language: An application to ambient intelligence
US11829737B2 (en) Using compiler optimization to enable automatic generation of combinational circuits from high-level programs
KR20210120937A (ko) 딥 러닝 프레임워크 중의 모드 전환 방법, 장치, 전자 기기, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품
Allombert et al. Programming bsp and multi-bsp algorithms in ml
Gorlatch Message passing without send–receive
CN111443946A (zh) Ios系统与页面的交互方法、系统、服务器和存储介质
WO2022190418A1 (ja) 開発支援装置、開発支援方法および開発支援プログラム
CN100361077C (zh) 微编译网格服务构建器的微编译网格服务构建方法
US9871667B2 (en) Interaction protocol for interacting computer systems
Kuryazov et al. Towards collaborative smart city modeling
US20150089471A1 (en) Input filters and filter-driven input processing
Rosmann et al. An easy-to-use execution environment for the parallelisation of computationally intensive data science applications
KULAKOV USING AN OBJECT MODEL
Gou et al. Code generation for Security and Stability Control System based on extended reactive component
Larnac et al. Formal representation and proof of the interpreted sequential machine model
Qian Research on Automation Strategy of Coq
CN113721902A (zh) 一种可视化协同编程装置、系统、介质及协同编程方法
CN116954576A (zh) 一种组件开发的方法、装置、存储介质和电子设备
Grando Owicki-Gries Theory: A Possible Way of Relating Grammar Systems to Concurrent Programs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant