CN113986234A

CN113986234A - 一种跨平台模型推理的方法、系统、存储介质及设备

Info

Publication number: CN113986234A
Application number: CN202111102450.8A
Authority: CN
Inventors: 王慕雪
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-19
Filing date: 2021-09-19
Publication date: 2022-01-28

Abstract

本发明提供了一种跨平台模型推理的方法、系统、存储介质及设备，方法包括：在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库；由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示；响应于目标后端设置为该标记后端，从该算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库；在部署芯片上加载该动态链接库以执行模型推理。本发明降低了切换目标硬件平台的工作量，增加了后端的扩展性。

Description

一种跨平台模型推理的方法、系统、存储介质及设备

技术领域

本发明涉及服务器技术领域，尤其涉及一种跨平台模型推理的方法、系统、存储介质及设备。

背景技术

在模型推理任务中，将训练得到的模型部署在CPU、GPU、FPGA和其他新型人工智能芯片如寒武纪MLU等不同目标硬件平台上并保证推理的高效性是一项极具挑战的工作。不同种类的芯片在内存层次结构、支持的指令和数据类型等方面可能存在较大差异，已有的模型推理和优化方法大多数聚焦于单一种类的芯片设备。当切换目标硬件平台时，模型推理方法往往也需要随之更换，由此带来的成本代价将随着人工智能芯片的快速迭代而增加。

目前，NVIDIA推出的推理加速框架TensorRT对Caffe，TensorFlow 的网络模型进行解析并映射到TensorRT中对应的层，在TensorRT中可以使用专门针对NVIDIA GPU的优化策略对模型推理进行加速并生成能够在 GPU上运行的代码。

然而，上述解决方案仍具有一些缺点，主要在于后端扩展性不足。 TensorRT的优化和推理功能专门针对NVIDIA GPU设备，目前无法支持其他种类的人工智能芯片。

因此，需要提出一种用于模型推理的方法，针对现有技术中的上述缺点问题，降低模型推理时切换目标硬件平台的代价，解决上述后端扩展性不足等问题。

发明内容

有鉴于此，本发明的目的在于提出一种可用于不同硬件平台的、通用的模型推理的方法、系统、存储介质及设备，从而解决现有技术中传统的推理框架切换目标硬件平台的代价较高、后端扩展性不足等问题。

基于上述目的，一方面，本发明提供了一种跨平台模型推理的方法，其中该方法包括以下步骤：

在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；

将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库；

由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示；

响应于目标后端设置为该标记后端，从该算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库；

在部署芯片上加载该动态链接库以执行模型推理。

在根据本发明的跨平台模型推理的方法的一些实施例中，将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库进一步包括：

在该深度学习编译框架的运行时模块引入该部署芯片的运行时库，用于实现该部署芯片的功能函数；

在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库，用于通过该机器学习库的库函数的调用实现计算图中的各个算子，从而建立该标记后端对应的算子仓库。

在根据本发明的跨平台模型推理的方法的一些实施例中，在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库，用于通过该机器学习库的库函数的调用实现计算图中的各个算子，从而建立该标记后端对应的算子仓库进一步包括设置该部署芯片上计算所需的数据类型、数据布局、张量描述符、算子描述符、以及调用对应的算子接口。

在根据本发明的跨平台模型推理的方法的一些实施例中，该功能函数包括用于实现部署芯片的内存分配/释放、数据拷贝、队列同步的功能函数。

在根据本发明的跨平台模型推理的方法的一些实施例中，在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

为该部署芯片命名为标记后端；

在该深度学习编译框架的目标类中定义该标记后端的成员方法；

在该深度学习编译框架的runtime ctypes中添加该标记后端的掩码；

在该深度学习编译框架的runtime ndarray中添加关于该标记后端的声明。

在根据本发明的跨平台模型推理的方法的一些实施例中，该在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

在设备类型结构体DLDeviceType中添加该标记后端；

在设备名定义函数DeviceName中添加该标记后端作为新设备；

在函数RuntimeEnabled中添加对该新设备的支持；

在目标设备类型TargetKind中注册该新设备。

在根据本发明的跨平台模型推理的方法的一些实施例中，该动态链接库中包含在部署芯片上运行的推理代码，该推理代码包括该各个算子的实现以及对应的该功能函数。

本发明的另一方面，还提供了一种跨平台模型推理的系统，其中包括：

目标后端标记模块，该目标后端标记模块配置为在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；

函数算子置入模块，该函数算子置入模块配置为将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库；

解析生成计算模块，该解析生成计算模块配置为由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示；

目标后端响应模块，该目标后端响应模块配置为响应于目标后端设置为该标记后端，从该算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库；

模型推理执行模块，该模型推理执行模块配置为在部署芯片上加载该动态链接库以执行模型推理。

本发明的再一方面，还提供了一种计算机可读存储介质，存储有计算机程序指令，该计算机程序指令被执行时实现上述任一项根据本发明的跨平台模型推理的方法。

本发明的又一方面，还提供了一种计算机设备，包括存储器和处理器，该存储器中存储有计算机程序，该计算机程序被处理器执行时执行上述任一项根据本发明的跨平台模型推理的方法。

本发明至少具有以下有益技术效果：基于深度学习编译框架实现了一种通用的深度学习模型推理方法，能够有效降低模型推理时切换目标硬件平台的代价，解决了后端扩展性不足的问题。通过根据本发明的方法，用户只需要编写简单的推理脚本便可将Tensorflow、Onnx、PyTorch等常见深度学习前端框架的模型文件部署到由CPU、GPU或寒武纪MLU等不同种类人工智能芯片组成的后端设备上并完成推理任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

在图中：

图1示出了根据本发明的跨平台模型推理的方法的实施例的示意性框图；

图2示出了根据本发明的跨平台模型推理的方法的实施例的示意图；

图3示出了根据本发明的跨平台模型推理的系统的实施例的示意性框图；

图4示出了根据本发明的实现跨平台模型推理的方法的实施例的计算机可读存储介质的示意图；

图5示出了根据本发明的实现跨平台模型推理的方法的实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。

基于上述目的，本发明的第一方面，提供了一种跨平台模型推理的方法100。图1示出了根据本发明的跨平台模型推理的方法的实施例的示意性框图。在如图1所示的实施例中，该方法包括：

步骤S110：在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；

步骤S120：将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库；

步骤S130：由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示；

步骤S140：响应于目标后端设置为该标记后端，从该算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库；

步骤S150：在部署芯片上加载该动态链接库以执行模型推理。

总的来说，根据本发明的方法的关键在于将待部署的芯片加入到深度学习编译框架后端中，从而实现一种对不同目标硬件平台通用的模型推理方法，保证模型推理时硬件选择的多样性和易切换。与针对单一硬件优化和部署的现有技术相比，根据本发明的方法能够有效减少模型推理时切换目标硬件平台带来的工作量。

TVM是一款开源的深度学习编译框架，其作用在于将各种模型计算图中的算子编译成能够在不同硬件平台上高效执行的代码。TVM对于 TensorFlow、PyTorch、Onnx等常见的深度学习前端框架具备良好的支持能力，考虑在TVM后端模块中添加新型人工智能芯片，可以实现一种具有良好后端扩展性的模型推理方法，有效减少模型部署时切换硬件平台引起的不便。

在本发明的范围内，前述的“部署芯片”、“待部署芯片”应理解为能够提供机器学习库和运行时库的人工智能芯片，如同本发明以下优选实施例中，以寒武纪MLU270芯片为例，详述根据本发明的方法的处理。然而，其他的能够提供机器学习库和运行时库的人工智能芯片也包括在其中，可以作为新后端添加至TVM的目标后端模块，在TVM的计算图模块调用其机器学习库函数来实现算子，在TVM的运行时模块调用其运行时库接口来实现片上内存相关的操作。原则上，根据本发明的方法可用于满足条件的任意人工智能芯片的模型推理。

具体地，根据本发明的方法，首先，作为跨平台的准备工作，在步骤 S110中在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端。优选地，以上述寒武纪人工智能芯片MLU270为例，在TVM后端Target 模块中添加寒武纪人工智能芯片MLU270作为新后端，命名为mlu。TVM 已经支持的后端包括CPU和GPU等，在模型推理脚本中对目标平台种类进行设置即可完成模型在CPU、GPU、MLU等不同硬件设备上的推理。

随后，步骤S120将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库。在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库是后续进行模型推理的跨平台执行的基础。优选地，将寒武纪运行时库CNRT、机器学习库CNML和 CNNL引入TVM，以在TVM上实现寒武纪的功能函数并建立mlu对应的算子仓库。

在完成了步骤S120的功能函数的实现以及算子仓库的建立后，就可以进行推理模型的解析，即步骤S130由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示。模型文件优选但不限于为 Tensorflow/Onnx的模型文件。当用户需要跨平台进行模型推理时，也就是说利用该部署芯片执行模型推理时，只需将目标后端设置为该标记后端。优选地，例如当用户需要使用寒武纪人工智能芯片MLU270进行模型推理时，也就是说利用寒武纪人工智能芯片MLU270执行模型推理时，只需将目标后端设置为mlu。此时，响应于该设置，步骤S140从步骤S120的算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的各个算子的实现以及步骤S120实现的对应的该功能函数生成动态链接库。

最后，步骤S150在部署芯片上加载步骤S140中生成的动态链接库以执行模型推理。在上述优选实施例中，在寒武纪人工智能芯片MLU270上加载之前生成的动态链接库以执行模型推理。前述优选实施例的整个过程如图2所示。

在根据本发明的跨平台模型推理的方法100的一些实施例中，步骤 S120将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库进一步包括：

步骤S121：在该深度学习编译框架的运行时模块引入该部署芯片的运行时库，用于实现该部署芯片的功能函数；

步骤S122：在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库，用于通过该机器学习库的库函数的调用实现计算图中的各个算子，从而建立该标记后端对应的算子仓库。

具体地说，前述方法步骤中，步骤S120将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库可以进一步实现为两部分。其中，第一部分是对功能函数的实现，即步骤S121在该深度学习编译框架的运行时模块引入该部署芯片的运行时库，用于实现该部署芯片的功能函数。优选地，在TVM运行时模块中引入寒武纪运行时库CNRT，用于实现MLU芯片的功能函数。第二部分是对算子仓库的建立，即步骤S122 在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库，用于通过该机器学习库的库函数的调用实现计算图中的各个算子，从而建立该标记后端对应的算子仓库。优选地，在TVM的计算图模块中引入寒武纪机器学习库CNML和CNNL，通过库函数的调用实现计算图中的各个算子，形成MLU后端对应的算子仓库。

在根据本发明的跨平台模型推理的方法100的一些实施例中，步骤 S122在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库，用于通过该机器学习库的库函数的调用实现计算图中的各个算子，从而建立该标记后端对应的算子仓库进一步包括设置该部署芯片上计算所需的数据类型、数据布局、张量描述符、算子描述符、以及调用对应的算子接口。根据寒武纪机器学习库文档介绍，算子的代码实现主要包括设置片上计算所需的数据类型、数据布局、张量描述符、算子描述符，以及调用对应的算子接口几个步骤。以最大池化算子的实现为例，如下表所示。

在根据本发明的跨平台模型推理的方法100的一些实施例中，该功能函数包括用于实现部署芯片的内存分配/释放、数据拷贝、队列同步的功能函数。在TVM运行时模块引入寒武纪运行时库CNRT，用于实现MLU芯片的内存分配/释放、数据拷贝、队列同步等功能函数。以内存分配函数为例，其实现如下表所示。

其他如内存释放、数据拷贝、队列同步等函数的代码实现与内存分配函数AllocDataSpace类似，调用的寒武纪运行时库接口分别为cnrtFree(内存释放)、cnrtMemcpy(拷贝)、cnrtSyncQueue(队列同步)等。

在根据本发明的跨平台模型推理的方法100的一些实施例中，步骤 S110在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

步骤S111：为该部署芯片命名为标记后端；

步骤S112：在该深度学习编译框架的目标类中定义该标记后端的成员方法；

步骤S113：在该深度学习编译框架的runtime ctypes中添加该标记后端的掩码；

步骤S114：在该深度学习编译框架的runtime ndarray中添加关于该标记后端的声明。

具体地说，步骤S110在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端优选地通过上述步骤S111至S114来进一步实现，其中步骤S113在该深度学习编译框架的runtime ctypes中添加该标记后端的掩码，在前述优选实施例中实施为在TVM的runtime ctypes中添加mlu的掩码，其可以通过下表实现。

此外，步骤S114在该深度学习编译框架的runtime ndarray中添加关于该标记后端的声明，在前述优选实施例中实施为在TVM的runtime ndarray 中添加关于mlu的声明，其可以通过下表实现。

在根据本发明的跨平台模型推理的方法100的一些实施例中，步骤 S110该在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

步骤S115：在设备类型结构体DLDeviceType中添加该标记后端；

步骤S116：在设备名定义函数DeviceName中添加该标记后端作为新设备；

步骤S117：在函数RuntimeEnabled中添加对该新设备的支持；

步骤S118：在目标设备类型TargetKind中注册该新设备。

具体地说，步骤S110在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端优选地通过上述步骤S115至S118来进一步实现，其中步骤S115在设备类型结构体DLDeviceType中添加该标记后端，在前述优选实施例中实施为在设备类型结构体DLDeviceType中添加mlu设备，其可以通过下表实现。

此外，步骤S116在设备名定义函数DeviceName中添加该标记后端作为新设备，在前述优选实施例中实施为在设备名定义函数DeviceName中添加新设备名称mlu，其可以通过下表实现。

此外，步骤S117在函数RuntimeEnabled中添加对该新设备的支持，在前述优选实施例中实施为在函数RuntimeEnabled中添加对新设备名称mlu 的支持，其可以通过下表实现。

此外，步骤S118：在目标设备类型TargetKind中注册该新设备，在前述优选实施例中实施为在目标设备类型TargetKind中注册新设备mlu，其可以通过下表实现。

TVM_REGISTER_TARGET_KIND(″mlu″,kDLMLU)

通过根据本发明的跨平台模型推理的方法，常见的深度学习模型可以通过一种通用的方式在不同种类的人工智能芯片上进行优化和推理，只需要在简单的推理脚本中设置目标硬件的种类即可完成深度学习模型在GPU 和MLU等不同人工智能芯片上的推理，增加了模型推理方法的后端扩展性，降低了切换目标硬件平台的工作量。

本发明的第二方面，还提供了一种跨平台模型推理的系统200。图3示出了根据本发明的跨平台模型推理的系统200的实施例的示意性框图。如图3所示，该系统包括：

目标后端标记模块210，该目标后端标记模块210配置为在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；

函数算子置入模块220，该函数算子置入模块220配置为将该部署芯片的运行时库和机器学习库置入该深度学习编译框架，以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库；

解析生成计算模块230，该解析生成计算模块230配置为由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示；

目标后端响应模块240，该目标后端响应模块240配置为响应于目标后端设置为该标记后端，从该算子仓库中查找该计算图中各个算子的实现，该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库；

模型推理执行模块250，该模型推理执行模块250配置为在部署芯片上加载该动态链接库以执行模型推理。

本发明实施例的第三个方面，还提供了一种计算机可读存储介质，图4 示出了根据本发明实施例提供的跨平台模型推理的方法的计算机可读存储介质的示意图。如图4所示，计算机可读存储介质300存储有计算机程序指令310，该计算机程序指令310可以被处理器执行。该计算机程序指令 310被执行时实现上述任意一项实施例的方法。

应当理解，在相互不冲突的情况下，以上针对根据本发明的跨平台模型推理的方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的用于量化模型部署的系统和存储介质。

本发明实施例的第四个方面，还提供了一种计算机设备400，包括存储器420和处理器410，该存储器中存储有计算机程序，该计算机程序被该处理器执行时实现上述任意一项实施例的方法。

如图5所示，为本发明提供的执行跨平台模型推理的方法的计算机设备的一个实施例的硬件结构示意图。以如图5所示的计算机设备400为例，在该计算机设备中包括一个处理器410以及一个存储器420，并还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图5中以通过总线连接为例。输入装置430可接收输入的数字或字符信息，以及产生与跨平台模型推理有关的信号输入。输出装置440可包括显示屏等显示设备。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的资源监控方法对应的程序指令/模块。存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储资源监控方法的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的资源监控方法。

最后需要说明的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种跨平台模型推理的方法，其特征在于，包括以下步骤：

将所述部署芯片的运行时库和机器学习库置入所述深度学习编译框架，以在所述深度学习编译框架上实现所述部署芯片的功能函数并建立所述标记后端对应的算子仓库；

由所述深度学习编译框架解析模型文件生成所述深度学习编译框架中的计算图表示；

响应于目标后端设置为所述标记后端，从所述算子仓库中查找所述计算图中各个算子的实现，所述深度学习编译框架将对应的所述各个算子的实现以及对应的所述功能函数生成动态链接库；

在部署芯片上加载所述动态链接库以执行模型推理。

2.根据权利要求1所述的方法，其特征在于，所述将所述部署芯片的运行时库和机器学习库置入所述深度学习编译框架，以在所述深度学习编译框架上实现所述部署芯片的功能函数并建立所述标记后端对应的算子仓库进一步包括：

在所述深度学习编译框架的运行时模块引入所述部署芯片的运行时库，用于实现所述部署芯片的功能函数；

在所述深度学习编译框架的计算图模块引入所述部署芯片的机器学习库，用于通过所述机器学习库的库函数的调用实现计算图中的各个算子，从而建立所述标记后端对应的算子仓库。

3.根据权利要求2所述的方法，其特征在于，所述在所述深度学习编译框架的计算图模块引入所述部署芯片的机器学习库，用于通过所述机器学习库的库函数的调用实现计算图中的各个算子，从而建立所述标记后端对应的算子仓库进一步包括：

设置所述部署芯片上计算所需的数据类型、数据布局、张量描述符、算子描述符、以及调用对应的算子接口。

4.根据权利要求1所述的方法，其特征在于，所述功能函数包括用于实现部署芯片的内存分配/释放、数据拷贝、队列同步的功能函数。

5.根据权利要求1所述的方法，其特征在于，所述在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

为所述部署芯片命名为标记后端；

在所述深度学习编译框架的目标类中定义所述标记后端的成员方法；

在所述深度学习编译框架的runtime ctypes中添加所述标记后端的掩码；

在所述深度学习编译框架的runtime ndarray中添加关于所述标记后端的声明。

6.根据权利要求5所述的方法，其特征在于，所述在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端进一步包括：

在设备类型结构体DLDeviceType中添加所述标记后端；

在设备名定义函数DeviceName中添加所述标记后端作为新设备；

在函数RuntimeEnabled中添加对所述新设备的支持；

在目标设备类型TargetKind中注册所述新设备。

7.根据权利要求1所述的方法，其特征在于，所述动态链接库中包含在部署芯片上运行的推理代码，所述推理代码包括所述各个算子的实现以及对应的所述功能函数。

8.一种跨平台模型推理的系统，其特征在于，包括：

目标后端标记模块，所述目标后端标记模块配置为在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端；

函数算子置入模块，所述函数算子置入模块配置为将所述部署芯片的运行时库和机器学习库置入所述深度学习编译框架，以在所述深度学习编译框架上实现所述部署芯片的功能函数并建立所述标记后端对应的算子仓库；

解析生成计算模块，所述解析生成计算模块配置为由所述深度学习编译框架解析模型文件生成所述深度学习编译框架中的计算图表示；

目标后端响应模块，所述目标后端响应模块配置为响应于目标后端设置为所述标记后端，从所述算子仓库中查找所述计算图中各个算子的实现，所述深度学习编译框架将对应的所述各个算子的实现以及对应的所述功能函数生成动态链接库；

模型推理执行模块，所述模型推理执行模块配置为在部署芯片上加载所述动态链接库以执行模型推理。

9.一种计算机可读存储介质，其特征在于，存储有计算机程序指令，所述计算机程序指令被执行时实现如权利要求1-7任意一项所述的方法。

10.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时执行如权利要求1-7任意一项所述的方法。