CN113377464A

CN113377464A - 一种基于多推理引擎系统的应用部署方法、装置及设备

Info

Publication number: CN113377464A
Application number: CN202110921850.5A
Authority: CN
Inventors: 刘鑫
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-09-10
Anticipated expiration: 2041-08-12
Also published as: CN113377464B

Abstract

本申请公开了一种基于多推理引擎系统的应用部署方法，对于给定的源模型，该方法能够自动实现源模型到不同推理引擎上的转换，并对转换得到的模型模型进行推理评估，最终根据推理评估结果选择最优的推理引擎，以用于后续应用部署。实现了对系统中每一个推理引擎的自动化评估，降低了推理引擎选择过程的专业门槛和工作量，避免开发人员由于对推理引擎不熟悉而花费大量时间和精力选择推理引擎，有助于提升应用部署效率。此外，本申请还提供了一种基于多推理引擎系统的应用部署装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应。

Description

一种基于多推理引擎系统的应用部署方法、装置及设备

技术领域

本申请涉及深度学习技术领域，特别涉及一种基于多推理引擎系统的应用部署方法、装置、设备及可读存储介质。

背景技术

随着深度学习的发展，越来越多的深度学习框架涌现。在模型开发阶段，以google的tensorflow和facebook的pytorch使用最为广泛。然而，在涉及到具体的应用部署时，考虑到性能、存储等因素的影响，大多都采用caffe、onnx、tensorrt、tvm等推理引擎进行应用部署。面对诸多的推理引擎，如何选取最适合、性能最优的推理引擎进行应用部署，是实际应用的一大难点。

由于不同的推理引擎对算子的支持程度不同，加速性能也不同，如果逐个尝试，不仅实现起来难度大，而且费时费力，最终事倍功半。另外，对于模型开发人员，通常只对模型开发的深度学习框架较为熟悉，对推理引擎接触的较少，如果只是实现一个推理引擎上模型的转换部署，通过一段时间的学习还尚可，但对于模型在多个推理引擎上的实现及性能对比，则需要耗费大量的时间和精力，这对模型的应用部署是非常不友好的。

综上，将源模型转换到不同推理引擎并进行评估测试这一过程对开发人员要求很高，不仅需要编写代码，还需要搭建复杂的环境，费时费力，效率低下。

发明内容

本申请的目的是提供一种基于多推理引擎系统的应用部署方法、装置、设备及可读存储介质，用以解决目前主要依赖人工选择合适的推理引擎，导致应用部署效率低下的问题。其具体方案如下：

第一方面，本申请提供了一种基于多推理引擎系统的应用部署方法，包括：

获取待进行应用部署的源模型；

将所述源模型转换到多推理引擎系统的各个推理引擎上，得到每个所述推理引擎对应的目标模型；

对各个所述目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，并确定所述性能最优的目标模型对应的推理引擎，以作为最优推理引擎；

利用所述最优推理引擎进行应用部署。

可选的，所述将所述源模型转换到多推理引擎系统的各个推理引擎上，包括：

确定所述源模型包括的算子；

对于多推理引擎系统中的每个推理引擎，判断所述源模型包括的算子是否全部为该推理引擎支持的算子；

若是，则将所述源模型转换到该推理引擎上；

若否，则利用内置插件替换所述源模型中该推理引擎不支持的算子，将所述源模型转换到该推理引擎上。

可选的，所述利用内置插件替换所述源模型中该推理引擎不支持的算子，包括：

判断多推理引擎系统中是否存在内置插件，其中所述内置插件为与所述源模型中该推理引擎不支持的算子相对应的插件；

若存在，则利用所述内置插件替换所述源模型中该推理引擎不支持的算子；

若不存在，则构造临时插件并利用所述临时插件替换所述源模型中该推理引擎不支持的算子，其中所述临时插件与所述源模型中该推理引擎不支持的算子的输入输出变量的数量和维度相同。

判断所述源模型是否能够正常加载；

若是，则将所述源模型转换到多推理引擎系统的各个推理引擎上。

可选的，所述判断所述源模型是否能够正常加载，包括：

确定所述源模型的模型类型；调用所述模型类型的加载方法对所述源模型进行加载，以判断所述源模型是否能够正常加载。

可选的，所述确定所述源模型的模型类型，包括：

根据所述源模型的文件后缀，确定所述源模型的模型类型。

可选的，所述对各个所述目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，包括：

对各个所述目标模型进行推理评估，得到每个所述目标模型的推理时长以作为推理评估结果；选择推理时长最短的目标模型，以作为性能最优的目标模型。

第二方面，本申请提供了一种基于多推理引擎系统的应用部署装置，包括：

模型获取模块，用于获取待进行应用部署的源模型；

模型转换模块，用于将所述源模型转换到多推理引擎系统的各个推理引擎上，得到每个所述推理引擎对应的目标模型；

推理评估模块，用于对各个所述目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，并确定所述性能最优的目标模型对应的推理引擎，以作为最优推理引擎；

部署模块，用于利用所述最优推理引擎进行应用部署。

第三方面，本申请提供了一种基于多推理引擎系统的应用部署设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的基于多推理引擎系统的应用部署方法。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时用于实现如上所述的基于多推理引擎系统的应用部署方法。

本申请所提供的一种基于多推理引擎系统的应用部署方法，包括：获取待进行应用部署的源模型；将源模型转换到多推理引擎系统的各个推理引擎上，得到每个推理引擎对应的目标模型；对各个目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，并确定性能最优的目标模型对应的推理引擎，以作为最优推理引擎；利用最优推理引擎进行应用部署。

可见，对于给定的源模型，该方法能够自动实现源模型到不同推理引擎上的转换，并对转换得到的模型模型进行推理评估，最终根据推理评估结果选择最优的推理引擎，以用于后续应用部署。实现了对系统中每一个推理引擎的自动化评估，降低了推理引擎选择过程的专业门槛和工作量，避免开发人员由于对推理引擎不熟悉而花费大量时间和精力选择推理引擎，有助于提升应用部署效率。

此外，本申请还提供了一种基于多推理引擎系统的应用部署装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的基于多推理引擎系统的应用部署方法实施例一的流程图；

图2为本申请所提供的基于多推理引擎系统的应用部署方法实施例二的流程图；

图3为本申请所提供的基于多推理引擎系统的应用部署方法实施例二中步骤S24的细化流程图；

图4为本申请所提供的基于多推理引擎系统的应用部署方法第一阶段的流程图；

图5为本申请所提供的基于多推理引擎系统的应用部署方法第二阶段的流程图；

图6为本申请所提供的基于多推理引擎系统的应用部署方法第三阶段的流程图；

图7为本申请所提供的基于多推理引擎系统的应用部署装置实施例的功能框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在深度学习领域，服务端训练好的模型要想发挥其特性，需要部署到边缘端进行实时检测。模型部署到实际应用中使用时需要考虑诸多因素，而性能是否最优则是关键衡量标准。在推理端部署有很多推理引擎可供选择，比如使用最为广泛的onnx、tensorrt。但是如何选择最佳的推理引擎以充分发挥模型性能，目前没有有效的实现方法。一般的方法就是人工对各个推理引擎进行测试，通过测试结果来决定最终使用哪个推理引擎。但是，将模型转换到不同推理引擎并进行测试这一过程对开发人员要求很高，不仅需要编写代码，还需要搭建复杂的环境，费时费力，效率低下。

总体而言，目前的方案存在以下缺点：（1）无法对选取哪一个推理引擎直接给出建议，需要将模型转换到不同推理引擎并进行测试；（2）需开发人员编写代码，专业门槛高，对不熟悉推理引擎的人员不友好，费时费力。

本申请的核心在于提供一种基于多推理引擎系统的应用部署方法、装置、设备及可读存储介质，用以解决在实际应用部署时如何选择最优推理引擎的问题，可以有效的帮助到推理引擎的选取，帮助开发人员评估每一个推理引擎，即使对推理引擎不熟悉，也可以直接使用，极为方便，避免由于对推理引擎的不熟悉而花费大量时间和精力，为应用部署提供便利。

下面对本申请提供的基于多推理引擎系统的应用部署方法实施例一进行介绍，参见图1，实施例一包括：

S11、获取待进行应用部署的源模型。

上述源模型为训练好的需要实际应用部署的深度学习模型。具体的，输入源模型的文件路径，根据文件路径读取源模型。为保证可靠性，在读取过程中，判断路径是否正确以及文件可读。

S12、将源模型转换到多推理引擎系统的各个推理引擎上，得到每个推理引擎对应的目标模型。

本实施例中，推理引擎用于实现对源模型的优化、转换和推理评估。具体的，在将源模型转换到推理引擎上之前，可以先判断源模型是否可用，如是否可以正常加载，如果可以，则将源模型转换到多推理引擎系统的各个推理引擎上，否则提示模型错误。作为一种具体的实施方式，先确定源模型的模型类型，然后调用该模型类型的加载方法对源模型进行加载，以判断源模型是否能够正常加载。

与此同时，还可以对源模型进行推理评估，并保存推理评估结果，用于与后续目标模型的推理评估结果进行对比，以判断模型性能是否得到优化。

在将源模型转换到推理引擎上的时候，考虑到不同推理引擎对算子的支持情况不同，因此，先确定源模型包括的算子（即源模型用到的算子），然后将其与推理引擎支持的算子进行对比，判断是否能够转换。若是，则直接将源模型转换到该推理引擎上，得到目标模型；否则，利用内置插件（plugin）替换掉源模型中该推理引擎不支持的算子，然后再将源模型转换到该推理引擎上，得到目标模型。可以理解的是，此处的内置插件与不支持算子存在对应关系，需要根据不支持算子确定利用哪个内置插件对其进行替换。

S13、对各个目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，并确定性能最优的目标模型对应的推理引擎，以作为最优推理引擎。

转换得到的目标模型均可在各自的推理引擎上正常运行测试，此过程称为推理评估，根据推理评估结果即可确定性能最优的目标模型及相应的推理引擎。该推理引擎即对源模型进行应用部署过程中的最优选择，称为最优推理引擎。

S14、利用最优推理引擎进行应用部署。

本实施例提供一种基于多推理引擎系统的应用部署方法，对于给定的源模型，该方法能够自动实现源模型到不同推理引擎上的转换，并对转换得到的模型模型进行推理评估，最终根据推理评估结果选择最优的推理引擎，以用于后续应用部署。实现了对系统中每一个推理引擎的自动化评估，降低了推理引擎选择过程的专业门槛和工作量，避免开发人员由于对推理引擎不熟悉而花费大量时间和精力选择推理引擎，有助于提升应用部署效率。

下面开始详细介绍本申请提供的基于多推理引擎系统的应用部署方法实施例二。参见图2，实施例二具体包括以下步骤：

S21、获取待进行应用部署的源模型；

S22、根据源模型的文件后缀，确定源模型的模型类型；

S23、调用该模型类型的加载方法对源模型进行加载，以判断源模型是否能够正常加载；若是，则进入S24，否则提示模型错误；

S24、将源模型转换到多推理引擎系统的各个推理引擎上，得到每个推理引擎对应的目标模型；

S25、对各个目标模型进行推理评估，得到每个目标模型的推理时长；选择推理时长最短的目标模型，以作为性能最优的目标模型；

S26、确定性能最优的目标模型对应的推理引擎，以作为最优推理引擎，以便利用最优推理引擎进行应用部署。

如图3所示，上述S24具体包括以下步骤：

S31、确定源模型包括的算子；

S32、对于多推理引擎系统中的每个推理引擎，判断源模型包括的算子是否全部为该推理引擎支持的算子；若是，则进入S36，否则进入S33；

S33、判断多推理引擎系统中是否存在相应的内置插件，其中相应的内置插件为与源模型中该推理引擎不支持的算子相对应的插件；若存在，则进入S34，否则进入S35；

S34、利用内置插件替换源模型中该推理引擎不支持的算子；

S35、构造临时插件并利用临时插件替换源模型中该推理引擎不支持的算子，其中临时插件与源模型中该推理引擎不支持的算子的输入输出变量的数量和维度相同；

S36、将源模型转换到该推理引擎上。

基于上述实施例二，下面对具体的实施过程进行展开说明。该过程包括三个阶段，主要涉及到模型识别模块、模型转换模块、模型推理评估模块、plugin模块。

第一阶段如图4所示，包括：读取源模型到模型识别模块，判断源模型是否能够正常加载，如果能够正常加载，则获取源模型的模型类型以及推理评估结果；否则，提示重新输入源模型。

具体的，面对不同源模型的输入，首先判断源模型是否存在，存在则返回true，不存在则返回false并退出。然后对模型类型进行判断，这里以文件后缀作为判断准则，比如，如果文件后缀为ckpt或者pb或者saved_model，则表示模型类型为tensorflow；如果文件后缀为pt或者pth或者pth.tar，则表示模型类型为pytorch。由于简单的以文件后缀作为标准，并不表示源模型一定是一个正常可用的模型，所以在该阶段，当得到模型类型之后，调用该模型类型的加载方法执行模型加载的步骤，如果可以正常加载，则表示源模型没有问题，进入下一阶段；如果不能正常加载，则表示模型有问题，提示输入正确的源模型。与此同时，还可以对源模型进行推理评估并保存推理评估结果，用来与后续目标模型的推理评估结果进行对比。

第二阶段在第一阶段的基础之上进行，第一阶段在对模型类型做出判断之后，第二阶段直接将源模型输入到模型转换模块中，实现源模型到不同推理引擎的转换。

具体的，如图5所示，首先通过模型计算图提取源模型包括的算子，一般直接取graph的node节点名称即可。然后分别与不同推理引擎支持的算子进行对比，多推理引擎系统内置了不同推理引擎支持的算子列表，用于判断是否支持转换。如果支持，则直接将源模型转换为目标模型，并进入模型推理评估模块；如果存在不支持的算子，则进入plugin模块，使用内置插件替换不支持算子或者构造临时插件并利用其替换不支持算子，继续回到模型转换模块，实现源模型到目标模型的转换。

plugin模块属于可选模块，当存在不支持算子时进入该模块，用于使用内置插件替换不支持算子或者构造临时插件并利用其替换不支持算子。系统中保存有已经实现的部分插件，称为内置插件，比如NMS plugin，RPN plugin等。首先判断内置插件能否用于替换不支持的算子，能则直接利用内置插件替换不支持算子，不能则构造临时插件。由于完整算子的编写过于复杂，无法实现自动化的过程，所以这里提供一种方式，构造临时插件，仅维持算子的输入变量和输出变量的个数、维度等一致，忽略算子的内部计算过程，从而保证源模型可以顺利的实现转换过程。在使用内置插件替换不支持算子之后，或者在构造临时插件并利用其替换不支持算子之后，将不支持算子保存到推理引擎支持的算子列表中，更新推理引擎算子列表。

第三阶段在第二阶段的基础之上进行，第二阶段在对源模型实现转换之后，第三阶段直接对转换得到的目标模型进行推理评估，并选出最优推理引擎。

具体的，如图6所示，设置相同的随机变量作为模型推理评估模块的输入，采用不同的batch size对目标模型进行推理测试，以最终的推理时长作为性能评判标准，推理时长越小，表明性能越优。根据推理评估模块的结果，选取最优推理引擎作为部署首选。

下面以实际应用为例，对本申请的基于多推理引擎系统的应用部署方法进行说明。

具体的，将一个训练好的tensorflow模型进行应用部署之前，推理引擎的选择实践分为两个阶段。

在第一阶段，判断模型是否存在，模型是否能够正确加载。这里模型可以正确加载，输出模型类型为tensorflow模型。

在第二阶段，根据第一阶段输出的模型类型，加载tensorflow模型，将其输入到多推理引擎系统中，经过模型转换模块，由于不存在不支持的算子，所以可直接得到源模型到不同推理引擎下的目标模型。然后目标模型经过推理评估模块，得到不同推理引擎下的性能结果。

实验表明，此模型在TRT下的推理性能是最优的，因此在实际应用部署中，选择TRT作为首选推理引擎。

下面对本申请实施例提供的基于多推理引擎系统的应用部署装置进行介绍，下文描述的基于多推理引擎系统的应用部署装置与上文描述的基于多推理引擎系统的应用部署方法可相互对应参照。

如图7所示，本实施例的基于多推理引擎系统的应用部署装置，包括：

模型获取模块71，用于获取待进行应用部署的源模型；

模型转换模块72，用于将所述源模型转换到多推理引擎系统的各个推理引擎上，得到每个所述推理引擎对应的目标模型；

推理评估模块73，用于对各个所述目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，并确定所述性能最优的目标模型对应的推理引擎，以作为最优推理引擎；

部署模块74，用于利用所述最优推理引擎进行应用部署。

本实施例的基于多推理引擎系统的应用部署装置用于实现前述的基于多推理引擎系统的应用部署方法，因此该装置的具体实施方式可见前文中的基于多推理引擎系统的应用部署方法的实施例部分，在此不再展开介绍。

此外，本申请还提供了一种基于多推理引擎系统的应用部署设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上文所述的基于多推理引擎系统的应用部署方法。

最后，本申请提供了一种可读存储介质，所述可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的基于多推理引擎系统的应用部署方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于多推理引擎系统的应用部署方法，其特征在于，包括：

获取待进行应用部署的源模型；

利用所述最优推理引擎进行应用部署。

2.如权利要求1所述的方法，其特征在于，所述将所述源模型转换到多推理引擎系统的各个推理引擎上，包括：

确定所述源模型包括的算子；

若是，则将所述源模型转换到该推理引擎上；

3.如权利要求2所述的方法，其特征在于，所述利用内置插件替换所述源模型中该推理引擎不支持的算子，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述源模型转换到多推理引擎系统的各个推理引擎上，包括：

判断所述源模型是否能够正常加载；

5.如权利要求4所述的方法，其特征在于，所述判断所述源模型是否能够正常加载，包括：

6.如权利要求5所述的方法，其特征在于，所述确定所述源模型的模型类型，包括：

根据所述源模型的文件后缀，确定所述源模型的模型类型。

7.如权利要求1至6任意一项所述的方法，其特征在于，所述对各个所述目标模型进行推理评估，根据推理评估结果确定性能最优的目标模型，包括：

8.一种基于多推理引擎系统的应用部署装置，其特征在于，包括：

模型获取模块，用于获取待进行应用部署的源模型；

部署模块，用于利用所述最优推理引擎进行应用部署。

9.一种基于多推理引擎系统的应用部署设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1至7任意一项所述的基于多推理引擎系统的应用部署方法。

10.一种可读存储介质，其特征在于，所述可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至7任意一项所述的基于多推理引擎系统的应用部署方法。