CN115618943A

CN115618943A - 一种模型部署方法、装置、系统及电子设备

Info

Publication number: CN115618943A
Application number: CN202211389776.8A
Authority: CN
Inventors: 赵武金; 宋莉莉; 张祥建
Original assignee: Beijing Shihai Xintu Microelectronics Co ltd
Current assignee: Beijing Yixin Yiyu Microelectronics Technology Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-17

Abstract

本发明实施例公开了一种模型部署方法，包括：获取待部署至目标设备的原始模型及目标设备；对原始模型进行剪枝及量化处理，得到中间模型；根据目标设备将中间模型转换为目标模型，并将其部署至目标设备。本实施例的优点如下：1、对原始模型进行剪枝，可以去掉作用较小或无用的层，减少了网络结构的复杂度；2、对原始模型进行量化，可以将模型权重从FP32变为FP16，甚至是INT8，可以达到节省机器资源的目的；3、针对不同的硬件平台，先将模型转换为中间模型(ONNX模型)，再转换为对应硬件的部署框架模型，例如针对CPU转换为Openvino模型，针对GPU转换为Tensorrt模型，可充分地利用硬件资源。

Description

一种模型部署方法、装置、系统及电子设备

技术领域

本发明涉及深度学习技术领域，具体涉及一种模型部署方法、装置、系统及电子设备。

背景技术

以颜值打分模型应用场景为例，一般模型训练好之后，模型推理时会直接部署原模型(Pytorch模型)。相应的处理流程如图1所示。

上述方式存在如下缺陷：

(1)没有考虑模型性能，浪费机器资源。以颜值打分模型应用场景为例，训练好的模型里有一些无用的层可以去掉。默认的模型权重是FP32，训练阶段必须用FP32这样的高精度，才能保证模型效果。一旦模型训练好，权重固定下来，到了模型推理阶段，是可以把模型量化为FP16或INT8等低精度，一般模型效果也不会有太大的损失。

(2)没有针对硬件进行模型优化。部署一般使用Intel CPU或Nvidia GPU，Intel的Openvino部署框架可以针对CPU进行加速，Nvidia的Tensorrt部署框架可以针对GPU进行加速。以颜值打分模型为例，如果需要部署CPU，可以把原始的Pytorch模型转换为Openvino模型进行部署。如果需要部署GPU，可以把原始模型转换为Tensorrt模型进行部署。

发明内容

针对背景技术中所提及的技术缺陷，本发明实施例的目的在于提供一种模型部署方法、装置、系统及电子设备。

为实现上述目的，第一方面，本发明实施例提供了一种模型部署方法，包括：

获取待部署至目标设备的原始模型及目标设备；

对所述原始模型进行剪枝及量化处理，得到中间模型；

根据所述目标设备将所述中间模型转换为目标模型，并将所述目标模型部署至所述目标设备。

作为本申请的一种具体实现方式，获取待部署的目标设备的原始模型具体包括：

接收用户通过web浏览器发送的压缩任务包；

对所述压缩任务包进行解压，得到配置文件和模型文件；

根据所述配置文件对所述模型文件进行验证，若验证成功，则获取所述原始模型。

作为本申请的一种具体实现方式，对所述原始模型进行剪枝及量化处理，得到中间模型具体包括：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

加载剪枝后的所述原始模型，将所述原始模型的权重从FP32调整为FP16或INT8；

将剪枝和权重调整后的所述原始模型进行转换，得到中间模型；所述中间模型为ONNX模型。

进一步地，在本申请的某些具体实现方式中，所述目标设备包括CPU、GPU或AI芯片，所述目标模型包括Openvino模型和Tensorrt模型；所述方法包括：

若所述配置文件中包括配置版本，则根据所述配置版本选用不同的应用容器引擎，并启动一个GPU节点，以实现将ONNX模型转换为Tensorrt模型，并将Tensorrt模型部署于GPU；

若所述配置文件中不包括配置版本，则选用一CPU应用容器引擎，并启动一个CPU节点，以实现将ONNX模型转换为Openvino模型，并将Openvino模型部署于CPU。

进一步地，作为本申请的一种优选实现方式，将所述目标模型部署至所述目标设备之后，所述方法还包括：

根据所述配置文件随机生成数据集；

根据所述数据集和质量红线对剪枝后的所述原始模型、量化后的所述原始模型以及目标模型进行模型评估，得到最佳模型。

第二方面，本发明实施例提供了一种模型部署装置，包括：

获取单元，用于获取待部署至目标设备的原始模型及目标设备；

模型处理单元，用于对所述原始模型进行剪枝及量化处理，得到中间模型；

模型部署单元，用于根据所述目标设备将所述中间模型转换为目标模型，并将所述目标模型部署至所述目标设备。

作为一种具体实现方式，所述模型处理单元具体用于：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

进一步地，在本申请的某些优选实现方式中，所述装置还包括模型评估单元，用于：

接收用户上传的配置文件；

根据所述配置文件随机生成数据集；

第三方面，本发明实施例提供了一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面所述的方法步骤。

第四方面，本发明实施例提供了一种模型部署系统，包括相互通信的web客户端、模型部署装置及目标设备。其中，该模型部署装置如上述第二或第三方面所述。

与现有技术相比，本实施例的优点如下：

1、对原始模型进行剪枝处理，可以去掉原始模型中作用较小或无用的层，多个算子可合并成单个算子，减少了原始模型中网络结构的复杂度；

2、对原始模型进行量化处理，可以将模型权重从FP32变为FP16，甚至是INT8，减少了模型大小，减少了数据拷贝消耗，所需计算资源也更少，从而达到了节省机器资源的目的；

3、针对不同的硬件平台，先将模型转换为中间模型(ONNX模型)，再转换为对应硬件的部署框架模型，例如针对CPU转换为Openvino模型，针对GPU转换为Tensorrt模型，可充分地利用硬件资源。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是现有技术中以颜值打分模型为例的处理流程图；

图2是本发明实施例提供的模型部署方法的原理图；

图3是本发明第一实施例提供的模型部署方法的流程图；

图4是本发明第二实施例提供的模型部署方法的流程图；

图5是用户提交压缩任务的界面图；

图6是模型优化前后的性能对比图；

图7是本发明实施例提供的模型部署系统的结构图；

图8是图7中模型部署装置的结构图；

图9是本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语解释：

ONNX：是一种开放的神经网络交换格式，使用protobuf二进制格式来序列化模型，可以在不同的深度学习框架之间充当“翻译”角色。

FP32：float32，也被成为单精度。

FP16：float16，也被成为半精度。

Cuda：是显卡厂商NVIDIA推出的通用并行计算架构；该架构使GPU能够解决复杂的计算问题。

Openvino：英特尔基于自身现有的硬件平台开发的一种可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件，支持各种英特尔平台的硬件加速器上进行深度学习，并且允许直接异构执行。

Tensorrt：一个有助于在NVIDIA图形处理单元(GPU)上高性能推理c++库。它旨在与TesnsorFlow、Caffe、Pytorch以及MXNet等训练框架以互补的方式进行工作，专门致力于在GPU上快速有效地进行网络推理。

模型训练：基于人工标注的数据集，搭建深度学习网络去学习，把学习到的参数保存下来。比如颜值打分模型，我们需要先准备好很多图片集，并给每张图片标上分数，然后搭建模型去学习的过程称为模型训练。

模型推理：当有一张新的图片输入到训练好的模型，它会根据学到的知识，给出一个预测值。比如颜值打分模型，输入新图片，会得到颜值分数。

Optimizer：优化器，深度学习模型的重要组成模块之一，是通过训练优化参数来最小化或最大化损失函数。

NNI：全称为Neural Network Intelligence，是Microsoft开发的免费和开源的AutoML工具包。它用于自动执行特征工程、模型压缩、神经体系结构搜索和超参数调整。

质量红线：在本发明实施例中，质量红线是一个科学计数法表示的数字，比如10e-3，表示允许模型输出的最大误差。

请参考图2，本发明实施例提供的模型部署方法包括：

(1)压缩前处理：加载原始模型，验证模型是否有效.

(2)模型剪枝：消除模型无用的层，给模型“瘦身”，保存剪枝后生成的新模型，并进入下一步.

(3)模型量化：把模型权重从FP32变为FP16，甚至是INT8。保存量化后生成的新模型，并进入下一步

(4)ONNX：把前面步骤生成的Pytorch/Tensorflow模型转换成ONNX模型。

(5)Openvino：如果模型需要部署在CPU上，这一步会把ONNX模型转换成Openvino模型，更加适合Intel CPU。

(6)Tensorrt：如果模型需要部署在GPU上，这一步会把ONNX模型转换成Tensorrt模型，更加适合Nvidia GPU。

(7)其他推理框架：如果模型需要部署在AI芯片上，会把ONNX模型转换成对应硬件平台提供的推理框架模型。

(8)模型评估：对2、3、5/6/7生成的新模型，用随机生成的数据集进行推理，并和原模型对比结果、性能。根据质量红线、性能指标综合选出最佳模型。

请参考图3，本发明第一实施例提供的模型部署方法包括：

S1：获取待部署至目标设备的原始模型及目标设备。

具体地，接收用户通过web浏览器发送的压缩任务包，对其解压，获取配置文件及模型文件，并对模型文件进行有效性验证。

举例来说，解压用户上传的压缩包，实例化infer/predict.py下的Predictor类，变量model就是需要的模型。根据配置文件中的input_shapes、input_dtypes生成随机数据，让model完成一次推理。若能顺利输出结果，并和output_shapes一致，则该步骤成功，否则失败。

S2，对所述原始模型进行剪枝及量化处理，得到中间模型。

具体地，步骤S2包括：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

举例来说，先实例化Predictor类，获取变量model，调用nni.compression.pytorch.pruning中的剪枝接口对model进行剪枝，最后需要微调模型重新生成optimizer。

再加载剪枝后的新模型，将模型权重为float32的部分改为float16，并保存生成的新模型。

最后加载量化后的新模型，根据用户输入的配置文件，调用torch.onnx.export，导出ONNX模型。

S3，根据所述目标设备将所述中间模型转换为目标模型，并将所述目标模型部署至所述目标设备。

具体地，所述目标设备包括CPU、GPU或AI芯片，所述目标模型包括Openvino模型和Tensorrt模型；

S4，采用数据集和质量红线对剪枝后的原始模型、量化后的原始模型以及目标模型进行模型评估，得到最佳模型。

具体地，根据用户输入的配置文件，随机生成数据集，分别运行原始模型，优化后的模型，并和原模型对比精度、性能，选出最佳模型。

再请参考图4，本发明第二实施例提供的模型部署方法包括：

一、用户提交任务

用户通过web浏览器的页面提交压缩任务，需要提交一个压缩配置文件、一个模型和代码的压缩任务包。页面效果图如图5所示。

以颜值打分模型应用场景为例，配置文件如下：

input_names：模型输入名，默认是input。如有多个，可根据个人喜好起。

input_shapes：模型输入shape，如果input_names有多个，这里都要一一对应写多个。

output_names：模型输出名，默认是output。如有多个，可根据个人喜好起。

output_shapes：模型输出shape，如果output_names有多个，这里都要一一对应写多个。

input_dtypes：输入数据类型，请根据实际情况填写。如果input_names有多个，这里都要一一对应写多个。(暂不支持uint8)

is_dict_input：输入是否为dict，默认是false。(暂不支持dict输入)

cuda_version：部署环境的cuda版本，默认为空字符串，空字符串表示部署再CPU上。GPU支持cuda10.0和cuda10.2。

压缩任务包目录如下：

二、后端处理任务

后端处理任务部分主要包括压缩前处理、模型剪枝、模型量化、部署优化及压缩后处理五部分，具体流程如下：

Step1:解压用户上传的压缩任务包、读取配置文件。实例化infer/predict.py下的Predictor类，变量model就是我们需要的模型。并且根据配置文件中的input_shapes、input_dtypes生成随机数据，让model完成一次推理。若能顺利输出结果，并和output_shapes一致，则该步骤成功，否则失败。

Step2:和Step1一样，实例化Predictor类，拿到变量model。调用nni.compression.pytorch.pruning中的剪枝接口，最后需要微调模型重新生成optimizer。

Step3:加载Step2生成的新模型，把其中模型权重为float32的部分改为float16，并保存生成新模型。

Step4:加载Step3生成的新模型，和Step1用户输入的配置文件，调用torch.onnx.export，导出ONNX模型。

Step5:如果用户配置了cuda_version，根据配置的版本选用不同的docker(应用容器引擎)镜像，并启动一个GPU节点去转Tensorrt模型。如果用户没有配置cuda_version，选用一个CPU docker镜像，并启动一个CPU节点去转Openvino模型。

Step6：根据用户输入的配置文件，随机生成数据集，分别运行Step1中的原模型，Step2、Step3、Step5优化后的模型，并和原模型对比精度、性能，选出最佳模型。

以颜值打分模型应用场景为例，Step2剪枝后精度损失10e-7，性能提升20％。Step3量化后精度损失10e-4，性能提升3倍。Step5 Tensorrt优化后精度损失10e-4，性能提升4倍。质量红线是10e-3，所以Step5得到的是最佳模型。

进一步地，如图6所示，模型优化后整体可以带来3.4倍的性能提升。

三、结果展示

具体地，将后端处理任务后的结果发送至前端web浏览器进行展示。

从以上描述可以得知，本发明实施例所提供的模型部署方法，优点如下：

2、对原始模型进行量化处理，可以将模型的输入、权重、bias从FP32变为FP16，甚至是INT8，减少了模型大小，减少了数据拷贝消耗，所需计算资源也更少，从而达到了节省机器资源的目的；

4、通过部署优化流程，可以使用硬件平台提供的推理框架，从而更充分地发挥硬件性能。

基于相同的发明构思，本发明实施例提供了一种模型部署系统。如图7所示，该系统包括web客户端、模型部署装置及目标设备。该目标设备可以是CPU、GPU或AI芯片等。

作为一种具体实现方式，如图8所示，模型部署装置包括：

获取单元10，用于获取待部署至目标设备的原始模型及目标设备；

模型处理单元11，用于对所述原始模型进行剪枝及量化处理，得到中间模型；

模型部署单元12，用于根据所述目标设备将所述中间模型转换为目标模型，并将所述目标模型部署至所述目标设备；

模型评估单元13，用于对模型进行评估。

其中，获取单元10具体用于：

接收用户通过web浏览器发送的压缩任务包；

对所述压缩任务包进行解压，得到配置文件和模型文件；

具体地，模型处理单元11具体用于：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

具体地，模型部署单元12用于：

具体地，模型评估单元13具体用于：

根据所述配置文件随机生成数据集；

作为一种可选实施方式，上述模型部署装置还可以是一种电子设备。如图9所示，该电子设备可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行如图3所示的方法步骤。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的模型部署方法实施例中所描述的实现方式，在此不再赘述。

需要说明的是，关于电子设备部分更为具体的工作流程描述，请参考前述方法实施例部分，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型部署方法，其特征在于，包括：

获取待部署至目标设备的原始模型及目标设备；

对所述原始模型进行剪枝及量化处理，得到中间模型；

2.如权利要求1所述的模型部署方法，其特征在于，获取待部署的目标设备的原始模型具体包括：

接收用户通过web浏览器发送的压缩任务包；

对所述压缩任务包进行解压，得到配置文件和模型文件；

3.如权利要求2所述的模型部署方法，其特征在于，对所述原始模型进行剪枝及量化处理，得到中间模型具体包括：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

4.如权利要求3所述的模型部署方法，其特征在于，所述目标设备包括CPU、GPU或AI芯片，所述目标模型包括Openvino模型和Tensorrt模型；所述方法包括：

5.如权利要求4所述的模型部署方法，其特征在于，将所述目标模型部署至所述目标设备之后，所述方法还包括：

根据所述配置文件随机生成数据集；

6.一种模型部署装置，其特征在于，包括：

7.如权利要求6所述的模型部署装置，其特征在于，所述模型处理单元具体用于：

调用所述原始模型中的剪枝接口对所述原始模型进行剪枝；

8.如权利要求6或7所述的模型部署装置，其特征在于，所述装置还包括模型评估单元，用于：

接收用户上传的配置文件；

根据所述配置文件随机生成数据集；

9.一种电子设备，其特征在于，所述电子设备包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-5任一项所述的方法步骤。

10.一种模型部署系统，包括相互通信的web客户端、模型部署装置及目标设备，其特征在于，所述模型部署装置如权利要求6所述。