CN116341633B

CN116341633B - 一种模型部署方法、装置、设备及存储介质

Info

Publication number: CN116341633B
Application number: CN202310609890.5A
Authority: CN
Inventors: 陈其宾; 段强; 张连超; 姜凯; 李锐
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-01
Anticipated expiration: 2043-05-29
Also published as: CN116341633A

Abstract

本申请公开了一种模型部署方法、装置、设备及存储介质，应用于预设低代码开发平台，涉及低代码开发领域，包括：对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息；基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果；若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。本申请能够有效降低部署门槛，降低减少人力资源以及时间的浪费。

Description

一种模型部署方法、装置、设备及存储介质

技术领域

本发明涉及低代码开发领域，特别涉及一种模型部署方法、装置、设备及存储介质。

背景技术

随着深度学习相关技术不断发展，神经网络模型在很多行业和场景得到广泛应用。由于神经网络模型的参数量和计算量大，在资源有限的嵌入式设备上部署较为困难，往往需要采用模型量化等轻量化方法。另外，由于许多嵌入式设备上没有操作系统等，需要通过C代码进行模型推理，并且由于没有文件系统，往往需要将模型数据写到代码中。上述方式虽然可以解决神经网络模型在嵌入式设备部署的问题，但由于涉及模型量化、C语言开发、内存优化等方面，对设计和训练模型的算法工程师提出了较大的困难和挑战。并且在模型部署过程中，由于嵌入式设备极低的资源，往往需要不断的调试，才能达到理想的精度和推理延迟，需要相关人员具备扎实的底层知识。

发明内容

有鉴于此，本发明的目的在于提供一种模型部署方法、装置、设备及存储介质，能够有效降低部署门槛，降低减少人力资源以及时间的浪费。其具体方案如下：

第一方面，本申请提供了一种模型部署方法，应用于预设低代码开发平台，包括：

对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息；

基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果；

若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。

可选的，所述计算各模型节点的量化损失之后，还包括：

针对所述量化损失高于预设阈值的第一模型节点，执行相应的量化参数调整操作，以基于调整后的量化参数配置信息再次进行量化。

可选的，所述对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果之后，还包括：

基于所述解析结果进行可视化操作，以得到相应的模型网络结构图。

基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小，并通过预设方式进行可视化；

相应的，所述通过预设方式进行可视化，包括：

通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化；

或，通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化。

可选的，所述基于所述解析结果执行相应的模型量化参数配置操作，包括：

基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作；所述模型量化参数包括量化数据类型、量化粒度以及量化位数。

可选的，所述模型部署方法，还包括：

若当前内存溢出，则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。

可选的，所述对接收到的训练好的待部署模型文件进行解析，包括：

对接收到的满足预设文件格式的训练好的待部署模型文件进行解析；所述预设文件格式包括onnx、tflite。

第二方面，本申请提供了一种模型部署装置，应用于预设低代码开发平台，包括：

文件解析模块，用于对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息；

参数配置模块，用于基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果；

量化检验模块，用于若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的模型部署方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的模型部署方法的步骤。

可见，本申请中，先通过预设低代码开发平台对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果。然后所述解析结果包括相应的模型网络结构信息以及模型节点信息。然后基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果。然后若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。本申请能够有效解决嵌入式设备上部署模型门槛较高的问题，降低了部署门槛，并进而降低减少人力资源以及时间的浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种模型部署方法流程图；

图2为本申请提供的一种具体的模型部署流程示意图；

图3为本申请提供的一种具体的模型部署方法流程图；

图4为本申请提供的一种模型部署装置结构示意图；

图5为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着深度学习相关技术不断发展，神经网络模型在很多行业和场景得到广泛应用。由于神经网络模型的参数量和计算量大，在资源有限的嵌入式设备上部署较为困难，往往需要采用模型量化等轻量化方法。另外，由于许多嵌入式设备上没有操作系统等，需要通过C代码进行模型推理，并且由于没有文件系统，往往需要将模型数据写到代码中。上述方式虽然可以解决神经网络模型在嵌入式设备部署的问题，但由于涉及模型量化、C语言开发、内存优化等方面，对设计和训练模型的算法工程师提出了较大的困难和挑战。并且在模型部署过程中，由于嵌入式设备极低的资源，往往需要不断的调试，才能达到理想的精度和推理延迟，需要相关人员具备扎实的底层知识。为此，本申请提供了一种模型部署方案，能够有效降低部署门槛，降低减少人力资源以及时间的浪费。

参见图1所示，本发明实施例公开了一种模型部署方法，应用于预设低代码开发平台，包括：

步骤S11、对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息。

具体地，本实施例中，所述对接收到的训练好的待部署模型文件进行解析，具体可以包括：对接收到的满足预设文件格式的训练好的待部署模型文件进行解析；所述预设文件格式包括但不限于onnx、tflite。其中，所述onnx（Open Neural Network Exchange，开放神经网络交换），是一种用于表示机器学习模型的开放标准文性格式。所述tflite（TensorFlow Lite）于2017年底由Google-Tensorflow团队开源，是一个轻量、快速、跨平台的专门针对移动和IoT(Internet of Things物联网)场景的开源机器学习框架。

结合图2所示，需要理解的是，本实施例中，所述对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果之后，具体还可以包括：基于所述解析结果进行可视化操作，以得到相应的模型网络结构图。其中，所述模型网络结构信息包括节点数据、节点与激活值关系数据、节点权重尺寸以及激活值尺寸。这些数据的可视化有利于后续模型量化以及编译。

进一步的，结合图2所示，本实施例中，所述对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果之后，具体还可以包括：基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小，并通过预设方式进行可视化。其中，所述浮点运算数，也即FLOPs（floating point operations，s表示复数）。相应的，所述通过预设方式进行可视化，具体可以包括：通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化，这样一来，可以结合其他网络结构信息进行分析。或，通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化，这样一来可以清晰看出不同节点的情况，尤其是各所述模型节点的所述激活值内存占用大小，可以为后续模型量化参数选择提供支撑。

步骤S12、基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果。

本实施例中，所述基于所述解析结果执行相应的模型量化参数配置操作，具体可以包括：基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作；所述模型量化参数包括量化数据类型、量化粒度以及量化位数。具体的，在设置所述量化位数时，需要考虑所述模型网络结构信息以及激活值内存占用大小信息。例如，针对内存占用较大的激活值可以采用较低的量化位数。

步骤S13、若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。

具体地，结合图2所示，本实施例在得到所述配置结果后，需要判断当前内存是否溢出，并在内存未溢出时在设置好量化参数后，结合后端的模型量化代码进行模型量化操作并计算各模型节点的量化损失，需要理解的是，所述计算各模型节点的量化损失之后，具体还可以包括：针对所述量化损失高于预设阈值的第一模型节点，执行相应的量化参数调整操作，以基于调整后的量化参数配置信息再次进行量化。例如，针对所述量化损失大于所述预设阈值的模型节点，在进行调整时可以选择精度更高的量化参数和方法，并重新量化模型。其中，所述预设阈值可以由相关工作员进行设置。

进一步的，本实施例中，具体还可以包括：若当前内存溢出，则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。

可以理解的是，在模型量化完成后，可以结合后端的模型编译代码执行模型编译操作，生成用于嵌入式设备部署的C代码。同时，可以提供相应的样例数据，使用编译后的代码对所述样例数据进行推理，以完成针对所述待部署模型文件的模型部署操作。

由此可见，本申请实施例中，先通过预设低代码开发平台对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果。然后所述解析结果包括相应的模型网络结构信息以及模型节点信息。然后基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果。然后若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。本申请能够有效解决嵌入式设备上部署模型门槛较高的问题，降低了部署门槛，并进而降低减少人力资源以及时间的浪费。

参见图3所示，本发明实施例公开了一种模型部署方法，应用于预设第代码开发平台，包括：

步骤S21、对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息。

步骤S22、基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小，并通过预设方式进行可视化。

步骤S23、基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作；所述模型量化参数包括量化数据类型、量化粒度以及量化位数。

步骤S24、若当前内存溢出，则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。

步骤S25、若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。

其中，关于上述步骤S21至步骤S25的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

参见图4所示，本申请实施例还相应公开了一种模型部署装置，应用于预设低代码开发平台，包括：

文件解析模块11，用于对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果；所述解析结果包括相应的模型网络结构信息以及模型节点信息；

参数配置模块12，用于基于所述解析结果执行相应的模型量化参数配置操作，得到相应的配置结果；

量化检验模块13，用于若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作。

其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在一些具体实施例中，所述模型部署装置，具体还可以包括：

量化参数调整单元，用于针对所述量化损失高于预设阈值的第一模型节点，执行相应的量化参数调整操作，以基于调整后的量化参数配置信息再次进行量化。

模型网络结构图确定单元，用于基于所述解析结果进行可视化操作，以得到相应的模型网络结构图。

节点信息可视化子模块，用于基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小，并通过预设方式进行可视化；

相应的，所述节点信息可视化子模块，具体还可以包括：

第一节点信息可视化单元，用于通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化；

第二节点信息可视化单元，用于或，通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化。

在一些具体实施例中，所述参数配置模块12，具体可以包括：

量化参数配置单元，用于基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作；所述模型量化参数包括量化数据类型、量化粒度以及量化位数。

步骤跳转单元，用于若当前内存溢出，则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。

在一些具体实施例中，所述文件解析模块11，具体可以包括：

待部署模型文件接接收单元，用于对接收到的满足预设文件格式的训练好的待部署模型文件进行解析；所述预设文件格式包括onnx、tflite。

进一步的，本申请实施例还公开了一种电子设备，图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的模型部署方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的模型部署方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的模型部署方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

Claims

1.一种模型部署方法，其特征在于，应用于预设低代码开发平台，包括：

若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作；

其中，所述计算各模型节点的量化损失之后，还包括：

针对所述量化损失高于预设阈值的第一模型节点，执行相应的量化参数调整操作，以基于调整后的量化参数配置信息再次进行量化；其中，针对所述量化损失大于所述预设阈值的模型节点，在进行调整时可以选择精度更高的量化参数和方法，并重新量化模型；

并且，所述对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果之后，还包括：

并且，所述基于所述解析结果执行相应的模型量化参数配置操作，包括：

2.根据权利要求1所述的模型部署方法，其特征在于，所述对接收到的训练好的待部署模型文件进行解析，得到相应的解析结果之后，还包括：

3.根据权利要求2所述的模型部署方法，其特征在于，所述通过预设方式进行可视化，包括：

4.根据权利要求1所述的模型部署方法，其特征在于，还包括：

5.根据权利要求1至4任一项所述的模型部署方法，其特征在于，所述对接收到的训练好的待部署模型文件进行解析，包括：

6.一种模型部署装置，其特征在于，应用于预设低代码开发平台，包括：

量化检验模块，用于若当前内存未溢出，则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失，以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验，以完成针对所述待部署模型文件的模型部署操作；

其中，所述模型部署装置，还包括：

量化参数调整单元，用于针对所述量化损失高于预设阈值的第一模型节点，执行相应的量化参数调整操作，以基于调整后的量化参数配置信息再次进行量化；其中，针对所述量化损失大于所述预设阈值的模型节点，在进行调整时可以选择精度更高的量化参数和方法，并重新量化模型；

并且，所述模型部署装置，还包括：

并且，所述参数配置模块，包括：

7.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至5任一项所述的模型部署方法。

8.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的模型部署方法。