CN116341633B - 一种模型部署方法、装置、设备及存储介质 - Google Patents
一种模型部署方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116341633B CN116341633B CN202310609890.5A CN202310609890A CN116341633B CN 116341633 B CN116341633 B CN 116341633B CN 202310609890 A CN202310609890 A CN 202310609890A CN 116341633 B CN116341633 B CN 116341633B
- Authority
- CN
- China
- Prior art keywords
- model
- quantization
- analysis result
- node
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013139 quantization Methods 0.000 claims abstract description 127
- 238000004458 analytical method Methods 0.000 claims abstract description 69
- 238000011161 development Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000007667 floating Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 14
- 238000012800 visualization Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 239000002699 waste material Substances 0.000 abstract description 5
- 230000018109 developmental process Effects 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008140 language development Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/42—Syntactic analysis
- G06F8/427—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Neurology (AREA)
- Stored Programmes (AREA)
Abstract
本申请公开了一种模型部署方法、装置、设备及存储介质,应用于预设低代码开发平台,涉及低代码开发领域,包括:对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。本申请能够有效降低部署门槛,降低减少人力资源以及时间的浪费。
Description
技术领域
本发明涉及低代码开发领域,特别涉及一种模型部署方法、装置、设备及存储介质。
背景技术
随着深度学习相关技术不断发展,神经网络模型在很多行业和场景得到广泛应用。由于神经网络模型的参数量和计算量大,在资源有限的嵌入式设备上部署较为困难,往往需要采用模型量化等轻量化方法。另外,由于许多嵌入式设备上没有操作系统等,需要通过C代码进行模型推理,并且由于没有文件系统,往往需要将模型数据写到代码中。上述方式虽然可以解决神经网络模型在嵌入式设备部署的问题,但由于涉及模型量化、C语言开发、内存优化等方面,对设计和训练模型的算法工程师提出了较大的困难和挑战。并且在模型部署过程中,由于嵌入式设备极低的资源,往往需要不断的调试,才能达到理想的精度和推理延迟,需要相关人员具备扎实的底层知识。
发明内容
有鉴于此,本发明的目的在于提供一种模型部署方法、装置、设备及存储介质,能够有效降低部署门槛,降低减少人力资源以及时间的浪费。其具体方案如下:
第一方面,本申请提供了一种模型部署方法,应用于预设低代码开发平台,包括:
对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;
基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;
若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。
可选的,所述计算各模型节点的量化损失之后,还包括:
针对所述量化损失高于预设阈值的第一模型节点,执行相应的量化参数调整操作,以基于调整后的量化参数配置信息再次进行量化。
可选的,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,还包括:
基于所述解析结果进行可视化操作,以得到相应的模型网络结构图。
可选的,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,还包括:
基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化;
相应的,所述通过预设方式进行可视化,包括:
通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化;
或,通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化。
可选的,所述基于所述解析结果执行相应的模型量化参数配置操作,包括:
基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。
可选的,所述模型部署方法,还包括:
若当前内存溢出,则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。
可选的,所述对接收到的训练好的待部署模型文件进行解析,包括:
对接收到的满足预设文件格式的训练好的待部署模型文件进行解析;所述预设文件格式包括onnx、tflite。
第二方面,本申请提供了一种模型部署装置,应用于预设低代码开发平台,包括:
文件解析模块,用于对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;
参数配置模块,用于基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;
量化检验模块,用于若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的模型部署方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的模型部署方法的步骤。
可见,本申请中,先通过预设低代码开发平台对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果。然后所述解析结果包括相应的模型网络结构信息以及模型节点信息。然后基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果。然后若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。本申请能够有效解决嵌入式设备上部署模型门槛较高的问题,降低了部署门槛,并进而降低减少人力资源以及时间的浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种模型部署方法流程图;
图2为本申请提供的一种具体的模型部署流程示意图;
图3为本申请提供的一种具体的模型部署方法流程图;
图4为本申请提供的一种模型部署装置结构示意图;
图5为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着深度学习相关技术不断发展,神经网络模型在很多行业和场景得到广泛应用。由于神经网络模型的参数量和计算量大,在资源有限的嵌入式设备上部署较为困难,往往需要采用模型量化等轻量化方法。另外,由于许多嵌入式设备上没有操作系统等,需要通过C代码进行模型推理,并且由于没有文件系统,往往需要将模型数据写到代码中。上述方式虽然可以解决神经网络模型在嵌入式设备部署的问题,但由于涉及模型量化、C语言开发、内存优化等方面,对设计和训练模型的算法工程师提出了较大的困难和挑战。并且在模型部署过程中,由于嵌入式设备极低的资源,往往需要不断的调试,才能达到理想的精度和推理延迟,需要相关人员具备扎实的底层知识。为此,本申请提供了一种模型部署方案,能够有效降低部署门槛,降低减少人力资源以及时间的浪费。
参见图1所示,本发明实施例公开了一种模型部署方法,应用于预设低代码开发平台,包括:
步骤S11、对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息。
具体地,本实施例中,所述对接收到的训练好的待部署模型文件进行解析,具体可以包括:对接收到的满足预设文件格式的训练好的待部署模型文件进行解析;所述预设文件格式包括但不限于onnx、tflite。其中,所述onnx(Open Neural Network Exchange,开放神经网络交换),是一种用于表示机器学习模型的开放标准文性格式。所述tflite(TensorFlow Lite)于2017年底由Google-Tensorflow团队开源,是一个轻量、快速、跨平台的专门针对移动和IoT(Internet of Things物联网)场景的开源机器学习框架。
结合图2所示,需要理解的是,本实施例中,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,具体还可以包括:基于所述解析结果进行可视化操作,以得到相应的模型网络结构图。其中,所述模型网络结构信息包括节点数据、节点与激活值关系数据、节点权重尺寸以及激活值尺寸。这些数据的可视化有利于后续模型量化以及编译。
进一步的,结合图2所示,本实施例中,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,具体还可以包括:基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化。其中,所述浮点运算数,也即FLOPs(floating point operations,s表示复数)。相应的,所述通过预设方式进行可视化,具体可以包括:通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化,这样一来,可以结合其他网络结构信息进行分析。或,通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化,这样一来可以清晰看出不同节点的情况,尤其是各所述模型节点的所述激活值内存占用大小,可以为后续模型量化参数选择提供支撑。
步骤S12、基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果。
本实施例中,所述基于所述解析结果执行相应的模型量化参数配置操作,具体可以包括:基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。具体的,在设置所述量化位数时,需要考虑所述模型网络结构信息以及激活值内存占用大小信息。例如,针对内存占用较大的激活值可以采用较低的量化位数。
步骤S13、若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。
具体地,结合图2所示,本实施例在得到所述配置结果后,需要判断当前内存是否溢出,并在内存未溢出时在设置好量化参数后,结合后端的模型量化代码进行模型量化操作并计算各模型节点的量化损失,需要理解的是,所述计算各模型节点的量化损失之后,具体还可以包括:针对所述量化损失高于预设阈值的第一模型节点,执行相应的量化参数调整操作,以基于调整后的量化参数配置信息再次进行量化。例如,针对所述量化损失大于所述预设阈值的模型节点,在进行调整时可以选择精度更高的量化参数和方法,并重新量化模型。其中,所述预设阈值可以由相关工作员进行设置。
进一步的,本实施例中,具体还可以包括:若当前内存溢出,则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。
可以理解的是,在模型量化完成后,可以结合后端的模型编译代码执行模型编译操作,生成用于嵌入式设备部署的C代码。同时,可以提供相应的样例数据,使用编译后的代码对所述样例数据进行推理,以完成针对所述待部署模型文件的模型部署操作。
由此可见,本申请实施例中,先通过预设低代码开发平台对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果。然后所述解析结果包括相应的模型网络结构信息以及模型节点信息。然后基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果。然后若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。本申请能够有效解决嵌入式设备上部署模型门槛较高的问题,降低了部署门槛,并进而降低减少人力资源以及时间的浪费。
参见图3所示,本发明实施例公开了一种模型部署方法,应用于预设第代码开发平台,包括:
步骤S21、对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息。
步骤S22、基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化。
步骤S23、基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。
步骤S24、若当前内存溢出,则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。
步骤S25、若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。
其中,关于上述步骤S21至步骤S25的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
参见图4所示,本申请实施例还相应公开了一种模型部署装置,应用于预设低代码开发平台,包括:
文件解析模块11,用于对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;
参数配置模块12,用于基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;
量化检验模块13,用于若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
在一些具体实施例中,所述模型部署装置,具体还可以包括:
量化参数调整单元,用于针对所述量化损失高于预设阈值的第一模型节点,执行相应的量化参数调整操作,以基于调整后的量化参数配置信息再次进行量化。
在一些具体实施例中,所述模型部署装置,具体还可以包括:
模型网络结构图确定单元,用于基于所述解析结果进行可视化操作,以得到相应的模型网络结构图。
在一些具体实施例中,所述模型部署装置,具体还可以包括:
节点信息可视化子模块,用于基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化;
相应的,所述节点信息可视化子模块,具体还可以包括:
第一节点信息可视化单元,用于通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化;
第二节点信息可视化单元,用于或,通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化。
在一些具体实施例中,所述参数配置模块12,具体可以包括:
量化参数配置单元,用于基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。
在一些具体实施例中,所述模型部署装置,具体还可以包括:
步骤跳转单元,用于若当前内存溢出,则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。
在一些具体实施例中,所述文件解析模块11,具体可以包括:
待部署模型文件接接收单元,用于对接收到的满足预设文件格式的训练好的待部署模型文件进行解析;所述预设文件格式包括onnx、tflite。
进一步的,本申请实施例还公开了一种电子设备,图5是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的模型部署方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的模型部署方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的模型部署方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
Claims (8)
1.一种模型部署方法,其特征在于,应用于预设低代码开发平台,包括:
对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;
基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;
若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作;
其中,所述计算各模型节点的量化损失之后,还包括:
针对所述量化损失高于预设阈值的第一模型节点,执行相应的量化参数调整操作,以基于调整后的量化参数配置信息再次进行量化;其中,针对所述量化损失大于所述预设阈值的模型节点,在进行调整时可以选择精度更高的量化参数和方法,并重新量化模型;
并且,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,还包括:
基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化;
并且,所述基于所述解析结果执行相应的模型量化参数配置操作,包括:
基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。
2.根据权利要求1所述的模型部署方法,其特征在于,所述对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果之后,还包括:
基于所述解析结果进行可视化操作,以得到相应的模型网络结构图。
3.根据权利要求2所述的模型部署方法,其特征在于,所述通过预设方式进行可视化,包括:
通过将与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小集成到所述模型网络结构图中进行可视化;
或,通过柱状图对与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小进行可视化。
4.根据权利要求1所述的模型部署方法,其特征在于,还包括:
若当前内存溢出,则重新跳转至所述基于所述解析结果执行相应的模型量化参数配置操作的步骤。
5.根据权利要求1至4任一项所述的模型部署方法,其特征在于,所述对接收到的训练好的待部署模型文件进行解析,包括:
对接收到的满足预设文件格式的训练好的待部署模型文件进行解析;所述预设文件格式包括onnx、tflite。
6.一种模型部署装置,其特征在于,应用于预设低代码开发平台,包括:
文件解析模块,用于对接收到的训练好的待部署模型文件进行解析,得到相应的解析结果;所述解析结果包括相应的模型网络结构信息以及模型节点信息;
参数配置模块,用于基于所述解析结果执行相应的模型量化参数配置操作,得到相应的配置结果;
量化检验模块,用于若当前内存未溢出,则基于所述解析结果以及所述配置结果执行相应的模型量化操作并计算各模型节点的量化损失,以当所述量化损失满足预设条件时通过执行相应的模型编译及模型推理操作进行检验,以完成针对所述待部署模型文件的模型部署操作;
其中,所述模型部署装置,还包括:
量化参数调整单元,用于针对所述量化损失高于预设阈值的第一模型节点,执行相应的量化参数调整操作,以基于调整后的量化参数配置信息再次进行量化;其中,针对所述量化损失大于所述预设阈值的模型节点,在进行调整时可以选择精度更高的量化参数和方法,并重新量化模型;
并且,所述模型部署装置,还包括:
节点信息可视化子模块,用于基于所述解析结果中的所述模型节点信息确定与各模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小,并通过预设方式进行可视化;
并且,所述参数配置模块,包括:
量化参数配置单元,用于基于所述解析结果以及与各所述模型节点对应的参数量大小、浮点运算数以及激活值内存占用大小执行相应的模型量化参数配置操作;所述模型量化参数包括量化数据类型、量化粒度以及量化位数。
7.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任一项所述的模型部署方法。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的模型部署方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609890.5A CN116341633B (zh) | 2023-05-29 | 2023-05-29 | 一种模型部署方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609890.5A CN116341633B (zh) | 2023-05-29 | 2023-05-29 | 一种模型部署方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116341633A CN116341633A (zh) | 2023-06-27 |
CN116341633B true CN116341633B (zh) | 2023-09-01 |
Family
ID=86884450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310609890.5A Active CN116341633B (zh) | 2023-05-29 | 2023-05-29 | 一种模型部署方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341633B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108270726A (zh) * | 2016-12-30 | 2018-07-10 | 杭州华为数字技术有限公司 | 应用实例部署方法及装置 |
CN108734264A (zh) * | 2017-04-21 | 2018-11-02 | 展讯通信(上海)有限公司 | 深度神经网络模型压缩方法及装置、存储介质、终端 |
CN111240606A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 一种基于安全内存的存储优化方法及系统 |
CN111626913A (zh) * | 2019-02-27 | 2020-09-04 | 顺丰科技有限公司 | 一种图像处理方法、装置及存储介质 |
CN111930346A (zh) * | 2020-07-15 | 2020-11-13 | 北京百度网讯科技有限公司 | 人工智能信息的处理方法、装置、电子设备和存储介质 |
CN112906745A (zh) * | 2021-01-21 | 2021-06-04 | 天津大学 | 基于边缘协同的诚信智能网络训练方法 |
CN113011569A (zh) * | 2021-04-07 | 2021-06-22 | 开放智能机器(上海)有限公司 | 离线量化参数加注方法、装置、电子设备和存储介质 |
CN113128659A (zh) * | 2020-01-14 | 2021-07-16 | 杭州海康威视数字技术股份有限公司 | 神经网络定点化方法、装置、电子设备及可读存储介质 |
CN113190345A (zh) * | 2021-03-26 | 2021-07-30 | 中国科学院软件研究所 | 一种面向软件定义卫星的神经网络模型部署的方法以及装置 |
CN113724155A (zh) * | 2021-08-05 | 2021-11-30 | 中山大学 | 用于自监督单目深度估计的自提升学习方法、装置及设备 |
CN114065913A (zh) * | 2021-10-28 | 2022-02-18 | 深圳云天励飞技术股份有限公司 | 模型量化方法、装置及终端设备 |
CN114299993A (zh) * | 2021-12-24 | 2022-04-08 | 中北大学 | 一种基于数据蒸馏的多枪声混合智能分类识别系统及方法 |
CN114399019A (zh) * | 2021-12-30 | 2022-04-26 | 南京风兴科技有限公司 | 神经网络编译方法、系统、计算机设备及存储介质 |
CN114418089A (zh) * | 2021-12-31 | 2022-04-29 | 交叉信息核心技术研究院(西安)有限公司 | 模型压缩方法、系统、部署方法、设备及存储介质 |
CN114936619A (zh) * | 2022-06-21 | 2022-08-23 | 上海西井信息科技有限公司 | 模型量化方法、装置、设备及存储介质 |
CN115048521A (zh) * | 2022-06-23 | 2022-09-13 | 重庆邮电大学 | 一种基于半监督的图神经网络的案件争议焦点识别方法及装置 |
CN115357554A (zh) * | 2022-10-24 | 2022-11-18 | 浪潮电子信息产业股份有限公司 | 一种图神经网络压缩方法、装置、电子设备及存储介质 |
CN115392234A (zh) * | 2022-08-02 | 2022-11-25 | 东软集团股份有限公司 | 文本表示方法、词表示方法、相应装置、介质及设备 |
CN116108910A (zh) * | 2023-02-07 | 2023-05-12 | 北京三快在线科技有限公司 | 用于终端部署的图像处理模型压缩方法、装置以及设备 |
CN116126354A (zh) * | 2023-01-16 | 2023-05-16 | Oppo广东移动通信有限公司 | 模型部署方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3233556A1 (en) * | 2021-10-01 | 2023-04-06 | Andrew Thompson | Systems and methods for quantifying and/or verifying ocean-based interventions for sequestering carbon dioxide |
-
2023
- 2023-05-29 CN CN202310609890.5A patent/CN116341633B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108270726A (zh) * | 2016-12-30 | 2018-07-10 | 杭州华为数字技术有限公司 | 应用实例部署方法及装置 |
CN108734264A (zh) * | 2017-04-21 | 2018-11-02 | 展讯通信(上海)有限公司 | 深度神经网络模型压缩方法及装置、存储介质、终端 |
CN111626913A (zh) * | 2019-02-27 | 2020-09-04 | 顺丰科技有限公司 | 一种图像处理方法、装置及存储介质 |
CN113128659A (zh) * | 2020-01-14 | 2021-07-16 | 杭州海康威视数字技术股份有限公司 | 神经网络定点化方法、装置、电子设备及可读存储介质 |
CN111240606A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 一种基于安全内存的存储优化方法及系统 |
CN111930346A (zh) * | 2020-07-15 | 2020-11-13 | 北京百度网讯科技有限公司 | 人工智能信息的处理方法、装置、电子设备和存储介质 |
CN112906745A (zh) * | 2021-01-21 | 2021-06-04 | 天津大学 | 基于边缘协同的诚信智能网络训练方法 |
CN113190345A (zh) * | 2021-03-26 | 2021-07-30 | 中国科学院软件研究所 | 一种面向软件定义卫星的神经网络模型部署的方法以及装置 |
CN113011569A (zh) * | 2021-04-07 | 2021-06-22 | 开放智能机器(上海)有限公司 | 离线量化参数加注方法、装置、电子设备和存储介质 |
CN113724155A (zh) * | 2021-08-05 | 2021-11-30 | 中山大学 | 用于自监督单目深度估计的自提升学习方法、装置及设备 |
CN114065913A (zh) * | 2021-10-28 | 2022-02-18 | 深圳云天励飞技术股份有限公司 | 模型量化方法、装置及终端设备 |
CN114299993A (zh) * | 2021-12-24 | 2022-04-08 | 中北大学 | 一种基于数据蒸馏的多枪声混合智能分类识别系统及方法 |
CN114399019A (zh) * | 2021-12-30 | 2022-04-26 | 南京风兴科技有限公司 | 神经网络编译方法、系统、计算机设备及存储介质 |
CN114418089A (zh) * | 2021-12-31 | 2022-04-29 | 交叉信息核心技术研究院(西安)有限公司 | 模型压缩方法、系统、部署方法、设备及存储介质 |
CN114936619A (zh) * | 2022-06-21 | 2022-08-23 | 上海西井信息科技有限公司 | 模型量化方法、装置、设备及存储介质 |
CN115048521A (zh) * | 2022-06-23 | 2022-09-13 | 重庆邮电大学 | 一种基于半监督的图神经网络的案件争议焦点识别方法及装置 |
CN115392234A (zh) * | 2022-08-02 | 2022-11-25 | 东软集团股份有限公司 | 文本表示方法、词表示方法、相应装置、介质及设备 |
CN115357554A (zh) * | 2022-10-24 | 2022-11-18 | 浪潮电子信息产业股份有限公司 | 一种图神经网络压缩方法、装置、电子设备及存储介质 |
CN116126354A (zh) * | 2023-01-16 | 2023-05-16 | Oppo广东移动通信有限公司 | 模型部署方法、装置、电子设备以及存储介质 |
CN116108910A (zh) * | 2023-02-07 | 2023-05-12 | 北京三快在线科技有限公司 | 用于终端部署的图像处理模型压缩方法、装置以及设备 |
Non-Patent Citations (1)
Title |
---|
A New Quantization Deployment Method of Neural Network Models Integrating LSTM Layers;Y. Wang et al;《2022 5th International Conference on Pattern Recognition and Artificial Intelligence (PRAI)》;1299-1303 * |
Also Published As
Publication number | Publication date |
---|---|
CN116341633A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334439B (zh) | 一种压力测试方法、装置、设备和存储介质 | |
CN108786112B (zh) | 一种应用场景配置方法、装置和存储介质 | |
CN103198009A (zh) | 一种通用测试方法、系统及相应装置 | |
US20200379807A1 (en) | Method, device, and computer program product for managing jobs in processing system | |
CN111767217B (zh) | Js单元测试案例生成方法及装置 | |
US12032477B2 (en) | Method and apparatus for generating and applying deep learning model based on deep learning framework | |
CN108038241A (zh) | 集成web可视化工作流方法、装置、可读存储介质及系统 | |
CN114691148A (zh) | 模型推理加速方法、装置、电子设备及存储介质 | |
US10846082B2 (en) | Systems and methods for determining and enforcing the optimal amount of source code comments | |
CN105022635A (zh) | 基于云平台的算法文件生成方法、装置及云平台 | |
CN113031976B (zh) | 一种基于Ambari的集群容量管理方法、装置及介质 | |
CN105224449A (zh) | 移动终端上的应用程序的测试方法和装置 | |
US9251489B2 (en) | Node-pair process scope definition adaptation | |
CN116341633B (zh) | 一种模型部署方法、装置、设备及存储介质 | |
CN113448852A (zh) | 一种测试案例的获取方法、装置、电子设备及存储介质 | |
CN111124417B (zh) | 工业控制程序的编译方法、装置、计算机设备和存储介质 | |
CN117235527A (zh) | 端到端容器化的大数据模型构建方法、装置、设备及介质 | |
CN115809688B (zh) | 一种模型调试方法、装置、电子设备及存储介质 | |
US20170213181A1 (en) | Automatic solution to a scheduling problem | |
US20190258462A1 (en) | Batch script decomposer | |
CN115525436A (zh) | 模型部署、运行方法、装置、离线分析工具和电子设备 | |
CN115062571A (zh) | 应用于集成电路器件的数据区域动态选取方法、系统、设备和计算机可读存储介质 | |
CN114860590A (zh) | 一种接口测试方法、装置、设备、存储介质 | |
US11797277B2 (en) | Neural network model conversion method server, and storage medium | |
Hwang et al. | Chatti: A conversational chatbot platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A model deployment method, device, device, and storage medium Granted publication date: 20230901 Pledgee: Qilu Bank Co.,Ltd. Jinan Science and Technology Innovation Financial Center Branch Pledgor: Shandong Inspur Scientific Research Institute Co.,Ltd. Registration number: Y2024980021353 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |