CN111985495B

CN111985495B - 模型部署方法、装置、系统及存储介质

Info

Publication number: CN111985495B
Application number: CN202010656190.8A
Authority: CN
Inventors: 殷绪成; 董志伟; 杨春
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2024-02-02
Anticipated expiration: 2040-07-09
Also published as: CN111985495A

Abstract

本发明适用于深度学习技术领域，提供了一种模型部署方法、装置、系统及存储介质，该方法包括：通过对接收到的预训练模型执行第一格式转换操作，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，对量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，将量化后的模型部署到ASIC人工智能芯片上，从而实现了不同深度学习框架预训练模型在ASIC人工智能芯片上的量化部署。

Description

模型部署方法、装置、系统及存储介质

技术领域

本发明属于深度学习技术领域，尤其涉及一种模型部署方法、装置、系统及存储介质。

背景技术

自AlexNet横空出世，深度学习模型为了提高网络精度通常带有大量的参数和层，导致模型存储大小急剧增加，推理速度缓慢。推理缓慢使得很多精度高的深度学习网络一直只能运行在计算能力较高的GPU系统上，落地应用困难。

随着深度学习在近年来的逐步升温，智能边缘计算应用需求增大，边缘侧的软硬件一体化人工智能芯片成本低效率高，ASIC(Application Specific Integrated Circuit，专用集成电路)人工智能芯片应运而生，ASIC人工智能芯片通过加速深度学习中的运算使深度学习可以加速运行，同时ASIC人工智能芯片可以定制配置运行在低功耗计算资源较少的终端侧，但也是由于端侧的计算资源较少，能耗要求较高，传统的深度学习模型通常需要量化到精度较低的数据类型才可以达到落地的指标要求，例如检测速度。

由于落地的迫切需求，近年来学术界出现了不少的量化方案和量化实现。但是这些实现都没有考虑ASIC人工智能芯片的情况，深度学习ASIC人工智能芯片通常计算资源较少，尤其位宽、中间值位宽与现在的通用芯片有较大区别，导致传统的深度学习模型通常并不能直接部署到ASIC人工智能芯片上。

发明内容

本发明的目的在于提供一种模型部署方法、装置、系统及存储介质，旨在解决现有技术中深度学习模型无法直接部署到ASIC人工智能芯片上的问题。

一方面，本发明提供一种模型部署方法，所述方法包括下述步骤：

对接收到的预训练模型执行第一格式转换操作，其中，所述第一格式转换操作用于将所述预训练模型由第一深度学习框架下的存储格式转换到预定存储格式；

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，其中，所述量化位宽根据待部署ASIC人工智能芯片确定；

对所述量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，其中，所述第二格式转换操作用于将所述量化参数和量化后的模型参数由所述预定存储格式转换到第二深度学习框架下的存储格式；

将所述量化后的模型部署到所述ASIC人工智能芯片上。

优选地，所述根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化的步骤，包括：

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化、激活值量化和偏置量化。

优选地，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化的步骤，包括：

依次遍历所述预训练模型中各层的权重，找到各层对应的最大权重和最小权重，将求取到的所述最大权重和所述最小权重对应的最大绝对极值作为权重量化阈值；

根据所述权重量化阈值和所述量化位宽确定各层对应的权重缩放因子，所述权重缩放因子其中，/>表示l层对应的权重缩放因子，bw表示所述量化位宽，/>表示l层对应的权重量化阈值；

将各层的权重与所述权重缩放因子相乘后进行四舍五入处理，得到权重量化值。

优选地，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行激活值量化的步骤，包括：

将测试数据集输入到所述预训练模型中进行前向传播，获取各层的激活值；

将各层的激活值转换为以2048个bin的形式保存的直方图，遍历所有的bin的值，作为量化阈值，使用KL散度或信息熵找到各层对应的信息熵最小的量化阈值，将所述信息熵最小的量化阈值作为激活值量化阈值；

根据所述激活值量化阈值和所述量化位宽确定各层对应的激活值缩放因子，所述激活值缩放因子其中，/>表示l层对应的权重缩放因子，bw表示所述量化位宽,/>表示l层对应的激活值量化阈值。

优选地，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行偏置量化的步骤，包括：

根据所述权值缩放因子和激活值缩放因子确定各层的偏置缩放因子，所述偏置缩放因子其中，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子；

将各层的偏置与所述偏置缩放因子相乘后进行四舍五入处理，得到偏置量化值。

优选地，所述量化参数包括层缩放因子，所述层缩放因子的计算公式为其中，/>表示l层对应的激活值缩放因子，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子。

优选地，所述方法还包括：

根据公式得到层的输出量化值，其中，Y^q表示输出量化值，W^q表示权重量化值，X^q表示输入量化值，B^q表示偏置量化值，k表示移位的位数，s_l表示l层对应的层缩放因子，/>表示l层对应的层缩放因子量化值，n表示超参数，n的取值使/>在可用下的最高位数。

优选地，所述移位的位数为的数量级。

另一方面，本发明提供了一种模型部署装置，所述装置包括：

第一格式转换单元，用于对接收到的预训练模型执行第一格式转换操作，其中，所述第一格式转换操作用于将所述预训练模型由第一深度学习框架下的存储格式转换到预定存储格式；

模型量化单元，用于根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，其中，所述量化位宽根据待部署ASIC人工智能芯片确定，所述量化参数包括层缩放因子；以及

第二格式转换单元，用于对所述量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，其中，所述第二格式转换操作用于将所述量化参数和量化后的模型参数由所述预定存储格式转换到第二深度学习框架下的存储格式；

模型部署单元，用于将所述量化后的模型部署到所述ASIC人工智能芯片上。

另一方面，本发明还提供了一种模型部署系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明通过对接收到的预训练模型执行第一格式转换操作，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，对所述量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，将量化后的模型部署到所述ASIC人工智能芯片上，从而实现了不同深度学习框架预训练模型在ASIC人工智能芯片上的量化部署。

附图说明

图1是本发明实施例一提供的模型部署方法的实现流程图；

图2是本发明实施例二提供的模型部署装置的结构示意图；以及

图3是本发明实施例三提供的模型部署系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的模型部署方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，对接收到的预训练模型执行第一格式转换操作。

在本发明实施例中，预训练模型中通常包括深度学习模型的结构定义和深度学习模型的参数，不同的深度学习框架产生的预训练模型在硬盘中的存储格式不同，且不同的深度学习框架和深度学习模型不能互相读取，因此，在接收到预训练模型时，需要对其进行第一格式转换，以便于后续的量化在统一的数据存储格式下进行。其中，第一格式转换操作用于将预训练模型由第一深度学习框架下的存储格式转换到预定存储格式，其中，第一深度学习框架可以为任意一种深度学习框架，例如，Caffe、PyTorch或TensorFlow等，预定存储格式可以为现有深度学习模型的任意一种存储格式，优选地，预定存储格式可以为开放神经网络交换(Open Neural Network Exchange，ONNX)格式，从而通过第一深度学习框架下的存储格式与开放神经网络交换格式的转换，实现了对不同深度学习框架预训练模型的处理，降低了为ASIC人工智能芯片开发模型的不同团队的部署压力。

在步骤S102中，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数。

在本发明实施例中，对于ASIC人工智能芯片而言，尽管其功耗低、峰值计算性能较高，但通常内部具备较小的计算位宽，不同的ASIC人工智能芯片略有不同，因此，量化位宽需要根据ASIC人工智能芯片的位宽确定，以支持任一ASIC人工智能芯片。该量化位宽可以为int4、int8或int16等，在此不作限定。

在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化时，可包括权重量化和激活值量化，优选地，对执行第一格式转换操作后的预训练模型的全整型量化包括权重量化、激活值量化和偏置量化，以通过激活值的量化平衡整个量化过程带来的误差。

在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化时，优选地，依次遍历预训练模型中各层的权重，找到各层对应的最大权重max_w^l和最小权重min_w^l，将求取到的最大权重max_w^l和最小权重min_w^l对应的最大绝对极值作为权重量化阈值权重量化阈值的公式表达为/>根据权重量化阈值和量化位宽确定各层对应的权重缩放因子/>权重缩放因子的公式表达为/>将各层的权重W与权重缩放因子相乘后进行四舍五入处理，得到权重量化值W^′，权重量化值/>以完成权重的量化。其中，max()和abs()分别代表取最大值函数和取绝对值函数，round()表示的是四舍五入近似取整函数，/>表示l层对应的权重缩放因子，bw表示量化位宽，/>表示l层对应的权重量化阈值，W表示原始权重值，W^q表示权重量化值。

在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行激活值量化时，优选地，将测试数据集输入到预训练模型中进行前向传播，获取各层的激活值，将各层的激活值转换为以2048个bin的形式保存的直方图，遍历所有的bin的值，将遍历到的bin的值依次作为量化阈值，使用KL散度或信息熵找到各层对应的信息熵最小的量化阈值，将信息熵最小的量化阈值作为激活值量化阈值根据激活值量化阈值和量化位宽确定各层对应的激活值缩放因子/>激活值缩放因子/>从而通过离线的方式实现了激活值的量化，提高了量化速度。其中，/>表示l层对应的权重缩放因子，bw表示量化位宽,/>表示l层对应的激活值量化阈值。

在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行偏置量化时，考虑到偏置在神经网络中的占比非常少，所以开销不会很大，优选地，根据权值缩放因子和激活值缩放因子确定各层的偏置缩放因子将各层的偏置B与偏置缩放因子相乘后进行四舍五入处理，得到偏置量化值B^q，偏置量化值的公式表达为从而在一定程度上平衡整个量化过程带来的误差。其中，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子，B表示原始偏置值，B^q表示偏置量化值。

在将前一层的网络结果输出至下一层前，需要对量化的数据进行恢复，从而优选地，量化参数包括层缩放因子，以通过层缩放因子对量化的数据进行恢复，具体实现中，将层缩放因子与激活值相乘以对量化的数据进行恢复。其中，层缩放因子的计算公式为其中，s_l表示l层对应的层缩放因子，/>表示l层对应的激活值缩放因子，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子。

由于s_l为浮点数，为使量化后的输出值能用整型表示，同时使计算过程不涉及浮点运算，在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化时，优选地，通过公式对层缩放因子进行量化，其中，/>表示l层对应的层缩放因子量化值，n表示超参数，n的取值使/>在可用下的最高位数，即，n的取值需要被优化才能够保证较好的精度。以8bit量化为例，n的取值需使/>在64-127之间，以保证其有7位有效数字。此时，层的输出量化值/>其中，Y^q表示输出量化值，X^q表示输入量化值。以8bit量化为例，其中括号内的值超过了8bit，s_l则将其缩放回8bit。根据大量的数据统计，结果发现s_l总为一个小于0.5的数字，这也使得n总是大于7，尽管所有数字都为8bit整型，但因为有超过两个数字参加，所以计算仍不被支持。

从而优选地，先对W^qX^q+b^q进行移位操作，此时，输出量化值的计算公式为其中，k表示移位的位数，进一步优选地，k的值为/>的数量级，以提高量化结果的准确性和适用场景的广泛性。同样以8bit量化为例，W^qX^q+b^q的值至少需要15bit，数据统计表明15bit在大多数情况下能够满足需求，因此，可以对W^qX^q+B^q的值先做7个左移位取整，超出8bit的部分则被截断。此时计算公式为即乘法的操作数均为8bit整型数字。

在步骤S103中，对量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型。

在本发明实施例中，第二格式转换操作用于将量化参数和量化后的模型参数由预定存储格式转换到第二深度学习框架下的存储格式，由于不同的ASIC人工智能芯片支持的深度学习模型可能不同，因此，对量化参数和量化后的模型参数执行第二格式转换操作并输出，以得到任一学习框架下的量化模型，从而提高了系统的泛化能力，其中，第二深度学习框架同样可以为任意一种深度学习框架，第二深度学习框架与第一深度学习框架相同或不同。

在步骤S104中，将量化后的模型部署到ASIC人工智能芯片上。

在本发明实施例中，经第二格式转换后输出的模型可直接部署到ASIC人工智能芯片上，在将量化后的模型部署到ASIC人工智能芯片上之前，可以通过预先准备好的测试数据集对输出的模型进行测试，根据测试结果判断该模型的精度损失是否低于预设的阈值，当该模型的精度损失低于预设的阈值时，将该模型部署到ASIC人工智能芯片上。

以下结合实验例验证该方法的精度损失：

一、实验环境：

a.在本实验例中使用PyTorch作为预训练模型的训练框架，Python作为实现语言，部署平台使用Caffe框架。

b.使用车牌识别的预训练模型，选取2000张图片的数据集。

二、实验描述

1)接收PyTorch的存储格式作为输入；

2)转换为通用的开放神经网络交换格式；

3)设置ASIC人工智能芯片的位宽为8、中间值位宽为16；

4)采用步骤S102描述的方法依次对该预训练模型进行权值量化、激活值量化和偏置量化，得到量化参数和量化后的模型参数；

5)将量化参数和量化后的模型参数从开放神经网络交换格式转换到Caffe格式，完成量化并进行测试。

(3)实验结果

将量化后的车牌识别模型部署在ASIC人工智能芯片上并进行测试，结果显示与全精度模型对比，精度未损失。

通过以上实验例可知，本发明确实实现了深度学习模型在ASIC人工智能芯片上的量化部署，同时有较好的性能表现。

在本发明实施例中，对接收到的预训练模型执行第一格式转换操作，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，对量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，将量化后的模型部署到ASIC人工智能芯片上，从而实现了不同深度学习框架预训练模型在ASIC人工智能芯片上的量化部署。

实施例二：

图2示出了本发明实施例二提供的模型部署装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第一格式转换单元21，用于对接收到的预训练模型执行第一格式转换操作，其中，第一格式转换操作用于将预训练模型由第一深度学习框架下的存储格式转换到预定存储格式；

模型量化单元22，用于根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，其中，量化位宽根据待部署ASIC人工智能芯片确定；

第二格式转换单元23，用于对量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，其中，第二格式转换操作用于将量化参数和量化后的模型参数由预定存储格式转换到第二深度学习框架下的存储格式；以及

模型部署单元24，用于将量化后的模型部署到ASIC人工智能芯片上。

优选地，模型量化单元还包括：

模型量化子单元，用于根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化、激活值量化和偏置量化。

优选地，模型量化子单元包括：

第一阈值获取单元，用于依次遍历预训练模型中各层的权重，找到各层对应的最大权重和最小权重，将求取到的最大权重和最小权重对应的最大绝对极值作为权重量化阈值；

第一确定单元，用于根据权重量化阈值和量化位宽确定各层对应的权重缩放因子，权重缩放因子其中，/>表示l层对应的权重缩放因子，bw表示量化位宽，表示l层对应的权重量化阈值；以及

权重量化单元，用于将各层的权重与权重缩放因子相乘后进行四舍五入处理，得到权重量化值。

优选地，模型量化子单元包括：

激活值获取单元，用于将测试数据集输入到预训练模型中进行前向传播，获取各层的激活值；

第二阈值获取单元，用于将各层的激活值转换为以2048个bin的形式保存的直方图，遍历所有的bin的值，作为量化阈值，使用KL散度或信息熵找到各层对应的信息熵最小的量化阈值，将信息熵最小的量化阈值作为激活值量化阈值；以及

第二确定单元，用于根据激活值量化阈值和量化位宽确定各层对应的激活值缩放因子，激活值缩放因子其中，/>表示l层对应的权重缩放因子，bw表示量化位宽,/>表示l层对应的激活值量化阈值。

优选地，模型量化子单元包括：

第三确定单元，用于根据权值缩放因子和激活值缩放因子确定各层的偏置缩放因子，偏置缩放因子其中，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子；以及

偏置量化单元，用于将各层的偏置与偏置缩放因子相乘后进行四舍五入处理，得到偏置量化值。

优选地，该量化参数包括层缩放因子，层缩放因子的计算公式为其中，s_l表示l层对应的层缩放因子，/>表示l层对应的激活值缩放因子，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子。

优选地，该装置还包括：

输出量化单元，用于根据公式得到层的输出量化值，其中，/>Y^q表示输出量化值，W^q表示权重量化值，X^q表示输入量化值，B^q表示偏置量化值，k表示移位的位数，s_l表示l层对应的层缩放因子，/>表示l层对应的层缩放因子量化值，n表示超参数，n的取值使/>在可用下的最高位数。

优选地，移位的位数为的数量级。

在本发明实施例中，模型部署装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。模型部署装置的各单元的具体实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例三：

图3示出了本发明实施例三提供的模型部署系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的模型部署系统3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理器30执行计算机程序32时实现上述各方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器30执行计算机程序32时实现上述各装置实施例中各单元的功能，例如图2所示单元21至24的功能。

在本发明实施例中，通过对接收到的预训练模型执行第一格式转换操作，根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，对量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，将量化后的模型部署到ASIC人工智能芯片上，从而实现了不同深度学习框架预训练模型在ASIC人工智能芯片上的量化部署。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图2所示单元21至24的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型部署方法，其特征在于，所述方法包括下述步骤：

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，其中，所述量化位宽根据待部署ASIC人工智能芯片确定，所述全整型量化包括权重量化、激活值量化和偏置量化，所述量化参数包括层缩放因子，所述层缩放因子的计算公式为其中，s_l表示l层对应的层缩放因子，/>表示l层对应的激活值缩放因子，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子，根据公式/>得到层的输出量化值，其中，/>Y^q表示输出量化值，W^q表示权重量化值，X^q表示输入量化值，B^q表示偏置量化值，k表示移位的位数，s_l表示l层对应的层缩放因子，/>表示l层对应的层缩放因子量化值，n表示超参数，n的取值使/>在可用下的最高位数；

将所述量化后的模型部署到所述ASIC人工智能芯片上；

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化的步骤，包括：

依次遍历所述预训练模型中各层的权重，找到各层对应的最大权重和最小权重，将求取到的所述最大权重和所述最小权重对应的最大绝对极值作为权重量化阈值，根据所述权重量化阈值和所述量化位宽确定各层对应的权重缩放因子，所述权重缩放因子其中，/>表示l层对应的权重缩放因子，bw表示所述量化位宽，/>表示l层对应的权重量化阈值，将各层的权重与所述权重缩放因子相乘后进行四舍五入处理，得到权重量化值；

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行激活值量化的步骤，包括：

将测试数据集输入到所述预训练模型中进行前向传播，获取各层的激活值，将各层的激活值转换为以2048个bin的形式保存的直方图，遍历所有的bin的值，作为量化阈值，使用KL散度或信息熵找到各层对应的信息熵最小的量化阈值，将所述信息熵最小的量化阈值作为激活值量化阈值，根据所述激活值量化阈值和所述量化位宽确定各层对应的激活值缩放因子，所述激活值缩放因子其中，/>表示l层对应的激活值缩放因子，bw表示所述量化位宽,/>表示l层对应的激活值量化阈值；

根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行偏置量化的步骤，包括：

根据所述权重缩放因子和激活值缩放因子确定各层的偏置缩放因子，所述偏置缩放因子其中，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子，将各层的偏置与所述偏置缩放因子相乘后进行四舍五入处理，得到偏置量化值。

2.如权利要求1所述的方法，其特征在于，所述移位的位数为的数量级。

3.一种模型部署装置，其特征在于，所述装置包括：

模型量化单元，用于根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行全整型量化，得到量化参数和量化后的模型参数，其中，所述量化位宽根据待部署ASIC人工智能芯片确定，所述全整型量化包括权重量化、激活值量化和偏置量化，所述量化参数包括层缩放因子，所述层缩放因子的计算公式为其中，s_l表示l层对应的层缩放因子，/>表示l层对应的激活值缩放因子，/>表示l层对应的偏置缩放因子，/>表示l层对应的权重缩放因子，l-1表示l层的输入层，/>表示l层的输入层对应的激活值缩放因子，根据公式/>得到层的输出量化值，其中，Y^q表示输出量化值，W^q表示权重量化值，X^q表示输入量化值，B^q表示偏置量化值，k表示移位的位数，s_l表示l层对应的层缩放因子，/>表示l层对应的层缩放因子量化值，n表示超参数，n的取值使/>在可用下的最高位数；

第二格式转换单元，用于对所述量化参数和量化后的模型参数执行第二格式转换操作并输出，得到量化后的模型，其中，所述第二格式转换操作用于将所述量化参数和量化后的模型参数由所述预定存储格式转换到第二深度学习框架下的存储格式；以及

模型部署单元，用于将所述量化后的模型部署到所述ASIC人工智能芯片上；

所述模型量化单元在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行权重量化时，包括：

所述模型量化单元在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行激活值量化时，包括：

所述模型量化单元在根据接收到的量化位宽对执行第一格式转换操作后的预训练模型进行偏置量化时，包括：

4.如权利要求3所述的模型部署装置，其特征在于，所述移位的位数为的数量级。

5.一种模型部署系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。

6.一种模型部署系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求2所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求2所述方法的步骤。