CN112651500B

CN112651500B - 一种量化模型的生成方法及终端

Info

Publication number: CN112651500B
Application number: CN202011601798.7A
Authority: CN
Inventors: 潘成龙; 张宇; 刘东剑
Original assignee: Santachi Video Technology Shenzhen Co ltd
Current assignee: Santachi Video Technology Shenzhen Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-12-28
Anticipated expiration: 2040-12-30
Also published as: CN112651500A

Abstract

本发明公开一种量化模型的生成方法及终端，利用数据集训练目标检测模型，得到收敛后的浮点型的目标检测模型，再进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型，最后将目标检测模型与第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的第二量化模型，量化操作以及梯度估计不准确均会造成精度损失，导致得到的第一量化模型的精度下降，通过将目标检测模型与第一量化模型进行联合训练，基于知识蒸馏的原理，使得目标检测模型能够对第一量化模型进行指导，让第一量化模型学习目标检测模型的提取特征能力，得到最优的第二量化模型，以此减少了模型量化后的精度损失，提升了目标检测模型量化后的精度。

Description

一种量化模型的生成方法及终端

技术领域

本发明涉及神经网络技术领域，尤其涉及一种量化模型的生成方法及终端。

背景技术

随着深度学习技术的发展，为了加速神经网络模型的运行速度，便于神经网络在移动端中部署，通常使用量化技术将浮点计算模型量化为定点计算模型。

现有技术中，通常将基于深度学习的浮点型32bit(比特)目标检测模型量化到8bit，将原有模型中大部分fp(float，浮点型)32的乘法计算转换成int(整型)8的乘法计算和fp32的加法计算，但是量化操作后，即使其引入伪量化节点来训练，依旧会带来一定的精度损失。

还有一种方法将基于深度学习的浮点型32bit图片分类模型量化到低bit，将原有模型中的fp32的乘法计算转换成底层的低比特点积位运算，并同时在fp32模型中引入量化训练，使得量化模型精度损失进一步减小，但是训练引入的梯度是利用直通估计器估计出来的，估计不准确依旧会造成模型精度下降。

发明内容

本发明所要解决的技术问题是：提供了一种量化模型的生成方法及终端，能够减少模型量化后的精度损失，提升目标检测模型量化后的精度。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种量化模型的生成方法，包括步骤：

利用预设数据集对目标检测模型进行训练，得到收敛后的浮点型的目标检测模型；

对所述目标检测模型进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型；

将所述目标检测模型与所述第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的与所述第一量化模型对应的第二量化模型。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种量化模型的生成终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明的有益效果在于：利用数据集训练目标检测模型，得到收敛后的浮点型的目标检测模型，再将目标检测模型进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型，最后将目标检测模型与第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的第二量化模型，在将目标检测模型进行量化并基于梯度估计进行训练后，量化操作以及梯度估计不准确均会造成精度损失，导致得到的第一量化模型的精度下降，通过将目标检测模型与第一量化模型进行联合训练，基于知识蒸馏的原理，使得目标检测模型能够对第一量化模型进行指导，让第一量化模型学习目标检测模型的提取特征能力，得到最优的第二量化模型，以此减少了模型量化后的精度损失，提升了目标检测模型量化后的精度。

附图说明

图1为本发明实施例的一种量化模型的生成方法中的步骤流程图；

图2为本发明实施例的一种量化模型的生成终端的结构示意图；

图3为本发明实施例的量化模型的生成方法中的流程图；

图4为本发明实施例的量化模型的生成方法中模型量化的示意图；

图5为本发明实施例的量化模型的生成方法中基于梯度估计进行训练的示意图；

图6为本发明实施例的量化模型的生成方法中将两个模型进行联合训练的示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

名称解释：

深度学习目标检测：指利用深度学习技术，找出图像中所有感兴趣的目标，同时确定目标的类别和在图像中的位置；在定位目标的基础上，用标识框标出图像中物体的位置，并给出物体的类别；

模型量化：指将常规32位浮点运算转换为低bit整型运算的一种模型压缩技术，当低bit量化为8bit时，我们可以称之为int8量化，即原来表示一个权重需要float32表示，量化后只需要用int8表示，理论上能够获得4倍的网络加速，同时8位相较于32位能够减少4倍存储空间，减少了存储空间和运算时间，从而达到了压缩模型和加速的目的；

量化感知训练：指模型量化后，int8模型表示的整型数值是不连续的，无法像float32浮点型模型可以表示连续的数值，这样会造成精度损失，此时在服务器上用float32模型模拟int8模型在端侧的量化过程，进一步训练，使得模型能够适应不连续的分布，部署后进一步减少精度损失；

知识蒸馏：指将大模型或者优秀模型的性能“迁移”或者“蒸馏”到小模型中，使得小模型学习到大模型或者优秀模型的提取特征能力；

map：指mean-ap，map是PASCAL VOC挑战的算法评估标准，每一个类别均有一个ap值，最后对所有类别的ap值取平均，即map，map越接近1表明算法越优秀；

PASCAL VOC：指一种公开数据集，包括VOC2007和VOC2012数据集，是目前目标检测常用的数据集；

Backbone：指神经网络模型，卷积神经网络中的骨干网络，即用来提取特征的主要网络；

Retinanet：经典的目标检测算法之一，可组合不同的Backbone形成性能不同的检测算法；

模拟量化：指量化算法在服务器上通过fp32模型模拟出int8的量化效果，但实际还是fp32存储，部署到端侧时，将会配合端侧自动转化成int8存储；

请参照图1，本发明实施例提供了一种量化模型的生成方法，包括步骤：

从上述描述可知，本发明的有益效果在于：利用数据集训练目标检测模型，得到收敛后的浮点型的目标检测模型，再将目标检测模型进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型，最后将目标检测模型与第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的第二量化模型，在将目标检测模型进行量化并基于梯度估计进行训练后，量化操作以及梯度估计不准确均会造成精度损失，导致得到的第一量化模型的精度下降，通过将目标检测模型与第一量化模型进行联合训练，基于知识蒸馏的原理，使得目标检测模型能够对第一量化模型进行指导，让第一量化模型学习目标检测模型的提取特征能力，得到最优的第二量化模型，以此减少了模型量化后的精度损失，提升了目标检测模型量化后的精度。

进一步地，所述将所述目标检测模型与所述第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的与所述第一量化模型对应的第二量化模型之前包括：

根据所述目标检测模型和第一量化模型各自的分类损失函数、联合分类损失函数、各自的回归损失函数和联合回归损失函数确定两者的联合损失函数。

进一步地，所述联合分类损失函数为：

式中，P_fp32表示所述目标检测模型对目标的分类概率，P_int8表示第一量化模型对目标的分类概率，N表示预测的目标个数；

所述联合回归损失函数为：

式中，x_fp32与x_int8分别表示所述目标检测模型与所述第一量化模型输出的目标中心横坐标，y_fp32和y_int8分别表示所述目标检测模型与所述第一量化模型输出的目标中心纵坐标，w_fp32和w_int8分别表示所述目标检测模型与所述第一量化模型输出的目标宽，h_fp32和h_int8分别表示所述目标检测模型与所述第一量化模型输出的目标高。

进一步地，所述联合损失函数为：

L_total＝αL_KL+βL_{hard_regression}+L_ori

式中，L_ori表示所述目标检测模型与所述第一量化模型各自的分类损失与回归损失之和，α表示调节联合分类损失权重的参数，β表示调节联合回归损失权重的参数。

由上述描述可知，对目标检测模型进行量化并基于梯度估计进行训练时，由于所估计的梯度是近似的，会导致神经网络反向传播时估计的梯度与真实的梯度不匹配的问题，造成了第一量化模型精度下降，且模型难以收敛的问题，因此根据目标检测模型和第一量化模型各自的分类损失函数、联合分类损失函数、各自的回归损失函数和联合回归损失函数确定两者的联合损失函数，再根据联合损失函数对两个模型进行联合训练，能够优化第一量化模型，使第一量化模型学习目标检测模型的提取特征能力。

进一步地，所述将所述目标检测模型与所述第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的与所述第一量化模型对应的第二量化模型包括：

基于两者的联合损失函数进行联合训练后，判断所述第一量化模型的map是否达到预设值，若是，则得到收敛后的与所述第一量化模型对应的第二量化模型；若否，则根据预设数据集基于所述联合损失函数继续对所述目标检测模型与所述第一量化模型进行联合训练直至所述第一量化模型的map达到预设值。

由上述描述可知，当第一量化模型的map达到预设值，说明第一量化模型充分学习到了目标检测模型的提取特征能力，则得到收敛后的第二量化模型，也就是最优的量化模型，且该模型可直接用于部署，若未达到预设值，则继续进行联合训练直到第一量化模型充分学习到了目标检测模型的提取特征能力，以此减少了模型量化后的精度损失，提升了目标检测模型量化后的精度。

请参照图2，本发明另一实施例提供了一种量化模型的生成终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

进一步地，所述联合分类损失函数为：

所述联合回归损失函数为：

进一步地，所述联合损失函数为：

L_total＝αL_KL+βL_{hard_regression}+L_ori

实施例一

请参照图1、3-5，本实施例的一种量化模型的生成方法，包括步骤：

S1、利用预设数据集对目标检测模型进行训练，得到收敛后的浮点型的目标检测模型；

本实施例中，预设数据集为PASCAL VOC，应用的目标检测算法为Retinanet，目标检测模型为Backbone；

比如，使用Retinanet在PASCAL VOC数据集上对Backbone进行训练，得到收敛后的浮点型的目标检测模型，即收敛的fp32模型；

S2、对所述目标检测模型进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型；

其中，量化过程中应用的线性量化方法可以任意选择；

本实施例中，应用的线性量化方法如下式所示：

r＝Round(S(q-Z))

式中，q表示收敛的fp32模型的float32权重，Z表示收敛的fp32模型的float32数值在量化时的偏移量(Zero Point)，可以取0或者其他计算值，S表示收敛的fp32模型的float32数值的缩放因子，即尺度，Round()表示四舍五入取整的数学函数，r表示量化后的一个整数值，n表示量化的bit数，x为当前待量化神经网络层的所有权重值；

比如，如图4所示，使用上式将收敛的fp32模型量化为int8模型，但是量化完成后，Round()函数量化后的int8模型的权重是一个整型且不连续的分布，而收敛的fp32模型的权重是一个浮点且连续的分布，由于不连续的分布会导致网络表达能力变差，出现误差，造成模型精度损失，为了减少精度损失，需要对int8模型进一步训练，即量化感知训练，使得模型能够适应不连续的分布，但Round()函数本身不可导，无法对int8模型进行梯度计算，从而无法进行训练；

因此，如图5所示，使用Straight Through Estimator(STE，直通估计器)来估计梯度，即输入的梯度设置为一个等于其输出梯度的阈值函数，而不管该阈值函数本身的实际导数如何，如下式：

式中，L为int8模型的损失函数，q为收敛的fp32模型的权重，r为int8模型的权重；

使用上式对int8模型估计梯度，从而进行整个网络的反向传播，得到收敛的int8模型；

但是，由于STE的梯度是近似的，导致了神经网络反向传播时估计的梯度与真实的梯度不匹配问题(grad-mismatch)，反映至目标检测模型上即造成了精度下降的问题；

针对该问题，根据所述目标检测模型和第一量化模型各自的分类损失函数、联合分类损失函数、各自的回归损失函数和联合回归损失函数确定两者的联合损失函数；

S3、将所述目标检测模型与所述第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的与所述第一量化模型对应的第二量化模型；

其中，基于两者的联合损失函数进行联合训练后，判断所述第一量化模型的map是否达到预设值，若是，则得到收敛后的与所述第一量化模型对应的第二量化模型；若否，则根据预设数据集基于所述联合损失函数继续对所述目标检测模型与所述第一量化模型进行联合训练直至所述第一量化模型的map达到预设值。

实施例二

请参照图1、3、5，本实施例在实施例一的基础上进一步限定了如何对量化后的目标检测模型进行优化：

针对精度下降、难以收敛的问题，利用“知识蒸馏”的原理对第一量化模型进行优化；

具体的，根据所述目标检测模型和第一量化模型各自的分类损失函数、联合分类损失函数、各自的回归损失函数和联合回归损失函数确定两者的联合损失函数；

比如，如图5所示，图5中的上半部分模型为收敛的fp32模型，网络同时输出目标的类别和位置，即Classification(分类)和Regression(回归)，图5中的下半部分为量化感知训练时收敛的int8模型，同样也输出待检测目标的类别和位置；

除去两个模型各自的分类损失函数之外，同时使用KL散度对两个模型的分类输出进行联合监督，联合分类损失函数为：

式中，P_fp32表示收敛的fp32模型对目标的分类概率，P_int8表示收敛的int8模型对目标的分类概率，N表示预测的目标个数；

除去两个模型各自的回归损失函数之外，联合回归损失函数为：

式中，x_fp32与x_int8分别表示收敛的fp32模型与收敛的int8模型输出的目标中心横坐标，y_fp32和y_int8分别表示收敛的fp32模型与收敛的int8模型输出的目标中心纵坐标，w_fp32和w_int8分别表示收敛的fp32模型与收敛的int8模型输出的目标宽，h_fp32和h_int8分别表示收敛的fp32模型与收敛的int8模型输出的目标高；

其中，针对每一个目标，收敛的fp32模型与收敛的int8模型都有一个对应的目标输出，再取两个模型的目标输出差值，将所有目标对应的目标输出差值相加求取平均值，得到所述联合回归损失函数；

因此，可以确定两个模型的联合损失函数为：

L_total＝αL_KL+βL_{hard_regression}+L_ori

式中，L_ori表示收敛的fp32模型与收敛的int8模型各自的分类损失与回归损失之和，α表示调节联合分类损失权重的参数，β表示调节联合回归损失权重的参数；

上述权重可以根据需要进行调整，本实施例中，α可以取0.001，β可以取0.0001；

其中，基于两者的联合损失函数进行联合训练后，判断所述第一量化模型的map是否达到预设值，若是，则得到收敛后的与所述第一量化模型对应的第二量化模型；若否，则根据预设数据集基于所述联合损失函数继续对所述目标检测模型与所述第一量化模型进行联合训练直至所述第一量化模型的map达到预设值；

比如，基于上式对收敛的fp32模型与收敛的int8模型进行联合训练，判断收敛的int8模型的map(mean-ap，客观评测数据)是否达到最小或者满足精度需求，若是，则得到收敛后的最优的int8模型；若否，则根据PASCAL VOC数据集基于上式继续对收敛的fp32模型与收敛的int8模型进行联合训练直至收敛的int8模型的map达到最小或者满足精度需求。

实施例三

本实施例在实施例一或实施例二的基础上进一步验证经过联合训练得到的收敛后的第二量化模型是否能够减少模型量化后的精度损失，提升目标检测模型量化后的精度：

使用PASCAL VOC测试标准中的VOC2007的test对收敛的fp32模型、收敛的int8模型、收敛的最优的int8模型分别进行测试，得到对应的map(mean-ap，客观评测数据)，如下表：

Class	fp32模型	int8模型	最优的int8模型
				aeroplane	0.839	0.797	0.769
bicycle	0.849	0.810	0.829
				bird	0.850	0.796	0.832
boat	0.657	0.630	0.603
				bottle	0.618	0.547	0.609
bus	0.851	0.793	0.799
				car	0.876	0.858	0.865
cat	0.933	0.922	0.928
				chair	0.558	0.492	0.506
cow	0.802	0.701	0.752
				diningtable	0.643	0.609	0.607
dog	0.910	0.893	0.905
				horse	0.882	0.820	0.857
motorbike	0.843	0.739	0.800
				person	0.831	0.781	0.802
pottedplant	0.454	0.389	0.431
				sheep	0.790	0.758	0.739
sofa	0.716	0.680	0.704
				train	0.845	0.798	0.833
tvmonitor	0.791	0.738	0.751
				Mean ap	0.777	0.728	0.746
模型大小	160Mb	160M	160M

从表中可以看出，经过联合训练收敛的最优的int8模型相较于独自训练收敛的int8模型，map提高了0.018，即模型精度提高了1.8个百分点，证明本方案减少了模型量化后的精度损失，提升了目标检测模型量化后的精度；需要注意的是，模型量化会将模型压缩至原来的四分之一，但由于量化感知训练过程中量化算法在服务器上通过fp32模拟出int8的量化效果，实际存储的还是fp32模型，部署到端测时，将会配合端侧自动转化成int8模型，因此模型大小没有变化。

实施例四

请参照图2，一种量化模型的生成终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一、实施例二或实施例三中的步骤。

综上所述，本发明提供的一种量化模型的生成方法及终端，利用预设数据集对目标检测模型进行训练，得到收敛后的浮点型的目标检测模型，再对该目标检测模型进行量化并基于梯度估计进行训练，得到收敛后的第一量化模型，根据目标检测模型和第一量化模型各自的分类损失函数、联合分类损失函数、各自的回归损失函数和联合回归损失函数确定两者的联合损失函数，将两个模型基于联合损失函数进行联合训练，能够优化第一量化模型，使第一量化模型学习目标检测模型的提取特征能力，若第一量化模型的map达到预设值，说明第一量化模型充分学习到了目标检测模型的提取特征能力，则得到收敛后的与第一量化模型对应的第二量化模型，也就是最优的量化模型，且该模型可直接用于部署，若未达到预设值，则继续进行联合训练直至联合损失函数达到预设值，基于知识蒸馏的原理，减少了模型量化后的精度损失，进一步提升了目标检测模型量化后的精度。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种量化模型的生成方法，其特征在于，包括步骤：

将所述目标检测模型与所述第一量化模型基于两者的联合损失函数进行联合训练，得到收敛后的与所述第一量化模型对应的第二量化模型；

所述量化方法如下式所示：

r＝Round(S(q-Z))；

式中，q表示所述收敛后的浮点型的目标检测模型的float32权重，Z表示所述收敛后的浮点型的目标检测模型的float32数值在量化时的偏移量，S表示所述收敛后的浮点型的目标检测模型的float32数值的缩放因子，即尺度，Round()表示四舍五入取整的数学函数，r表示量化后的一个整数值，n表示量化的bit数，x为当前待量化神经网络层的所有权重值；

所述梯度估计使用直通估计器，如下式所示：