CN111985523A

CN111985523A - 基于知识蒸馏训练的2指数幂深度神经网络量化方法

Info

Publication number: CN111985523A
Application number: CN202010604660.6A
Authority: CN
Inventors: 樊春晓; 胡洲; 宋光明; 王振兴
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-24

Abstract

本发明涉及神经网络技术领域，且公开了基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括教师模型和2的指数幂量化的学生模型，其特征在于：所述教师网络模型选取参数较多和精度较高网络模型，所述学生模型一般选择参数少、精度不如教师模型的网络模型。本发明通过神经网络权重值量化为2的指数幂量化深度神经网络方法，不仅可以降低与全精度权重值的误差，有效降低训练出来的网络精度与未被量化网络精度损失，而且2的指数幂权重值乘法操作可以利用位移来完成，在部署硬件设备上有明显的计算优势，可以提高神经网络硬件上的计算效率，并基于知识蒸馏算法训练的神经网络模型能有效提高量化网络的精确度。

Description

基于知识蒸馏训练的2指数幂深度神经网络量化方法

技术领域

本发明涉及神经网络技术领域，具体为基于知识蒸馏训练的2指数幂深度神经网络量化方法。

背景技术

人工神经网络也简称为神经网络或称作连接模型，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

现有训练量化神经网络的方法主要是，在神经网络的前向传播阶段，量化每一层的权重值为低精度值(如+1，-1，0等整型数)，然后计算其这层网络输出并传播到下一层网络，重复操作直到得到网络输出。接着在网络反向传播阶段，用全精度权重值(32位浮点数)计算得到的全精度梯度来更新量化权重的值，重复上述过程直到网络收敛。由于量化函数的梯度一般为0或者没有，所以在网络进行反向传播时量化权重值的梯度采用全精度权重值累积的梯度进行近似计算，且神经网络量化过的权重值会与网络中实际全精度权重值存在误差，尽管神经网络具有一定的鲁棒性，但这也会导致较大误差，导致其量化过的神经网络精度相对于未被量化过的神经网络有所损失。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于知识蒸馏训练的2指数幂深度神经网络量化方法，解决了现有训练量化神经网络的方法在网络进行反向传播时量化权重值的梯度采用全精度权重值累积的梯度进行近似计算，且神经网络量化过的权重值会与网络中实际全精度权重值存在误差，尽管神经网络具有一定的鲁棒性，但这也会导致较大误差，导致其量化过的神经网络精度相对于未被量化过的神经网络有所损失的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括教师模型和2的指数幂量化的学生模型，所述教师网络模型选取参数较多和精度较高网络模型，所述学生模型一般选择参数少、精度不如教师模型的网络模型。

优选的，所述教师模型和2的指数幂量化的学生模型的输入输出维度相同，都能对同一数据集进行分类。

优选的，所述教师模型和2的指数幂量化的学生模型的输出会除以同一个蒸馏参数T进行软化处理，T控制输出的概率分布，T越大，输出分布越均匀。

优选的，基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括以下步骤：

S1：首先用指定数据集训练一个高精度的教师网络模型，要求其教师网络模型的精度要尽可能优于准备量化的学生模型。

S2：训练完成之后会得到预训练好的教师模型，将用于辅助学生网络的训练。

S3：利用预训练的高精度教师模型辅助训练学生网络模型，每次迭代训练中，分批输入数据集到学生网络中进行前向传播，网络中每一层的输出采用量化为2的指数幂的权重值进行计算，重复操作一直到最后一层输出层，每批数据会得到相应的网络输出，输出经过处理后得到硬输出和软输出。

S4：步骤三中经过硬输出和软输出后得到学生网络2个输出的同时，同样的数据输入到预训练的教师网络模型进行前向传播，得到教师网络的软输出。

S5：然后根据教师模型和和学生模型计算得到的软输出计算一个得到的交叉熵损失函数值。

S6：将步骤五中得到的交叉熵损失函数值跟据学生模型的硬输出和数据集标签计算学生模型交叉熵损失函数，分别乘以相应比重值相加得到知识蒸馏总损失函数值。

S7：保存教师模型不变，对学生网络进行反向传播，用全精度权重值累积的梯度去更新量化权重值。

S8：重复上述步骤直至网络收敛，完成训练并保存得到高精度权重值量化后的学生模型。

优选的，所述通过教师模型使用2的指数次幂去量化神经网络权重值得到学生模型，并且在训练神经网络时采用了知识蒸馏方法，提高网络的精度的同时也加快网络的收敛速度。

优选的，所述教师模型和学生模型软输出计算的交叉熵在知识蒸馏损失函数中所占比重大于学生模型硬输出计算的交叉熵损失函数，即α取值应为(0.5，1)。

(三)有益效果

本发明提供了基于知识蒸馏训练的2指数幂深度神经网络量化方法，具备以下有益效果：

(1)、本发明通过神经网络权重值量化为2的指数幂量化深度神经网络方法，不仅可以降低与全精度权重值的误差，有效降低训练出来的网络精度与未被量化网络精度损失，而且2的指数幂权重值乘法操作可以利用位移来完成，在部署硬件设备上有明显的计算优势，可以提高神经网络硬件上的计算效率，解决了现有训练量化神经网络的方法在网络进行反向传播时量化权重值的梯度采用全精度权重值累积的梯度进行近似计算，且神经网络量化过的权重值会与网络中实际全精度权重值存在误差，尽管神经网络具有一定的鲁棒性，但这也会导致较大误差，导致其量化过的神经网络精度相对于未被量化过的神经网络有所损失的问题。

(2)、本发明基于知识蒸馏算法训练的神经网络模型能有效提高量化网络的精确度，加快神经网络收敛的速度，减少训练的迭代次数从而降低模型的训练时间。

附图说明

图1为本发明训练方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括教师模型和2的指数幂量化的学生模型，教师网络模型选取参数较多和精度较高网络模型，学生模型一般选择参数少、精度不如教师模型的网络模型。

具体的，教师模型和2的指数幂量化的学生模型的输入输出维度相同，都能对同一数据集进行分类，有利于数据的统一化，并保证教学模型对数据的精准度。

具体的，教师模型和2的指数幂量化的学生模型的输出会除以同一个蒸馏参数T进行软化处理，T控制输出的概率分布，T越大，输出分布越均匀。

具体的，基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括以下步骤：

具体的，通过教师模型使用2的指数次幂去量化神经网络权重值得到学生模型，并且在训练神经网络时采用了知识蒸馏方法，提高网络的精度的同时也加快网络的收敛速度，有利于通过此方法训练出来的量化网络相对于未量化网络来说精度几乎没有损失，且如果将训练的量化网络部署到相应硬件设备可以充分发挥量化权重值在硬件上计算优势。

具体的，教师模型和学生模型软输出计算的交叉熵在知识蒸馏损失函数中所占比重大于学生模型硬输出计算的交叉熵损失函数，即α取值应为(0.5，1)，通过知识蒸馏方法和量化权重值为2的指数幂(即2^n，n为整数)来保持量化神经网络的高精度，同时也提高了硬件计算效率，由于神经网络中大多为数浮点数乘法，所以将权重值量化为2^n后可以利用位移完成乘法计算(例如，x乘以2^3等同于x左移3位)，从而快网络计算速度，且相对于低精度权重值而言，2^n与全精度权重值误差更小，此外，知识蒸馏方法训练神经网络可以有效提高网络的精度并加快网络收敛速度，因此，新的量化方法结合知识蒸馏方法训练的神经网络，不仅能保证其训练的网络精度与未量化网络相当，并且量化过的权重值更适应于硬件计算，能够部署在相应硬件上来充分发挥量化神经网络的计算优势。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于知识蒸馏训练的2指数幂深度神经网络量化方法，包括教师模型和2的指数幂量化的学生模型，其特征在于：所述教师网络模型选取参数较多和精度较高网络模型，所述学生模型一般选择参数少、精度不如教师模型的网络模型。

2.根据权利要求1所述的基于知识蒸馏训练的2指数幂深度神经网络量化方法，其特征在于：所述教师模型和2的指数幂量化的学生模型的输入输出维度相同，都能对同一数据集进行分类。

3.根据权利要求1所述的基于知识蒸馏训练的2指数幂深度神经网络量化方法，其特征在于：所述教师模型和2的指数幂量化的学生模型的输出会除以同一个蒸馏参数T进行软化处理，T控制输出的概率分布，T越大，输出分布越均匀。

4.根据权利要求1所述的基于知识蒸馏训练的2指数幂深度神经网络量化方法，其特征在于，包括以下步骤：

S1：首先用指定数据集训练一个高精度的教师网络模型，要求其教师网络模型的精度要尽可能优于准备量化的学生模型；

S2：训练完成之后会得到预训练好的教师模型，将用于辅助学生网络的训练；

S3：利用预训练的高精度教师模型辅助训练学生网络模型，每次迭代训练中，分批输入数据集到学生网络中进行前向传播，网络中每一层的输出采用量化为2的指数幂的权重值进行计算，重复操作一直到最后一层输出层，每批数据会得到相应的网络输出，输出经过处理后得到硬输出和软输出；

S4：步骤三中经过硬输出和软输出后得到学生网络2个输出的同时，同样的数据输入到预训练的教师网络模型进行前向传播，得到教师网络的软输出；

S5：然后根据教师模型和和学生模型计算得到的软输出计算一个得到的交叉熵损失函数值；

S6：将步骤五中得到的交叉熵损失函数值跟据学生模型的硬输出和数据集标签计算学生模型交叉熵损失函数，分别乘以相应比重值相加得到知识蒸馏总损失函数值；

S7：保存教师模型不变，对学生网络进行反向传播，用全精度权重值累积的梯度去更新量化权重值；

5.根据权利要求1所述的基于知识蒸馏训练的2指数幂深度神经网络量化方法，其特征在于：所述通过教师模型使用2的指数次幂去量化神经网络权重值得到学生模型，并且在训练神经网络时采用了知识蒸馏方法，提高网络的精度的同时也加快网络的收敛速度。

6.根据权利要求1所述的基于知识蒸馏训练的2指数幂深度神经网络量化方法，其特征在于：所述教师模型和学生模型软输出计算的交叉熵在知识蒸馏损失函数中所占比重大于学生模型硬输出计算的交叉熵损失函数，即α取值应为(0.5，1)。