CN109543821A

CN109543821A - 一种限制权重分布提高量化效果的卷积神经网络训练方法

Info

Publication number: CN109543821A
Application number: CN201811416632.0A
Authority: CN
Inventors: 高岩; 于治楼; 姜凯; 段成德
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-03-29

Abstract

本发明公开了一种限制权重分布提高量化效果的卷积神经网络训练方法，属于机器学习领域，本发明要解决的技术问题为如何设置合理的参数分布区间并利用惩罚函数限制参数的分布范围，有效缓解浮点数区间到整数区间的尺度过大导致量化损失较大，采用的技术方案为：该方法是利用Tukey Fences测定卷积核参数的分布异常，计算卷积核参数的合理分布区间，并根据该分布区间的上下限在CNN模型的损失函数中加入惩罚项函数来限制卷积核的分布，减小卷积核参数的分布范围，同时在CNN模型的训练过程中不断更新权重，使CNN模型量化为低精度整数后的正确率与卷积核参数分布范围成逆相关关系，保持量化后CNN模型的正确率。

Description

一种限制权重分布提高量化效果的卷积神经网络训练方法

技术领域

本发明涉及机器学习领域，具体地说是一种限制权重分布提高量化效果的卷积神经网络训练方法。

背景技术

深度学习技术的突破使得神经网络被应用到各种实际问题中，卷积神经网络(CNN)是一类应用范围最广泛的深度学习模型之一。CNN模型由一系列包含多个卷积核的神经网络层构成，每一层的输入为上一层输出的特征图(Feature Map)。CNN模型的核心运算是利用卷积核(Kernel)对输入的特征图进行卷积，然后进行激活，得到新的特征图。卷积核是具有多个维度的一组数值，在处理图像和其特征图的CNN模型中，卷积核一般有R、S、C三个维度，分别表示卷积核的高度、宽度和通道数，则该卷积核有R×S×C个权重值，即R×S×C个参数。如果CNN模型的某一层有K个卷积核，则该层的权重参数量为R×S×C×K。

在计算机中，这些权重参数为一般为32位或64位浮点数类型的数值。对于手机、嵌入式芯片等资源受限场景下的计算设备进行浮点数运算，不仅要占用比整数计算更多的存储空间，在推理过程中也要消耗更多芯片运行周期。为了减小CNN模型对存储和计算资源的需求，加快模型的推理时间，需要对模型进行量化压缩，将高精度的浮点数类型转换为低精度的无符号整数类型，如uint8类型。最常用的量化方法是最大值最小值量化，该方法首先计算出一层卷积核所有参数的最大值和最小值，然后将权重数值映射为[0,2ⁿ-1]的量化空间的整数，n是整数在计算机中的位数。该方法实现简单，但对权重的分布要求比较高，映射产生的误差会随卷积核的参数分布变大而变大，造成模型推理正确率严重下降。

Tukey Fences是常用的统计样本异常值的方法，对于一组样本值，其下四分位记为Q₁，上四分位记为Q₂，令

一般，当t＝1.5时，低于a或高于b的值为异常的样本；当t＝3时，低于a或高于b的值为极其异常的样本。异常样本又叫离群样本，虽然异常样本并不一定由观察误差造成，但会对样本整体的统计结果产生较大影响。

故如何设置合理的参数分布区间并利用惩罚函数限制参数的分布范围，有效缓解浮点数区间到整数区间的尺度过大导致量化损失较大是目前急需解决的技术问题。

专利号为CN108133222A的专利文献公开了一种为数据库确定卷积神经网络CNN模型的装置和方法，根据本发明的为数据确定CNN模型的装置包括：选取单元，用于从多个已知分类能力的CNN模型中选取至少两个CNN模型；拟合单元，用于根据至少两个CNN模型的分类能力和第一参数拟合以分类能力和第一参数为变量的曲线，其中，第一参数用于表征CNN模型的性能；预测单元，用于根据曲线预测其它CNN模型的第一参数；以及确定单元，用于根据每一个CNN模型的第一参数从多个CNN模型中确定适用于数据库的CNN模型。但是该技术方案不能解决何设置合理的参数分布区间并利用惩罚函数限制参数的分布范围，有效缓解浮点数区间到整数区间的尺度过大导致量化损失较大的技术问题。

发明内容

本发明的技术任务是提供一种限制权重分布提高量化效果的卷积神经网络训练方法，来解决如何设置合理的参数分布区间并利用惩罚函数限制参数的分布范围，有效缓解浮点数区间到整数区间的尺度过大导致量化损失较大的问题。

本发明的技术任务是按以下方式实现的，一种限制权重分布提高量化效果的卷积神经网络训练方法，该方法是利用Tukey Fences测定卷积核参数的分布异常，计算卷积核参数的合理分布区间，并根据该分布区间的上下限在CNN模型的损失函数中加入惩罚项函数来限制卷积核的分布，减小卷积核参数的分布范围，同时在CNN模型的训练过程中不断更新权重，使CNN模型量化为低精度整数后的正确率与卷积核参数分布范围成逆相关关系，保持量化后CNN模型的正确率。

作为优选，所述该方法具体包括如下步骤：

(1)、建立CNN模型M，准备训练数据集；

(2)、确定CNN模型M需要限制参数分布范围的卷积层和参数W＝{w^l}；

(3)、确定Tukey Fences参数序列[t_i|i＝0，1，…m-1]；

(4)、输入CNN模型M和[t_i]，输出训练后的CNN模型M且在训练过程中不断更新权重；

(5)、对训练后的CNN模型M的参数w进行量化，得到量化后的模型CNN模型M。

更优地，所述CNN模型M的参数w在计算卷积核参数的分布区间内收敛。

更优地，所述步骤(1)和步骤(2)中建立CNN模型M并限制参数分布范围的卷积层和参数W＝{w^l}，具体步骤如下：

①、对于CNN模型M中的任意一卷积层l，计算卷积层l的卷积核参数的TukeyFences，记为a^l和b^l；

②、设函数LT(w，a)返回一向量，该向量为参数数组w中小于a的所有数值；

③、设函数CT(w，b)返回一向量，该向量为参数数组w中大于b的所有数值；

④、卷积层l的卷积核参数为w^l，该卷积层l的惩罚函数为：

loss(w^l；a^l，b^l)＝sum(a^l-LT(w^l，a^l))+sum(GT(w^l，b^l)-b^l)；

其中，’-’是对向量的逐元素减法，sum对向量所有元素求和。

更优地，所述CNN模型的惩罚项函数为：

penalty(W；A，B)＝∑_lloss(w^l；a^l，b^l)；

其中，W＝{w^l}，A＝{a^l}，B＝{b^l}。

更优地，所述CNN模型训练过程中不断更新权重的方法是交替使用无惩罚项函数penalty(W；A，B)的损失函数和添加惩罚项函数penalty(W；A，B)的损失函数作为目标函数对CNN模型进行训练，每次交替之后减小Tukey Fences的参数t，使每一层的权重参数区间[a^l，b^l]不断缩小；同时在有惩罚项函数penalty(W；A，B)训练阶段，每次更新参数t后，夹紧每一层的权重到[a^l，b^l]。

作为优选，所述CNN模型训练过程中不断更新权重的方法，具体如下：

输入：CNN模型M，递减序列[t_i|i＝0，1，...m-1]；

flag＝1；

for i in 0～m-1:

if flag＝1:

对M进行无惩罚项训练；

根据t_i，更新CNN模型M每一层权重参数的限制区间[a^l，b^l]；

if存在l使得

flag＝1；

添加惩罚函数项到损失函数，进行有惩罚项训练；

每个epoch后，夹紧w^l，使得w^l∈[a^l，b^l]；

else:

flag＝0；

end for；

输出：M。

更优地，所述夹紧w^l的具体操作是指：令w^l中小于a^l的数值为a^l，令w^l中大于b^l的数值为b^l。其中，所有参数的取值范围为整个实数集，即0-R。

本发明的限制权重分布提高量化效果的卷积神经网络训练方法具有以下优点：

(一)、本发明利用Tukey Fences测定卷积核参数的分布异常，计算卷积核参数的合理分布区间，并利用该分布区间的上下限设置惩罚函数，训练卷积神经网络模型CNN的参数在该区间内收敛；

(二)、本发明得到的模型参数分布区间范围降低，减小了量化卷积神经网络模型的难度，使得量化后模型的准确率损失足够小；

(三)、本发明通过设置合理的参数分布区间并利用惩罚函数限制参数的分布范围，有效缓解了浮点数区间到整数区间的尺度过大导致量化损失较大的问题，达到降低量化难度的目的；

(四)、本发明的CNN模型量化为低精度整数后的正确率与卷积核参数分布范围成逆相关关系，减小卷积核参数的分布范围，确保量化后的CNN模型的正确率。

具体实施方式

参照具体实施例对本发明的一种限制权重分布提高量化效果的卷积神经网络训练方法作以下详细地说明。

实施例：

本发明的限制权重分布提高量化效果的卷积神经网络训练方法,该方法是利用Tukey Fences测定卷积核参数的分布异常，计算卷积核参数的合理分布区间，并根据该分布区间的上下限在CNN模型的损失函数中加入惩罚项函数来限制卷积核的分布，减小卷积核参数的分布范围，同时在CNN模型的训练过程中不断更新权重，使CNN模型量化为低精度整数后的正确率与卷积核参数分布范围成逆相关关系，保持量化后CNN模型的正确率。

实施例2：

本发明的限制权重分布提高量化效果的卷积神经网络训练方法，所述该方法具体包括如下步骤：

(1)、建立CNN模型M，准备训练数据集；

(3)、确定Tukey Fences参数序列[t_i|i＝0，1，...m-1]；

(4)、输入CNN模型M和[t_i]，输出训练后的CNN模型M且在训练过程中不断更新(5权)、重；对训练后的CNN模型M的参数W进行量化，得到量化后的模型CNN模型M，其中，CNN模型M的参数W在计算卷积核参数的分布区间内收敛。

其中，步骤(1)和步骤(2)中建立CNN模型M并限制参数分布范围的卷积层和参数W＝{w^l}，具体步骤如下：

③、设函数GT(w，b)返回一向量，该向量为参数数组w中大于b的所有数值；

④、卷积层l的卷积核参数为w^l，该卷积层l的惩罚函数为：

loss(w^l；a^l，b^l)＝sum(a^l-LT(w^l，a^l))+sum(GT(w^l，b^l)-b^l)；

CNN模型的惩罚项函数为：

penalty(W；A，B)＝∑_lloss(w^l；a^l，b^l)；

其中，W＝{w^l}，A＝{a^l}，B＝{b^l}。

CNN模型训练过程中不断更新权重的方法是交替使用无惩罚项函数penalty(W；A，B)的损失函数和添加惩罚项函数penalty(W；A，B)的损失函数作为目标函数对CNN模型进行训练，每次交替之后减小Tukey Fences的参数t，使每一层的权重参数区间[a^l，b^l]不断缩小；同时在有惩罚项函数penalty(W；A，B)训练阶段，每次更新参数t后，夹紧每一层的权重到[a^l，b^l]。CNN模型训练过程中不断更新权重的方法，具体如下：

输入：CNN模型M，递减序列[t_i|i＝0，1，...m-1]；

flag＝1；

for i in 0～m-1:

if flag＝1:

对M进行无惩罚项训练；

根据t_i，更新CNN模型M每一层权重参数的限制区间[a^l，b^l]；

if存在l使得

flag＝1；

添加惩罚函数项到损失函数，进行有惩罚项训练；

每个epoch后，夹紧w^l，使得w^l∈[a^l，b^l]；

else:

flag＝0；

end for；

输出：M。

其中，夹紧w^l的具体操作是指：令w^l中小于a^l的数值为a^l，令w^l中大于b^l的数值为b^l。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，该方法是利用Tukey Fences测定卷积核参数的分布异常，计算卷积核参数的合理分布区间，并根据该分布区间的上下限在CNN模型的损失函数中加入惩罚项函数来限制卷积核的分布，减小卷积核参数的分布范围，同时在CNN模型的训练过程中不断更新权重，使CNN模型量化为低精度整数后的正确率与卷积核参数分布范围成逆相关关系，保持量化后CNN模型的正确率。

2.根据权利要求1所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述该方法具体包括如下步骤：

(1)、建立CNN模型M，准备训练数据集；

(3)、确定Tukey Fences参数序列[t_i|i＝0，1，...m-1]；

3.根据权利要求2所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述CNN模型M的参数W在计算卷积核参数的分布区间内收敛。

4.根据权利要求3所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述步骤(1)和步骤(2)中建立CNN模型M并限制参数分布范围的卷积层和参数W＝{w^l}，具体步骤如下：

①、对于CNN模型M中的任意一卷积层l，计算卷积层l的卷积核参数的Tukey Fences，记为a^l和b^l；

④、卷积层l的卷积核参数为w^l，该卷积层l的惩罚函数为：

loss(w^l；a^l,b^l)＝sum(a^l-LT(w^l，a^l))+sum(GT(w^l，b^l)-b^l)；

5.根据权利要求3或4所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述CNN模型的惩罚项函数为：

penalty(W；A，B)＝∑_lloss((w^l；a^l，b^l）；

其中，W＝{w^l}，A＝{a^l}，B＝{b^l}。

6.根据权利要求1所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述CNN模型训练过程中不断更新权重的方法是交替使用无惩罚项函数penalty(W；A，B)的损失函数和添加惩罚项函数penalty(W；A，B)的损失函数作为目标函数对CNN模型进行训练，每次交替之后减小Tukey Fences的参数t，使每一层的权重参数区间[a^l，b^l]不断缩小；同时在有惩罚项函数penalt(W；A，B)训练阶段，每次更新参数t后，夹紧每一层的权重到[a^l，b^l]。

7.根据权利要求1或6所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述CNN模型训练过程中不断更新权重的方法，具体如下：

输入：CNN模型M，递减序列[t_i|i＝0，1，...m-1]；

flag＝1；

for i in0～m-1:

if flag＝1:

对M进行无惩罚项训练；

根据t_i，更新CNN模型M每一层权重参数的限制区间[a^l，b^l]；

if存在l使得

flag＝1；

添加惩罚函数项到损失函数，进行有惩罚项训练；

每个epoch后，夹紧w^l，使得w^l∈[a^l，b^l]；

else:

flag＝0；

end for；

输出：M。

8.根据权利要求7所述的限制权重分布提高量化效果的卷积神经网络训练方法，其特征在于，所述夹紧w^l的具体操作是指：令w^l中小于a^l的数值为a^l，令w^l中大于b^l的数值为b^l。