CN110097178A

CN110097178A - 一种基于熵注意的神经网络模型压缩与加速方法

Info

Publication number: CN110097178A
Application number: CN201910400927.7A
Authority: CN
Inventors: 闵锐; 蒋霆
Original assignee: Electric Coreda (chengdu) Technology Co Ltd
Current assignee: Electric Coreda (chengdu) Technology Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-08-06

Abstract

本发明属于神经网络技术领域，涉及一种基于熵注意的神经网络模型压缩与加速方法。本发明通过构建一个参数量大，计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习，通过该学习过程，最终得到了一个参数量少、计算量少且性能优越的小模型，该小模型能够满足现实场景的实时性以及精度要求。

Description

一种基于熵注意的神经网络模型压缩与加速方法

技术领域

本发明属于神经网络技术领域，涉及一种基于熵注意的神经网络模型压缩与加速方法。

背景技术

近几年来，卷积神经网络的发展非常的迅速，随着理论的不断完善以及现代大规模计算平台的支持，卷积神经网络取得了很大的进步。在不同的领域上都有应用，且在不同的应用上都表现出了非常好的性能。

卷积神经网络是计算密集型的网络模型，优势的性能依赖于包含具有数百万乃至数千万的卷积神经网络模型，模型的训练涉及大量的矩阵运算，因此对于计算平台的要求较高，由于GPU的大规模并行计算的优势，很适合矩阵的运算，因此GPU的高性能计算对于卷积神经网络的成功发展起到了关键的作用。例如，在2012年的ImageNet挑战赛中，AlexNet网络取得了最好的结果，AlexNet包含5层卷积层以及三个全连接层，整体包含六千万的参数量，在ImageNet数据集上且采用英伟达K40机器需要花三天模型训练时间。又比如在2014年的ImageNet挑战赛中，VGGNet系列模型取得了当年非常好的成绩，其中如VGG16模型，其中包含13层卷积，3个全连接层，包含上亿的参数，参数量的巨大，虽然性能提升了，需要花费大量的训练时间，同样推断时间也会花费很长的时间。模型的参数量的增加虽然能够增加性能，但是不适合在低功耗、低存储、低带宽的嵌入式设备应用，如果一个模型参数量太大，无疑也会限制其在工程上的应用。

发明内容

本发明的目的是针对上述问题，为了克服由于卷积神经网络模型参数量以及计算量庞大，在现实场景的实时性应用中很难部署的问题。本发明提供了一种基于熵注意的神经网络模型压缩与加速方法，本发明由以下步骤构成：

S1、获取训练样本：采集原始的光学图像数据，并进行数据归一化以及数据增强处理，获得训练样本；

S2、构建卷积神经网络模型

S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络，卷积滤波器主要的是对输入数据进行特征提取，卷积滤波器的数量表示提取的特征的丰富程度，池化滤波器的作用是用来对输入进行降维，从而降低模型的参数与计算代价。构建的该模型为一个深的且宽的大模型，在本方法中称为教师网络模型，为T模型，教师网络模型参数量高、计算量高。但是性能优越。

S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型，该模型在本方法中称为学生网络，为S模型，学生网络的参数量少，计算代价小，但是性能相比较大模型要差很多。

S3、卷积神经网络模型训练。

S31、参数初始化，包括学习率α，训练迭代次数为n，Mini-batch大小A，教师网络宽度W和深度H、学生网络宽度w和深度h，训练集和验证集占比r，采用随机梯度优化算法SGD作为优化函数。

S32、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据，初始训练一个设定宽度W和深度H的教师网络，训练直到设定的迭代次数n，使教师网络在当前数据集上达到较好的性能，然后进入S33。

S33、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据，通过构建教师网络和学生网络之间的共同的目标函数，训练得到学生网络，具体构建方式如下：

S331、将教师网络和指定宽度w和深度h的学生网络结合。输入数据将同时通过教师网络和学生网络。初始训练性能较好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标，而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标，带温度的Softmax的公式定义如下所示：

其中q_i为带温度T的Softmax概率，Z是某个类别的logit输出，下标j是指所有类别，i是指其中一个类别，T为温度值，总的损失函数是软硬目标之间的加权和，设为L_KD，公式如下所示:

L_KD＝a*S+b*H (2)

该损失函数可以单独作为监督信息，其中系数a和b分别为软目标与硬目标的加权系数，通过加权系数的设置，能够平衡两个交叉熵损失之间的重要性。最终训练得到的学生网络与教师网络的性能非常相近，但是从复杂度以及计算量来看，学生网络相比教师网络要小很多。KD教师学生网络模型见附图1。

S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失，该损失构建分为低中高三个位置，教师网络在三个位置对学生网络进行监督学习，该损失函数在本方法中称为EAKT损失，附图2为EAKT教师学生网络模型。

为了构建注意力机制，考虑到卷积层的每个激活通道的信息量的差异，附图3为不同ResNet网络的不同层的信息熵注意力响应图。引入信息熵，具体的信息熵的公式如下所示：

其中E为某个激活通道的信息熵值，每个激活通道将得到一个参数向量，将每个通道对应的参数向量中不同的值分到K个组中，每个组的概率为p_i。

在卷积神经网络中，某一层的激活张量设为S∈R^M×C×H×W其中M为Batch Size的大小，包含C个通道，且通道维度为H×W。

定义熵注意策略的映射函数为F₁和F₂，该映射函数将4D张量S映射成一个同样为4D张量的O。映射的过程分为两个步骤，一是根据信息熵的大小来获取重要的激活通道，设映射函数为F₁，二是对重要的激活通道做函数映射得到熵注意力图，设映射函数为F₂。那么映射方式如式(3)和(4)所示，附图4为熵注意迁移原理图示。

其中C_T为教师网络的激活通道维度，C_S为学生网络的对应的及激活通道维度。定义映射函数F₁，由前面提到的信息熵公式，为了计算每个通道的信息熵，因为输入激活张量是一个4D张量，首先在H×W维度求均值，那么可得到M₁∈R^M×C，然后按照Batch Size的维度将其分为N个部分，然后计算C个激活通道中每个激活通道的概率，该概率中即是对应的每个通道的信息熵值。那么即为丢弃信息熵值比较小的激活通道后的维度，得到同学生网络对应位置激活通道维度相同的教师网络的激活张量。

为了定义空间注意力映射函数F₂，在本节中做出的隐含假设是隐藏神经元激活的绝对值(在给定输入上评估网络时产生)可以用作关于重要性的指示。因此，通过考虑张量S的元素的绝对值，可以通过在通道维度上计算这些值的统计来构建空间注意力图。更具体地说，在这项工作中，考虑以下基于激活的空间注意力方法，如下公式所示：

·绝对值的和：

·绝对值的平方的和：

其中O_i＝O(:,i,:,:)。

在本文中采用作为空间注意力映射函数，如公式(3)所示，通过F₂的映射，最终四维的激活张量变换成R^N×H×W三维的张量。同F₁结合，整体构成一个整的映射函数F来获取信息量大的激活通道注意。

假设迁移损失被放置在相同空间分辨率的学生网络和教师网络熵注意力图之间。设T，S和W_T,W_S相应地表示学生，教师及其对应的权重，让L(W_S,y)表示学生网络的输出概率与真实标签之间构成的标准的交叉熵损失。设B表示熵注意力图的所有教师和学生激活层对的索引。我们提出的基于熵注意的知识精炼方法(Entropy Attention KnowledgeTransfer，简称EAKT)，那么可以定义总的损失函数L_EAKT如下：

其中为某一教师和学生中间层的激活输出对。可以看出，在熵注意力迁移损失项，使用l₂归一化处理，采用E/||E||₂替换掉仅仅为E的情况，注意力图的归一化处理对于学生网络的训练成功至关重要。

如果考虑提出的损失函数L_EAKT和基本的KD损失L_KD的结合，构建一个由两个损失的加权和构成的联合损失，损失函数用L_EAKT+KD表示，其中，因为L_KD和L_EAKT中都存在学生网络的输出和真实标签的交叉熵损失项，因此在构建联合损失的情况下只需要保留其中一项由学生网络的输出与真实标签构成的交叉熵损失。该联合损失函数的设定，将使教师网络提供更强的监督信息来监督学生网络的学习，学生网络将得到比单一损失函数的情形更多的信息，从而从知识迁移中学到更多的教师网络的知识，具体公式如下：

L_EAKT+KD＝L_KD+β*L_EAKT (6)

其中β是权重系数。

通过调节β的值，可以平衡两个目标函数的重要性。

S36、判断迭代次数是否达到设定的总的迭代次数n，若是，则执行步骤S37；如果不是，那么继续执行步骤S33，直到达到迭代次数n。

S37、模型基本训练学习完毕，保存学生模型在验证集上最优的模型。得到的该学生模型将具备性能趋近于教师网络且模型参数量和计算量都少，达到模型压缩与加速的效果。

综上所诉，本发明的有益之处在于：通过构建一个参数量大，计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习，通过该学习过程，最终得到了一个参数量少、计算量少且性能优越的小模型，该小模型能够满足现实场景的实时性以及精度要求。

附图说明

图1为KD教师学生网络模型；

图2为EAKT教师学生网络模型；

图3为不同ResNet网络的不同层的熵注意力响应图；

图4为熵注意迁移原理图示；

图5为Cifar10图像数据展示。

具体实施方式

为了使本发明的目的，技术方案和优点能够更加清楚，本发明以Cifar10目标识别任务作为例子，对本发明作进一步描述。

Cifar10训练样本为32×32的光学图像，图像数据展示见附图5。

在Cifar10数据集上实验，以ResNet系列网络，但不同深度和宽度的网络分别作为教师网络和学生网络。具体的实验结果如表1所示。

表1 Cifar10上基于信息熵注意力的知识迁移对比实验

教师	参数(M)	学生	参数(M)	教师	学生(％)	F_AT	EAT	KD	F_AT+KD	EAT+KD
											R-16-2	0.69	R-16-1	0.18	93.83	90.85	91.41	91.31	91.33	91.31	91.33
R-40-2	2.2	R-16-1	0.18	94.82	90.85	91.17	91.36	91.43	91.54	91.64
											R-40-2	2.2	R-40-1	0.57	94.82	92.88	93.41	93.44	93.30	93.54	93.50
R-64-2	3.8	R-16-1	0.18	95.00	90.85	91.60	91.66	91.44	91.38	91.42
											R-64-2	3.8	R-40-1	0.57	95.00	92.88	93.49	93.41	93.58	93.60	93.73
R-64-2	3.8	R-64-1	0.96	95.00	93.01	94.15	94.24	94.04	93.83	94.25

基于ResNet不同深度不同宽度作为教师学生网络在Cifar10数据集上实验，其中R-16-2以及R-16-1表示采用ResNet网络，卷积层的个数为16层，且R-16-2相比R-16-1的网络宽度要大一倍，因此R-16-2作为教师网络，而R-16-1作为学生网络。从实验的结果可以看出，学生网络的参数量相比教师网络的参数量减小了大约3倍，且教师网络的性能要比学生网络好，其他的如R-40-1，R-40-2，R-64-1，R-64-2为同样表示，且学生网络的参数量相比教师网络都有成倍的减小。

其中EAKT表示仅仅是熵注意迁移方法，KD为仅仅是知识迁移方法，EAKT+KD表示EAKT方法与KD方法的结合。F_AT表示不采用提到的方法，将所有的激活通道都作为强监督信息，F_AT+KD即将所有的激活通道作为强监督信息且采用同时采用KD方法。

从实验中可以看出，F_AT与EAKT以及F_AT+KD与EAKT+KD性能基本相似，且在某些情况下要比全激活的情况要好，说明熵注意知识迁移方法的有效性，因为网络模型本身的冗余性质，通过信息熵对于信息含量高的激活通道提取获得熵注意性能不仅不会丢失，且对性能的提升有一定的帮助作用。

从实验中可以得出，采用KD和EAKT方法的结合方式要比单个采用一种方法性能要好一些，说明两种方法构成的强监督要比单种方法构成的强监督包含更多的信息量，从而使学生网络学到更多的知识，达到更好的性能。

Claims

1.一种基于熵注意的神经网络模型压缩与加速方法，其特征在于，包括以下步骤：

S2、构建卷积神经网络模型

S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络，卷积滤波器用于对输入数据进行特征提取，卷积滤波器的数量表示提取的特征的丰富程度，池化滤波器用于对输入进行降维，从而降低模型的参数与计算代价；将该步骤构建的模型定义为教师网络；

S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型，定义为学生网络；

S3、卷积神经网络模型训练

S31、参数初始化，包括学习率α，训练迭代次数为n，Mini-batch大小A，教师网络宽度W和深度H、学生网络宽度w和深度h，训练集和验证集占比r，采用随机梯度优化算法SGD作为优化函数；

S32、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据，初始训练教师网络，训练直到设定的迭代次数n，得到初始训练好的教师网络，然后进入S33；

S331、将教师网络和指定宽度w和深度h的学生网络结合，即输入数据将同时通过教师网络和学生网络；初始训练好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标S，而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标H，带温度的Softmax的公式定义如下所示：

其中q_i为带温度的Softmax概率，Z是某个类别的logit输出，下标j是指所有类别，i是指其中一个类别，T为温度值，总的损失函数是软硬目标之间的加权和，设为L_KD，公式如下所示:

L_KD＝a*S+b*H

该损失函数用于单独作为监督信息，其中系数a和b分别为软目标与硬目标的加权系数，通过加权系数的设置，能够平衡两个交叉熵损失之间的重要性；

S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失，该损失构建分为低中高三个位置，教师网络在三个位置对学生网络进行监督学习，将损失函数在定义为EAKT损失；

为了构建注意力机制，考虑到卷积层的每个激活通道的信息量的差异，引入信息熵，具体的信息熵的公式如下所示：

其中E为某个激活通道的信息熵值，每个激活通道将得到一个参数向量，将每个通道对应的参数向量中不同的值分到K个组中，每个组的概率为p_i；

在卷积神经网络中，某一层的激活张量设为S∈R^M×C×H×W，其中M为Batch Size的大小，包含C个通道，且通道维度为H×W；

定义熵注意策略的映射函数为F₁和F₂，该映射函数将4D张量S映射成一个同样为4D张量的O；映射的过程分为两个步骤，一是根据信息熵的大小来获取重要的激活通道，设映射函数为F₁，二是对重要的激活通道做函数映射得到注意力图，设映射函数为F₂；映射方式如下

F₁:

F₂:

其中C_T为教师网络的激活通道维度，C_S为学生网络对应的激活通道维度；定义映射函数F₁，由前面提到的信息熵公式，为了计算每个通道的信息熵，因为输入激活张量是一个4D张量，首先在H×W维度求均值，得到M₁∈R^M×C，然后按照Batch Size的维度将其分为N个部分，然后计算C个激活通道中每个激活通道的概率，该概率中即是对应的每个通道的信息熵值；即为丢弃信息熵值比较小的激活通道后的维度，得到同学生网络对应位置激活通道维度相同的教师网络的激活张量；

采用作为空间注意力映射函数，其中O_i＝O(:,i,:,:)，通过F₂的映射，最终四维的激活张量变换成R^N×H×W三维的张量；同F₁结合，整体构成一个整的映射函数F来获取信息量大的激活通道注意；

假设迁移损失被放置在相同空间分辨率的学生网络和教师网络熵注意力图之间，设T，S和W_T,W_S相应地表示学生，教师及其对应的权重，L(W_S,y)表示学生网络的输出概率与真实标签之间构成的标准的交叉熵损失，B表示熵注意力图的所有教师和学生激活层对的索引；定义总的损失函数L_EAKT如下：

其中为某一教师和学生中间层的激活输出对；可以看出，在熵注意力迁移损失项，使用l₂归一化处理，采用E/||E||₂替换掉仅仅为E的情况，注意力图的归一化处理对于学生网络的训练成功至关重要。

将损失函数L_EAKT和L_KD结合，构建一个由两个损失的加权和构成的联合损失，损失函数用L_EAKT+KD表示，其中，因为L_KD和L_EAKT中都存在学生网络的输出和真实标签的交叉熵损失项，因此在构建联合损失的情况下只需要保留其中一项由学生网络的输出与真实标签构成的交叉熵损失，具体公式如下：

L_EAKT+KD＝L_KD+β*L_EAKT

其中β是权重系数，通过调节β的值，可以平衡两个目标函数的重要性；

S36、判断迭代次数是否达到设定的总的迭代次数n，若是，则执行步骤S37；如果不是，回到步骤S33，直到达到迭代次数n；

S37、模型基本训练学习完毕，保存学生网络模型作为结果。