CN112561041A

CN112561041A - 基于滤波器分布的神经网络模型加速方法及平台

Info

Publication number: CN112561041A
Application number: CN202110209931.2A
Authority: CN
Inventors: 王宏升; 管淑祎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-03-26
Anticipated expiration: 2041-02-25
Also published as: CN112561041B

Abstract

本发明公开了一种基于滤波器分布的神经网络模型加速方法及平台，引入滤波器彼此之间的距离来反映滤波器的分布，而且在此基础上设计了一种新颖的基于滤波器平均相似度分数的裁剪准则，即随着网络迭代训练的不断更新，根据当前通道滤波器的分布计算神经网络模型的裁剪准则。包括如下步骤：步骤一、定义问题，将神经网络卷积操作进行建模；步骤二、设计基于滤波器裁剪的神经网络优化目标；步骤三、计算基于Minkowski距离的滤波器相似度分数；步骤四、设计滤波器裁剪准则。

Description

基于滤波器分布的神经网络模型加速方法及平台

技术领域

本发明属于计算机技术应用领域，尤其涉及一种基于滤波器分布的神经网络模型加速方法及平台。

背景技术

大规模深度卷积神经网络模型在计算机图像应用领域取得了优异的性能，然而，由于实际应用场景中的计算任务必须在有限的资源供应，如计算时间、存储空间、电池功率等条件下完成，将具有海量参数的预训练模型部署到内存有限的设备中面临巨大挑战，例如，VGG-16模型有1.383亿个参数，占用超过500MB的存储空间，需要309.4亿的浮点运算来对单个图像进行分类。在模型压缩领域，已有的神经网络量化压缩方法将浮点型权重量化为低比特权重(例如，8位或1位)来减小模型大小。但是由于量化误差的引入，使得神经网络的训练非常困难。相比之下，滤波器裁剪方法通过直接移除冗余通道上的滤波器来减小模型大小，使得快速推理几乎不需要额外的工作。而且滤波器裁剪之后，量化起来也更加容易，模型会更加紧凑。

发明内容

为了解决现有技术中存在的上述技术问题，本发明通过裁剪滤波器来降低预训练神经网络模型的计算代价。考虑到滤波器的数量与网络训练速度直接相关，因此，通过裁剪滤波器的数量来减少矩阵乘法的数量，实现加速训练和推理网络。其具体技术方案如下：

一种基于滤波器分布的神经网络模型加速方法，包括如下步骤：

步骤一、定义问题，将神经网络卷积操作进行建模；

步骤二、设计基于滤波器裁剪的神经网络优化目标；

步骤三、计算基于Minkowski 距离的滤波器相似度分数；

步骤四、设计滤波器裁剪准则。

进一步的，所述步骤一包括如下步骤：

步骤1.1：定义滤波器表示：假设神经网络具有

层卷积层，在第

层卷积层的输入和输出通道数分别为

和

，当前网络的滤波器大小为

，采用

表示第

层卷积层的第

个滤波器；

步骤1.2：定义卷积层表示：对于第

层卷积层，表示为由一组滤波器组成

，且参数化表示为

；其中

为滤波器的参数化表示，代表第

层卷积层的权重，

表示实数；

步骤1.3：构建基于滤波器的神经网络模型：第

层的卷积操作表示为：

，其中，

表示形状为

的输入张量，

表示形状为

的输出张量，

和

分别表示输入张量的高和宽，

和

表示输出张量的高和宽。

进一步的，所述步骤二具体为：

将当前卷积层的滤波器组成

拆分为两个集合，分别为裁剪滤波器集合

和保留滤波器

，将目标定义为：给定数据集

和压缩率参数e，

表示为数据集第m张图片的特征矩阵，n表示输入图片的总数，将卷积神经网络的滤波器裁剪问题定义为带有稀疏参数约束的优化问题：

且

，其中，

是标准的损失函数，如交叉熵损失，保留滤波器

是当前层保留滤波器的集合，N 是保留滤波器的总数。

进一步的，所述步骤三具体为：

步骤3.1：滤波器降维：首先利用 Minkowski 度量距离作为滤波器之间的相似度分数，将三维滤波器变换为一维向量；

步骤3.2：基于滤波器的卷积层表示：第

层的卷积层表示为

，

包括全部的

个滤波器的一维向量，每个向量的长度是

；

步骤3.3：计算两个滤波器的相似度分数：假如度量两个滤波器

之间的相似度分数，利用 Minkowski 距离度量滤波器

和

之间的关联分数为：

。

进一步的，所述步骤四中具体如下：

定义当前滤波器的平均相似度分数，利用平均相似度分数来表示滤波器的分布特征，选择具有较小平均相似度分数的滤波器进行裁剪的准则，具体的裁剪准则表示为：

，

表示当前层滤波器，

表示其他滤波器，

为计算当前滤波器

与其它滤波器

的距离，选择的与

距离最近的滤波器。

一种基于滤波器分布的神经网络模型加速平台，包括以下组件：

数据加载组件：用于获取卷积神经网络的训练数据，所述训练数据是满足监督学习任务的有标签的样本；

压缩组件：用于将卷积神经网络模型压缩得到卷积神经网络的压缩模型，包括滤波器分布计算模块、滤波器裁剪模块、剪枝网络微调模块；

推理组件：登陆用户从所述平台获取卷积神经网络的压缩模型，用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的特定任务的新数据进行推理；并在所述平台的压缩模型推理页面呈现压缩前后推理模型性能对比信息；

其中所述滤波器分布计算模块根据基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况，获取待裁剪滤波器的列表；首先，根据所述滤波器平均相似度分数的计算方法，统计卷积神经网络当前训练状态下所有滤波器的平均相似度分数；然后，将每层卷积网络的所有滤波器的分数由高到低进行排序；最后，根据用户需求给出的压缩率 e，计算得到待裁剪的平均相似度分数较小的滤波器列表。

所述滤波器裁剪模块是根据所述滤波器分布计算模块输出的待裁剪的滤波器列表，裁剪掉当前网络中对应位置的滤波器，首先，将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪；其次，将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪；

所述剪枝网络微调模块是端到端地训练网络，具体地，将训练数据输入剪枝网络；更新网络的权重。

本发明的有益效果是：本发明研究基于滤波器分布的神经网络模型加速方法有以下几方面有益效果：

一、基于滤波器分布裁剪所得的模型在网络结构上没有差异，因此可以被任何现成的深度学习库很好地支持。

二、显著减少内存占用。这种内存的减少不仅来自模型参数本身，也来自中间的激活层，这在以往的研究中很少被考虑。

三、由于裁剪后的网络结构没有被破坏，可以通过其他压缩方法对其进行进一步的压缩和加速，如参数量化方法。

四、裁剪后的模型可以大大加快更多的视觉任务的训练和推断过程，如目标检测或语义分割、细粒度识别等实际应用问题。

附图说明

图1是本发明的基于滤波器分布的神经网络模型加速平台的整体架构图；

图2是元学习的剪枝网络的训练流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明考虑到不同通道滤波器的幅值信息和彼此之间的关联特征，提出基于滤波器分布的神经网络模型加速方法，其整体架构如图1所示。引入滤波器彼此之间的距离来反映滤波器的分布，而且在此基础上设计了一种基于滤波器平均相似度分数的裁剪准则，即随着网络迭代训练的不断更新，根据当前通道滤波器的分布计算神经网络模型的裁剪准则。

本发明的基于滤波器分布的神经网络模型加速方法，整个过程如图2所示，分为四个步骤：第一步是定义问题，将神经网络卷积操作进行建模；第二步是设计基于滤波器裁剪的神经网络优化目标；第三步是计算基于Minkowski 距离的滤波器相似度分数；第四步是设计滤波器裁剪准则。具体为：

第一步：定义问题，将神经网络卷积操作进行建模。考虑到根据滤波器的分布设计神经网络模型的裁剪准则，本发明将神经网络当前通道的卷积操作定义为该通道上的滤波器与输入张量的卷积运算。

定义问题具体包括以下子步骤：

步骤一：定义滤波器表示：首先，假设神经网络具有

层卷积层，在第

层卷积层的输入和输出通道数分别为

和

，假设当前网络的滤波器大小为

，采用

表示第

层卷积层的第

个滤波器；

步骤二：定义卷积层表示：对于第

层卷积层，表示为由一组滤波器组成

，且参数化表示为

；其中

为滤波器的参数化表示，代表第

层卷积层的权重，

表示实数；

步骤三：构建基于滤波器的神经网络模型：第

层的卷积操作表示为：

。其中，

表示形状为

的输入张量，

表示形状为

的输出张量。

和

分别表示输入张量的高和宽，

和

表示输出张量的高和宽；

第二步：设计基于滤波器裁剪的神经网络优化目标。卷积神经网络的滤波器裁剪目标是满足用户需求的压缩率，所以该步骤的目标是，在给定的数据集和压缩率的条件下，将卷积神经网络的滤波器裁剪问题定义为一个带有稀疏参数约束的优化问题。

基于滤波器裁剪的神经网络优化目标具体为：将当前卷积层的

拆分为两个集合，分别为裁剪滤波器集合

和保留滤波器

。将我们的目标定义为：给定数据集

和压缩率参数e，

表示为数据集第m张图片的特征矩阵，n 表示输入图片的总数。所以，将卷积神经网络的滤波器裁剪问题定义为一个带有稀疏参数约束的优化问题：

且

，其中，

是标准的损失函数，如交叉熵损失，保留滤波器

是当前层保留滤波器的集合，N 是保留滤波器的总数。

第三步：计算基于Minkowski 距离的滤波器相似度分数。已有的滤波器裁剪准则大多数是以下策略：如果滤波器的范数越小，则相对应的特征图越接近于零，该滤波器对网络贡献越小。因此裁剪掉该滤波器，而且不会严重影响网络的性能。已有方法利用滤波器的范数进行滤波器的重要性排序，并且删除范数较小的滤波器。由于滤波器范数只模拟了滤波器的幅值信息，没有反映滤波器彼此之间的关联特征。

本发明引入滤波器范数，模拟滤波器的幅值信息，而且提出利用滤波器分布来反映滤波器彼此之间关联特征的度量方法。计算当前层网络中滤波器两两之间的距离，得到滤波器彼此之间的相似度分数表示的分布矩阵。

所述基于Minkowski 距离的滤波器相似度分数具体包括以下子步骤：

步骤一：滤波器降维：首先利用 Minkowski 度量距离作为滤波器之间的相似度分数。为了避免维数灾难，将三维滤波器变换为一维向量；

步骤二：基于滤波器的卷积层表示：第

层的卷积层表示为

，

包括全部的

个滤波器的一维向量，每个向量的长度是

；

步骤三：计算两个滤波器的相似度分数：假如度量两个滤波器

之间的相似度分数，利用 Minkowski 距离度量滤波器

和

之间的关联分数为：

。

第四步：设计滤波器裁剪准则。考虑到当前滤波器与其它所有滤波器的关系，本发明定义了当前滤波器的平均相似度分数，利用平均相似度分数来表示滤波器的分布特征。考虑到如果一个滤波器具有一个较大的值，则它与网络中其它滤波器的关联性可能很小，说明它独立于其它滤波器，在网络中起着特殊的作用。因此该滤波器的贡献是很难被其它滤波器替换掉。在保证相同精度损失的情况下，很难裁剪掉平均相似度分数很大的滤波器。相反，如果一个滤波器的平均相似度分数很小，则说明它与其它滤波器起相似的作用。平均相似度分数较小的滤波器与其它滤波器有相似甚至相同的贡献，裁剪掉该类滤波器是相对较安全的，而且压缩模型最终精度的损失比较小。基于以上分析，本发明提出选择具有较小平均相似度分数的滤波器进行裁剪的准则，具体的裁剪准则表示为：

，

表示当前层滤波器，

表示其他滤波器，

为计算当前滤波器

与其它滤波器

的距离，选择的与

距离最近的滤波器。

本发明的基于滤波器分布的神经网络模型加速平台，包括以下组件：

压缩组件：用于将卷积神经网络模型压缩，包括滤波器分布计算模块、滤波器裁剪模块、剪枝网络微调模块；

所述滤波器分布计算模块是根据以上所述的基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况，获取待裁剪滤波器的列表。首先，根据以上所述滤波器平均相似度分数的计算方法，统计网络当前训练状态下所有滤波器的平均相似度分数；然后，将每层卷积网络的所有滤波器的分数由高到低进行排序；最后，根据用户需求给出的压缩率e，计算得到待裁剪的平均相似度分数较小的滤波器列表。

所述滤波器裁剪模块是根据所述滤波器分布计算模块输出的待裁剪的滤波器列表，裁剪掉当前网络中对应位置的滤波器，值得注意的是，首先，将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪；其次，将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪。

所述剪枝网络微调模块是端到端地训练网络，具体地，将训练数据输入剪枝网络；更新网络的权重；

推理组件：登陆用户从所述平台获取卷积神经网络的压缩模型，用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的特定任务的新数据进行推理；并在所述平台的压缩模型推理页面呈现压缩前后推理模型性能对比信息。

下面将在ImageNet2012分类数据集上进行卷积神经网络模型的压缩实验。根据该图像分类任务对本发明的技术方案做进一步的详细描述。

通过所述平台的数据加载组件获取登陆用户上传的ImageNet2012分类数据集和原网络模型；

通过用户需求设置的压缩率 e和所述平台压缩组件中的滤波器分布计算模块，生成待裁剪的平均相似度分数较小的滤波器列表；

通过所述平台压缩组件中的滤波器裁剪模块，将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪，与此同时，将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪；

通过所述平台压缩组件中的剪枝网络微调模块，将训练数据输入剪枝网络，训练剪枝网络。将所述压缩模型输出到指定的容器，可供所述登陆用户下载，并在所述平台的输出压缩模型的页面呈现压缩前后模型性能对比信息，表1比较了原ResNet50网络模型与基于滤波器分布的剪枝模型的精度。原ResNet50网络模型运行313M浮点数运算所得top-1和top-5的精度分别为76.15% 和92.87%，而基于滤波器分布的剪枝模型在几乎没有精度损失的情况下，减少了54M的浮点数计算量，加快模型的训练和推理过程；

。

表1 图像分类任务ResNet50模型压缩前后对比信息。

通过所述平台的推理组件，利用所述平台输出的压缩模型对登陆用户上传的ImageNet2012测试集数据进行推理，在8张Nvidia 1080Ti GPU显卡上推理压缩模型并在所述平台的压缩模型推理页面呈现压缩前后的性能信息。

Claims

1.一种基于滤波器分布的神经网络模型加速方法，其特征在于包括如下步骤：

步骤一、定义问题，将神经网络卷积操作进行建模；

步骤二、设计基于滤波器裁剪的神经网络优化目标；

步骤三、计算基于Minkowski 距离的滤波器相似度分数；

步骤四、设计滤波器裁剪准则。

2.如权利要求1所述的基于滤波器分布的神经网络模型加速方法，其特征在于：所述步骤一包括如下步骤：

步骤1.1：定义滤波器表示：假设神经网络具有

层卷积层，在第

层卷积层的输入和输出通道数分别为

和

，当前网络的滤波器大小为

，采用

表示第

层卷积层的第

个滤波器；

步骤1.2：定义卷积层表示：对于第

层卷积层，表示为由一组滤波器组成

，且参数化表示为

；其中

为滤波器的参数化表示，代表第

层卷积层的权重，

表示实数；

步骤1.3：构建基于滤波器的神经网络模型：第

层的卷积操作表示为：

，其中，

表示形状为

的输入张量，

表示形状为

的输出张量，

和

分别表示输入张量的高和宽，

和

表示输出张量的高和宽。

3.如权利要求2所述的基于滤波器分布的神经网络模型加速方法，其特征在于：

所述步骤二具体为：

将当前卷积层的滤波器组成

拆分为两个集合，分别为裁剪滤波器集合

和保留滤波器

，将目标定义为：给定数据集

和压缩率参数e，

且

，其中，

是标准的损失函数，保留滤波器

是当前层保留滤波器的集合，N 是保留滤波器的总数。

4.如权利要求3所述的基于滤波器分布的神经网络模型加速方法，其特征在于：

所述步骤三具体为：

步骤3.2：基于滤波器的卷积层表示：第

层的卷积层表示为

，

包括全部的

个滤波器的一维向量，每个向量的长度是

；

之间的相似度分数，利用 Minkowski 距离度量滤波器

和

之间的关联分数为：

。

5.如权利要求4所述的基于滤波器分布的神经网络模型加速方法，其特征在于：所述步骤四中具体如下：

，

表示当前层滤波器，

表示其他滤波器，

为计算当前滤波器

与其它滤波器

的距离，选择的与

距离最近的滤波器。

6.一种基于滤波器分布的神经网络模型加速平台，包括以下组件：

其中所述滤波器分布计算模块根据基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况，获取待裁剪滤波器的列表；首先，根据所述滤波器平均相似度分数的计算方法，统计卷积神经网络当前训练状态下所有滤波器的平均相似度分数；然后，将每层卷积网络的所有滤波器的分数由高到低进行排序；最后，根据用户需求给出的压缩率e，计算得到待裁剪的平均相似度分数较小的滤波器列表；

所述剪枝网络微调模块是端到端地训练网络，将训练数据输入剪枝网络；更新网络的权重。