CN112101487A

CN112101487A - 一种细粒度识别模型的压缩方法和设备

Info

Publication number: CN112101487A
Application number: CN202011285432.3A
Authority: CN
Inventors: 尹继圣
Original assignee: 8D Technology Ltd
Current assignee: Shenzhen ganzhen intelligent Co.,Ltd.
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2020-12-18
Anticipated expiration: 2040-11-17
Also published as: CN112101487B

Abstract

本发明提出一种细粒度识别模型的压缩方法和设备，包括：步骤1、获取用于细粒度识别的深度神经网络模型；步骤2、对深度神经网络模型的缩放因子添加L1正则约束后进行训练；步骤3、在完成训练后，根据缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理；步骤4、对完成剪枝的深度神经网络模型进行调整以减小剪枝对模型带来的精度损失，得到调整后的深度神经网络模型。步骤5、重复执行步骤2‑步骤4，直到得到的深度神经网络模型符合预设模型剪枝阈值的条件，且将符合条件的深度神经网络模型作为最终模型。本方案通过多次根据缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理的方式，有效压缩了深度神经网络模型。

Description

一种细粒度识别模型的压缩方法和设备

技术领域

本发明涉及细粒度识别技术领域，特别涉及一种细粒度识别模型的压缩方法和设备。

背景技术

细粒度识别是一种针对具有细微差异物体进行分类的图像分类任务，深度模型在细粒度识别任务表现出优异的性能。细粒度识别能够在细粒度级别完成图像分类任务，通常识别的对象是同一个大类之间的物体，比如鸟的分类、车型识别等。细粒度识别广泛应用在车型识别、智能货柜、植物识别等场景中。等提出多种细粒度的深度模型并取得了很好的效果。

实际部署细粒度识别深度学习模型时，除了需要更精细粒度的准确率，还需要考虑模型运行时间复杂度和空间复杂度。在某些实际搭载的设备比如手机等终端设备，计算资源和存储资源有限，而度神经网络模型需要执行大量的浮点运算，并且有大量权重参数，比如ResNet50(Residual Network, 残差网络)需要执行5GFLOPs（Giga Floating-pointOperations Per Second,每秒10亿次的浮点运算数），有24M（Million，百万）个参数，这种情况严重制约了模型的实际应用。

由此，如何降低模型运算处理的时间复杂度和空间复杂度，使得可以在终端设备上部署细粒度识别模型成为目前需要解决的技术问题。

发明内容

针对现有技术中的缺陷，本发明提出了一种细粒度识别模型的压缩方法和设备，通过对细粒度识别模型的压缩，降低了模型运算处理的时间复杂度和空间复杂度，使得细粒度识别模型可以在终端设备上部署。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种细粒度识别模型的压缩方法，包括：

步骤1、获取用于细粒度识别的深度神经网络模型；

步骤2、对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练；

步骤3、在完成训练后，根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理；

步骤4、对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失，得到调整后的所述深度神经网络模型；

步骤5、重复执行步骤2-步骤4，直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件，且将符合所述条件的所述深度神经网络模型作为最终模型。

在一个具体的实施例中，所述深度神经网络模型为Bi-Attention 模型；所述深度神经网络模型的骨干网络为ResNet50。

在一个具体的实施例中，所述步骤1包括：

通过样本数据采用弱监督学习方式训练得到用于细粒度识别的深度神经网络模型；其中，所述样本数据为设置有标签的图像。

在一个具体的实施例中，一次所述训练所选取的样本数为偶数；

所述步骤1包括：

对每一次所述训练选的样本数据添加成对的混淆约束；

通过添加成对的混淆约束后的每一批所述样本数据训练得到用于细粒度识别的深度神经网络模型。

在一个具体的实施例中，所述深度神经网络模型包括：数据模块、卷积神经网络结构、注意力分支模块、损失函数计算模块；其中，

所述数据模块用于处理所述深度神经网络模型训练和测试过程中的图像输入的批数据构造和预处理；

所述卷积神经网络结构，用于对所述数据模块的图像进行特征提取；

所述注意力分支模块，用于检测和提取包括特定特征的注意力区域；

所述损失函数计算模块，用于计算所述深度神经网络模型在训练过中的损失函数。

在一个具体的实施例中，所述缩放因子为网络Batch Normalization 层中的缩放因子。

本发明实施例还提出了一种细粒度识别模型的压缩设备，包括：

获取模块、用于获取用于细粒度识别的深度神经网络模型；

训练模块，用于对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练；

剪枝模块，用于在完成训练后，根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理；

调整模块，用于对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失，得到调整后的所述深度神经网络模型；

迭代模块，用于重复执行依次执行训练模块、剪枝模块、调整模块，直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件，且将符合所述条件的所述深度神经网络模型作为最终模型。

在一个具体的实施例中，所述获取模块，用于：

所述获取模块，用于：

对每一次所述训练选的样本数据添加成对的混淆约束；

与现有技术相比，本方案具有以下效果：

本方案通过多次根据所述缩放因子对训练完成后的深度神经网络模型进行逐层剪枝处理的方式，有效压缩了深度神经网络模型，提高了模型的压缩比，且基于L1正则化的网络剪枝方法在模型训练上与非压缩模型的训练相比没有引入过多的复杂度，并且不需要借助额外的运算库和硬件，性能上通过多次训练的方式达到理想的压缩比以减少模型的存储与计算消耗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种细粒度识别模型的压缩方法的流程示意图；

图2为本发明实施例提出的一种细粒度识别模型的压缩方法中Bi-Attention模型架构；

图3为本发明实施例提出的一种细粒度识别模型的压缩方法中Attention 分支网络结构图；

图4为本发明实施例提出的一种细粒度识别模型的压缩方法的框架示意图；

图5为本发明实施例提出的一种细粒度识别模型的压缩方法中训练过程中的损失函数曲线示意图；

图6为本发明实施例提出的一种细粒度识别模型的压缩方法中训练过程中的准确率函数曲线示意图；

图7为本发明实施例提出的一种细粒度识别模型的压缩设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种细粒度识别模型的压缩方法，如图1所示，包括以下步骤：

步骤1、获取用于细粒度识别的深度神经网络模型；

深度神经网络模型的参数存在着巨大的冗余。对于训练好的网络模型，只需要给定大约 5%的模型参数，便能完成模型的推断并且能够重构出剩余的模型参数。这些冗余在神经网络训练过程中是需要的，因为深度神经网络的优化属于非凸优化，绝大多数模型采用随机梯度下降SGD进行训练，在训练过程中，这些冗余的参数能够保证网络收敛在一个较好的最优值，但是对于模型推断实际应用来说，神经网络参数的冗余往往意味着计算和存储的多余消耗，因此需要对网络模型进行压缩精简，在保证模型高准确度的同时，尽可能地降低其复杂度，从而达到资源与性能上的平衡。针对这种情况，本方案提出了通过上述步骤实现了对深度神经网络模型的压缩。具体的，通过模型参数剪枝这一种删除神经网络中多余的参数，因为神经网络存在大量冗余的参数。为了使得压缩后的模型可以在硬件设备上高效执行，通道剪枝方式可以使模型更加结构化，这样就可以利用高度优化的BLAS线性代数运算库。

在一个具体的实施例中，所述步骤1包括：通过样本数据采用弱监督学习方式训练得到用于细粒度识别的深度神经网络模型；其中，所述样本数据为设置有标签的图像。具体的，弱监督学习方法是指在模型训练时仅使用图像的类别标注，不需要使用额外的局部标注信息的一种方法。弱监督学习方法提出在给定目标数据集的基础上，从一个大的源数据集里根据Earth Mover’s Distance(EMD)筛选出与目标数据集相似的子数据集，本方案中采用弱监督学习方式具有更好的通用型以及更少的数据依赖。

进一步的，对于 Bi-Attention 模型的训练采用的是—批随机梯度下降算法，即对于模型而言，需要逐批次的送入图像进行训练，由于采用成对混淆损失函数，要求batchsize（一次所述训练所选取的样本数）为偶数。

进一步的，所述步骤1包括：对每一次所述训练选的样本数据添加成对的混淆约束；通过添加成对的混淆约束后的每一批所述样本数据训练得到用于细粒度识别的深度神经网络模型。

由于细粒度图像细微的类内差异性，普通的网络模型很容易陷入到学习某一部分图像的局部特征，产生过拟合，为了防止这种情况发生，本方案通过对每一批的训练数据添加成对的混淆约束，使得其减少对同类别图像的距离，增大其与不同类别图像的距离，总体思路与上文介绍的基于度量学习的方法一致。

具体的，对于任意一批输入图像中的

的成对混淆损失表示如下，其中N为批数据的batch size，网络模型参数表示为

:

此外，Bi-Attention模型整体结构是一个一阶段、可端到端训练到的线性模型。模型的一阶段是指整个训练过程是连续的一个阶段，可端到端训练指的是网络模型关注输入图像与输出类别之间的直接对应关系，没有中间表示的映射转换。对于模型的训练，主要采取的是基于Imagenet预训练模型的微调方法。即首先获取在Imagenet上预训练好的ResNet-50模型参数，根据这些参数对Bi-Attention模型进行微调。

所述数据模块用于处理所述深度神经网络模型训练和测试过程中的图像输入的批数据构造和预处理；具体的，对于数据的预处理，可以对输入批图像数据的逐通道减均值与除方差，并对所有的输入图像做固定缩放和单次随机裁剪的处理。

所述注意力分支模块，用于检测和提取包括特定特征的注意力区域；具体的，对于注意力分支，主要的功能在于检测和提取出图像的强可区分局部特征，从而得到较好的分类特征，并且可以提供一定的可解释性。我们借鉴MAMC中提取图像注意力区域的方法，采用的注意力模块即是在 SE block 的基础上加上一个全连接层形成的注意力提取子网络，如图3所示。

具体的，所述深度神经网络模型为Bi-Attention 模型；所述深度神经网络模型的骨干网络为ResNet50。具体的，如图2所示，Bi-Attention模型的基础骨干网络是双路的CNN网络。

具体的，所述缩放因子为网络Batch Normalization 层中的缩放因子。

具体的，针对深度网络

，利用 L1 正则学习网络参数的稀疏化通道因子的损失函数可表示为以下公式:

公式中，

表示训练图像和标签，

表示网络的学习参数，

表示稀疏化通道因子，

表示对

的施加的L1约束。

基于上述公式可知，对于稀疏化通道因子

的学习是对网络参数加上额外的L1正则化约束，L1正则表示如公式:

由于 L1 正则的稀疏化特性则会将大多数通道因子数值挤压到接近于0，这些接近于0的因s子可以认为是不重要的通道因子，予以剪除，最终得到剪除冗余通道的网络参数。

稀疏化通道因子的剪枝过程可以理解为类似给网络权重加上一层“通道选择层”，利用参数通道稀疏化因子的网络参数剪枝实际上就是对网络参数的通道选择，通常的做法是在网络参数参与网络运算之前插入一层参数通道选择层，选择实际的参数，但是这样往往又会给网络引入新的参数与运算，因而不是很好的选择。另一方面，基于对网络BatchNormalization 层的考察，发现可以利用Batch Normalization层固有的缩放因子参数可以作为参数的通道稀疏化因子。而Batch Normalization的形式如下：

该公式中，

表示输入的批数据的均值与标准差，

与

是Batch Normalization层的学习参数，分别表示缩放因子与偏移。对于Batch Normalization层而言，

实际上的作用就是在网络空间特征的通道维度对输入的网络特征进行批归一化操作，从而有利于梯度的前向计算与反向传播，并且对于大多数现代网络模型，Batch Normalization层是其不可或缺的一部分。因而可以利用Batch Normalization层的缩放因子

来代替引入的通道选择层的参数，通过对缩放因子

施加L1正则，达到稀疏化通道因子的目的。

在对网络的Batch Normalization层缩放因子添加上L1正则约束的训练完毕之后，需要根据这些Batch Normalization层中的稀疏化通道因子对整体网络参数进行剪枝。而由于神经网络层次之间的连续性，这种剪枝s通常是逐层进行的，即上一层的网络参数会影响到下一层的网络参数。

在ResNet中，Batch Normalization层往往处于卷积层与ReLU层之间，因此在获取Batch Normalization层的稀疏化通道因子

并对其剪枝后，会出现剪枝后的参数与上一层或者下一层的参数不匹配，需要调整对应的网络层参数结构。因此正确的剪枝方法应该是从最初的Batch Normalization层开始，根据稀疏化通道因子

以及相邻层之间的参数对应关系逐层的剪枝，这样就可以将Batch Normalization层的稀疏化通道因子作用辐射到整个网络结构，形成对整体网络的剪枝。

以此，对于压缩模型的训练主要分为三个阶段：第一阶段是对Bi-Attention模型的Batch Normalization层的缩放因子添加L1正则约束，之后设置训练参数对模型进行训练；第二阶段是在第一阶段训练好的模型参数之上，根据

及网络层之间参数对应关系对网络逐层剪枝，获取剪枝后的网络模型；第三阶段是对剪枝后的模型进行微调以最大程度的减少因剪枝带来的精度损失。

算法1、Bi-Attention模型压缩训练算法

输入：一个已经训练好的Bi-Attention模型

输出：一个完成模型剪枝的Bi-Attention模型

①对Bi-Attention模型的BN层的缩放因子

添加L1正则约束，然后按照正常的模型训练

②在①完成训练的模型之后，根据

值的对应关系对Bi-Attention模型逐层剪枝

③完成②的模型剪枝之后，需要重新执行模型的训练微调，保证模型的准确率

④重复执行②和③操作，直到达到执行的模型剪枝阀值，完成模型压缩训练

整体的压缩模型训练框架如图4所示。

从图4中我们了解到，一次完整的模型压缩训练涉及到模型L1正则训练、模型剪枝与模型微调三个阶段，然后得到压缩后的网络模型。而且这三个阶段是可以多次循环进行的，这样可以进一步的对模型进行压缩，提高模型的压缩比。总体而言，这种基于L1正则化的网络剪枝方法在模型训练上与非压缩模型的训练相比没有引入过多的复杂度，并且不需要借助额外的运算库和硬件，性能上通过多次训练的方式达到理想的压缩比以减少模型的存储与计算消耗。

模型压缩的判断标准分为准确率、参数量、压缩比和FLOPS，具体如下：准确率，表示压缩模型在细粒度识别数据集上的识别准确率；参数量，表示深度学习模型参数的大小，一般以单精度浮点数为存储单位，是对模型的静态存储的评估；压缩比，表示模型压缩前与压缩后模型在模型参数量大小上的比例；FLOPS，深度学习模型的浮点数运算次数，包括乘法和加法操作。

Bi-Attention模型以及L1正则化模型压缩算法是在表1的数据集上测试。

表1细粒度图像识别数据集

数据集	规模	训练/测试	种类
				Stanford Cars	16185	8144/8041	196
CUB Birds	11788	5994/5794	200
				FGVC Aircrafts	10000	3334/3333	100

其中，Stanford Cars数据集用于细粒度车型识别，其中训练集图像8144张，测试集图像8041张，共196类。该数据集属于非均衡数据集，即各类别图像数据量大小不一致，整体数量分布呈高斯分布。该数据集的图像大小跨度也较大，其平均分辨率据统计约在650×450；

CUB Birds数据集用鸟类品种的细粒度识别，其中训练集图像5994张，测试集图像5794张，共200类。该数据集属于均衡数据集，每个类别大约各60张左右。数据集的图像大小分布相对集中，方差较小，平均图像分辨率大约在650×450附近；

FGVC Aircrafts数据集用于飞行器品种的细粒度识别，其中整体数据集3等分为训练集、验证集与测试集。该数据集公有100个子类，属于均衡数据集，每个子类个100张图像。数据集的分辨率分布均衡，平均分辨率大约在1000×700左右；

以上三个数据集均只采用数据标签信息作为监督信息训练，不采用任何边界框、部分标注等其他额外标注信息；

首先在三个数据集上训练基础的baseline模型。本次实验中，为了节省训练时间，设置数据批的batch size为32；对于训练数据，预处理只采用去均值、减方差、固定256像素等比例缩放和224像素随机裁剪，对于测试数据将224像素随机裁剪改成224像素中心裁剪。模型的优化方法均为动量SGD，其中学习率LR调度策略为指数衰减策略，最大迭代次数设为80000，训练轮次为100轮次。便于说明，图5和图6给出Bi-Attention模型在Stanford Cars数据集上的损失函数曲线图与准确率曲线图：从图中我们可以看到模型训练过程中的损失函数一开始处于一个较高的数值，与之对应的模型准确率也很低，随着训练的进行，模型逐渐收敛，大约在第20个轮次开始趋于稳定，曲线整体也较为平滑，最终在测试集上top-1准确率稳定在85.8%左右，top-5准确率稳定在96.5%，由此验证了Bi-Attention模型的可行性与有效性。

进一步的，为了验证Bi-Attention模型在精度上的提升，本文将Bi-Attention模型和与之相关的一些主流的细粒度图像识别模型做了相应的对比实验。本次实验中在数据部分与现有的主流细粒度识别方法的配置保持一致，采用batch size为64，输入图像为448x448大小的输入数据设置。峰值准确率对比数据如表2所示。

表2 Bi-Attention模型与其他模型的准确率对比

	Stanford Cars	CUB birds	FGVC Aircrafts
				ResNet-50	88.4%	77.3%	84.6%
Bilinear CNN	90.3%	80.9%	85.1%
				MAMC-SE	89.6%	78.9%	85.4%
PC-ResNet	90.5%	81.2%	85.2%
				PC-Bilinear	90.4%	82.1%	85.7%
Bi-Attention	91.6%	82.3%	88.0%

从表2中我们可以看出，Bi-Attention模型在Stanford Cars, CUB Birds和FGVCAircrafts三个数据集上的准确率分别为91.6%、82.3%和87.0%，相较于其他模型均为最优。

实施例2

本发明实施例还公开了一种细粒度识别模型的压缩设备，如图所示，包括：

获取模块201、用于获取用于细粒度识别的深度神经网络模型；

训练模块202，用于对所述深度神经网络模型的缩放因子添加L1正则约束后进行训练；

剪枝模块203，用于在完成训练后，根据所述缩放因子对训练完成后的所述深度神经网络模型进行逐层剪枝处理；

调整模块204，用于对完成剪枝的所述深度神经网络模型进行调整以减小剪枝对所述模型带来的精度损失，得到调整后的所述深度神经网络模型。

迭代模块205，用于重复执行依次执行训练模块、剪枝模块、调整模块，直到得到的所述深度神经网络模型符合预设模型剪枝阈值的条件，且将符合所述条件的所述深度神经网络模型作为最终模型。

在一个具体的实施例中，所述获取模块201，用于：

所述获取模块201，用于：

对每一次所述训练选的样本数据添加成对的混淆约束；

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。上述本发明序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种细粒度识别模型的压缩方法，其特征在于，包括：

步骤1、获取用于细粒度识别的深度神经网络模型；

2.如权利要求1所述的方法，其特征在于，所述深度神经网络模型为Bi-Attention 模型；所述深度神经网络模型的骨干网络为ResNet50。

3.如权利要求1所述的方法，其特征在于，所述步骤1包括：

4.如权利要求3所述的方法，其特征在于，一次所述训练所选取的样本数为偶数；

所述步骤1包括：

对每一次所述训练选的样本数据添加成对的混淆约束；

5.如权利要求1所述的方法，其特征在于，所述深度神经网络模型包括：数据模块、卷积神经网络结构、注意力分支模块、损失函数计算模块；其中，

6.如权利要求1所述的方法，其特征在于，所述缩放因子为网络Batch Normalization层中的缩放因子。

7.一种细粒度识别模型的压缩设备，其特征在于，包括：

获取模块、用于获取用于细粒度识别的深度神经网络模型；

8.如权利要求7所述的设备，其特征在于，所述深度神经网络模型为Bi-Attention 模型；所述深度神经网络模型的骨干网络为ResNet50。

9.如权利要求7所述的设备，其特征在于，所述获取模块，用于：

10.如权利要求9所述的设备，其特征在于，一次所述训练所选取的样本数为偶数；

所述获取模块，用于：

对每一次所述训练选的样本数据添加成对的混淆约束；