CN111008694B

CN111008694B - 基于深度卷积对抗生成网络的无数据模型量化压缩方法

Info

Publication number: CN111008694B
Application number: CN201911214493.8A
Authority: CN
Inventors: 戚琦; 王敬宇; 路晏; 朱少雄; 孙海峰; 王晶; 王纯; 刘国泰
Original assignee: Xuchang Beiyou Wanlian Network Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Xuchang Beiyou Wanlian Network Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2023-10-27
Anticipated expiration: 2039-12-02
Also published as: CN111008694A

Abstract

基于深度卷积对抗生成网络的无数据模型量化压缩方法，包括如下操作步骤：(1)构造一个深度卷积对抗生成网络，其中将待量化分类模型作为判别模型；(2)只对生成模型进行训练，不再对判别模型进行训练；(3)利用生成模型生成数据集，作为待量化分类模型的训练集，对待量化分类模型进行量化压缩；本发明的方法克服了现有模型量化压缩需要训练数据的不足，充分利用了待量化模型中的信息，用其训练生成模型，使用训练好的生成模型生成一组训练集用于模型压缩，从而摆脱了对原始训练数据集的需求。

Description

基于深度卷积对抗生成网络的无数据模型量化压缩方法

技术领域

本发明涉及基于深度卷积对抗生成网络的无数据模型量化压缩方法，属于人工智能技术领域，特别是属于人工智能模型的量化压缩技术领域。

背景技术

近年来深度学习得到了广泛的关注，在不同的应用领域得到了广泛的应用，并在许多任务中取得了显著的精度提高。这些工作的关键在于具有数百万甚至数十亿参数的深度网络，和具有极高计算能力的图形显示卡(GPU)。随着深度神经网络的不断进步，它的参数量和计算量也在不断的提升。近年来，嵌入式和移动设备取得了巨大的进步，包括无人机、智能手机、智能眼镜等。在这些设备上部署深度神经网络模型的需求变得更加强烈。然而，这些设备的资源，例如，存储和计算单元以及电池功率仍然非常有限，这对在低成本环境中加快深度神经网络的推理提出了真正的挑战。因此，如何在不显著降低性能的前提下，为特定硬件配置高效的深度网络是当前的关键问题。为了解决这些问题，人们提出了很多方法来帮助深度神经网络的压缩和加速，例如通道裁剪、模型蒸馏、模型量化、低秩分解等方法。其中模型量化是一种非常有效的减少模型体积和计算难度的一种方法，它可使用训练的预训练模型进行直接的压缩。上述方法虽然高效但是都需要有训练数据参与，然而在现实生活中，很多训练数据集由于隐私问题、法律问题和传输的限制是很难在真实场景中获得到的。因此如何实现无数据的模型量化压缩成为当前机器学习领域亟需解决的一个技术难题。

发明内容

有鉴于此，本发明的目的是发明一种基于深度卷积对抗生成网络的无数据模型量化压缩方法，实现对分类模型的无数据量化压缩的目标。

为了达到上述目的，本发明提出了基于深度卷积对抗生成网络的无数据模型量化压缩方法，所述方法包括如下操作步骤：

(1)构造一个深度卷积对抗生成网络，其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型；所构造的深度卷积对抗生成网络的生成模型的主要功能是：输入为一个随机向量，通过连续的线性变化、卷积、上采样以及激活函数的处理，最终输出一张1通道或者3通道的图片；所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。

(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练，不再对所述的深度卷积对抗生成网络中的判别模型进行训练；具体内容是包括如下操作步骤：

(21)向所述的生成模型输入随机向量；

(22)所述的生成模型生成图片；

(23)把生成的图片输入所述的判别模型；

(24)所述的判别模型对输入的图片进行分类；

(25)根据所述分类结果计算损失函数的数值；

(26)根据损失函数的数值，并按照反向传播算法，对所述生成模型的参数进行更新；

(27)重复上述步骤，直到所述的生成模型可以稳定生成合格的训练集；

(3)所述生成模型训练完成后，利用所述的深度卷积对抗生成网络中的生成模型生成数据集，作为待量化分类模型的训练集；然后用所得到的训练集对待量化分类模型进行量化压缩。

所述步骤(25)中的损失函数loss定义如下：

loss＝α×H_y-β×H_b

其中α和β分别为批次响应信息熵H_y与批次类别信息熵H_b的权重，α,β≥0；α和β是模型的超参数，具体选择依赖于不同分类模型与任务的具体情况，一般的任务可以取α＝β＝1，如果要压缩的模型分类较多或者训练出的生成模型生成图片的类别不平均需要继续训练，则可适当的调高β参数或者降低α参数从而使得类别更加均衡；

所述批次响应信息熵H_y定义如下：

其中H为求解信息熵的函数，其具体表达式为H_y为一个批次的各个生成数据的分类结果的信息熵平均值；所述分类结果y_j是在一个批次(Batch)中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型，得到的分类结果；通过P(y_j)＝softmax(y_j)求得分类概率，其中/>其中y_jk是所述分类结果y_j中的第k个分量；P(y_jk)是所述所得到的分类结果y_j中，第k个分类的概率，即向量P(y_j)中编号为k的值；NB为该批次(Batch)中样本的个数；NClasses为类别的数目。

所述批次类别信息熵H_b定义如下：

求出一个批次(Batch)中编号为i的样本的分类结果的独热编码(one-hotencoding)z_i，具体方法是：在该批次(Batch)中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型，得到分类结果y_i；在分类结果y_i中找到响应值最大的类别即理想类别，求出该理想类别的独热编码即为z_i；

求出该批次(Batch)中各个分类的类别数量总和进而求出每个类别概率的平均值P_B＝z_B/NB，P_B表示在所述的整个批次中各个类别的出现概率，P_B(j)表示该批次中编号为j的类别的出现概率；NClasses为类别的数目；

所述步骤(26)中对所述生成模型的参数进行更新时，使用亚当(Adam)算法对参数进行优化。

步骤(27)中所述的直到所述的生成模型可以稳定生成合格的训练集的具体内容是：将若干组的随机向量输入到所述的生成模型，生成一组训练数据，查看分类结果，如果类别均衡，且响应值达到预定要求则可接受为训练数据集，如果不均衡，对所述生成模型重新训练，或者适当调整所述损失函数中的α,β参数继续训练，具体操作为提高β的数值降低α的数值，从而使得类别平均的约束在损失函数中的比重更大。

所述步骤(3)的具体内容是包括如下操作步骤：

(31)将一组随机向量输入所述的生成模型；

(32)所述的生成模型产生一组训练数据集；

(33)将所述的该组训练数据集输入到所述的分类模型进行推理；

(34)通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值；

(35)根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值，对激活值参数和权重参数进行量化，得到所述分类模型的量化模型。

步骤(34)中所述的通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值的具体内容是：

在所述推理过程中记录每一个激活值参数的最大值和最小值，由于在不同的分类图片的推理过程中激活值参数会剧烈变化，因此使用指数滑动平均(ExponentialMovingAverage，EMA)的方法去统计激活值参数的最大值与最小值，公式如下：

其中分别为第n次统计的激活值参数的最大值与最小值，/>分别为第n-1次统计的激活值参数的最大值与最小值，θ_max，θ_min分别为当前推理的激活值参数的最大值与最小值；通过上述过程统计得到激活值参数的最大值与最小值；再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值与最小值。

步骤(35)中所述的根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值，对激活值参数和权重参数进行量化的具体内容是：

使用以下式子将激活值参数和权重参数转换为低比特值：

其中x_q为转换成定点整数低比特之后的值，x_f为原先的全精度的值，n为压缩后的定点整数的低比特的位宽；在上述量化过程中不量化所述分类模型的第一层和最后一层中的参数，这样可以提高模型精度又不会显著增加模型的复杂度。其中round函数为对浮点数进行四舍五入的操作。

本发明的有益效果在于：本发明的方法克服了现有模型量化压缩需要训练数据的不足，充分利用了待量化模型中的信息，用其训练生成模型，使用训练好的生成模型生成一组训练集用于模型压缩，从而摆脱了对原始训练数据集的需求。

附图说明

图1是本发明提出的基于深度卷积对抗生成网络的无数据模型量化压缩方法的流程图；

图2是本发明实施例中的用于生成CIFAR-10数据集的生成模型示意图；

图3是本发明实施例中的生成模型的训练过程的流程图；

图4是本发明实施例中的分类模型量化压缩过程的流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：所述方法包括如下操作步骤：

(1)构造一个深度卷积对抗生成网络，其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型；

(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练，不再对所述的深度卷积对抗生成网络中的判别模型进行训练；

所述步骤(1)中所构造的深度卷积对抗生成网络的生成模型的主要功能是：输入为一组随机向量，通过连续的线性变化、卷积、上采样以及激活函数的处理，最终输出一张1通道或者3通道的图片；

所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。一般如果要生成mnist数据集的图片，则随机向量的维度大小为100，输出图片的格式为28x28x1，即高度x宽度x通道；如果生成CIFAR-10数据集的图片，则一般选择随机向量的维度大小为1000，输出的图片的格式为32x32x3，即高度x宽度x通道；

所述mnist数据集是一个包含10000张手写数字图片的数据集，一共有10个分类，每张图片为大小28x28的单通道灰度图片，官方网站http://yann.lecun.com/exdb/mnist/。

所述CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像，由Alex Krizhevsky，VinodNair和GeoffreyHinton收集，官方网站为http://cs.toronto.edu/～kriz/cifar.html。

在实施例中，发明人使用文献RadfordA,Metz L,Chintala S.Unsupervisedrepresentation learning with deep convolutional generative adversarialnetworks[J].arXiv preprint arXiv:1511.06434,2015.中所描述的生成模型的简化版。以输出3通道的CIFAR-10数据集为例，其生成模型的结构参见图2。

生成CIFAR-10数据集的生成模型的结构如表1所示。

表1

参见图3，所述步骤(2)的具体内容是包括如下操作步骤：

(21)向所述的生成模型输入随机向量；

(22)所述的生成模型生成图片；

(23)把生成的图片输入所述的判别模型；

(24)所述的判别模型对输入的图片进行分类；

(25)根据所述分类结果计算损失函数的数值；

(27)重复上述步骤，直到所述的生成模型可以稳定生成合格的训练集。

所述步骤(25)中的损失函数loss定义如下：

loss＝α×H_y-β×H_b

所述批次响应信息熵H_y定义如下：

其中H为求解信息熵的函数，其具体表达式为H_y为一个批次的各个生成数据的分类结果的信息熵平均值；所述分类结果y_j是在一个批次(Batch)中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型，得到的分类结果；再通过P(y_j)＝softmax(y_j)求得分类概率，其中/> 其中y_jk是所述分类结果y_j中的第k个分量；P(y_jk)是所述所得到的分类结果y_j中，第k个分类的概率，即向量P(y_j)中编号为k的值；NB为该批次(Batch)中样本的个数；NClasses为类别的数目。

所述批次类别信息熵H_b定义如下：

例如：如果批次为3，生成的图片的分类个数为3，假设一个批次的生成图片输入分类模型中得到的结果为y₀＝[0.1,0.2,0.7]，从而求出P(y₀)＝[0.25,0.28,0.47]其中P(y₀₁)＝0.25，P(y₀₂)＝0.28，P(y₀₃)＝0.47；y₁＝[0.2,0.6,0.2]，从而求出P(y₁)＝[0.28,0.43,0.29]其中P(y₁₀)＝0.28，P(y₁₁)＝0.43，P(y₁₂)＝0.29；y₂＝[0.9,0.05,0.05]，从而求出P(y₂)＝[0.540.23,0.23]其中P(y₂₀)＝0.54，P(y₂₁)＝0.23，P(y₂₂)＝0.23；三张生成图片分类结果的信息熵分别为H(y₀)＝0.46，H(y₁)＝0.47，H(y₂)＝0.43，可以求出H_y＝0.45。求出三个分类结果中概率最大的三个分类接着求出其独热编码分别为z₀＝[0,0,1]，z₁＝[0,1,0]，z₂＝[1,0,0]，得到批次中各个分类的类别数量总和z_B＝[1,1,1]，求出每个类别概率的平均值为P_B＝[0.33,0.33,0.33]，得到类别信息熵H_b＝0.48。假设α＝1,β＝0.5，则损失函数loss＝0.69。

所述步骤(26)中对所述生成模型的参数进行更新时，使用亚当(Adam)算法对参数进行优化。亚当(Adam)算法是一种自适应的梯度下降优化算法，它能基于训练数据迭代地更新神经网络权重。其优点是自适应的调整学习率，可以减少超参数的个数。

亚当(Adam)算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。亚当(Adam)算法最开始是由OpenAI的DiederikKingma和多伦多大学的Jimmy Ba在提交到2015年ICLR的论文(Adam:AMethod forStochastic Optimization)中提出的。

参见图4，所述步骤(3)的具体内容是包括如下操作步骤：

(31)将一组随机向量输入所述的生成模型；

(32)所述的生成模型产生一组训练数据集；

在所述推理过程中记录每一个激活值参数的最大值和最小值，由于在不同的分类图片的推理过程中激活值参数会剧烈变化，因此使用指数滑动平均(Exponential MovingAverage，EMA)的方法去统计激活值参数的最大值与最小值，公式如下：

例如：一般使用γ＝0.99，第n-1次使用指数滑动平均的方法统计的参数的最大值与最小值分别为当前推理的激活值参数的最大值与最小值分别为θ_max＝1.30，θ_min＝0.20，因此计算出/>

再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值与最小值。具体方法参见文献Krishnamoorthi R.Quantizing deep convolutionalnetworks for efficient inference:Awhitepaper[J].arXiv preprint arXiv:1806.08342,2018.

使用以下式子将激活值参数和权重参数转换为低比特值：

例如：一组浮点数的值为x_f＝[0.1,2.5,3.1,1.2,0.7,2.1]，将其进行2比特的量化即位宽为n＝2。首先计算得到minx_f＝0.1、max x_f＝3.1，将其带入上式计算量化后的值:x_q＝[0,2,3,1,1,2]。

发明人使用Pytorch1.2为实现工具，使用Lenet-5(Lenet-5是一种经典的卷积神经网络，共有7层构成，由Yann Lecun、Y.Bengio等人提出)作为分类网络,在mnist数据集上进行测试，训练完成的分类网络其准确率为99％，使用mnist原数据做8比特量化出的模型其准确率为97％，使用本发明方法做8比特量化后模型的准确度为97％，证明本发明方法可行有效。

Claims

1.基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：所述方法包括如下操作步骤：

(1)构造一个深度卷积对抗生成网络，其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型；所构造的深度卷积对抗生成网络的生成模型的主要功能是：输入为一个随机向量，通过连续的线性变化、卷积、上采样以及激活函数的处理，最终输出一张1通道或者3通道的图片；所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定；

(21)向所述的生成模型输入随机向量；

(22)所述的生成模型生成图片；

(23)把生成的图片输入所述的判别模型；

(24)所述的判别模型对输入的图片进行分类；

(25)根据所述分类结果计算损失函数的数值；

2.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：所述步骤(25)中的损失函数loss定义如下：

loss＝α×H_y-β×H_b

所述批次响应信息熵H_y定义如下：

其中H为求解信息熵的函数，其具体表达式为H_y为一个批次的各个生成数据的分类结果的信息熵平均值；所述分类结果y_j是在一个批次Batch中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型，得到的分类结果；再通过P(y_j)＝softmax(y_j)求得分类概率，其中/>其中y_jk是所述分类结果y_j中的第k个分量；P(y_jk)是所述所得到的分类结果y_j中，第k个分类的概率，即向量P(y_j)中编号为k的值；NB为该批次Batch中样本的个数；NClasses为类别的数目；

所述批次类别信息熵H_b定义如下：

求出一个批次Batch中编号为i的样本的分类结果的独热编码one-hot encoding z_i，具体方法是：在该批次Batch中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型，得到分类结果y_i；在分类结果y_i中找到响应值最大的类别即理想类别，求出该理想类别的独热编码即为z_i；

求出该批次Batch中各个分类的类别数量总和进而求出每个类别概率的平均值P_B＝z_B/NB，P_B表示在所述的整个批次中各个类别的出现概率，P_B(j)表示该批次中编号为j的类别的出现概率；NClasses为类别的数目。

3.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：所述步骤(26)中对所述生成模型的参数进行更新时，使用亚当Adam算法对参数进行优化。

4.根据权利要求1或2所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：步骤(27)中所述的直到所述的生成模型可以稳定生成合格的训练集的具体内容是：将若干组的随机向量输入到所述的生成模型，生成一组训练数据，查看分类结果，如果类别均衡，且响应值达到预定要求则可接受为训练数据集，如果不均衡，对所述生成模型重新训练，或者适当调整所述损失函数中的α,β参数继续训练，具体操作为提高β的数值降低α的数值，从而使得类别平均的约束在损失函数中的比重更大。

5.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：所述步骤(3)的具体内容是包括如下操作步骤：

(31)将一组随机向量输入所述的生成模型；

(32)所述的生成模型产生一组训练数据集；

6.根据权利要求5所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：步骤(34)中所述的通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值的具体内容是：

在所述推理过程中记录每一个激活值参数的最大值和最小值，由于在不同的分类图片的推理过程中激活值参数会剧烈变化，因此使用指数滑动平均Exponential MovingAverage的方法去统计激活值参数的最大值与最小值，公式如下：

其中分别为第n次统计的激活值参数的最大值与最小值，/>分别为第n-1次统计的激活值参数的最大值与最小值，θ_max，θ_min分别为当前推理的激活值参数的最大值与最小值；通过上述过程统计得到激活值参数的最大值与最小值；再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值或者最小值。

7.根据权利要求5所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法，其特征在于：步骤(35)中所述的根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值，对激活值参数和权重参数进行量化的具体内容是：

使用以下式子将激活值参数和权重参数转换为低比特值：

其中x_q为转换成定点整数低比特之后的值，x_f为原先的全精度的值，n为压缩后的定点整数的低比特的位宽；在上述量化过程中不量化所述分类模型的第一层和最后一层中的参数，这样可以提高模型精度又不会显著增加模型的复杂度；其中round函数为对浮点数进行四舍五入的操作。