CN111008694A - 基于深度卷积对抗生成网络的无数据模型量化压缩方法 - Google Patents

基于深度卷积对抗生成网络的无数据模型量化压缩方法 Download PDF

Info

Publication number
CN111008694A
CN111008694A CN201911214493.8A CN201911214493A CN111008694A CN 111008694 A CN111008694 A CN 111008694A CN 201911214493 A CN201911214493 A CN 201911214493A CN 111008694 A CN111008694 A CN 111008694A
Authority
CN
China
Prior art keywords
model
value
classification
parameters
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911214493.8A
Other languages
English (en)
Other versions
CN111008694B (zh
Inventor
戚琦
王敬宇
路晏
朱少雄
孙海峰
王晶
王纯
刘国泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuchang Beiyou Wanlian Network Technology Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
Xuchang Beiyou Wanlian Network Technology Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuchang Beiyou Wanlian Network Technology Co Ltd, Beijing University of Posts and Telecommunications filed Critical Xuchang Beiyou Wanlian Network Technology Co Ltd
Priority to CN201911214493.8A priority Critical patent/CN111008694B/zh
Publication of CN111008694A publication Critical patent/CN111008694A/zh
Application granted granted Critical
Publication of CN111008694B publication Critical patent/CN111008694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

基于深度卷积对抗生成网络的无数据模型量化压缩方法,包括如下操作步骤:(1)构造一个深度卷积对抗生成网络,其中将待量化分类模型作为判别模型;(2)只对生成模型进行训练,不再对判别模型进行训练;(3)利用生成模型生成数据集,作为待量化分类模型的训练集,对待量化分类模型进行量化压缩;本发明的方法克服了现有模型量化压缩需要训练数据的不足,充分利用了待量化模型中的信息,用其训练生成模型,使用训练好的生成模型生成一组训练集用于模型压缩,从而摆脱了对原始训练数据集的需求。

Description

基于深度卷积对抗生成网络的无数据模型量化压缩方法
技术领域
本发明涉及基于深度卷积对抗生成网络的无数据模型量化压缩方法,属于人工智能技术领域,特别是属于人工智能模型的量化压缩技术领域。
背景技术
近年来深度学习得到了广泛的关注,在不同的应用领域得到了广泛的应用,并在许多任务中取得了显著的精度提高。这些工作的关键在于具有数百万甚至数十亿参数的深度网络,和具有极高计算能力的图形显示卡(GPU)。随着深度神经网络的不断进步,它的参数量和计算量也在不断的提升。近年来,嵌入式和移动设备取得了巨大的进步,包括无人机、智能手机、智能眼镜等。在这些设备上部署深度神经网络模型的需求变得更加强烈。然而,这些设备的资源,例如,存储和计算单元以及电池功率仍然非常有限,这对在低成本环境中加快深度神经网络的推理提出了真正的挑战。因此,如何在不显著降低性能的前提下,为特定硬件配置高效的深度网络是当前的关键问题。为了解决这些问题,人们提出了很多方法来帮助深度神经网络的压缩和加速,例如通道裁剪、模型蒸馏、模型量化、低秩分解等方法。其中模型量化是一种非常有效的减少模型体积和计算难度的一种方法,它可使用训练的预训练模型进行直接的压缩。上述方法虽然高效但是都需要有训练数据参与,然而在现实生活中,很多训练数据集由于隐私问题、法律问题和传输的限制是很难在真实场景中获得到的。因此如何实现无数据的模型量化压缩成为当前机器学习领域亟需解决的一个技术难题。
发明内容
有鉴于此,本发明的目的是发明一种基于深度卷积对抗生成网络的无数据模型量化压缩方法,实现对分类模型的无数据量化压缩的目标。
为了达到上述目的,本发明提出了基于深度卷积对抗生成网络的无数据模型量化压缩方法,所述方法包括如下操作步骤:
(1)构造一个深度卷积对抗生成网络,其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型;
(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练,不再对所述的深度卷积对抗生成网络中的判别模型进行训练;
(3)所述生成模型训练完成后,利用所述的深度卷积对抗生成网络中的生成模型生成数据集,作为待量化分类模型的训练集;然后用所得到的训练集对待量化分类模型进行量化压缩。
所述步骤(1)中所构造的深度卷积对抗生成网络的生成模型的主要功能是:输入为一个随机向量,通过连续的线性变化、卷积、上采样以及激活函数的处理,最终输出一张1通道或者3通道的图片;所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。
所述步骤(2)的具体内容是包括如下操作步骤:
(21)向所述的生成模型输入随机向量;
(22)所述的生成模型生成图片;
(23)把生成的图片输入所述的判别模型;
(24)所述的判别模型对输入的图片进行分类;
(25)根据所述分类结果计算损失函数的数值;
(26)根据损失函数的数值,并按照反向传播算法,对所述生成模型的参数进行更新;
(27)重复上述步骤,直到所述的生成模型可以稳定生成合格的训练集。
所述步骤(25)中的损失函数loss定义如下:
loss=α×Hy-β×Hb
其中α和β分别为批次响应信息熵Hy与批次类别信息熵Hb的权重,α,β≥0;α和β是模型的超参数,具体选择依赖于不同分类模型与任务的具体情况,一般的任务可以取α=β=1,如果要压缩的模型分类较多或者训练出的生成模型生成图片的类别不平均需要继续训练,则可适当的调高β参数或者降低α参数从而使得类别更加均衡;
所述批次响应信息熵Hy定义如下:
Figure BDA0002299109560000021
其中H为求解信息熵的函数,其具体表达式为
Figure BDA0002299109560000022
Hy为一个批次的各个生成数据的分类结果的信息熵平均值;所述分类结果yj是在一个批次(Batch)中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型,得到的分类结果;通过P(yj)=softmax(yj)求得分类概率,其中
Figure BDA0002299109560000031
其中yjk是所述分类结果yj中的第k个分量;P(yjk)是所述所得到的分类结果yj中,第k个分类的概率,即向量P(yj)中编号为k的值;NB为该批次(Batch)中样本的个数;NClasses为类别的数目。
所述批次类别信息熵Hb定义如下:
Figure BDA0002299109560000032
求出一个批次(Batch)中编号为i的样本的分类结果的独热编码(one-hotencoding)zi,具体方法是:在该批次(Batch)中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型,得到分类结果yi;在分类结果yi中找到响应值最大的类别
Figure BDA0002299109560000033
即理想类别,求出该理想类别的独热编码即为zi
求出该批次(Batch)中各个分类的类别数量总和
Figure BDA0002299109560000034
进而求出每个类别概率的平均值PB=zB/NB,PB表示在所述的整个批次中各个类别的出现概率,PB(j)表示该批次中编号为j的类别的出现概率;NClasses为类别的数目;
所述步骤(26)中对所述生成模型的参数进行更新时,使用亚当(Adam)算法对参数进行优化。
步骤(27)中所述的直到所述的生成模型可以稳定生成合格的训练集的具体内容是:将若干组的随机向量输入到所述的生成模型,生成一组训练数据,查看分类结果,如果类别均衡,且响应值达到预定要求则可接受为训练数据集,如果不均衡,对所述生成模型重新训练,或者适当调整所述损失函数中的α,β参数继续训练,具体操作为提高β的数值降低α的数值,从而使得类别平均的约束在损失函数中的比重更大。
所述步骤(3)的具体内容是包括如下操作步骤:
(31)将一组随机向量输入所述的生成模型;
(32)所述的生成模型产生一组训练数据集;
(33)将所述的该组训练数据集输入到所述的分类模型进行推理;
(34)通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值;
(35)根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化,得到所述分类模型的量化模型。
步骤(34)中所述的通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值的具体内容是:
在所述推理过程中记录每一个激活值参数的最大值和最小值,由于在不同的分类图片的推理过程中激活值参数会剧烈变化,因此使用指数滑动平均(Exponential MovingAverage,EMA)的方法去统计激活值参数的最大值与最小值,公式如下:
Figure BDA0002299109560000041
Figure BDA0002299109560000042
其中
Figure BDA0002299109560000043
Figure BDA0002299109560000044
分别为第n次统计的激活值参数的最大值与最小值,
Figure BDA0002299109560000045
Figure BDA0002299109560000046
分别为第n-1次统计的激活值参数的最大值与最小值,θmax,θmin分别为当前推理的激活值参数的最大值与最小值;通过上述过程统计得到激活值参数的最大值与最小值;再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值与最小值。
步骤(35)中所述的根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化的具体内容是:
使用以下式子将激活值参数和权重参数转换为低比特值:
Figure BDA0002299109560000047
其中xq为转换成定点整数低比特之后的值,xf为原先的全精度的值,n为压缩后的定点整数的低比特的位宽;在上述量化过程中不量化所述分类模型的第一层和最后一层中的参数,这样可以提高模型精度又不会显著增加模型的复杂度。其中round函数为对浮点数进行四舍五入的操作。
本发明的有益效果在于:本发明的方法克服了现有模型量化压缩需要训练数据的不足,充分利用了待量化模型中的信息,用其训练生成模型,使用训练好的生成模型生成一组训练集用于模型压缩,从而摆脱了对原始训练数据集的需求。
附图说明
图1是本发明提出的基于深度卷积对抗生成网络的无数据模型量化压缩方法的流程图;
图2是本发明实施例中的用于生成CIFAR-10数据集的生成模型示意图;
图3是本发明实施例中的生成模型的训练过程的流程图;
图4是本发明实施例中的分类模型量化压缩过程的流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明提出的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述方法包括如下操作步骤:
(1)构造一个深度卷积对抗生成网络,其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型;
(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练,不再对所述的深度卷积对抗生成网络中的判别模型进行训练;
(3)所述生成模型训练完成后,利用所述的深度卷积对抗生成网络中的生成模型生成数据集,作为待量化分类模型的训练集;然后用所得到的训练集对待量化分类模型进行量化压缩。
所述步骤(1)中所构造的深度卷积对抗生成网络的生成模型的主要功能是:输入为一组随机向量,通过连续的线性变化、卷积、上采样以及激活函数的处理,最终输出一张1通道或者3通道的图片;
所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。一般如果要生成mnist数据集的图片,则随机向量的维度大小为100,输出图片的格式为28x28x1,即高度x宽度x通道;如果生成CIFAR-10数据集的图片,则一般选择随机向量的维度大小为1000,输出的图片的格式为32x32x3,即高度x宽度x通道;
所述mnist数据集是一个包含10000张手写数字图片的数据集,一共有10个分类,每张图片为大小28x28的单通道灰度图片,官方网站http://yann.lecun.com/exdb/mnist/。
所述CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像,由Alex Krizhevsky,VinodNair和GeoffreyHinton收集,官方网站为http://cs.toronto.edu/~kriz/cifar.html。
在实施例中,发明人使用文献RadfordA,Metz L,Chintala S.Unsupervisedrepresentation learning with deep convolutional generative adversarialnetworks[J].arXiv preprint arXiv:1511.06434,2015.中所描述的生成模型的简化版。以输出3通道的CIFAR-10数据集为例,其生成模型的结构参见图2。
生成CIFAR-10数据集的生成模型的结构如表1所示。
表1
Figure BDA0002299109560000061
参见图3,所述步骤(2)的具体内容是包括如下操作步骤:
(21)向所述的生成模型输入随机向量;
(22)所述的生成模型生成图片;
(23)把生成的图片输入所述的判别模型;
(24)所述的判别模型对输入的图片进行分类;
(25)根据所述分类结果计算损失函数的数值;
(26)根据损失函数的数值,并按照反向传播算法,对所述生成模型的参数进行更新;
(27)重复上述步骤,直到所述的生成模型可以稳定生成合格的训练集。
所述步骤(25)中的损失函数loss定义如下:
lodd=α×Hy-β×Hb
其中α和β分别为批次响应信息熵Hy与批次类别信息熵Hb的权重,α,β≥0;α和β是模型的超参数,具体选择依赖于不同分类模型与任务的具体情况,一般的任务可以取α=β=1,如果要压缩的模型分类较多或者训练出的生成模型生成图片的类别不平均需要继续训练,则可适当的调高β参数或者降低α参数从而使得类别更加均衡;
所述批次响应信息熵Hy定义如下:
Figure BDA0002299109560000071
其中H为求解信息熵的函数,其具体表达式为
Figure BDA0002299109560000072
Hy为一个批次的各个生成数据的分类结果的信息熵平均值;所述分类结果yj是在一个批次(Batch)中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型,得到的分类结果;再通过P(yj)=softmax(yj)求得分类概率,其中
Figure BDA0002299109560000073
Figure BDA0002299109560000074
其中yjk是所述分类结果yj中的第k个分量;P(yjk)是所述所得到的分类结果yj中,第k个分类的概率,即向量P(yj)中编号为k的值;NB为该批次(Batch)中样本的个数;NClasses为类别的数目。
所述批次类别信息熵Hb定义如下:
Figure BDA0002299109560000075
求出一个批次(Batch)中编号为i的样本的分类结果的独热编码(one-hotencoding)zi,具体方法是:在该批次(Batch)中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型,得到分类结果yi;在分类结果yi中找到响应值最大的类别
Figure BDA0002299109560000076
即理想类别,求出该理想类别的独热编码即为zi
求出该批次(Batch)中各个分类的类别数量总和
Figure BDA0002299109560000077
进而求出每个类别概率的平均值PB=zB/NB,PB表示在所述的整个批次中各个类别的出现概率,PB(j)表示该批次中编号为j的类别的出现概率;NClasses为类别的数目;
例如:如果批次为3,生成的图片的分类个数为3,假设一个批次的生成图片输入分类模型中得到的结果为y0=[0.1,0.2,0.7],从而求出P(y0)=[0.25,0.28,0.47]其中P(y01)=0.25,P(y02)=0.28,P(y03)=0.47;y1=[0.2,0.6,0.2],从而求出P(y1)=[0.28,0.43,0.29]其中P(y10)=0.28,P(y11)=0.43,P(y12)=0.29;y2=[0.9,0.05,0.05],从而求出P(y2)=[0.540.23,0.23]其中P(y20)=0.54,P(y21)=0.23,P(y22)=0.23;三张生成图片分类结果的信息熵分别为H(y0)=0.46,H(y1)=0.47,H(y2)=0.43,可以求出Hy=0.45。求出三个分类结果中概率最大的三个分类
Figure BDA0002299109560000081
接着求出其独热编码分别为z0=[0,0,1],z1=[0,1,0],z2=[1,0,0],得到批次中各个分类的类别数量总和zB=[1,1,1],求出每个类别概率的平均值为PB=[0.33,0.33,0.33],得到类别信息熵Hb=0.48。假设α=1,β=0.5,则损失函数loss=0.69。
所述步骤(26)中对所述生成模型的参数进行更新时,使用亚当(Adam)算法对参数进行优化。亚当(Adam)算法是一种自适应的梯度下降优化算法,它能基于训练数据迭代地更新神经网络权重。其优点是自适应的调整学习率,可以减少超参数的个数。
亚当(Adam)算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。亚当(Adam)算法最开始是由OpenAI的DiederikKingma和多伦多大学的Jimmy Ba在提交到2015年ICLR的论文(Adam:AMethod forStochastic Optimization)中提出的。
步骤(27)中所述的直到所述的生成模型可以稳定生成合格的训练集的具体内容是:将若干组的随机向量输入到所述的生成模型,生成一组训练数据,查看分类结果,如果类别均衡,且响应值达到预定要求则可接受为训练数据集,如果不均衡,对所述生成模型重新训练,或者适当调整所述损失函数中的α,β参数继续训练,具体操作为提高β的数值降低α的数值,从而使得类别平均的约束在损失函数中的比重更大。
参见图4,所述步骤(3)的具体内容是包括如下操作步骤:
(31)将一组随机向量输入所述的生成模型;
(32)所述的生成模型产生一组训练数据集;
(33)将所述的该组训练数据集输入到所述的分类模型进行推理;
(34)通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值;
(35)根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化,得到所述分类模型的量化模型。
步骤(34)中所述的通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值的具体内容是:
在所述推理过程中记录每一个激活值参数的最大值和最小值,由于在不同的分类图片的推理过程中激活值参数会剧烈变化,因此使用指数滑动平均(ExponentialMovingAverage,EMA)的方法去统计激活值参数的最大值与最小值,公式如下:
Figure BDA0002299109560000091
Figure BDA0002299109560000092
其中
Figure BDA0002299109560000093
Figure BDA0002299109560000094
分别为第n次统计的激活值参数的最大值与最小值,
Figure BDA0002299109560000095
Figure BDA0002299109560000096
分别为第n-1次统计的激活值参数的最大值与最小值,θmax,θmin分别为当前推理的激活值参数的最大值与最小值;通过上述过程统计得到激活值参数的最大值与最小值;再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值与最小值。
例如:一般使用γ=0.99,第n-1次使用指数滑动平均的方法统计的参数的最大值与最小值分别为
Figure BDA0002299109560000097
Figure BDA0002299109560000098
当前推理的激活值参数的最大值与最小值分别为θmax=1.30,θmin=0.20,因此计算出
Figure BDA0002299109560000099
Figure BDA00022991095600000910
再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值与最小值。具体方法参见文献Krishnamoorthi R.Quantizing deep convolutionalnetworks for efficient inference:Awhitepaper[J].arXiv preprint arXiv:1806.08342,2018.
步骤(35)中所述的根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化的具体内容是:
使用以下式子将激活值参数和权重参数转换为低比特值:
Figure BDA00022991095600000911
其中xq为转换成定点整数低比特之后的值,xf为原先的全精度的值,n为压缩后的定点整数的低比特的位宽;在上述量化过程中不量化所述分类模型的第一层和最后一层中的参数,这样可以提高模型精度又不会显著增加模型的复杂度。其中round函数为对浮点数进行四舍五入的操作。
例如:一组浮点数的值为xf=[0.1,2.5,3.1,1.2,0.7,2.1],将其进行2比特的量化即位宽为n=2。首先计算得到min xf=0.1、max xf=3.1,将其带入上式计算量化后的值:xq=[0,2,3,1,1,2]。
发明人使用Pytorch1.2为实现工具,使用Lenet-5(Lenet-5是一种经典的卷积神经网络,共有7层构成,由Yann Lecun、Y.Bengio等人提出)作为分类网络,在mnist数据集上进行测试,训练完成的分类网络其准确率为99%,使用mnist原数据做8比特量化出的模型其准确率为97%,使用本发明方法做8比特量化后模型的准确度为97%,证明本发明方法可行有效。

Claims (9)

1.基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述方法包括如下操作步骤:
(1)构造一个深度卷积对抗生成网络,其中将待量化分类模型作为该深度卷积对抗生成网络中的判别模型;
(2)只对所述的深度卷积对抗生成网络中的生成模型进行训练,不再对所述的深度卷积对抗生成网络中的判别模型进行训练;
(3)所述生成模型训练完成后,利用所述的深度卷积对抗生成网络中的生成模型生成数据集,作为待量化分类模型的训练集;然后用所得到的训练集对待量化分类模型进行量化压缩。
2.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(1)中所构造的深度卷积对抗生成网络的生成模型的主要功能是:输入为一个随机向量,通过连续的线性变化、卷积、上采样以及激活函数的处理,最终输出一张1通道或者3通道的图片;所述的向生成模型输入的随机向量的维度大小和输出图片的格式要根据需要进行设定。
3.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(2)的具体内容是包括如下操作步骤:
(21)向所述的生成模型输入随机向量;
(22)所述的生成模型生成图片;
(23)把生成的图片输入所述的判别模型;
(24)所述的判别模型对输入的图片进行分类;
(25)根据所述分类结果计算损失函数的数值;
(26)根据损失函数的数值,并按照反向传播算法,对所述生成模型的参数进行更新;
(27)重复上述步骤,直到所述的生成模型可以稳定生成合格的训练集。
4.根据权利要求3所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(25)中的损失函数loss定义如下:
loss=α×Hy-β×Hb
其中α和β分别为批次响应信息熵Hy与批次类别信息熵Hb的权重,α,β≥0;α和β是模型的超参数,具体选择依赖于不同分类模型与任务的具体情况,一般的任务可以取α=β=1,如果要压缩的模型分类较多或者训练出的生成模型生成图片的类别不平均需要继续训练,则可适当的调高β参数或者降低α参数从而使得类别更加均衡;
所述批次响应信息熵Hy定义如下:
Figure FDA0002299109550000021
其中H为求解信息熵的函数,其具体表达式为
Figure FDA0002299109550000022
Hy为一个批次的各个生成数据的分类结果的信息熵平均值;所述分类结果yj是在一个批次Batch中将生成模型生成的第j张图片输入待压缩的分类模型即所述的判别模型,得到的分类结果;再通过P(yj)=softmax(yj)求得分类概率,其中
Figure FDA0002299109550000023
其中yjk是所述分类结果yj中的第k个分量;P(yjk)是所述所得到的分类结果yj中,第k个分类的概率,即向量P(yj)中编号为k的值;NB为该批次Batch中样本的个数;NClasses为类别的数目;
所述批次类别信息熵Hb定义如下:
Figure FDA0002299109550000024
求出一个批次Batch中编号为i的样本的分类结果的独热编码one-hot encoding zi,具体方法是:在该批次Batch中将生成模型生成的第i张图片输入到待压缩的分类模型即所述的判别模型,得到分类结果yi;在分类结果yi中找到响应值最大的类别
Figure FDA0002299109550000025
即理想类别,求出该理想类别的独热编码即为zi
求出该批次Batch中各个分类的类别数量总和
Figure FDA0002299109550000026
进而求出每个类别概率的平均值PB=zB/NB,PB表示在所述的整个批次中各个类别的出现概率,PB(j)表示该批次中编号为j的类别的出现概率;NClasses为类别的数目。
5.根据权利要求3所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(26)中对所述生成模型的参数进行更新时,使用亚当Adam算法对参数进行优化。
6.根据权利要求3或4所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:步骤(27)中所述的直到所述的生成模型可以稳定生成合格的训练集的具体内容是:将若干组的随机向量输入到所述的生成模型,生成一组训练数据,查看分类结果,如果类别均衡,且响应值达到预定要求则可接受为训练数据集,如果不均衡,对所述生成模型重新训练,或者适当调整所述损失函数中的α,β参数继续训练,具体操作为提高β的数值降低α的数值,从而使得类别平均的约束在损失函数中的比重更大。
7.根据权利要求1所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:所述步骤(3)的具体内容是包括如下操作步骤:
(31)将一组随机向量输入所述的生成模型;
(32)所述的生成模型产生一组训练数据集;
(33)将所述的该组训练数据集输入到所述的分类模型进行推理;
(34)通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值;
(35)根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化,得到所述分类模型的量化模型。
8.根据权利要求7所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:步骤(34)中所述的通过推理得到所述分类模型的激活值参数的最大值与最小值和权重参数的最大值与最小值的具体内容是:
在所述推理过程中记录每一个激活值参数的最大值和最小值,由于在不同的分类图片的推理过程中激活值参数会剧烈变化,因此使用指数滑动平均Exponential MovingAverage的方法去统计激活值参数的最大值与最小值,公式如下:
Figure FDA0002299109550000031
Figure FDA0002299109550000032
其中
Figure FDA0002299109550000033
分别为第n次统计的激活值参数的最大值与最小值,
Figure FDA0002299109550000034
分别为第n-1次统计的激活值参数的最大值与最小值,θmax,θmin分别为当前推理的激活值参数的最大值与最小值;通过上述过程统计得到激活值参数的最大值与最小值;再将所述分类模型的整个模型的权重参数遍历一遍得到各个权重参数的最大值或者最小值。
9.根据权利要求7所述的基于深度卷积对抗生成网络的无数据模型量化压缩方法,其特征在于:步骤(35)中所述的根据所述激活值参数的最大值与最小值和权重参数的最大值与最小值,对激活值参数和权重参数进行量化的具体内容是:
使用以下式子将激活值参数和权重参数转换为低比特值:
Figure FDA0002299109550000035
其中xq为转换成定点整数低比特之后的值,xf为原先的全精度的值,n为压缩后的定点整数的低比特的位宽;在上述量化过程中不量化所述分类模型的第一层和最后一层中的参数,这样可以提高模型精度又不会显著增加模型的复杂度;其中round函数为对浮点数进行四舍五入的操作。
CN201911214493.8A 2019-12-02 2019-12-02 基于深度卷积对抗生成网络的无数据模型量化压缩方法 Active CN111008694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911214493.8A CN111008694B (zh) 2019-12-02 2019-12-02 基于深度卷积对抗生成网络的无数据模型量化压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911214493.8A CN111008694B (zh) 2019-12-02 2019-12-02 基于深度卷积对抗生成网络的无数据模型量化压缩方法

Publications (2)

Publication Number Publication Date
CN111008694A true CN111008694A (zh) 2020-04-14
CN111008694B CN111008694B (zh) 2023-10-27

Family

ID=70112441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911214493.8A Active CN111008694B (zh) 2019-12-02 2019-12-02 基于深度卷积对抗生成网络的无数据模型量化压缩方法

Country Status (1)

Country Link
CN (1) CN111008694B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942148A (zh) * 2019-12-11 2020-03-31 北京工业大学 一种自适应的非对称量化的深度神经网络模型压缩方法
CN111967580A (zh) * 2020-08-05 2020-11-20 上海交通大学 基于特征迁移的低比特神经网络训练方法及系统
CN112541550A (zh) * 2020-12-16 2021-03-23 南京掌控网络科技有限公司 一种基于图像分类的冰箱完整性判断方法及电子设备
CN112906829A (zh) * 2021-04-13 2021-06-04 成都四方伟业软件股份有限公司 一种基于Mnist数据集的数字识别模型构建方法及装置
CN113688990A (zh) * 2021-09-09 2021-11-23 贵州电网有限责任公司 用于电力边缘计算分类神经网络的无数据量化训练方法
CN113762495A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种提高卷积神经网络模型低比特量化模型精度的方法
CN113762497A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种卷积神经网络模型低比特推理优化的方法
CN114897155A (zh) * 2022-03-30 2022-08-12 北京理工大学 一种用于卫星的集成模型无数据压缩方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945811B (zh) * 2017-10-23 2021-06-01 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN108549926A (zh) * 2018-03-09 2018-09-18 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN109902745A (zh) * 2019-03-01 2019-06-18 成都康乔电子有限责任公司 一种基于cnn的低精度训练与8位整型量化推理方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942148A (zh) * 2019-12-11 2020-03-31 北京工业大学 一种自适应的非对称量化的深度神经网络模型压缩方法
CN113762495A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种提高卷积神经网络模型低比特量化模型精度的方法
CN113762497A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种卷积神经网络模型低比特推理优化的方法
CN113762497B (zh) * 2020-06-04 2024-05-03 合肥君正科技有限公司 一种卷积神经网络模型低比特推理优化的方法
CN111967580A (zh) * 2020-08-05 2020-11-20 上海交通大学 基于特征迁移的低比特神经网络训练方法及系统
CN111967580B (zh) * 2020-08-05 2023-09-29 上海交通大学 基于特征迁移的低比特神经网络训练方法及系统
CN112541550A (zh) * 2020-12-16 2021-03-23 南京掌控网络科技有限公司 一种基于图像分类的冰箱完整性判断方法及电子设备
CN112906829A (zh) * 2021-04-13 2021-06-04 成都四方伟业软件股份有限公司 一种基于Mnist数据集的数字识别模型构建方法及装置
CN113688990A (zh) * 2021-09-09 2021-11-23 贵州电网有限责任公司 用于电力边缘计算分类神经网络的无数据量化训练方法
CN113688990B (zh) * 2021-09-09 2024-08-16 贵州电网有限责任公司 用于电力边缘计算分类神经网络的无数据量化训练方法
CN114897155A (zh) * 2022-03-30 2022-08-12 北京理工大学 一种用于卫星的集成模型无数据压缩方法

Also Published As

Publication number Publication date
CN111008694B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111008694B (zh) 基于深度卷积对抗生成网络的无数据模型量化压缩方法
Mills et al. Communication-efficient federated learning for wireless edge intelligence in IoT
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN106124212B (zh) 基于稀疏编码器和支持向量机的滚动轴承故障诊断方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
WO2019125874A1 (en) Neural entropy enhanced machine learning
EP3735658A1 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
CN113469340A (zh) 一种模型处理方法、联邦学习方法及相关设备
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN111507046B (zh) 一种电动闸阀剩余使用寿命预测方法及系统
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN112949610A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN115358418A (zh) 基于模型扰动的联邦学习分类模型训练方法
CN106355191A (zh) 一种深度生成网络随机训练算法及装置
CN113424200A (zh) 用于视频编码和视频解码的方法、装置和计算机程序产品
Zhang et al. A new JPEG image steganalysis technique combining rich model features and convolutional neural networks
Passalis et al. Adaptive inference using hierarchical convolutional bag-of-features for low-power embedded platforms
CN114021011A (zh) 一种基于自注意力机制的下一个兴趣点推荐方法
Zhang et al. Blind source separation based on quantum slime mould algorithm in impulse noise
Dupuis et al. Approximations in deep learning
Shymyrbay et al. Training-aware low precision quantization in spiking neural networks
Wang et al. Hybrid neural network mixed with random forests and Perlin noise
CN115587616A (zh) 网络模型训练方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant