CN108268950A - 基于矢量量化的迭代式神经网络量化方法及系统 - Google Patents

基于矢量量化的迭代式神经网络量化方法及系统 Download PDF

Info

Publication number
CN108268950A
CN108268950A CN201810042040.0A CN201810042040A CN108268950A CN 108268950 A CN108268950 A CN 108268950A CN 201810042040 A CN201810042040 A CN 201810042040A CN 108268950 A CN108268950 A CN 108268950A
Authority
CN
China
Prior art keywords
quantization
network
parameter
retraining
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810042040.0A
Other languages
English (en)
Other versions
CN108268950B (zh
Inventor
熊红凯
徐宇辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810042040.0A priority Critical patent/CN108268950B/zh
Publication of CN108268950A publication Critical patent/CN108268950A/zh
Application granted granted Critical
Publication of CN108268950B publication Critical patent/CN108268950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于矢量量化的迭代式神经网络量化系统,包括:聚类模块、基于误差的划分模块、参数共享模块和重训练模块,其中:聚类模块充分利用参数本身的分布来控制量化误差;基于误差的划分模块将网络参数划分为量化和重训练两部分;参数共享模块将划分的量化部分进行量化;重训练模块固定量化后的参数,更新重训练部分的参数来弥补量化误差,恢复量化后网络的精度。四部分迭代式进行,直到网络所有参数都被量化为止。同时提供了一种基于矢量量化的迭代式神经网络量化方法。本发明在不损失网络精度的情况下,能够将神经网络的32位浮点数量化为4bit,具有很高的实用价值。

Description

基于矢量量化的迭代式神经网络量化方法及系统
技术领域
本发明涉及一种神经网络量化方案,具体是一种基于矢量量化的迭代式神经网络量化方法及系统。
背景技术
深度卷积神经网络在图像分类、目标检测、语义分割等计算机视觉领域取得了很大的成功。深度卷积网络优秀的性能是由很多因素造成的。除了越来越多的数据资源和愈发强大的计算硬件,大量可学习的参数是最重要的一个因素。为了取得很高的准确率,神经网络的设计朝着更宽和更深的方向发展,给计算和存储资源带来了很大的负担。在移动设备上部署深度网络变得更加困难。例如,VGG-16模型有138.34百万个参数,占用了大约500MB的存储空间。分类一张图片需要进行30.94百万次浮点数运算。这样巨大的存储和运算消耗很容易超过移动设备的资源供给量。所以网络压缩吸引了学术界和工业界极大的兴趣。
经过对现有技术的文献检索发现,Song Han在2016年的《InternationalConference on LeamingRepresentation》(ICLR)会议上发表的“DeepCompression:Compressing Deep NeuralNetworks with Pruning,TranedQuantizationand Huffman Coding”一文中提出了一种将裁、减量化和霍夫曼编码相结合的深度压缩方法。文章中将裁剪后的网络进行矢量量化,为了恢复量化后的网络性能,作者利用同一类参数梯度的和来更新参数,最后依据霍夫曼编码对网络进行编码。然而利用同一类参数梯度和来更新参数并不是最优的做法。文章中对卷积层的量化采用的比特数较大,压缩效率不高。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于矢量量化的迭代式神经网络量化方法及系统,可作为一种通用的神经网络压缩工具,其目的是保证网络性能的情况下压缩网络。
本发明是通过以下技术方案实现的:
根据本发明的一个方面,提供了一种基于矢量量化的迭代式神经网络量化方法,包括如下步骤:
步骤S1,聚类:将网络参数进行聚类,并存储每一类的中心;
步骤S2,基于误差的划分:检测每一类量化造成的网络损失即量化损失,并依据量化损失将步骤S1得到的所有类划分为量化部分和重训练部分;
步骤S3,参数共享:将量化部分的网络参数量化为所属类的中心;
步骤S4,重训练:固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
优选地,所述步骤S1,采用k-means聚类方法。
优选地,所述k-means聚类方法包括如下步骤:
对神经网络每一层进行k-means聚类:
其中,k为聚类参数,k=2b+1,依据网络需要量化到的比特数b而定;是聚类的第i个类;ω表示网络参数;ci是聚类结果中第i个类的中心,数值上等于该类所有网络参数的均值,即
聚类之后得到每一类所包含的网络参数量化到类的中心。
优选地,所述步骤S2,依据量化对网络性能的影响即网络损失对聚类的结果进行排序,并将所有类划分为两部分,即量化部分和重训练部分其中量化部分对网络性能的影响大于重训练部分对网络性能的影响。
优选地,其中,W表示类的数量。
优选地,所述重训练是对之前划分的重训练部分的网络参数进行操作,量化部分的网络参数保持不变。
优选地,重训练过程中,利用musk函数来控制梯度的传播:
优选地,还包括如下步骤:
步骤S5,迭代式执行步骤S1~步骤S4,直到所有网络参数都被量化。
根据本发明的另一个方面,提供了一种基于矢量量化的迭代式神经网络量化系统,包括如下模块:
-聚类模块,将网络参数进行聚类,并存储每一类的中心;
-基于误差的划分模块,检测每一类量化造成的网络损失即量化损失,并依据量化损失将聚类模块聚得的所有类划分为量化部分和重训练部分;
-参数共享模块,将量化部分的网络参数量化为所属类的中心;
-重训练模块,固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
优选地,还包括如下任意一项或任意多项特征:
-所述聚类模块、基于误差的划分模块、参数共享模块和重训练模块迭代式进行,直到所有网络参数都被量化为止;
-所述量化部分的量化损失大于重训练部分的量化损失。
优选地,所述聚类模块采用k-means聚类方法。
优选地,所述k-means聚类方法包括如下步骤:
对神经网络每一层进行k-means聚类:
其中,k为聚类参数,k=2b+1,依据网络需要量化到的比特数b而定;是聚类的第i个类;ω表示网络参数;ci是聚类结果中第i个类的中心,数值上等于该类所有网络参数的均值,即
聚类之后得到每一类所包含的网络参数量化到类的中心。
优选地,所述基于误差的划分模块依据量化对网络性能的影响即网络损失对聚类的结果进行排序,并将所有类划分为两部分,即量化部分和重训练部分其中量化部分对网络性能的影响大于重训练部分对网络性能的影响。
优选地,其中,W表示类的数量;
优选地,所述重训练模块对之前划分的重训练部分的网络参数进行操作,量化部分的网络参数保持不变。
优选地,重训练过程中,利用musk函数来控制梯度的传播:
本发明中采用的迭代式矢量量化技术为神经网络量化提供了通用的解决方案。矢量量化的应用为网络参数的量化目标的选取找到了合理方案,有效控制量化对网络性能的影响。迭代式进行矢量量化使网络量化后性能的恢复成为可能,一部分参数进行量化,另一部分参数进行重训练,弥补了量化对网络性能的损害。
与现有技术相比,本发明具有如下的有益效果:
本发明提高了压缩率,与之前的所有参数一起量化,一起更新梯度相比,迭代式量化更新在保证网络性能的同时,能够将网络量化到更小比特数。本发明还提升了压缩后网络的性能,得益于聚类算法和基于误差的划分模块:聚类模块是的网络量化误差的到缩小,网络量化的影响得到控制;基于误差的划分模块使得迭代式量化最后剩余的量化误差达到最小,同时本发明也具备良好的可扩展性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明系统实施例的结构示意框图;
图2为神经网络层间聚类和基于误差的划分原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
实施例1
本实施例提供了一种基于矢量量化的迭代式神经网络量化系统,包括:聚类模块、基于误差的划分模块、参数共享模块和重训练模块,其中:
所述的聚类模块,充分利用参数本身的分布来控制量化误差,即用聚类将网络参数聚类到指定数目类别,存储聚类中心,聚类操作充分考虑参数的分布,易于误差控制。
所述的基于误差的划分模块,依据量化对网络性能的影响(即网络损失)对聚得的类进行排序,并将所有类划分为两部分,对网络性能影响大的为量化部分,对网络性能影响小的为重训练部分。
所述参数共享模块将量化部分类的网络参数量化为所属类的中心;
所述重训练模块固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
进一步地,四个模块迭代式进行,直到网络所有参数都被量化为止。
进一步地,量化部分的量化损失大于重训练部分的量化损失。
本实施例采用的是迭代式量化,对未量化的网络参数进行迭代式划分,量化,重训练,直到所有参数都被量化。
下面结合附图对本实施例进一步描述。
如图1所示,本实施例的结构示意框图,包括:聚类模块、基于误差的划分模块、参数共享模块和重训练模块,其中:聚类模块充分利用参数本身的分布来控制量化误差;基于误差的划分模块将网络参数划分为量化和重训练两部分;参数共享模块将划分的量化部分进行量化;重训练模块固定量化后的参数,更新重训练部分的参数来弥补量化误差,恢复量化后网络的精度。四部分迭代式进行,直到网络所有参数都被量化为止。
实施例2
本实施例提供了一种基于矢量量化的迭代式神经网络量化方法,包括如下步骤:
步骤S1,聚类,将网络参数进行聚类,并存储每一类的中心;
步骤S2,基于误差的划分,检测每一类量化造成的网络损失即量化损失,并依据量化损失将步骤S1得到的所有类划分为量化部分和重训练部分;
步骤S3,参数共享,将量化部分的网络参数量化为所属类的中心;
步骤S4,重训练,固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
进一步地,所述步骤S1,采用k-means聚类方法。
进一步地,所述k-means聚类方法包括如下步骤:
对神经网络每一层进行k-means聚类:
其中,k为聚类参数,k=2b+1,依据网络需要量化到的比特数b而定;是聚类的第i个类;ω表示网络参数;ci是聚类结果中第i个类的中心,数值上等于该类所有网络参数的均值,即
聚类之后得到每一类所包含的网络参数量化到类的中心。
进一步地,所述步骤S2,依据量化对网络性能的影响(即网络损失)对聚类的结果进行排序,并将所有类划分为两部分,即量化部分和重训练部分其中量化部分对网络性能的影响大于重训练部分对网络性能的影响。
进一步地,其中,W表示类的数量;
进一步地,所述重训练是对之前划分的重训练部分的网络参数进行操作,量化部分的网络参数保持不变。
进一步地,重训练过程中,利用musk函数来控制梯度的传播:
进一步地,还包括如下步骤:
步骤S5,迭代式执行步骤S1~步骤S4,直到所有网络参数都被量化。
本实施例提供的基于矢量量化的迭代式神经网络量化方法,采用的聚类方法是k-means聚类,k-means聚类目标函数有效控制了量化误差,将k-means聚类产生的聚类中心作为量化目标。
下面结合附图对本实施例进一步描述。
如图2所示,首先对神经网络每一层进行k-means聚类:
其中聚类参数k是依据网络需要量化到的比特数b而定的,k=2b+1,其中一个类量化到0,例如4bit量化的类别参数k为17。是聚类的第i个类,ω表示网络参数,ci是聚类结果中第i个类的中心,数值上等于该类所有参数的均值,即
聚类之后我们得到每一类所包含的参数量化到类的中心。依据对网络性能的影响即量化损失,将类别依据量化损失从大到小重新排列。同时将类别分成两部分,量化损失大的为量化部分量化损失小的为重训练部分
其中W表示类的数量。
量化部分将类别中的参数量化到类的中心。固定量化部分参数不变,更新重训练部分参数,利用一个musk函数来控制梯度的传播:
一次量化结束后,再接着对未量化的参数进行聚类,划分,这样迭代进行量化直至所有网络参数都量化结束。
本实施例对于现有的神经网络包括AlexNet,GoogleNet,Vgg-16和ResNet都进行测试,网络训练所采用的参数包括learningrate,batchsize等和原网络训练过程一致,并且在量化过程中并未改变网络结构。
对于AlexNet,GoogleNet,Vgg-16和ResNet进行4bit量化,即k=17,都进行了5次迭代,类的划分为:{5,4,4,2,2},最后一次迭代不需要重训练。上述四种网络结构是目前主流的几种网络结构。本实施例应用于这几种网络结构上进行参数量化,都未对网络性能产生影响,甚至比原先全精度网络有性能提升。
本实施例在不损失网络精度的情况下,将神经网络的32位浮点数量化为4bit,具有很高的实用价值。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于矢量量化的迭代式神经网络量化方法,其特征在于,包括如下步骤:
步骤S1,聚类:将网络参数进行聚类,并存储每一类的中心;
步骤S2,基于误差的划分:检测每一类量化造成的网络损失即量化损失,并依据量化损失将步骤S1得到的所有类划分为量化部分和重训练部分;
步骤S3,参数共享:将量化部分的网络参数量化为所属类的中心;
步骤S4,重训练:固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
2.根据权利要求1所述的基于矢量量化的迭代式神经网络量化方法,其特征在于,所述步骤S1,采用k-means聚类方法。
3.根据权利要求2所述的基于矢量量化的迭代式神经网络量化方法,其特征在于,所述k-means聚类方法包括如下步骤:
对神经网络每一层进行k-means聚类:
其中,k为聚类参数,k=2b+1,依据网络需要量化到的比特数b而定;是聚类的第i个类;ω表示网络参数;ci是聚类结果中第i个类的中心,数值上等于该类所有网络参数的均值,即
聚类之后得到每一类所包含的网络参数量化到类的中心。
4.根据权利要求1所述的基于矢量量化的迭代式神经网络量化方法,其特征在于,所述步骤S2,依据量化对网络性能的影响即网络损失对聚类的结果进行排序,并将所有类划分为两部分,即量化部分和重训练部分其中量化部分对网络性能的影响大于重训练部分对网络性能的影响。
5.根据权利要求4所述的基于矢量量化的迭代式神经网络量化方法,其特征在于,其中,W表示类的数量。
6.根据权利要求1述的基于矢量量化的迭代式神经网络量化方法,其特征在于,所述重训练是对之前划分的重训练部分的网络参数进行操作,量化部分的网络参数保持不变。
7.根据权利要求6述的基于矢量量化的迭代式神经网络量化方法,其特征在于,重训练过程中,利用musk函数来控制梯度的传播:
8.根据权利要求1-7中任一项所述的基于矢量量化的迭代式神经网络量化方法,其特征在于,还包括如下步骤:
步骤S5,迭代式执行步骤S1~步骤S4,直到所有网络参数都被量化。
9.一种基于矢量量化的迭代式神经网络量化系统,其特征在于,包括如下模块:
-聚类模块,将网络参数进行聚类,并存储每一类的中心;
-基于误差的划分模块,检测每一类量化造成的网络损失即量化损失,并依据量化损失将聚类模块聚得的所有类划分为量化部分和重训练部分;
-参数共享模块,将量化部分的网络参数量化为所属类的中心;
-重训练模块,固定量化后的网络参数,更新重训练部分的网络参数来弥补量化误差,恢复量化后网络的精度。
10.根据基于矢量量化的迭代式神经网络量化系统,其特征在于,还包括如下任意一项或任意多项特征:
-所述聚类模块、基于误差的划分模块、参数共享模块和重训练模块迭代式进行,直到所有网络参数都被量化为止;
-所述量化部分的量化损失大于重训练部分的量化损失。
CN201810042040.0A 2018-01-16 2018-01-16 基于矢量量化的迭代式神经网络量化方法及系统 Active CN108268950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810042040.0A CN108268950B (zh) 2018-01-16 2018-01-16 基于矢量量化的迭代式神经网络量化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810042040.0A CN108268950B (zh) 2018-01-16 2018-01-16 基于矢量量化的迭代式神经网络量化方法及系统

Publications (2)

Publication Number Publication Date
CN108268950A true CN108268950A (zh) 2018-07-10
CN108268950B CN108268950B (zh) 2020-11-10

Family

ID=62775749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810042040.0A Active CN108268950B (zh) 2018-01-16 2018-01-16 基于矢量量化的迭代式神经网络量化方法及系统

Country Status (1)

Country Link
CN (1) CN108268950B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583322A (zh) * 2018-11-09 2019-04-05 长沙小钴科技有限公司 一种人脸识别深度网络训练方法和系统
CN110348562A (zh) * 2019-06-19 2019-10-18 北京迈格威科技有限公司 神经网络的量化策略确定方法、图像识别方法和装置
CN112001476A (zh) * 2019-05-27 2020-11-27 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
WO2020260656A1 (en) * 2019-06-26 2020-12-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Pruning and/or quantizing machine learning predictors
CN113139650A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 深度学习模型的调优方法和计算装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN103898890A (zh) * 2014-03-20 2014-07-02 中冶集团武汉勘察研究院有限公司 一种基于bp神经网络的双桥静力触探数据的土层量化分层方法
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
CN106897734A (zh) * 2017-01-12 2017-06-27 南京大学 基于深度卷积神经网络的层内非均匀的k平均聚类定点量化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN103898890A (zh) * 2014-03-20 2014-07-02 中冶集团武汉勘察研究院有限公司 一种基于bp神经网络的双桥静力触探数据的土层量化分层方法
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
CN106897734A (zh) * 2017-01-12 2017-06-27 南京大学 基于深度卷积神经网络的层内非均匀的k平均聚类定点量化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AOJUN ZHOU, ANBANG YAO ET AL.: ""INCREMENTAL NETWORK QUANTIZATION: TOWARDS LOSSLESS CNNS WITH LOW-PRECISION WEIGHTS"", 《ARXIV》 *
JIAXIANG WU, CONG LENG ET AL.: ""Quantized Convolutional Neural Networks for Mobile Devices"", 《ARXIV》 *
熊红凯,高星等: ""可解释化、结构化、多模态化的深度神经网络"", 《模式识别与人工智能》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583322A (zh) * 2018-11-09 2019-04-05 长沙小钴科技有限公司 一种人脸识别深度网络训练方法和系统
CN109583322B (zh) * 2018-11-09 2020-07-17 长沙小钴科技有限公司 一种人脸识别深度网络训练方法和系统
CN112001476A (zh) * 2019-05-27 2020-11-27 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110348562A (zh) * 2019-06-19 2019-10-18 北京迈格威科技有限公司 神经网络的量化策略确定方法、图像识别方法和装置
CN110348562B (zh) * 2019-06-19 2021-10-15 北京迈格威科技有限公司 神经网络的量化策略确定方法、图像识别方法和装置
WO2020260656A1 (en) * 2019-06-26 2020-12-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Pruning and/or quantizing machine learning predictors
CN113139650A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 深度学习模型的调优方法和计算装置

Also Published As

Publication number Publication date
CN108268950B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN108268950A (zh) 基于矢量量化的迭代式神经网络量化方法及系统
Lin et al. Towards convolutional neural networks compression via global error reconstruction.
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN108304928A (zh) 基于改进聚类的深度神经网络的压缩方法
Chen et al. Psvit: Better vision transformer via token pooling and attention sharing
Jeon et al. Mr. biq: Post-training non-uniform quantization based on minimizing the reconstruction error
CN110210620A (zh) 一种用于深度神经网络的通道剪枝方法
Chen et al. Diffrate: Differentiable compression rate for efficient vision transformers
Fang et al. EAT-NAS: Elastic architecture transfer for accelerating large-scale neural architecture search
Vorona et al. DeepSPACE: Approximate geospatial query processing with deep learning
CN112686384A (zh) 一种自适应比特位宽的神经网络量化方法及其装置
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN114580636A (zh) 基于三目标联合优化的神经网络轻量化部署方法
Shi et al. EBNAS: Efficient binary network design for image classification via neural architecture search
Yang et al. Searching for burgerformer with micro-meso-macro space design
CN116755876A (zh) 一种大模型混合并行训练加速方法和系统
Yang et al. Skeleton neural networks via low-rank guided filter pruning
Liu et al. Improvement of pruning method for convolution neural network compression
CN114510871A (zh) 基于思维进化和lstm的云服务器性能衰退预测方法
CN117914690A (zh) 一种基于深度学习gcn-lstm的边缘节点网络故障预测方法
Ling et al. TaiJiNet: Towards partial binarized convolutional neural network for embedded systems
CN115310607A (zh) 一种基于注意力图的视觉Transformer模型剪枝方法
Xu et al. Towards efficient filter pruning via adaptive automatic structure search
CN113033653A (zh) 一种边-云协同的深度神经网络模型训练方法
Yang et al. FedMAE: Federated Self-Supervised Learning with One-Block Masked Auto-Encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant