CN114239861A - 基于多教师联合指导量化的模型压缩方法及系统 - Google Patents

基于多教师联合指导量化的模型压缩方法及系统 Download PDF

Info

Publication number
CN114239861A
CN114239861A CN202111543069.5A CN202111543069A CN114239861A CN 114239861 A CN114239861 A CN 114239861A CN 202111543069 A CN202111543069 A CN 202111543069A CN 114239861 A CN114239861 A CN 114239861A
Authority
CN
China
Prior art keywords
network
teacher
training
student
quantitative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111543069.5A
Other languages
English (en)
Inventor
曾焕强
胡浩麟
陈婧
施一帆
朱建清
黄德天
温廷羲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202111543069.5A priority Critical patent/CN114239861A/zh
Publication of CN114239861A publication Critical patent/CN114239861A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实例公开了一种基于多教师联合指导量化的网络模型压缩方法及系统,利用模型量化降低深度神经网络的存储开销,提高推理速度;基于在线同步学习的联合训练范式,结合集成学习中对弱学习进行线性组合构建强学习的思想,由多个教师网络对学生网络进行量化感知训练,充分利用教师网络提供的量化梯度信息,以弥补量化压缩造成的性能损失;最后,再以全精度模型作为教师网络,通过离线知识蒸馏进一步训练量化学生网络,最终得到精度不逊于复杂模型的轻量级模型。本发明有效结合了模型量化、知识蒸馏以及集成学习的优势,在实现模型压缩与加速的同时也提升了模型性能。

Description

基于多教师联合指导量化的模型压缩方法及系统
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种基于多教师联合指导量化的模型压缩方法及系统。
背景技术
网络模型压缩是指在不显著影响模型精度的前提下,通过对深度神经网络进行压缩和加速来轻量级模型,从而使深度学习模型能够部署到资源有限的边缘设备上,具有非常重要的实际应用价值。网络模型压缩广泛应用于各类人工智能任务,例如物体识别与检测、实例分割以及自然语言处理等。
量化是一种网络模型压缩与加速方法,其核心思想是以远低于32位全精度的比特位数来存储神经网络中的权重参数与特征激活值,从而显著降低网络模型的内存开销,提升推理速度;基于多教师架构的知识蒸馏是另一种模型压缩方法,采用在线同步学习与集成学习的思想,以多个教师网络的类别分布输出联合监督学生网络的训练,完成知识迁移,使学生网络突破其性能瓶颈。
发明内容
为此,本发明实施例提供一种基于多教师联合指导量化的网络模型压缩方法及系统,对深度神经网络进行有效的压缩与加速,并提高其分类性能。
为了实现上述目的,本发明实施例提供如下技术方案:
一种基于多教师联合指导量化的网络模型压缩方法,其特征在于,包括:
S11,基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
S12,设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
S13,基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
S14,利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
优选的,所述S11,具体包括:
基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器。为了将参数、激活值的数值分布限制在k比特位数所能表示的区间内,首先定义截断函数:
Figure BDA0003414889020000021
其中t表示输入,max,min分别表示区间的最大值与最小值。
对于权重参数w,将其量化为分布在区间[-2k-1,2k-1-1]中的整数,则作用于权重参数的量化器为
Figure BDA0003414889020000022
对于特征激活值a,将其量化为分布在区间[0,2k-1]中的整数,则作用于特征激活值的量化器为
Figure BDA0003414889020000023
优选的,所述S12,具体包括:
设计学生网络与教师网络,其中教师网络采用ResNet-56,其网络结构为[16,(16,16)×9,(32,32)×9,(64,64)×9,avg,FC],学生网络采用ResNet-32,其网络结构为[16,(16,16)×5,(32,32)×5,(64,64)×5,avg,FC],其中每个数字代表卷积+批标准化+ReLU激活函数三层结构,数字大小代表卷积层输出通道数,×N代表相同卷积块重复次数,avg表示全局平均池化,FC表示全连接层。
将S11所得量化器作用于网络模型中的权重参数与特征激活值,分别对教师、学生网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络。
优选的,所述S13,具体包括:
基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练。在线同步学习时,上述三个网络各自的训练损失函数为:
Figure BDA0003414889020000024
其中,φi∈(φ123)分别表示量化学生网络、量化教师网络及全精度教师网络,N=3,表示当前有3个网络进行在线同步学习;DKL为相对熵损失函数,
Figure BDA0003414889020000025
为第i个网络的交叉熵损失函数,pi为第i个网络的类别预测分布。
优选的,所述S14,具体包括:
利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练。知识蒸馏损失函数为:
LKD=(1-λ)LC+λDKL(pT||pS)
其中,LC表示交叉熵损失函数,DKL表示相对熵损失函数,pT与pS分别表示全精度教师网络与量化学生网络输出的类别预测分布,λ表示平衡知识蒸馏损失与交叉熵损失的相对贡献的超参数。通过知识蒸馏,训练学生网络直至收敛,得到轻量级网络模型,实现对教师网络的模型压缩。
另一方面,一种基于多教师联合指导量化的网络模型压缩系统,包括:
量化器获取模块,用于基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
量化预训练模块,用于设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
联合训练模块,用于基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
离线知识蒸馏模块,用于利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
再一方面,一种计算机可读存储介质,其上存储有程序指令,其所述程序指令被处理器执行时实现一种基于多教师联合指导量化的模型压缩方法的步骤。
本发明实施例具有以下优点:
本发明提供一种基于多教师联合指导量化的网络模型压缩方法及系统,首先对模型中的权重参数与特征激活值分别进行量化,显著降低了模型的存储开销并提升其推理速度;基于集成学习与知识蒸馏的思想,构建了多教师网络与学生网络在线同步学习的架构,充分利用量化梯度信息,弥补模型量化带来的性能损失;最后,结合离线知识蒸馏的模型压缩方法,进一步提升量化学生网络的精度,得到轻量级、高性能、易部署的模型,增强深度学习算法在实际场景中的适用性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法的流程图;
图2为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法中在线同步学习方法示意图;
图3为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法的整体训练流程图;
图4为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩系统的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本实施例一种基于多教师联合指导量化的网络模型压缩方法,该方法包括:
步骤S11,基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
其中,均匀量化是指将参数的连续取值近似转化为有限多个等间隔离散值的过程。为了将参数、激活值的数值分布限制在k比特位数所能表示的区间内,首先定义截断函数:
Figure BDA0003414889020000041
其中t表示输入,max,min分别表示区间的最大值与最小值。
对于权重参数w,将其量化为分布在区间[-2k-1,2k-1-1]中的整数,则作用于权重参数的量化器为
Figure BDA0003414889020000042
对于特征激活值a,将其量化为分布在区间[0,2k-1]中的整数,则作用于特征激活值的量化器为
Figure BDA0003414889020000043
结合上述量化器,得到权重参数与特征激活值的量化结果,如下:
Figure BDA0003414889020000051
其中,
Figure BDA0003414889020000052
Figure BDA0003414889020000053
为量化后的权重参数与特征激活值;
Figure BDA0003414889020000054
表示向下取整运算;SW与SA是可学习的超参数,分别表示在参数与激活值量化过程中的缩放因子,其作用是将参数、激活值的数值分布缩放至量化区间中,避免丢失过多信息。
步骤S12,设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络。
设计学生网络与教师网络,其中教师网络采用ResNet-56,其网络结构为[16,(16,16)×9,(32,32)×9,(64,64)×9,avg,FC],学生网络采用ResNet-32,其网络结构为[16,(16,16)×5,(32,32)×5,(64,64)×5,avg,FC],其中每个数字代表卷积+批标准化+ReLU激活函数三层结构,数字大小代表卷积层输出通道数,×N代表相同卷积块重复次数,avg表示全局平均池化,FC表示全连接层。
训练和测试采用的数据集为CIFAR-100数据集。CIFAR-100数据集中含有总计60000张彩色图像,分属于100个不同类别,每张图像分辨率为32×32。数据集预先划分为训练集和测试集,其中训练集内含50000张图像,测试集内含10000张图像,每类各有500个训练图像和100个测试图像。
本实施例中,在量化预训练阶段,采用随机梯度下降法对教师、学生网络分别进行训练,批次大小为64,初始学习率为0.01,每10次迭代将其减小至初始值的1/10,总迭代次数为30。
步骤S13,基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练。
基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练。在线同步学习时,上述三个网络各自的训练损失函数为:
Figure BDA0003414889020000055
其中,φi∈(φ123)分别表示量化学生网络、量化教师网络及全精度教师网络,N=3,表示当前有3个网络进行在线同步学习;DKL为相对熵损失函数,对于网络φ1,需要与φ2、φ3分别计算相对熵损失。以网络φ1与φ2为例,φ1对应的相对熵损失函数表示如下:
Figure BDA0003414889020000061
其中,p1与p2表示网络φ1与φ2的类别预测分布;J表示输入样本及标签的总数,xj表示第j个输入样本;M表示当前分类任务中的类别总数,m表示其中的第m类;τ表示知识蒸馏的温度超参数,
Figure BDA0003414889020000062
表示在输入样本xj时,第i个网络对第m类的预测概率,即网络中softmax分类器的输出,表示如下:
Figure BDA0003414889020000063
其中,
Figure BDA0003414889020000064
表示在输入样本xj时,第i个网络对于第m类的预测结果,即网络中softmax分类器的输入。
Figure BDA0003414889020000065
为第i个网络的交叉熵损失函数,表示如下:
Figure BDA0003414889020000066
其中,J表示输入样本及标签的总数,xj与yj分别表示第j个输入样本与其对应的标签;I(yj,m)为指示函数,表示如下:
Figure BDA0003414889020000067
本实施例中,在联合训练阶段,采用随机梯度下降法对全精度教师网络、量化教师网络以及量化学生网络进行在线同步训练,批次大小为64,初始学习率为0.01,在第80次迭代时将其减小至初始值的1/10,总迭代次数为100。
参见图2所示,在线同步学习的训练范式能够让多个教师网络与学生网络构成集合,使他们在训练过程中共同学习,并进行灵活调整。基于量化后的教师、学生网络的输出分布对全精度教师网络进行量化感知训练,能够提高其对量化信息的适应性。
步骤S14,利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练。知识蒸馏损失函数为:
LKD=(1-λ)LC+λDKL(pT||pS)
其中,LC表示交叉熵损失函数,DKL表示相对熵损失函数,pT与pS分别表示全精度教师网络与量化学生网络输出的类别预测分布,λ表示平衡知识蒸馏损失与交叉熵损失的相对贡献的超参数,优选的,λ=0.9。
本实施例中,在离线知识蒸馏阶段,采用随机梯度下降法对量化学生网络进行知识蒸馏训练,批次大小为64,初始学习率为0.01,在第20次迭代时将其减小至初始值的1/10,总迭代次数为80。
参见图3所示,结合上述量化预训练、基于在线同步学习的联合训练以及离线知识蒸馏训练,构成本发明实例的整体训练流程。
参见图4所示,本实施例一种基于多教师联合指导量化的网络模型压缩系统,包括:
量化器获取模块401,用于基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
量化预训练模块402,用于设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
联合训练模块403,用于基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
离线知识蒸馏模块404,用于利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩;
另一方面,本发明还提供一种计算机可读存储介质,其上存储有程序指令,所述程序指令被处理器执行时实现以下步骤:
基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (7)

1.一种基于多教师联合指导量化的网络模型压缩方法,其特征在于,包括:
S11,基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
S12,设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
S13,基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
S14,利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
2.根据权利要求1所述的基于多教师联合指导量化的网络模型压缩方法,其特征在于,所述S11,具体包括:
基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;将参数、激活值的数值分布限制在k比特位数所能表示的区间内,首先定义截断函数:
Figure FDA0003414889010000011
其中t表示输入,max,min分别表示区间的最大值与最小值;
对于权重参数w,将其量化为分布在区间[-2k-1,2k-1-1]中的整数,则作用于权重参数的量化器为
Figure FDA0003414889010000012
对于特征激活值a,将其量化为分布在区间[0,2k-1]中的整数,则作用于特征激活值的量化器为
Figure FDA0003414889010000013
3.根据权利要求1所述的基于多教师联合指导量化的网络模型压缩方法,其特征在于,所述S12,具体包括:
设计学生网络与教师网络,其中教师网络采用ResNet-56,其网络结构为[16,(16,16)×9,(32,32)×9,(64,64)×9,avg,FC],学生网络采用ResNet-32,其网络结构为[16,(16,16)×5,(32,32)×5,(64,64)×5,avg,FC],其中每个数字代表卷积+批标准化+ReLU激活函数三层结构,数字大小代表卷积层输出通道数,×N代表相同卷积块重复次数,avg表示全局平均池化,FC表示全连接层。
将S11所得量化器作用于网络模型中的权重参数与特征激活值,分别对教师、学生网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络。
4.根据权利要求1所述的基于多教师联合指导量化的网络模型压缩方法,其特征在于,所述S13,具体包括:
基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;在线同步学习时,上述三个网络各自的训练损失函数为:
Figure FDA0003414889010000021
其中,φi∈(φ123)分别表示量化学生网络、量化教师网络及全精度教师网络,N=3,表示当前有3个网络进行在线同步学习;DKL为相对熵损失函数,
Figure FDA0003414889010000022
为第i个网络的交叉熵损失函数,pi为第i个网络的类别预测分布。
5.根据权利要求1所述的基于多教师联合指导量化的网络模型压缩方法,其特征在于,所述S14,具体包括:
利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练;知识蒸馏损失函数为:
LKD=(1-λ)LC+λDKL(pT||pS)
其中,LC表示交叉熵损失函数,DKL表示相对熵损失函数,pT与pS分别表示全精度教师网络与量化学生网络输出的类别预测分布,λ表示平衡知识蒸馏损失与交叉熵损失的相对贡献的超参数;通过知识蒸馏,训练学生网络直至收敛,得到轻量级网络模型,实现对教师网络的模型压缩。
6.一种基于多教师联合指导量化的模网络型压缩系统,其特征在于,包括:
量化器获取模块,用于基于均匀量化策略,根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器;
量化预训练模块,用于设计学生网络与教师网络,结合量化器分别对两个网络进行低比特位数预训练,得到初始化的量化学生网络与量化教师网络,同时保留原始的全精度教师网络;
联合训练模块,用于基于在线同步学习的训练范式,对量化学生网络、量化教师网络及全精度教师网络进行联合训练;
离线知识蒸馏模块,用于利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏,对量化学生网络进行蒸馏训练,直至收敛,得到轻量级学生网络,实现对教师网络的模型压缩。
7.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202111543069.5A 2021-12-16 2021-12-16 基于多教师联合指导量化的模型压缩方法及系统 Withdrawn CN114239861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111543069.5A CN114239861A (zh) 2021-12-16 2021-12-16 基于多教师联合指导量化的模型压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111543069.5A CN114239861A (zh) 2021-12-16 2021-12-16 基于多教师联合指导量化的模型压缩方法及系统

Publications (1)

Publication Number Publication Date
CN114239861A true CN114239861A (zh) 2022-03-25

Family

ID=80757302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111543069.5A Withdrawn CN114239861A (zh) 2021-12-16 2021-12-16 基于多教师联合指导量化的模型压缩方法及系统

Country Status (1)

Country Link
CN (1) CN114239861A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049055A (zh) * 2022-06-29 2022-09-13 厦门大学 基于动态双可训练界限的超分神经网络的量化方法
CN115223049A (zh) * 2022-09-20 2022-10-21 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术
WO2023245873A1 (zh) * 2022-06-21 2023-12-28 华南理工大学 一种生成式无数据量化方法、识别方法、装置及存储介质
WO2024055694A1 (en) * 2022-09-15 2024-03-21 Huawei Technologies Co., Ltd. Method and device for compressing generative pre-trained language models via quantization
CN115049055B (zh) * 2022-06-29 2024-06-04 厦门大学 基于动态双可训练界限的超分神经网络的量化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023245873A1 (zh) * 2022-06-21 2023-12-28 华南理工大学 一种生成式无数据量化方法、识别方法、装置及存储介质
CN115049055A (zh) * 2022-06-29 2022-09-13 厦门大学 基于动态双可训练界限的超分神经网络的量化方法
CN115049055B (zh) * 2022-06-29 2024-06-04 厦门大学 基于动态双可训练界限的超分神经网络的量化方法
WO2024055694A1 (en) * 2022-09-15 2024-03-21 Huawei Technologies Co., Ltd. Method and device for compressing generative pre-trained language models via quantization
CN115223049A (zh) * 2022-09-20 2022-10-21 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术
CN115223049B (zh) * 2022-09-20 2022-12-13 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法

Similar Documents

Publication Publication Date Title
He et al. Asymptotic soft filter pruning for deep convolutional neural networks
EP3270330B1 (en) Method for neural network and apparatus performing same method
CN114239861A (zh) 基于多教师联合指导量化的模型压缩方法及系统
CN110969251B (zh) 基于无标签数据的神经网络模型量化方法及装置
CN112101190A (zh) 一种遥感图像分类方法、存储介质及计算设备
CN114118402A (zh) 基于分组注意力机制的自适应剪枝模型压缩算法
WO2022051856A1 (en) Method and system for training a neural network model using adversarial learning and knowledge distillation
CN113420651B (zh) 深度卷积神经网络的轻量化方法、系统及目标检测方法
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
CN116362325A (zh) 一种基于模型压缩的电力图像识别模型轻量化应用方法
CN112200296A (zh) 网络模型量化方法、装置、存储介质及电子设备
CN114490065A (zh) 一种负载预测方法、装置及设备
Nazari et al. Multi-level binarized lstm in eeg classification for wearable devices
CN114463036A (zh) 一种信息处理方法及装置、存储介质
CN114943335A (zh) 一种三值神经网络逐层优化方法
Ma et al. A survey of sparse-learning methods for deep neural networks
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN111783936B (zh) 卷积神经网络构建方法、装置、设备及介质
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN116433980A (zh) 脉冲神经网络结构的图像分类方法、装置、设备及介质
Hung et al. Bridge deep learning to the physical world: An efficient method to quantize network
CN113157453B (zh) 一种基于任务复杂度的高能效目标检测任务动态调度方法
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN114065920A (zh) 一种基于通道级剪枝神经网络的图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220325

WW01 Invention patent application withdrawn after publication