CN108921294A - 一种用于神经网络加速的渐进式块知识蒸馏方法 - Google Patents

一种用于神经网络加速的渐进式块知识蒸馏方法 Download PDF

Info

Publication number
CN108921294A
CN108921294A CN201810758814.XA CN201810758814A CN108921294A CN 108921294 A CN108921294 A CN 108921294A CN 201810758814 A CN201810758814 A CN 201810758814A CN 108921294 A CN108921294 A CN 108921294A
Authority
CN
China
Prior art keywords
network
block
sub
student
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810758814.XA
Other languages
English (en)
Inventor
李玺
赵涵斌
汪慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810758814.XA priority Critical patent/CN108921294A/zh
Publication of CN108921294A publication Critical patent/CN108921294A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种用于神经网络加速的渐进式块知识蒸馏方法,方法具体包括以下步骤:输入原复杂网络和相关参数;将原复杂网络分成多个子网络块,按块设计学生子网络块并随机初始化参数;将输入的原复杂网络作为第一次块蒸馏过程的教师网络,块蒸馏过程完成得到一个学生网络,其中第一个学生子网络块参数最优;将上一次块蒸馏过程得到的学生网络作为下一次块蒸馏过程的教师网络,得到下一个学生网络,其中块蒸馏结束的学生子网络块参数最优;所有子网络块蒸馏过程完成,得到最终的简单学生网络以及最优参数。本发明能在一般的硬件架构上能够达到对模型压缩加速的效果,同时实现简单,是一个既有效并且实用简单的深度网络模型压缩加速算法。

Description

一种用于神经网络加速的渐进式块知识蒸馏方法
技术领域
本发明涉及深度网络模型压缩加速领域,尤其涉及一种用于神经网络加速的渐进式块知识蒸馏方法。
背景技术
从2016年开始,人工智能热潮席卷了全球。包括谷歌、微软、百度、阿里巴巴、腾讯等国内外各大公司纷纷投入大量的力量到有关人工智能的研究中;中国政府在不久前也发布了《新一代人工智能发展规划》,制定了未来中国人工智能发展的目标。这几年来,深度学习的迅猛发展,使得计算机视觉、自然语言处理等一系列领域的最先进的算法性能都有了跨越式的进展。在人工智能领域,传统的芯片计算架构无法支撑深度学习等并行计算的需求,面对未来10年高达2000亿美元的市场,谷歌、英伟达等国内外芯片公司纷纷投入研究新的人工智能芯片(云端训练、云端推理、设备端推理、类脑芯片)来更好地储备数据、加速计算过程。但在工业界深度学习算法却还没得到较好的应用,其中一个原因是深度神经网络的模型庞大、计算量巨大,动辄数百兆的深度神经网络部署到实际产品中困难较大。另一方面,在一些嵌入式的平台上,存储计算资源都十分有限,深度学习算法的移植更加困难。所以,研究深度网络模型的压缩加速,是一个对工业界和学术界都非常有价值的问题,以ResNet-50为例,它有50层卷积网络、超过95MB的储存需求,如果剪枝一些冗余的权重后,其大概能节约75%的参数和50%的计算时间。当前主要用于深度网络模型压缩加速的方案有参数剪枝和共享、低秩分解、知识蒸馏等。有些方案(如低秩分解)只能够实现理论上对模型的压缩加速,但在实际硬件结构上依然无法达到对模型加速的效果;有些方案(如知识蒸馏)能够在实际的硬件条件下实现对模型的压缩加速,但是实现起来较复杂。本发明基于这些问题,致力于研究设计出一个既有效并且实用简单的深度网络模型压缩加速算法,能在一般的硬件架构上能够达到对模型压缩加速的效果,同时实现起来相对简单。
目前有关压缩和加速卷积神经网络模型的方法大致可以分为四种方案:基于参数剪枝与共享的方法(又包括模型量化和二值化、参数共享、结构矩阵三类),基于低秩分解的方法,基于转换卷积滤波器的方法,基于知识蒸馏的方法。从原理上来说,前三种方案的想法都关注如何通过不同的低存储成本的计算加速技术来获得一个有效的网络,通过计算加速角度的方案大多在实现运用上需要配合一定的硬件支持;相反,第四种方案知识蒸馏是通过一个教师-学生的学习策略来实现将原来的网络模型压缩成一个低复杂度的模型的目的,在不损失太多模型准确率的情况下,低复杂度的网络模型能够具备高运算效率以及较少的存储开销,因此知识蒸馏方案相比前三种方案在应用上所需的硬件要求更少。然而,对于知识蒸馏方案,对模型蒸馏过程的有效性经常受到两方面的困难,一方面来自教师-学生网络的优化问题,另一方面是关于学生网络结构的设计问题。知识蒸馏方案的缺陷是对于如何设计以及学习一个好的学生网络非常困难。对于知识蒸馏方案,对模型蒸馏过程的有效性经常受到两方面的困难,一方面来自教师-学生网络的优化问题,另一方面是关于学生网络结构的设计问题。大多现有的策略从教师模型中都只用一步的机制来获得学生模型,在一个巨大搜索空间中找到逼近教师网络函数的学生网络函数需要非常多的网络配置,在实际中,这个非联合优化过程也是难以处理和不稳定的。通过子网络块的形式的蒸馏方案是非常容易优化的,但是不能够有效地保持层特定子网络块之间的序列依赖关系。另外,现有的对学生子网络块的设计准则也不能很好地保护原子网络块在特征提取中的感受野信息。
发明内容
为了解决现有技术中存在的问题,本发明旨在研究设计出一种用于神经网络加速的渐进式块知识蒸馏方法,该方法能在一般的硬件架构上能够达到对模型压缩加速的效果,同时实现相对简单。针对知识蒸馏方案的缺陷,对于如何设计以及学习一个好的学生网络非常困难,本发明将网络分成多个子网络块,在子网络块级别上根据提出的设计准则设计学生网络,然后渐进式地逐块地蒸馏神经网络中的知识,大大降低设计和训练学生网络的难度。本发明具体采用的技术方案如下:
一种用于神经网络加速的渐进式块知识蒸馏方法包括以下步骤:
S1、输入原复杂网络和相关参数,定义方法目标;
S2、将原复杂网络分成多个子网络块,基于学生子网络块设计准则,按块设计学生子网络块并随机初始化其参数;
S3、蒸馏第一个子网络块,将S1中输入的原复杂网络作为第一次块蒸馏过程的教师网络,一次块蒸馏过程完成后得到第一个学生网络,其中蒸馏完成的第一个学生子网络块具有最优参数;
S4、蒸馏下一个子网络块,将上一次块蒸馏过程得到的学生网络作为本次块蒸馏过程的教师网络,一次块蒸馏过程完成得到下一个学生网络,其中蒸馏完成的下一个学生子网络块具有最优参数;
S5、重复步骤S4直到所有子网络块蒸馏过程完成,将最后一次块蒸馏得到的学生网络和最优参数作为最终的简单学生网络以及最终参数。
作为优选,S1中所述的原复杂网络定义如下:
原复杂网络T由N个子网络块构成,表示如下:
ti是在T中的第i个子网络块,i∈{1,2,...,N},c是分类器的映射函数,为简化网络表达的符号;
该复杂网络的参数表示为Wc是指c和ti的参数,i∈{1,2,...,N};
所述的子网络块定义如下:一个神经网络由卷积层、池化层和全连接层构成,将神经网络中两个相邻池化层间的子网络定义为一个子网络块。
作为优选,S1中所述的方法目标定义如下:设计一个具有高计算效率和低存储占用空间的学生网络,并学习训练得到最优的参数;所述学生网络由N个学生子网络块构成,用表示,其中si表示S中的第i个学生子网络块,i∈{1,2,...,N},c是分类器的映射函数;所述最优的参数用表示,Wc是指c和si的参数。
作为优选,所述S2包含以下子步骤:
S21、将原复杂网络T分成N个子网络块{t1,t2,t3,...,tN};
S22、根据所述学生子网络块设计准则,按块设计得到N个学生子网络块{s1,s2,s3,...,sN};
S23、随机初始化学生子网络块的参数;
所述的学生子网络块设计准则具体操作如下:首先,根据子网络块的结构,将块中包含的所有卷积层的通道数剪枝一半来构建一个简单的学生子网络块,然后通过在块的末尾添加一层1×1的卷积层将输出的通道数量扩展为原子网络块的输出通道数量。
作为优选,所述的一次块蒸馏过程表示如下:
其中Ak表示第k次块蒸馏的中间网络,sj是指蒸馏结束参数最优的学生子网络块,ti是教师子网络块;Ak的参数表示如下:
块蒸馏过程通过最小化目标损失函数得到学生子网络块的最优参数;蒸馏第k个子网络块时,对于单个输入数据样本对(I,y)的目标损失函数表示为:
其中λlocal是用来平衡目标损失函数的两项影响的参数,表示整个目标损失函数的第一项,表示整个目标损失函数的第二项,I是整个网络的单个输入数据样本,y是单个输入数据样本的真实标签,||·||F表示F范数,softmax(·)表示网络最终的输出和y的softmax损失值;
因此,针对共有M个输入数据样本对的训练数据集{(I(1),y(1),...(I(M),y(M))},其最终的目标损失函数表示通过优化这个目标损失函数,得到对应子网络块的最优参数。
与传统知识蒸馏方法相比,本发明的一种用于神经网络加速的渐进式块知识蒸馏方法能够有效地对深度神经网络进行压缩和加速,并且实现简单;本发明的渐进式的块知识蒸馏策略以及在子网络块级别上设计学生子网络块克服了传统知识蒸馏方法的缺陷,能够大大降低设计和学习学生网络的难度。
附图说明
图1为本发明方法流程图;
图2为本发明提出的学生子网络块设计准则的示意图;
图3为本发明的渐进式块知识蒸馏算法的示意图;
图4为传统知识蒸馏算法的示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
如图1所示,一种用于神经网络加速的渐进式块知识蒸馏方法包括以下步骤:
S1、输入原复杂网络和相关参数,定义方法目标;
本步骤中,所述的原复杂网络定义如下:
原复杂网络T由N个子网络块构成,表示如下:
ti是在T中的第i个子网络块,i∈{1,2,...,N},c是分类器的映射函数,为简化网络表达的符号;
该复杂网络的参数表示为Wc是指c和ti的参数,i∈{1,2,...,N};
所述的子网络块定义如下:一个神经网络由卷积层、池化层和全连接层构成,将神经网络中两个相邻池化层间的子网络定义为一个子网络块。
本步骤中所述的方法目标定义如下:设计一个具有高计算效率和低存储占用空间的学生网络,并学习训练得到最优的参数;所述学生网络由N个学生子网络块构成,用表示,其中si表示S中的第i个学生子网络块,i∈{1,2,...,N},c是分类器的映射函数;所述最优的参数用表示,Wc是指c和si的参数。
S2、将原复杂网络分成多个子网络块,基于学生子网络块设计准则,按块设计学生子网络块并随机初始化其参数;
本步骤包含以下几个子步骤:
S21、将原复杂网络T分成N个子网络块{t1,t2,t3,...,tN};
S22、根据所述学生子网络块设计准则设计得到N个学生子网络块{s1,s2,s3,...,sN};
S23、随机初始化学生子网络块的参数;
所述的学生子网络块设计准则具体操作如下:首先,根据教师子网络块的结构,将块中包含的所有卷积层的通道数剪枝一半来构建一个简单的学生子网络块,然后通过在块的末尾添加一层1×1的卷积层将输出的通道数量扩展为原教师子网络块的输出通道数量。图2展现的是使用本文提出的学生子网络块的设计原则,根据一个包含两层K×K卷积层的教师子网络块设计对应的学生子网络块的过程,不难发现,使用本发明提出的设计准则能够保持教师子网络块和设计得到的学生子网络块的感受一致。基于这种子网络块设计方案,设计的学生子网络块不可以改变下一个/上一个块的输入/输出大小,同时需要保持感受不变,可以作为设计子网络块的准则。另外,学生子网络块的设计基于教师子网络的结构,但是相比教师子网络块,包含更少的参数量和更少的浮点数运算。
S3、蒸馏第一个子网络块,将S1中输入的原复杂网络作为第一次块蒸馏过程的教师网络,一次块蒸馏过程完成后得到第一个学生网络,其中蒸馏完成的第一个学生子网络块具有最优参数;
S4、蒸馏下一个子网络块,将上一次块蒸馏过程得到的学生网络作为本次块蒸馏过程的教师网络,一次块蒸馏过程完成得到下一个学生网络,其中蒸馏完成的下一个学生子网络块具有最优参数;
通过步骤S3和S4可知:通过本发明的方法对N个教师子网络块构成的原复杂网络T压缩加速需要N个块知识蒸馏过程。用一个辅助函数 来表示在第k个块学习阶段的中间网络,sj是指已经优化好的学生子网络块,ti是教师子网络块。Ak的参数可以用表示。A0是原教师网络T,AN是优化后得到的学生网络S。
本发明的渐进式的块知识蒸馏如图3所示(传统的知识蒸馏如图4所示):首先最左边是我们用第一次蒸馏来蒸馏第一个块的过程,将原复杂网络作为第一次蒸馏过程的教师网络,教师子网络块和学生子网络块如图3所示;然后通过第二次蒸馏来蒸馏第二个子网络块,以第一次蒸馏过程得到的学生网络作为教师网络,蒸馏第二个子网块;同理,经过渐进式的多个子网络块优化过程,直至得到最终的一个学生网络,便完成了对原模型的压缩和加速。
蒸馏每个块主要的方法是通过优化一个目标损失函数,损失函数由局部损失和分类损失两项构成,以蒸馏第k个教师子网络块为例,第一项局部损失是用于让学生子网块输出的特征图匹配教师子网块输出的特征图,是比较学生子网络块sk的输出与教师网络对应位置的教师子网络块tk的输出,定义为 第二项是本身就有的分类损失,是为了让学生网络的最后的输出逼近真实的标注结果(ground truth),被定义为可以对蒸馏得到的知识进行一个矫正。在蒸馏第k个教师子网络块的过程中对于单个输入数据样本对(I,y)的目标损失函数可以表示成 λlocal是用来平衡目标损失函数的两项的影响,I是整个网络的单个输入数据样本,y是单个输入数据样本的真实标签,||·||F表示F范数,softmax(·)表示网络最终的输出和y的softmax损失值;
因此,针对共有M个输入数据样本的训练数据集{(I(1),y(1),...(I(M),y(M))}最终的目标函数表示
S5、重复步骤S4直到所有子网络块蒸馏过程完成,将最后一次块蒸馏得到的学生网络和最优参数作为最终的简单学生网络以及最终参数。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对实验结果展示其效果。
本实施例使用用于图像分类任务在CIFAR100、ImageNet数据集上的原始复杂VGG-16网络,首先将VGG-16分为5个教师子网络块,然后开展基于本发明方法的压缩和加速。
实施效果如表1和表2所示。如表1所示,在CIFAR100数据集上,本发明对初始模型(OriginalVGG)进行压缩,在对原模型的参数量减少40%,计算量减少169%的情况下,模型的Top-1准确率只下降了2.22%,Top-5准确率只下降了1.89%。如表2,在ImageNet数据集上,本发明与最近最先进的方法(APoZ-1、APoZ-2、Taylor-1、Taylor-2、ThiNet-Conv、ThiNet-GAP等)的结果作对比分析,从原理上来说,本发明基于渐进式的块学习机制以及保护结构的设计准则,不但能够很好地维持压缩后的模型的准确率还可以提高准确率,同时减少了显著的计算量。与其他先进方法的结果对比,可以观察到本文提出的方法压缩后的模型准确率是最高的,并且模型的计算量的减少量也是与其他方法相当的。
表1 本发明方法在CIFAR100数据集上的实施效果
表2 本发明方法在ImageNet数据集上的实施效果
综上,本发明实施例区别于现有技术,在子网络块级别上对原始VGG-16网络进行压缩和加速,渐进式地对网络块进行块知识蒸馏。相比现有技术,在减少相同程度的网络的参数量和计算量的时候,模型的收敛速度更快,并且实现更简单。
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (5)

1.一种用于神经网络加速的渐进式块知识蒸馏方法,包括以下步骤:
S1、输入原复杂网络和相关参数,定义方法目标;
S2、将原复杂网络分成多个子网络块,基于学生子网络块设计准则,按块设计学生子网络块并随机初始化其参数;
S3、蒸馏第一个子网络块,将S1中输入的原复杂网络作为第一次块蒸馏过程的教师网络,一次块蒸馏过程完成后得到第一个学生网络,其中蒸馏完成的第一个学生子网络块具有最优参数;
S4、蒸馏下一个子网络块,将上一次块蒸馏过程得到的学生网络作为本次块蒸馏过程的教师网络,一次块蒸馏过程完成得到下一个学生网络,其中蒸馏完成的下一个学生子网络块具有最优参数;
S5、重复步骤S4直到所有子网络块蒸馏过程完成,将最后一次块蒸馏得到的学生网络和最优参数作为最终的简单学生网络以及最终参数。
2.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法,其特征在于S1中所述的原复杂网络定义如下:
原复杂网络T由N个子网络块构成,表示如下:
ti是在T中的第i个子网络块,i∈{1,2,...,N},c是分类器的映射函数,为简化网络表达的符号;
该复杂网络的参数表示为Wc是指c和ti的参数,i∈{1,2,...,N};
所述的子网络块定义如下:一个神经网络由卷积层、池化层和全连接层构成,将神经网络中两个相邻池化层间的子网络定义为一个子网络块。
3.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法,其特征在于S1中所述的方法目标定义如下:设计一个具有高计算效率和低存储占用空间的学生网络,并学习训练得到最优的参数;所述学生网络由N个学生子网络块构成,用表示,其中si表示S中的第i个学生子网络块,i∈{1,2,...,N},c是分类器的映射函数;所述最优的参数用表示,Wc是指c和si的参数。
4.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法,其特征在于所述S2包含以下子步骤:
S21、将原复杂网络T分成N个子网络块{t1,t2,t3,...,tN};
S22、根据所述学生子网络块设计准则,按块设计得到N个学生子网络块{s1,s2,s3,...,sN};
S23、随机初始化学生子网络块的参数;
所述的学生子网络块设计准则具体操作如下:首先,根据子网络块的结构,将块中包含的所有卷积层的通道数剪枝一半来构建一个简单的学生子网络块,然后通过在块的末尾添加一层1×1的卷积层将输出的通道数量扩展为原子网络块的输出通道数量。
5.如权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法,S3中所述的一次块蒸馏过程表示如下:
其中Ak表示第k次块蒸馏的中间网络,sj是指蒸馏结束参数最优的学生子网络块,ti是教师子网络块;Ak的参数表示如下:
块蒸馏过程通过最小化目标损失函数得到学生子网络块的最优参数;蒸馏第k个子网络块时,对于单个输入数据样本对(I,y)的目标损失函数表示为:
其中λlocal是用来平衡目标损失函数的两项影响的参数,表示整个目标损失函数的第一项,表示整个目标损失函数的第二项,I是整个网络的单个输入数据样本,y是单个输入数据样本的真实标签,||·||F表示F范数,softmax(·)表示网络最终的输出和y的softmax损失值;
因此,针对共有M个输入数据样本对的训练数据集{(I(1),y(1)),...(I(M),y(M))},其最终的目标损失函数表示通过优化这个目标损失函数,得到对应子网络块的最优参数。
CN201810758814.XA 2018-07-11 2018-07-11 一种用于神经网络加速的渐进式块知识蒸馏方法 Pending CN108921294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810758814.XA CN108921294A (zh) 2018-07-11 2018-07-11 一种用于神经网络加速的渐进式块知识蒸馏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810758814.XA CN108921294A (zh) 2018-07-11 2018-07-11 一种用于神经网络加速的渐进式块知识蒸馏方法

Publications (1)

Publication Number Publication Date
CN108921294A true CN108921294A (zh) 2018-11-30

Family

ID=64410594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810758814.XA Pending CN108921294A (zh) 2018-07-11 2018-07-11 一种用于神经网络加速的渐进式块知识蒸馏方法

Country Status (1)

Country Link
CN (1) CN108921294A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919300A (zh) * 2019-02-25 2019-06-21 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110135562A (zh) * 2019-04-30 2019-08-16 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN110163342A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 一种模型压缩方法、装置、设备及存储介质
CN110163295A (zh) * 2019-05-29 2019-08-23 四川智盈科技有限公司 一种基于提前终止的图像识别推理加速方法
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111260056A (zh) * 2020-01-17 2020-06-09 北京爱笔科技有限公司 一种网络模型蒸馏方法及装置
CN111582479A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 神经网络模型的蒸馏方法和装置
CN111695375A (zh) * 2019-03-13 2020-09-22 上海云从企业发展有限公司 基于模型蒸馏的人脸识别模型压缩算法、介质及终端
CN112200062A (zh) * 2020-09-30 2021-01-08 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112348167A (zh) * 2020-10-20 2021-02-09 华东交通大学 一种基于知识蒸馏的矿石分选方法和计算机可读存储介质
JP2021022050A (ja) * 2019-07-25 2021-02-18 国立大学法人 和歌山大学 ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法
CN112529188A (zh) * 2021-02-18 2021-03-19 中国科学院自动化研究所 基于知识蒸馏的工业过程优化决策模型迁移优化方法
RU2749970C1 (ru) * 2019-10-24 2021-06-21 Бейдзин Сяоми Интиллиджент Текнолоджи Ко., ЛТД. Способ сжатия модели нейронной сети, а также способ и устройство для перевода языкового корпуса
WO2021227804A1 (zh) * 2020-05-15 2021-11-18 华为技术有限公司 一种模型训练方法及相关设备
CN113792871A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 神经网络训练方法、目标识别方法、装置和电子设备
CN113792713A (zh) * 2021-11-16 2021-12-14 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
CN114418039A (zh) * 2022-03-30 2022-04-29 浙江大学 一种提升分类公平性的异构分类器聚合方法
US11403523B2 (en) 2019-06-07 2022-08-02 Tata Consultancy Services Limited Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks
WO2023020613A1 (zh) * 2021-08-20 2023-02-23 华为技术有限公司 一种模型蒸馏方法及相关设备
CN116311102A (zh) * 2023-03-30 2023-06-23 哈尔滨市科佳通用机电股份有限公司 基于改进的知识蒸馏的铁路货车故障检测方法及系统

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919300A (zh) * 2019-02-25 2019-06-21 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN111695375B (zh) * 2019-03-13 2021-04-20 上海云从企业发展有限公司 基于模型蒸馏的人脸识别模型压缩方法、介质及终端
CN111695375A (zh) * 2019-03-13 2020-09-22 上海云从企业发展有限公司 基于模型蒸馏的人脸识别模型压缩算法、介质及终端
CN110163342A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 一种模型压缩方法、装置、设备及存储介质
CN110163342B (zh) * 2019-04-17 2023-07-25 腾讯科技(深圳)有限公司 一种模型压缩方法、装置、设备及存储介质
CN110135562B (zh) * 2019-04-30 2020-12-01 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置
CN110135562A (zh) * 2019-04-30 2019-08-16 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置
CN110163295A (zh) * 2019-05-29 2019-08-23 四川智盈科技有限公司 一种基于提前终止的图像识别推理加速方法
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
US11403523B2 (en) 2019-06-07 2022-08-02 Tata Consultancy Services Limited Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks
JP7438517B2 (ja) 2019-07-25 2024-02-27 国立大学法人 和歌山大学 ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法
JP2021022050A (ja) * 2019-07-25 2021-02-18 国立大学法人 和歌山大学 ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
US11556723B2 (en) 2019-10-24 2023-01-17 Beijing Xiaomi Intelligent Technology Co., Ltd. Neural network model compression method, corpus translation method and device
RU2749970C1 (ru) * 2019-10-24 2021-06-21 Бейдзин Сяоми Интиллиджент Текнолоджи Ко., ЛТД. Способ сжатия модели нейронной сети, а также способ и устройство для перевода языкового корпуса
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN110852426B (zh) * 2019-11-19 2023-03-24 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111260056B (zh) * 2020-01-17 2024-03-12 北京爱笔科技有限公司 一种网络模型蒸馏方法及装置
CN111260056A (zh) * 2020-01-17 2020-06-09 北京爱笔科技有限公司 一种网络模型蒸馏方法及装置
CN111582479A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 神经网络模型的蒸馏方法和装置
CN111582479B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 神经网络模型的蒸馏方法和装置
WO2021227804A1 (zh) * 2020-05-15 2021-11-18 华为技术有限公司 一种模型训练方法及相关设备
CN112200062A (zh) * 2020-09-30 2021-01-08 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112348167B (zh) * 2020-10-20 2022-10-11 华东交通大学 一种基于知识蒸馏的矿石分选方法和计算机可读存储介质
CN112348167A (zh) * 2020-10-20 2021-02-09 华东交通大学 一种基于知识蒸馏的矿石分选方法和计算机可读存储介质
CN112529188A (zh) * 2021-02-18 2021-03-19 中国科学院自动化研究所 基于知识蒸馏的工业过程优化决策模型迁移优化方法
CN113792871A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 神经网络训练方法、目标识别方法、装置和电子设备
WO2023020613A1 (zh) * 2021-08-20 2023-02-23 华为技术有限公司 一种模型蒸馏方法及相关设备
CN113792713B (zh) * 2021-11-16 2022-03-25 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
CN113792713A (zh) * 2021-11-16 2021-12-14 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
CN114418039A (zh) * 2022-03-30 2022-04-29 浙江大学 一种提升分类公平性的异构分类器聚合方法
CN116311102A (zh) * 2023-03-30 2023-06-23 哈尔滨市科佳通用机电股份有限公司 基于改进的知识蒸馏的铁路货车故障检测方法及系统
CN116311102B (zh) * 2023-03-30 2023-12-15 哈尔滨市科佳通用机电股份有限公司 基于改进的知识蒸馏的铁路货车故障检测方法及系统

Similar Documents

Publication Publication Date Title
CN108921294A (zh) 一种用于神经网络加速的渐进式块知识蒸馏方法
Liu et al. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN110379506B (zh) 针对心电图数据使用二值化神经网络的心律不齐检测方法
CN106547735A (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN111079795B (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN107644235A (zh) 基于半监督学习的图像自动标注方法
CN105512289A (zh) 基于深度学习和哈希的图像检索方法
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN104112018B (zh) 一种大规模图像检索方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN108121975A (zh) 一种联合原始数据和生成数据的人脸识别方法
CN104598972A (zh) 一种大规模数据回归神经网络快速训练方法
CN109284741A (zh) 一种基于深度哈希网络的大规模遥感影像检索方法和系统
Jiang et al. Federated learning algorithm based on knowledge distillation
Nguyen et al. Image colorization using a deep convolutional neural network
CN104850533A (zh) 一种带约束的非负矩阵分解方法及求解方法
CN112132268A (zh) 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质
Zhang et al. Summary of convolutional neural network compression technology
CN102013106A (zh) 基于Curvelet冗余字典的图像稀疏表示方法
Ma et al. A survey of sparse-learning methods for deep neural networks
CN108805280A (zh) 一种图像检索的方法和装置
CN104331717B (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
CN103440332B (zh) 一种基于关系矩阵正则化增强表示的图像检索方法
CN107133348A (zh) 大规模图片集中基于语义一致性的近似搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130

RJ01 Rejection of invention patent application after publication