CN110097178A - 一种基于熵注意的神经网络模型压缩与加速方法 - Google Patents
一种基于熵注意的神经网络模型压缩与加速方法 Download PDFInfo
- Publication number
- CN110097178A CN110097178A CN201910400927.7A CN201910400927A CN110097178A CN 110097178 A CN110097178 A CN 110097178A CN 201910400927 A CN201910400927 A CN 201910400927A CN 110097178 A CN110097178 A CN 110097178A
- Authority
- CN
- China
- Prior art keywords
- network
- teacher
- entropy
- training
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006835 compression Effects 0.000 title claims abstract description 7
- 238000007906 compression Methods 0.000 title claims abstract description 7
- 238000003062 neural network model Methods 0.000 title claims abstract description 5
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000005012 migration Effects 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000000576 coating method Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Abstract
本发明属于神经网络技术领域,涉及一种基于熵注意的神经网络模型压缩与加速方法。本发明通过构建一个参数量大,计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习,通过该学习过程,最终得到了一个参数量少、计算量少且性能优越的小模型,该小模型能够满足现实场景的实时性以及精度要求。
Description
技术领域
本发明属于神经网络技术领域,涉及一种基于熵注意的神经网络模型压缩与加速方法。
背景技术
近几年来,卷积神经网络的发展非常的迅速,随着理论的不断完善以及现代大规模计算平台的支持,卷积神经网络取得了很大的进步。在不同的领域上都有应用,且在不同的应用上都表现出了非常好的性能。
卷积神经网络是计算密集型的网络模型,优势的性能依赖于包含具有数百万乃至数千万的卷积神经网络模型,模型的训练涉及大量的矩阵运算,因此对于计算平台的要求较高,由于GPU的大规模并行计算的优势,很适合矩阵的运算,因此GPU的高性能计算对于卷积神经网络的成功发展起到了关键的作用。例如,在2012年的ImageNet挑战赛中,AlexNet网络取得了最好的结果,AlexNet包含5层卷积层以及三个全连接层,整体包含六千万的参数量,在ImageNet数据集上且采用英伟达K40机器需要花三天模型训练时间。又比如在2014年的ImageNet挑战赛中,VGGNet系列模型取得了当年非常好的成绩,其中如VGG16模型,其中包含13层卷积,3个全连接层,包含上亿的参数,参数量的巨大,虽然性能提升了,需要花费大量的训练时间,同样推断时间也会花费很长的时间。模型的参数量的增加虽然能够增加性能,但是不适合在低功耗、低存储、低带宽的嵌入式设备应用,如果一个模型参数量太大,无疑也会限制其在工程上的应用。
发明内容
本发明的目的是针对上述问题,为了克服由于卷积神经网络模型参数量以及计算量庞大,在现实场景的实时性应用中很难部署的问题。本发明提供了一种基于熵注意的神经网络模型压缩与加速方法,本发明由以下步骤构成:
S1、获取训练样本:采集原始的光学图像数据,并进行数据归一化以及数据增强处理,获得训练样本;
S2、构建卷积神经网络模型
S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络,卷积滤波器主要的是对输入数据进行特征提取,卷积滤波器的数量表示提取的特征的丰富程度,池化滤波器的作用是用来对输入进行降维,从而降低模型的参数与计算代价。构建的该模型为一个深的且宽的大模型,在本方法中称为教师网络模型,为T模型,教师网络模型参数量高、计算量高。但是性能优越。
S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型,该模型在本方法中称为学生网络,为S模型,学生网络的参数量少,计算代价小,但是性能相比较大模型要差很多。
S3、卷积神经网络模型训练。
S31、参数初始化,包括学习率α,训练迭代次数为n,Mini-batch大小A,教师网络宽度W和深度H、学生网络宽度w和深度h,训练集和验证集占比r,采用随机梯度优化算法SGD作为优化函数。
S32、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据,初始训练一个设定宽度W和深度H的教师网络,训练直到设定的迭代次数n,使教师网络在当前数据集上达到较好的性能,然后进入S33。
S33、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据,通过构建教师网络和学生网络之间的共同的目标函数,训练得到学生网络,具体构建方式如下:
S331、将教师网络和指定宽度w和深度h的学生网络结合。输入数据将同时通过教师网络和学生网络。初始训练性能较好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标,而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标,带温度的Softmax的公式定义如下所示:
其中qi为带温度T的Softmax概率,Z是某个类别的logit输出,下标j是指所有类别,i是指其中一个类别,T为温度值,总的损失函数是软硬目标之间的加权和,设为LKD,公式如下所示:
LKD=a*S+b*H (2)
该损失函数可以单独作为监督信息,其中系数a和b分别为软目标与硬目标的加权系数,通过加权系数的设置,能够平衡两个交叉熵损失之间的重要性。最终训练得到的学生网络与教师网络的性能非常相近,但是从复杂度以及计算量来看,学生网络相比教师网络要小很多。KD教师学生网络模型见附图1。
S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失,该损失构建分为低中高三个位置,教师网络在三个位置对学生网络进行监督学习,该损失函数在本方法中称为EAKT损失,附图2为EAKT教师学生网络模型。
为了构建注意力机制,考虑到卷积层的每个激活通道的信息量的差异,附图3为不同ResNet网络的不同层的信息熵注意力响应图。引入信息熵,具体的信息熵的公式如下所示:
其中E为某个激活通道的信息熵值,每个激活通道将得到一个参数向量,将每个通道对应的参数向量中不同的值分到K个组中,每个组的概率为pi。
在卷积神经网络中,某一层的激活张量设为S∈RM×C×H×W其中M为Batch Size的大小,包含C个通道,且通道维度为H×W。
定义熵注意策略的映射函数为F1和F2,该映射函数将4D张量S映射成一个同样为4D张量的O。映射的过程分为两个步骤,一是根据信息熵的大小来获取重要的激活通道,设映射函数为F1,二是对重要的激活通道做函数映射得到熵注意力图,设映射函数为F2。那么映射方式如式(3)和(4)所示,附图4为熵注意迁移原理图示。
其中CT为教师网络的激活通道维度,CS为学生网络的对应的及激活通道维度。定义映射函数F1,由前面提到的信息熵公式,为了计算每个通道的信息熵,因为输入激活张量是一个4D张量,首先在H×W维度求均值,那么可得到M1∈RM×C,然后按照Batch Size的维度将其分为N个部分,然后计算C个激活通道中每个激活通道的概率,该概率中即是对应的每个通道的信息熵值。那么即为丢弃信息熵值比较小的激活通道后的维度,得到同学生网络对应位置激活通道维度相同的教师网络的激活张量。
为了定义空间注意力映射函数F2,在本节中做出的隐含假设是隐藏神经元激活的绝对值(在给定输入上评估网络时产生)可以用作关于重要性的指示。因此,通过考虑张量S的元素的绝对值,可以通过在通道维度上计算这些值的统计来构建空间注意力图。更具体地说,在这项工作中,考虑以下基于激活的空间注意力方法,如下公式所示:
·绝对值的和:
·绝对值的平方的和:
其中Oi=O(:,i,:,:)。
在本文中采用作为空间注意力映射函数,如公式(3)所示,通过F2的映射,最终四维的激活张量变换成RN×H×W三维的张量。同F1结合,整体构成一个整的映射函数F来获取信息量大的激活通道注意。
假设迁移损失被放置在相同空间分辨率的学生网络和教师网络熵注意力图之间。设T,S和WT,WS相应地表示学生,教师及其对应的权重,让L(WS,y)表示学生网络的输出概率与真实标签之间构成的标准的交叉熵损失。设B表示熵注意力图的所有教师和学生激活层对的索引。我们提出的基于熵注意的知识精炼方法(Entropy Attention KnowledgeTransfer,简称EAKT),那么可以定义总的损失函数LEAKT如下:
其中为某一教师和学生中间层的激活输出对。可以看出,在熵注意力迁移损失项,使用l2归一化处理,采用E/||E||2替换掉仅仅为E的情况,注意力图的归一化处理对于学生网络的训练成功至关重要。
如果考虑提出的损失函数LEAKT和基本的KD损失LKD的结合,构建一个由两个损失的加权和构成的联合损失,损失函数用LEAKT+KD表示,其中,因为LKD和LEAKT中都存在学生网络的输出和真实标签的交叉熵损失项,因此在构建联合损失的情况下只需要保留其中一项由学生网络的输出与真实标签构成的交叉熵损失。该联合损失函数的设定,将使教师网络提供更强的监督信息来监督学生网络的学习,学生网络将得到比单一损失函数的情形更多的信息,从而从知识迁移中学到更多的教师网络的知识,具体公式如下:
LEAKT+KD=LKD+β*LEAKT (6)
其中β是权重系数。
通过调节β的值,可以平衡两个目标函数的重要性。
S36、判断迭代次数是否达到设定的总的迭代次数n,若是,则执行步骤S37;如果不是,那么继续执行步骤S33,直到达到迭代次数n。
S37、模型基本训练学习完毕,保存学生模型在验证集上最优的模型。得到的该学生模型将具备性能趋近于教师网络且模型参数量和计算量都少,达到模型压缩与加速的效果。
综上所诉,本发明的有益之处在于:通过构建一个参数量大,计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习,通过该学习过程,最终得到了一个参数量少、计算量少且性能优越的小模型,该小模型能够满足现实场景的实时性以及精度要求。
附图说明
图1为KD教师学生网络模型;
图2为EAKT教师学生网络模型;
图3为不同ResNet网络的不同层的熵注意力响应图;
图4为熵注意迁移原理图示;
图5为Cifar10图像数据展示。
具体实施方式
为了使本发明的目的,技术方案和优点能够更加清楚,本发明以Cifar10目标识别任务作为例子,对本发明作进一步描述。
Cifar10训练样本为32×32的光学图像,图像数据展示见附图5。
在Cifar10数据集上实验,以ResNet系列网络,但不同深度和宽度的网络分别作为教师网络和学生网络。具体的实验结果如表1所示。
表1 Cifar10上基于信息熵注意力的知识迁移对比实验
教师 | 参数(M) | 学生 | 参数(M) | 教师 | 学生(%) | F_AT | EAT | KD | F_AT+KD | EAT+KD |
R-16-2 | 0.69 | R-16-1 | 0.18 | 93.83 | 90.85 | 91.41 | 91.31 | 91.33 | 91.31 | 91.33 |
R-40-2 | 2.2 | R-16-1 | 0.18 | 94.82 | 90.85 | 91.17 | 91.36 | 91.43 | 91.54 | 91.64 |
R-40-2 | 2.2 | R-40-1 | 0.57 | 94.82 | 92.88 | 93.41 | 93.44 | 93.30 | 93.54 | 93.50 |
R-64-2 | 3.8 | R-16-1 | 0.18 | 95.00 | 90.85 | 91.60 | 91.66 | 91.44 | 91.38 | 91.42 |
R-64-2 | 3.8 | R-40-1 | 0.57 | 95.00 | 92.88 | 93.49 | 93.41 | 93.58 | 93.60 | 93.73 |
R-64-2 | 3.8 | R-64-1 | 0.96 | 95.00 | 93.01 | 94.15 | 94.24 | 94.04 | 93.83 | 94.25 |
基于ResNet不同深度不同宽度作为教师学生网络在Cifar10数据集上实验,其中R-16-2以及R-16-1表示采用ResNet网络,卷积层的个数为16层,且R-16-2相比R-16-1的网络宽度要大一倍,因此R-16-2作为教师网络,而R-16-1作为学生网络。从实验的结果可以看出,学生网络的参数量相比教师网络的参数量减小了大约3倍,且教师网络的性能要比学生网络好,其他的如R-40-1,R-40-2,R-64-1,R-64-2为同样表示,且学生网络的参数量相比教师网络都有成倍的减小。
其中EAKT表示仅仅是熵注意迁移方法,KD为仅仅是知识迁移方法,EAKT+KD表示EAKT方法与KD方法的结合。F_AT表示不采用提到的方法,将所有的激活通道都作为强监督信息,F_AT+KD即将所有的激活通道作为强监督信息且采用同时采用KD方法。
从实验中可以看出,F_AT与EAKT以及F_AT+KD与EAKT+KD性能基本相似,且在某些情况下要比全激活的情况要好,说明熵注意知识迁移方法的有效性,因为网络模型本身的冗余性质,通过信息熵对于信息含量高的激活通道提取获得熵注意性能不仅不会丢失,且对性能的提升有一定的帮助作用。
从实验中可以得出,采用KD和EAKT方法的结合方式要比单个采用一种方法性能要好一些,说明两种方法构成的强监督要比单种方法构成的强监督包含更多的信息量,从而使学生网络学到更多的知识,达到更好的性能。
Claims (1)
1.一种基于熵注意的神经网络模型压缩与加速方法,其特征在于,包括以下步骤:
S1、获取训练样本:采集原始的光学图像数据,并进行数据归一化以及数据增强处理,获得训练样本;
S2、构建卷积神经网络模型
S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络,卷积滤波器用于对输入数据进行特征提取,卷积滤波器的数量表示提取的特征的丰富程度,池化滤波器用于对输入进行降维,从而降低模型的参数与计算代价;将该步骤构建的模型定义为教师网络;
S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型,定义为学生网络;
S3、卷积神经网络模型训练
S31、参数初始化,包括学习率α,训练迭代次数为n,Mini-batch大小A,教师网络宽度W和深度H、学生网络宽度w和深度h,训练集和验证集占比r,采用随机梯度优化算法SGD作为优化函数;
S32、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据,初始训练教师网络,训练直到设定的迭代次数n,得到初始训练好的教师网络,然后进入S33;
S33、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据,通过构建教师网络和学生网络之间的共同的目标函数,训练得到学生网络,具体构建方式如下:
S331、将教师网络和指定宽度w和深度h的学生网络结合,即输入数据将同时通过教师网络和学生网络;初始训练好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标S,而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标H,带温度的Softmax的公式定义如下所示:
其中qi为带温度的Softmax概率,Z是某个类别的logit输出,下标j是指所有类别,i是指其中一个类别,T为温度值,总的损失函数是软硬目标之间的加权和,设为LKD,公式如下所示:
LKD=a*S+b*H
该损失函数用于单独作为监督信息,其中系数a和b分别为软目标与硬目标的加权系数,通过加权系数的设置,能够平衡两个交叉熵损失之间的重要性;
S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失,该损失构建分为低中高三个位置,教师网络在三个位置对学生网络进行监督学习,将损失函数在定义为EAKT损失;
为了构建注意力机制,考虑到卷积层的每个激活通道的信息量的差异,引入信息熵,具体的信息熵的公式如下所示:
其中E为某个激活通道的信息熵值,每个激活通道将得到一个参数向量,将每个通道对应的参数向量中不同的值分到K个组中,每个组的概率为pi;
在卷积神经网络中,某一层的激活张量设为S∈RM×C×H×W,其中M为Batch Size的大小,包含C个通道,且通道维度为H×W;
定义熵注意策略的映射函数为F1和F2,该映射函数将4D张量S映射成一个同样为4D张量的O;映射的过程分为两个步骤,一是根据信息熵的大小来获取重要的激活通道,设映射函数为F1,二是对重要的激活通道做函数映射得到注意力图,设映射函数为F2;映射方式如下
F1:
F2:
其中CT为教师网络的激活通道维度,CS为学生网络对应的激活通道维度;定义映射函数F1,由前面提到的信息熵公式,为了计算每个通道的信息熵,因为输入激活张量是一个4D张量,首先在H×W维度求均值,得到M1∈RM×C,然后按照Batch Size的维度将其分为N个部分,然后计算C个激活通道中每个激活通道的概率,该概率中即是对应的每个通道的信息熵值;即为丢弃信息熵值比较小的激活通道后的维度,得到同学生网络对应位置激活通道维度相同的教师网络的激活张量;
采用作为空间注意力映射函数,其中Oi=O(:,i,:,:),通过F2的映射,最终四维的激活张量变换成RN×H×W三维的张量;同F1结合,整体构成一个整的映射函数F来获取信息量大的激活通道注意;
假设迁移损失被放置在相同空间分辨率的学生网络和教师网络熵注意力图之间,设T,S和WT,WS相应地表示学生,教师及其对应的权重,L(WS,y)表示学生网络的输出概率与真实标签之间构成的标准的交叉熵损失,B表示熵注意力图的所有教师和学生激活层对的索引;定义总的损失函数LEAKT如下:
其中为某一教师和学生中间层的激活输出对;可以看出,在熵注意力迁移损失项,使用l2归一化处理,采用E/||E||2替换掉仅仅为E的情况,注意力图的归一化处理对于学生网络的训练成功至关重要。
将损失函数LEAKT和LKD结合,构建一个由两个损失的加权和构成的联合损失,损失函数用LEAKT+KD表示,其中,因为LKD和LEAKT中都存在学生网络的输出和真实标签的交叉熵损失项,因此在构建联合损失的情况下只需要保留其中一项由学生网络的输出与真实标签构成的交叉熵损失,具体公式如下:
LEAKT+KD=LKD+β*LEAKT
其中β是权重系数,通过调节β的值,可以平衡两个目标函数的重要性;
S36、判断迭代次数是否达到设定的总的迭代次数n,若是,则执行步骤S37;如果不是,回到步骤S33,直到达到迭代次数n;
S37、模型基本训练学习完毕,保存学生网络模型作为结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400927.7A CN110097178A (zh) | 2019-05-15 | 2019-05-15 | 一种基于熵注意的神经网络模型压缩与加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400927.7A CN110097178A (zh) | 2019-05-15 | 2019-05-15 | 一种基于熵注意的神经网络模型压缩与加速方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110097178A true CN110097178A (zh) | 2019-08-06 |
Family
ID=67448045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910400927.7A Pending CN110097178A (zh) | 2019-05-15 | 2019-05-15 | 一种基于熵注意的神经网络模型压缩与加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097178A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162018A (zh) * | 2019-05-31 | 2019-08-23 | 天津开发区精诺瀚海数据科技有限公司 | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 |
CN110619385A (zh) * | 2019-08-31 | 2019-12-27 | 电子科技大学 | 基于多级剪枝的结构化网络模型压缩加速方法 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN110909815A (zh) * | 2019-11-29 | 2020-03-24 | 深圳市商汤科技有限公司 | 神经网络训练、图像处理方法、装置及电子设备 |
CN111027870A (zh) * | 2019-12-14 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111160409A (zh) * | 2019-12-11 | 2020-05-15 | 浙江大学 | 一种基于共同特征学习的异构神经网络知识重组方法 |
WO2021102123A1 (en) * | 2019-11-22 | 2021-05-27 | Tencent America LLC | Method and apparatus for three-dimensional (3d)-tree coding for neural network model compression |
CN113011570A (zh) * | 2021-04-30 | 2021-06-22 | 电子科技大学 | 一种卷积神经网络模型的自适应高精度压缩方法及系统 |
CN113128661A (zh) * | 2020-01-15 | 2021-07-16 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN113392984A (zh) * | 2021-06-29 | 2021-09-14 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和产品 |
WO2021248868A1 (zh) * | 2020-09-02 | 2021-12-16 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
US11234024B2 (en) | 2019-11-26 | 2022-01-25 | Tencent America LLC | Method and apparatus for three-dimensional (3D)-tree coding for neural network model compression |
CN114861890A (zh) * | 2022-07-05 | 2022-08-05 | 深圳比特微电子科技有限公司 | 构建神经网络的方法、装置、计算设备及存储介质 |
CN115511059A (zh) * | 2022-10-12 | 2022-12-23 | 北华航天工业学院 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
US20180157992A1 (en) * | 2016-12-05 | 2018-06-07 | Apple Inc. | Model and ensemble compression for metric learning |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN109409500A (zh) * | 2018-09-21 | 2019-03-01 | 清华大学 | 基于知识蒸馏与非参数卷积的模型加速方法及装置 |
-
2019
- 2019-05-15 CN CN201910400927.7A patent/CN110097178A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180157992A1 (en) * | 2016-12-05 | 2018-06-07 | Apple Inc. | Model and ensemble compression for metric learning |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
US20180365564A1 (en) * | 2017-06-15 | 2018-12-20 | TuSimple | Method and device for training neural network |
CN109409500A (zh) * | 2018-09-21 | 2019-03-01 | 清华大学 | 基于知识蒸馏与非参数卷积的模型加速方法及装置 |
Non-Patent Citations (3)
Title |
---|
BA J.: "Do deep nets really need to be deep?" * |
纪荣嵘: "深度神经网络压缩与加速综述" * |
韩韬: "资源受限下的卷积神经网络模型优化研究" * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162018A (zh) * | 2019-05-31 | 2019-08-23 | 天津开发区精诺瀚海数据科技有限公司 | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 |
CN110619385A (zh) * | 2019-08-31 | 2019-12-27 | 电子科技大学 | 基于多级剪枝的结构化网络模型压缩加速方法 |
CN110619385B (zh) * | 2019-08-31 | 2022-07-29 | 电子科技大学 | 基于多级剪枝的结构化网络模型压缩加速方法 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN110852426B (zh) * | 2019-11-19 | 2023-03-24 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
US11871043B2 (en) | 2019-11-22 | 2024-01-09 | Tencent America LLC | Method and apparatus for three-dimensional (3D)-tree coding for neural network model compression |
US11589078B2 (en) | 2019-11-22 | 2023-02-21 | Tencent America LLC | Method and apparatus for three-dimensional (3D)-tree coding for neural network model compression |
WO2021102123A1 (en) * | 2019-11-22 | 2021-05-27 | Tencent America LLC | Method and apparatus for three-dimensional (3d)-tree coding for neural network model compression |
CN114041292A (zh) * | 2019-11-22 | 2022-02-11 | 腾讯美国有限责任公司 | 用于神经网络模型压缩的三维(3d)树编解码的方法和装置 |
US11234024B2 (en) | 2019-11-26 | 2022-01-25 | Tencent America LLC | Method and apparatus for three-dimensional (3D)-tree coding for neural network model compression |
CN110909815B (zh) * | 2019-11-29 | 2022-08-12 | 深圳市商汤科技有限公司 | 神经网络训练、图像处理方法、装置及电子设备 |
CN110909815A (zh) * | 2019-11-29 | 2020-03-24 | 深圳市商汤科技有限公司 | 神经网络训练、图像处理方法、装置及电子设备 |
CN111160409A (zh) * | 2019-12-11 | 2020-05-15 | 浙江大学 | 一种基于共同特征学习的异构神经网络知识重组方法 |
CN111027870A (zh) * | 2019-12-14 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
WO2021114911A1 (zh) * | 2019-12-14 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN113128661A (zh) * | 2020-01-15 | 2021-07-16 | 富士通株式会社 | 信息处理装置和信息处理方法 |
US11341326B2 (en) | 2020-09-02 | 2022-05-24 | Zhejiang Lab | Compression method and platform of pre-training language model based on knowledge distillation |
GB2608919A (en) * | 2020-09-02 | 2023-01-18 | Zhejiang Lab | Knowledge distillation-based compression method for pre-trained language model, and platform |
WO2021248868A1 (zh) * | 2020-09-02 | 2021-12-16 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
CN113011570A (zh) * | 2021-04-30 | 2021-06-22 | 电子科技大学 | 一种卷积神经网络模型的自适应高精度压缩方法及系统 |
CN113011570B (zh) * | 2021-04-30 | 2023-04-07 | 电子科技大学 | 一种采用神经网络压缩系统的人脸表情识别方法 |
CN113392984B (zh) * | 2021-06-29 | 2022-10-14 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和产品 |
CN113392984A (zh) * | 2021-06-29 | 2021-09-14 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和产品 |
CN114861890A (zh) * | 2022-07-05 | 2022-08-05 | 深圳比特微电子科技有限公司 | 构建神经网络的方法、装置、计算设备及存储介质 |
CN114861890B (zh) * | 2022-07-05 | 2022-09-09 | 深圳比特微电子科技有限公司 | 构建神经网络的方法、装置、计算设备及存储介质 |
CN115511059A (zh) * | 2022-10-12 | 2022-12-23 | 北华航天工业学院 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
CN115511059B (zh) * | 2022-10-12 | 2024-02-09 | 北华航天工业学院 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097178A (zh) | 一种基于熵注意的神经网络模型压缩与加速方法 | |
CN108717568B (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN107437096B (zh) | 基于参数高效的深度残差网络模型的图像分类方法 | |
CN107358293B (zh) | 一种神经网络训练方法及装置 | |
CN106991440B (zh) | 一种基于空间金字塔的卷积神经网络的图像分类方法 | |
CN110991299A (zh) | 一种物理域上针对人脸识别系统的对抗样本生成方法 | |
CN109902546A (zh) | 人脸识别方法、装置及计算机可读介质 | |
CN108288035A (zh) | 基于深度学习的多通道图像特征融合的人体动作识别方法 | |
CN111080513B (zh) | 一种基于注意力机制的人脸图像超分辨率方法 | |
CN109584337A (zh) | 一种基于条件胶囊生成对抗网络的图像生成方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN105631415A (zh) | 一种基于卷积神经网络的视频行人识别方法 | |
CN107729993A (zh) | 利用训练样本及折中度量的3d卷积神经网络构建方法 | |
CN108009594B (zh) | 一种基于变分组卷积的图像识别方法 | |
CN109063724A (zh) | 一种增强型生成式对抗网络以及目标样本识别方法 | |
CN105844635A (zh) | 一种基于结构字典的稀疏表示深度图像重建算法 | |
CN110188863A (zh) | 一种卷积神经网络的卷积核及其压缩算法 | |
CN105981050A (zh) | 用于从人脸图像的数据提取人脸特征的方法和系统 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN109214298A (zh) | 一种基于深度卷积网络的亚洲女性颜值评分模型方法 | |
CN108510013A (zh) | 基于低秩核心矩阵的改进稳健张量主成分分析方法 | |
CN110070116A (zh) | 基于深度树状训练策略的分段式选择集成图像分类方法 | |
CN110210540A (zh) | 基于注意力机制的跨社交媒体用户身份识别方法及系统 | |
CN114511737A (zh) | 图像识别域泛化模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190806 |