CN112132062A - 一种基于剪枝压缩神经网络的遥感图像分类方法 - Google Patents

一种基于剪枝压缩神经网络的遥感图像分类方法 Download PDF

Info

Publication number
CN112132062A
CN112132062A CN202011021851.6A CN202011021851A CN112132062A CN 112132062 A CN112132062 A CN 112132062A CN 202011021851 A CN202011021851 A CN 202011021851A CN 112132062 A CN112132062 A CN 112132062A
Authority
CN
China
Prior art keywords
parameters
parameter
model
matrix
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011021851.6A
Other languages
English (en)
Other versions
CN112132062B (zh
Inventor
彭剑
李海峰
黄浩哲
陈力
崔振琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202011021851.6A priority Critical patent/CN112132062B/zh
Publication of CN112132062A publication Critical patent/CN112132062A/zh
Priority to AU2021102597A priority patent/AU2021102597A4/en
Application granted granted Critical
Publication of CN112132062B publication Critical patent/CN112132062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于剪枝压缩神经网络的遥感图像分类方法,包括:对遥感图像识别问题训练一个初始的神经网络模型,将所述模型作为待剪枝的初始模型;利用初始模型学习到的输出函数
Figure 100004_DEST_PATH_IMAGE001
对参数微小改变的敏感性来逐层计算模型中参数的敏感性矩阵
Figure 815586DEST_PATH_IMAGE002
;对参数的敏感性矩阵
Figure 489013DEST_PATH_IMAGE002
的值进行排序,修剪掉不重要的参数;重新训练未被剪枝的剩余权重;当一层修剪完成之后,对下一层的修剪过程重复步骤即可;使用修剪完成后的神经网络模型对遥感图像进行分类。本发明方法提供了一种更加精确、实用、可靠的方法来计算模型中各参数的重要程度,从而将那些不重要的参数进行剔除,最终获得一个满意的压缩比例,用于更高效地进行遥感图像分类识别。

Description

一种基于剪枝压缩神经网络的遥感图像分类方法
技术领域
本发明涉及遥感图像处理与识别技术领域,尤其涉及一种基于剪枝压缩神经网络的遥感图像分类方法。
背景技术
近年来,深度神经网络在遥感目标识别、遥感图像分类等领域取得了重大突破,然而,尽管深度学习模型的性能十分强大,但现有的深度学习模型参数量巨大,网络结构十分复杂,因此,会带来计算和存储两方面的困难,难以部署到那些内存和计算资源有限的移动设备或者嵌入式设备上。研究表明深度学习模型存在严重的过参数化问题,并不是所有的参数都在模型中发挥作用,部分参数作用有限、表达冗余,甚至会降低模型的性能,而这些参数对于模型的推理只能起到很小的作用或者不起作用。因此,如何对深度学习模型的参数进行压缩,减小模型的参数量,加快模型的推理速度,在资源受限的条件下将深度学习模型部署到移动设备或者嵌入式设备上,增强深度学习模型的实用性成为一项重要的研究内容,具有深远的意义和价值。
为了解决深度学习模型中存在的模型参数量巨大、计算复杂度高的问题,过去的一些研究主要集中于寻找模型中重要的参数或者结构,通过将重要的参数或者结构保留下来,剔除那些不重要的参数或者结构来达到模型压缩的目的。当前主流的模型压缩方法包括:1)模型剪枝;2)权重量化;3)设计轻量化模型结构;4)知识蒸馏;5)低秩矩阵分解等,其中,寻找模型中的重要结构的方法本质上属于粗粒度的压缩方法,相比于寻找重要的参数的方法来说,在压缩倍数上往往较低,而当前基于重要参数对模型进行压缩的方法在计算参数重要性上准确性很低,从而影响了模型最终的压缩效果。因此,为了更大程度的对模型的参数量进行压缩,需要一种更加精确、实用、可靠、有效的方法来计算模型中各参数的重要程度,从而将那些不重要的参数进行剔除,最终获得一个满意的压缩比例,用于更高效地进行遥感图像分类识别。
发明内容
有鉴于此,本发明的目的在于提供一种基于剪枝压缩神经网络的遥感图像分类方法,所述方法能够有效解决深度神经网络模型在对遥感图像分类的过程中参数量巨大、计算复杂度高的问题,使得经过剪枝压缩的神经网络模型能够更高效地实现遥感图像的分类。
本发明的目的是这样实现的,一种基于剪枝压缩神经网络的遥感图像分类方法,包括以下步骤:
步骤1,对遥感图像分类问题训练一个初始的神经网络模型,训练完成后保存所述模型,将所述模型作为待剪枝的初始模型;
步骤2,利用初始模型学习到的输出函数
Figure 888226DEST_PATH_IMAGE001
对参数微小改变的敏感性来逐层计算模型中参数的敏感性矩阵
Figure 930000DEST_PATH_IMAGE002
,对模型输出的敏感性大的参数就是重要的参数,反之则为不重要的参数,其中
Figure 335836DEST_PATH_IMAGE003
表示模型的输入,
Figure 121258DEST_PATH_IMAGE004
表示模型的参数;
步骤3,对参数的敏感性矩阵
Figure 555870DEST_PATH_IMAGE002
的值进行排序,设置阈值,生成对应的掩膜矩阵,该掩膜矩阵是由0,1构成,参数的敏感性矩阵
Figure 768545DEST_PATH_IMAGE002
中小于该阈值的参数对应位置的掩膜矩阵的值设置为0,表示该参数不重要会被修剪,参数的敏感性矩阵
Figure 661677DEST_PATH_IMAGE002
中大于该阈值的参数对应位置的掩膜矩阵的值设置为1,表示会保留该参数,将掩膜矩阵与模型参数进行乘法运算,从而修剪掉不重要的参数;
步骤4,重新训练未被剪枝的剩余权重,以补偿剪枝带来的精度下降,已经修剪掉的权重对应的梯度在反向传播中也应置为0,即保证修剪掉的权重在重新训练的过程中不会再更新;
步骤5,当一层修剪完成之后,对下一层的修剪过程重复步骤2、步骤3和步骤4即可;
步骤6,使用所有层修剪完成后的神经网络模型对遥感图像进行分类。
具体地,步骤2中所述的逐层计算模型中参数的敏感性矩阵
Figure 250790DEST_PATH_IMAGE002
,包括以下步骤:
对于给定的样本
Figure 545767DEST_PATH_IMAGE005
,模型的输出记为
Figure 663765DEST_PATH_IMAGE006
,将参数的微小改变量
Figure 185139DEST_PATH_IMAGE007
对模型最终的输出
Figure 46784DEST_PATH_IMAGE006
的改变进行二阶泰勒展开:
Figure 455988DEST_PATH_IMAGE008
(1)
其中,
Figure 10466DEST_PATH_IMAGE009
为输出函数
Figure 143769DEST_PATH_IMAGE006
在样本
Figure 543527DEST_PATH_IMAGE010
上对参数
Figure 813096DEST_PATH_IMAGE011
的梯度,H为Hessian矩阵,代表输出函数
Figure 538476DEST_PATH_IMAGE006
在样本
Figure 893496DEST_PATH_IMAGE005
上参数
Figure 237890DEST_PATH_IMAGE012
的二阶偏导数;
利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,对于多分类问题,使用输出函数
Figure 860501DEST_PATH_IMAGE006
的l2范数的平方对参数的梯度来代替计算参数敏感性,通过一次反向传播就可以计算出参数的敏感性矩阵;公式如下:
Figure 252387DEST_PATH_IMAGE013
(2)
按照下列公式计算模型中该层中的每个参数
Figure 593238DEST_PATH_IMAGE014
的敏感性矩阵
Figure 101842DEST_PATH_IMAGE002
Figure 578960DEST_PATH_IMAGE015
(3)
其中,
Figure 147607DEST_PATH_IMAGE002
代表网络模型中每个参数
Figure 975755DEST_PATH_IMAGE014
对于该任务的敏感性矩阵,
Figure 22470DEST_PATH_IMAGE016
表示第
Figure 619674DEST_PATH_IMAGE017
个样本点,
Figure 454879DEST_PATH_IMAGE018
表示样本总数。
具体地,所述的方法,步骤3中所述的对参数的敏感性矩阵
Figure 504744DEST_PATH_IMAGE002
的值进行排序,设置阈值,生成对应的掩膜矩阵,该掩膜矩阵是由0,1构成,参数的敏感性矩阵
Figure 496096DEST_PATH_IMAGE002
中小于该阈值的参数对应位置的掩膜矩阵的值设置为0,表示该参数不重要会被修剪,参数的敏感性矩阵
Figure 682226DEST_PATH_IMAGE002
中大于该阈值的参数对应位置的掩膜矩阵的值设置为1,表示会保留该参数,将掩膜矩阵与模型参数进行乘法运算,从而修剪掉不重要的参数,包括以下步骤:
将参数的敏感性矩阵
Figure 592676DEST_PATH_IMAGE002
的值按照由小到大的顺序进行排序,设置该层阈值大小
Figure 395416DEST_PATH_IMAGE019
按照下列公式计算得到掩膜矩阵
Figure 49513DEST_PATH_IMAGE020
Figure 621309DEST_PATH_IMAGE021
(4)
其中,
Figure 431221DEST_PATH_IMAGE022
代表掩膜矩阵
Figure 721257DEST_PATH_IMAGE020
中的第i行第j列的元素;
得到掩膜矩阵后,按照下列公式修剪参数:
Figure 913466DEST_PATH_IMAGE023
(5)
其中,
Figure 339768DEST_PATH_IMAGE024
为修剪后的参数,
Figure 965922DEST_PATH_IMAGE025
为修剪前的参数,
Figure 979139DEST_PATH_IMAGE020
为掩膜矩阵。
更进一步地,步骤4中所述的保证修剪掉的权重在重新训练的过程中不会再更新,在对剪枝后的网络进行重新训练时,按照下列公式来保证网络中已经修剪掉的参数不会再参与梯度的更新:
Figure 473574DEST_PATH_IMAGE026
(6)
其中,
Figure 255848DEST_PATH_IMAGE027
为修剪后的参数的梯度,
Figure 177536DEST_PATH_IMAGE028
为修剪前的参数的梯度,
Figure 672191DEST_PATH_IMAGE020
为掩膜矩阵。
与现有方法相比,本发明方法的优点在于:(1)本发明提出了一种新的度量参数敏感性的方法,该方法可以准确的计算出模型中每个参数的重要程度;(2)本发明提出的计算参数敏感性的方法不限制模型必须做图像分类任务,该方法是与场景无关的,可以在任意场景中使用本发明提出的方法来计算模型中每个参数的重要程度;(3)本发明提出的方法在计算参数重要程度时不需要标签,使得该方法能够更适用于真实场景中;(4)本发明提出的方法能够更大程度上对模型的参数量进行压缩,达到一个满意的压缩比例。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例选用的UC-Merced Land Use数据集每个场景类的部分影像示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例的流程示意图。一种基于剪枝压缩神经网络的遥感图像分类方法,包括以下步骤:
步骤1,对遥感图像分类问题训练一个初始的神经网络模型,训练完成后保存所述模型,将所述模型作为待剪枝的初始模型;
步骤2,利用初始模型学习到的输出函数
Figure 970317DEST_PATH_IMAGE001
对参数微小改变的敏感性来逐层计算模型中参数的敏感性矩阵
Figure 872676DEST_PATH_IMAGE002
,对模型输出的敏感性大的参数就是重要的参数,反之则为不重要的参数,其中
Figure 965266DEST_PATH_IMAGE003
表示模型的输入,
Figure 687496DEST_PATH_IMAGE004
表示模型的参数;
对于给定的样本
Figure 664680DEST_PATH_IMAGE005
,模型的输出记为
Figure 218283DEST_PATH_IMAGE006
,将参数的微小改变量
Figure 305276DEST_PATH_IMAGE007
对模型最终的输出
Figure 278917DEST_PATH_IMAGE006
的改变进行二阶泰勒展开:
Figure 154731DEST_PATH_IMAGE008
(1)
其中,
Figure 264639DEST_PATH_IMAGE009
为输出函数
Figure 466075DEST_PATH_IMAGE006
在样本
Figure 661433DEST_PATH_IMAGE010
上对参数
Figure 340938DEST_PATH_IMAGE011
的梯度,H为Hessian矩阵,代表输出函数
Figure 305352DEST_PATH_IMAGE006
在样本
Figure 51591DEST_PATH_IMAGE005
上参数
Figure 987709DEST_PATH_IMAGE012
的二阶偏导数;
Hessian矩阵的计算复杂度很高,因此,利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,对于多分类问题,使用输出函数
Figure 235020DEST_PATH_IMAGE006
的l2范数的平方对参数的梯度来代替计算参数敏感性,只需要通过一次反向传播就可以计算出参数的敏感性矩阵。公式如下:
Figure 555405DEST_PATH_IMAGE013
(2)
按照下列公式计算模型中该层中的每个参数
Figure 331600DEST_PATH_IMAGE014
的敏感性矩阵
Figure 268594DEST_PATH_IMAGE002
Figure 788437DEST_PATH_IMAGE015
(3)
其中,
Figure 228908DEST_PATH_IMAGE002
代表网络模型中每个参数
Figure 441584DEST_PATH_IMAGE014
对于该任务的敏感性矩阵,
Figure 328856DEST_PATH_IMAGE016
表示第
Figure 793335DEST_PATH_IMAGE017
个样本点,
Figure 822734DEST_PATH_IMAGE018
表示样本总数。
步骤3,对参数的敏感性矩阵
Figure 471890DEST_PATH_IMAGE002
的值进行排序,设置阈值,生成对应的掩膜矩阵,该掩膜矩阵是由0,1构成,参数的敏感性矩阵
Figure 852318DEST_PATH_IMAGE002
中小于该阈值的参数对应位置的掩膜矩阵的值设置为0,表示该参数不重要会被修剪,参数的敏感性矩阵
Figure 979542DEST_PATH_IMAGE002
中大于该阈值的参数对应位置的掩膜矩阵的值设置为1,表示会保留该参数,将掩膜矩阵与模型参数进行乘法运算,从而修剪掉不重要的参数;
将参数的敏感性矩阵
Figure 129026DEST_PATH_IMAGE002
的值按照由小到大的顺序进行排序,手动设置该层阈值大小
Figure 683504DEST_PATH_IMAGE019
按照下列公式计算得到掩膜矩阵
Figure 545369DEST_PATH_IMAGE020
Figure 210706DEST_PATH_IMAGE029
(4)
其中,
Figure 119756DEST_PATH_IMAGE022
代表掩膜矩阵
Figure 81021DEST_PATH_IMAGE020
中的第i行第j列的元素;
得到掩膜矩阵后,按照下列公式修剪参数:
Figure 934576DEST_PATH_IMAGE023
(5)
其中,
Figure 905069DEST_PATH_IMAGE024
为修剪后的参数,
Figure 527680DEST_PATH_IMAGE025
为修剪前的参数,
Figure 659846DEST_PATH_IMAGE020
为掩膜矩阵;
步骤4,重新训练未被剪枝的剩余权重,以补偿剪枝带来的精度下降,已经修剪掉的权重对应的梯度在反向传播中也应置为0,即保证修剪掉的权重在重新训练的过程中不会再更新;
在对剪枝后的网络进行重新训练时,按照下列公式来保证网络中已经修剪掉的参数不会再参与梯度的更新:
Figure 266277DEST_PATH_IMAGE030
(6)
其中,
Figure 769022DEST_PATH_IMAGE027
为修剪后的参数的梯度,
Figure 511718DEST_PATH_IMAGE028
为修剪前的参数的梯度,
Figure 80365DEST_PATH_IMAGE020
为掩膜矩阵;
步骤5,当一层修剪完成之后,对下一层的修剪过程重复步骤2、步骤3和步骤4即可。
步骤6,使用修剪完成后的神经网络模型对遥感图像进行分类。
实验主要是从深度学习模型在压缩倍数、精度损失和参数剪枝比三个方面上的表现来对本发明提出的方法的有效性进行评价。本发明的实验主要是用来证明本发明提出的方法能够有效的减少深度学习模型的参数量、降低计算的复杂度。
基于UC-Merced Land Use数据集,如图2,将UC-Merced数据集按照4:1的比例划分训练集和测试集,使用Alexnet网络做分类任务,在训练初始模型时,使用在ImageNet数据集上预训练的Alexnet网络,冻结所有卷积层,在UC-Merced Land Use数据集上进行微调,学习率设置为1e-4,batch size设置为64,为了防止过拟合,对训练集使用了随机翻转、裁剪等操作来进行数据增强。在对初始模型进行剪枝时,学习率设置为1e-5,batch size设置为64,每层的剪枝比例分别为60%,90%,80%,60%,80%,93%,95%,99%。使用精度损失、压缩倍数以及参数剪枝比三个指标来评价模型压缩方法的性能。
(1)精度损失:剪枝前后模型的性能损失是评价模型压缩方法的一个重要指标;
(2)压缩倍数:
Figure 783879DEST_PATH_IMAGE031
(3)参数剪枝比:
Figure 830595DEST_PATH_IMAGE032
其中,p为剪枝前的参数总量,q为剪枝后的参数总量。
实验结果如下,表1示出了本发明提出的方法与其他方法性能对比。其中,整体剪枝的方法是使用本发明提出的评估参数敏感性的方法,一次性对网络中的所有层进行剪枝,剪枝完成后,对网络进行重新训练恢复精度;韩松提出的基于重要连接的方法是将权值的大小看作是网络中连接的重要性大小,通过删除低于给定阈值的连接来对网络进行剪枝,为了达到较好的压缩倍数,在以上两种对比方法中,剪枝-再训练的过程可反复进行。从实验结果中可以看到,本发明提出的逐层剪枝的方法可以将Alexnet网络的参数量压缩13.97倍,修剪掉92.84%的参数,而且压缩前后模型的性能仅损失了0.52%;在实验的过程中,整体剪枝的方法以及韩松提出的基于重要连接的方法需要对阈值做精细的微调,此外,在两组实验上,整体剪枝的方法以及韩松提出的基于重要连接的方法在参数量的压缩倍数、参数剪枝比两个指标上的性能均不如本发明提出的逐层剪枝的方法。实验证明了本发明提出的逐层剪枝的方法比其他方法的压缩效果更好,可以将模型的参数量压缩更多倍。
表1 本发明提出的方法与其他方法性能对比
Figure 427798DEST_PATH_IMAGE033
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (4)

1.一种基于剪枝压缩神经网络的遥感图像分类方法,其特征在于,包括以下步骤:
步骤1,对遥感图像分类问题训练一个初始的神经网络模型,训练完成后保存所述模型,将所述模型作为待剪枝的初始模型;
步骤2,利用初始模型学习到的输出函数
Figure DEST_PATH_IMAGE001
对参数微小改变的敏感性来逐层计算模型中参数的敏感性矩阵
Figure 912143DEST_PATH_IMAGE002
,对模型输出的敏感性大的参数就是重要的参数,反之则为不重要的参数,其中
Figure DEST_PATH_IMAGE003
表示模型的输入,
Figure 582247DEST_PATH_IMAGE004
表示模型的参数;
步骤3,对参数的敏感性矩阵
Figure 432653DEST_PATH_IMAGE002
的值进行排序,设置阈值,生成对应的掩膜矩阵,该掩膜矩阵是由0,1构成,参数的敏感性矩阵
Figure 884363DEST_PATH_IMAGE002
中小于该阈值的参数对应位置的掩膜矩阵的值设置为0,表示该参数不重要会被修剪,参数的敏感性矩阵
Figure 794813DEST_PATH_IMAGE002
中大于该阈值的参数对应位置的掩膜矩阵的值设置为1,表示会保留该参数,将掩膜矩阵与模型参数进行乘法运算,从而修剪掉不重要的参数;
步骤4,重新训练未被剪枝的剩余权重,以补偿剪枝带来的精度下降,已经修剪掉的权重对应的梯度在反向传播中也应置为0,即保证修剪掉的权重在重新训练的过程中不会再更新;
步骤5,当一层修剪完成之后,对下一层的修剪过程重复步骤2、步骤3和步骤4即可;
步骤6,使用所有层修剪完成后的神经网络模型对遥感图像进行分类。
2.根据权利要求1所述的遥感图像分类方法,其特征在于,步骤2中所述的逐层计算模型中参数的敏感性矩阵
Figure 597553DEST_PATH_IMAGE002
,包括以下步骤:
对于给定的样本
Figure DEST_PATH_IMAGE005
,模型的输出记为
Figure 110705DEST_PATH_IMAGE006
,将参数的微小改变量
Figure DEST_PATH_IMAGE007
对模型最终的输出
Figure 138677DEST_PATH_IMAGE006
的改变进行二阶泰勒展开:
Figure 485607DEST_PATH_IMAGE008
(1)
其中,
Figure DEST_PATH_IMAGE009
为输出函数
Figure 136162DEST_PATH_IMAGE006
在样本
Figure 967852DEST_PATH_IMAGE010
上对参数
Figure DEST_PATH_IMAGE011
的梯度,H为Hessian矩阵,代表输出函数
Figure 754674DEST_PATH_IMAGE006
在样本
Figure 505461DEST_PATH_IMAGE012
上参数
Figure DEST_PATH_IMAGE013
的二阶偏导数;
利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,对于多分类问题,使用输出函数
Figure 637453DEST_PATH_IMAGE006
的l2范数的平方对参数的梯度来代替计算参数敏感性,通过一次反向传播就可以计算出参数的敏感性矩阵;公式如下:
Figure 367774DEST_PATH_IMAGE014
(2)
按照下列公式计算模型中该层中的每个参数
Figure DEST_PATH_IMAGE015
的敏感性矩阵
Figure 274681DEST_PATH_IMAGE002
Figure 196370DEST_PATH_IMAGE016
(3)
其中,
Figure DEST_PATH_IMAGE017
代表网络模型中每个参数
Figure 821517DEST_PATH_IMAGE018
对于该任务的敏感性矩阵,
Figure 615249DEST_PATH_IMAGE019
表示第
Figure 750564DEST_PATH_IMAGE020
个样本点,
Figure 610198DEST_PATH_IMAGE021
表示样本总数。
3.根据权利要求1或2所述的遥感图像分类方法,其特征在于,步骤3中所述的对参数的敏感性矩阵
Figure 830963DEST_PATH_IMAGE017
的值进行排序,设置阈值,生成对应的掩膜矩阵,该掩膜矩阵是由0,1构成,参数的敏感性矩阵
Figure 903087DEST_PATH_IMAGE017
中小于该阈值的参数对应位置的掩膜矩阵的值设置为0,表示该参数不重要会被修剪,参数的敏感性矩阵
Figure 158488DEST_PATH_IMAGE017
中大于该阈值的参数对应位置的掩膜矩阵的值设置为1,表示会保留该参数,将掩膜矩阵与模型参数进行乘法运算,从而修剪掉不重要的参数,包括以下步骤:
将参数的敏感性矩阵
Figure 454602DEST_PATH_IMAGE017
的值按照由小到大的顺序进行排序,设置该层阈值大小
Figure 658269DEST_PATH_IMAGE022
按照下列公式计算得到掩膜矩阵
Figure 298198DEST_PATH_IMAGE023
Figure 909570DEST_PATH_IMAGE024
(4)
其中,
Figure 343963DEST_PATH_IMAGE025
代表掩膜矩阵
Figure 40786DEST_PATH_IMAGE023
中的第i行第j列的元素;
得到掩膜矩阵后,按照下列公式修剪参数:
Figure 218826DEST_PATH_IMAGE026
(5)
其中,
Figure 419125DEST_PATH_IMAGE027
为修剪后的参数,
Figure 617895DEST_PATH_IMAGE028
为修剪前的参数,
Figure 881908DEST_PATH_IMAGE023
为掩膜矩阵。
4.根据权利要求3所述的遥感图像分类方法,其特征在于,步骤4中所述的保证修剪掉的权重在重新训练的过程中不会再更新,在对剪枝后的网络进行重新训练时,按照下列公式来保证网络中已经修剪掉的参数不会再参与梯度的更新:
Figure 99525DEST_PATH_IMAGE029
(6)
其中,
Figure 387287DEST_PATH_IMAGE030
为修剪后的参数的梯度,
Figure 524002DEST_PATH_IMAGE031
为修剪前的参数的梯度,
Figure 428373DEST_PATH_IMAGE023
为掩膜矩阵。
CN202011021851.6A 2020-09-25 2020-09-25 一种基于剪枝压缩神经网络的遥感图像分类方法 Active CN112132062B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011021851.6A CN112132062B (zh) 2020-09-25 2020-09-25 一种基于剪枝压缩神经网络的遥感图像分类方法
AU2021102597A AU2021102597A4 (en) 2020-09-25 2021-05-16 Remote sensing image classification method based on pruning compression neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021851.6A CN112132062B (zh) 2020-09-25 2020-09-25 一种基于剪枝压缩神经网络的遥感图像分类方法

Publications (2)

Publication Number Publication Date
CN112132062A true CN112132062A (zh) 2020-12-25
CN112132062B CN112132062B (zh) 2021-06-29

Family

ID=73840067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021851.6A Active CN112132062B (zh) 2020-09-25 2020-09-25 一种基于剪枝压缩神经网络的遥感图像分类方法

Country Status (2)

Country Link
CN (1) CN112132062B (zh)
AU (1) AU2021102597A4 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033804A (zh) * 2021-03-29 2021-06-25 北京理工大学重庆创新中心 一种面向遥感图像的卷积神经网络压缩方法
CN113256657A (zh) * 2021-06-03 2021-08-13 上海交通大学烟台信息技术研究院 一种高效医学图像分割方法及系统、终端、介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368885A (zh) * 2017-07-13 2017-11-21 北京智芯原动科技有限公司 基于多粒度剪枝的网络模型压缩方法及装置
CN107679617A (zh) * 2016-08-22 2018-02-09 北京深鉴科技有限公司 多次迭代的深度神经网络压缩方法
US20180046919A1 (en) * 2016-08-12 2018-02-15 Beijing Deephi Intelligence Technology Co., Ltd. Multi-iteration compression for deep neural networks
CN109711528A (zh) * 2017-10-26 2019-05-03 北京深鉴智能科技有限公司 基于特征图变化对卷积神经网络剪枝的方法
CN109886397A (zh) * 2019-03-21 2019-06-14 西安交通大学 一种针对卷积层的神经网络结构化剪枝压缩优化方法
CN110097187A (zh) * 2019-04-29 2019-08-06 河海大学 一种基于激活-熵权重剪枝的cnn模型压缩方法
CN110222820A (zh) * 2019-05-28 2019-09-10 东南大学 基于权值剪枝和量化的卷积神经网络压缩方法
CN110598731A (zh) * 2019-07-31 2019-12-20 浙江大学 一种基于结构化剪枝的高效图像分类方法
CN110766138A (zh) * 2019-10-21 2020-02-07 中国科学院自动化研究所 基于脑发育机制的自适应神经网络模型的构建方法及系统
CN111033530A (zh) * 2017-06-21 2020-04-17 Arm有限公司 用于压缩神经网络参数的系统和设备
CN111126602A (zh) * 2019-12-25 2020-05-08 浙江大学 一种基于卷积核相似性剪枝的循环神经网络模型压缩方法
CN111242287A (zh) * 2020-01-15 2020-06-05 东南大学 一种基于通道l1范数剪枝的神经网络压缩方法
CN111488982A (zh) * 2020-03-05 2020-08-04 天津大学 深度神经网络自动择优混合剪枝的压缩方法
CN111553480A (zh) * 2020-07-10 2020-08-18 腾讯科技(深圳)有限公司 神经网络搜索方法、装置、计算机可读介质及电子设备
CN111598238A (zh) * 2020-07-17 2020-08-28 支付宝(杭州)信息技术有限公司 深度学习模型的压缩方法及装置
CN111612143A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 深度卷积神经网络的压缩方法及系统
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046919A1 (en) * 2016-08-12 2018-02-15 Beijing Deephi Intelligence Technology Co., Ltd. Multi-iteration compression for deep neural networks
CN107679617A (zh) * 2016-08-22 2018-02-09 北京深鉴科技有限公司 多次迭代的深度神经网络压缩方法
CN111033530A (zh) * 2017-06-21 2020-04-17 Arm有限公司 用于压缩神经网络参数的系统和设备
CN107368885A (zh) * 2017-07-13 2017-11-21 北京智芯原动科技有限公司 基于多粒度剪枝的网络模型压缩方法及装置
CN109711528A (zh) * 2017-10-26 2019-05-03 北京深鉴智能科技有限公司 基于特征图变化对卷积神经网络剪枝的方法
CN109886397A (zh) * 2019-03-21 2019-06-14 西安交通大学 一种针对卷积层的神经网络结构化剪枝压缩优化方法
CN110097187A (zh) * 2019-04-29 2019-08-06 河海大学 一种基于激活-熵权重剪枝的cnn模型压缩方法
CN110222820A (zh) * 2019-05-28 2019-09-10 东南大学 基于权值剪枝和量化的卷积神经网络压缩方法
CN110598731A (zh) * 2019-07-31 2019-12-20 浙江大学 一种基于结构化剪枝的高效图像分类方法
CN110766138A (zh) * 2019-10-21 2020-02-07 中国科学院自动化研究所 基于脑发育机制的自适应神经网络模型的构建方法及系统
CN111126602A (zh) * 2019-12-25 2020-05-08 浙江大学 一种基于卷积核相似性剪枝的循环神经网络模型压缩方法
CN111242287A (zh) * 2020-01-15 2020-06-05 东南大学 一种基于通道l1范数剪枝的神经网络压缩方法
CN111488982A (zh) * 2020-03-05 2020-08-04 天津大学 深度神经网络自动择优混合剪枝的压缩方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111612143A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 深度卷积神经网络的压缩方法及系统
CN111553480A (zh) * 2020-07-10 2020-08-18 腾讯科技(深圳)有限公司 神经网络搜索方法、装置、计算机可读介质及电子设备
CN111598238A (zh) * 2020-07-17 2020-08-28 支付宝(杭州)信息技术有限公司 深度学习模型的压缩方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CÉSAR LAURENT等: "Revisiting Loss Modelling for Unstructured Pruning", 《ARXIV:2006.12279V1 [CS.LG]》 *
靳丽蕾等: "一种用于卷积神经网络压缩的混合剪枝方法", 《小型微型计算机系统》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033804A (zh) * 2021-03-29 2021-06-25 北京理工大学重庆创新中心 一种面向遥感图像的卷积神经网络压缩方法
CN113033804B (zh) * 2021-03-29 2022-07-01 北京理工大学重庆创新中心 一种面向遥感图像的卷积神经网络压缩方法
CN113256657A (zh) * 2021-06-03 2021-08-13 上海交通大学烟台信息技术研究院 一种高效医学图像分割方法及系统、终端、介质
CN113256657B (zh) * 2021-06-03 2022-11-04 上海交通大学烟台信息技术研究院 一种高效医学图像分割方法及系统、终端、介质

Also Published As

Publication number Publication date
CN112132062B (zh) 2021-06-29
AU2021102597A4 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN114037844B (zh) 基于滤波器特征图的全局秩感知神经网络模型压缩方法
CN109344921A (zh) 一种基于深度神经网络模型的图像识别方法、装置及设备
CN112183748A (zh) 基于稀疏卷积神经网络的模型压缩方法、系统及相关设备
CN111079899A (zh) 神经网络模型压缩方法、系统、设备及介质
CN109614979A (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN112132062B (zh) 一种基于剪枝压缩神经网络的遥感图像分类方法
CN111723915B (zh) 一种基于深度卷积神经网络的目标检测方法
CN114118402A (zh) 基于分组注意力机制的自适应剪枝模型压缩算法
Pietron et al. Retrain or not retrain?-efficient pruning methods of deep cnn networks
CN113837376B (zh) 基于动态编码卷积核融合的神经网络剪枝方法
CN110096976A (zh) 基于稀疏迁移网络的人体行为微多普勒分类方法
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
Zhang et al. A channel pruning algorithm based on depth-wise separable convolution unit
CN109670471A (zh) 一种掌纹特征提取方法和手相识别方法
CN114647752A (zh) 基于双向可切分深度自注意力网络的轻量化视觉问答方法
CN114972753A (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN114742221A (zh) 深度神经网络模型剪枝方法、系统、设备及介质
CN113780550A (zh) 一种量化特征图相似度的卷积神经网络剪枝方法及装置
CN113850373A (zh) 一种基于类别的滤波器剪枝方法
CN113537245A (zh) 一种基于特征图的神经网络剪枝方法
CN117421657A (zh) 一种基于过采样策略的带噪标签样本筛选学习方法及系统
CN116992941A (zh) 基于特征相似与特征补偿的卷积神经网络剪枝方法及装置
CN115661123B (zh) 基于弱监督目标检测的工业品表面缺陷位置检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant