CN112561041A - 基于滤波器分布的神经网络模型加速方法及平台 - Google Patents

基于滤波器分布的神经网络模型加速方法及平台 Download PDF

Info

Publication number
CN112561041A
CN112561041A CN202110209931.2A CN202110209931A CN112561041A CN 112561041 A CN112561041 A CN 112561041A CN 202110209931 A CN202110209931 A CN 202110209931A CN 112561041 A CN112561041 A CN 112561041A
Authority
CN
China
Prior art keywords
filter
filters
neural network
layer
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110209931.2A
Other languages
English (en)
Other versions
CN112561041B (zh
Inventor
王宏升
管淑祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110209931.2A priority Critical patent/CN112561041B/zh
Publication of CN112561041A publication Critical patent/CN112561041A/zh
Application granted granted Critical
Publication of CN112561041B publication Critical patent/CN112561041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于滤波器分布的神经网络模型加速方法及平台,引入滤波器彼此之间的距离来反映滤波器的分布,而且在此基础上设计了一种新颖的基于滤波器平均相似度分数的裁剪准则,即随着网络迭代训练的不断更新,根据当前通道滤波器的分布计算神经网络模型的裁剪准则。包括如下步骤:步骤一、定义问题,将神经网络卷积操作进行建模;步骤二、设计基于滤波器裁剪的神经网络优化目标;步骤三、计算基于Minkowski距离的滤波器相似度分数;步骤四、设计滤波器裁剪准则。

Description

基于滤波器分布的神经网络模型加速方法及平台
技术领域
本发明属于计算机技术应用领域,尤其涉及一种基于滤波器分布的神经网络模型加速方法及平台。
背景技术
大规模深度卷积神经网络模型在计算机图像应用领域取得了优异的性能,然而,由于实际应用场景中的计算任务必须在有限的资源供应,如计算时间、存储空间、电池功率等条件下完成,将具有海量参数的预训练模型部署到内存有限的设备中面临巨大挑战,例如,VGG-16模型有1.383亿个参数,占用超过500MB的存储空间,需要309.4亿的浮点运算来对单个图像进行分类。在模型压缩领域,已有的神经网络量化压缩方法将浮点型权重量化为低比特权重(例如,8位或1位)来减小模型大小。但是由于量化误差的引入,使得神经网络的训练非常困难。相比之下,滤波器裁剪方法通过直接移除冗余通道上的滤波器来减小模型大小,使得快速推理几乎不需要额外的工作。而且滤波器裁剪之后,量化起来也更加容易,模型会更加紧凑。
发明内容
为了解决现有技术中存在的上述技术问题,本发明通过裁剪滤波器来降低预训练神经网络模型的计算代价。考虑到滤波器的数量与网络训练速度直接相关,因此,通过裁剪滤波器的数量来减少矩阵乘法的数量,实现加速训练和推理网络。其具体技术方案如下:
一种基于滤波器分布的神经网络模型加速方法,包括如下步骤:
步骤一、定义问题,将神经网络卷积操作进行建模;
步骤二、设计基于滤波器裁剪的神经网络优化目标;
步骤三、计算基于Minkowski 距离的滤波器相似度分数;
步骤四、设计滤波器裁剪准则。
进一步的,所述步骤一包括如下步骤:
步骤1.1:定义滤波器表示:假设神经网络具有
Figure 689463DEST_PATH_IMAGE001
层卷积层,在第
Figure 644650DEST_PATH_IMAGE002
层卷积层的输入 和输出通道数分别为
Figure 825095DEST_PATH_IMAGE003
Figure 785223DEST_PATH_IMAGE004
,当前网络的滤波器大小为
Figure 392922DEST_PATH_IMAGE005
,采用
Figure 569826DEST_PATH_IMAGE006
表示第
Figure 616279DEST_PATH_IMAGE002
层卷积层的 第
Figure 70394DEST_PATH_IMAGE007
个滤波器;
步骤1.2:定义卷积层表示:对于第
Figure 645732DEST_PATH_IMAGE002
层卷积层,表示为由一组滤波器组成
Figure 309932DEST_PATH_IMAGE008
,且参数化表示为
Figure 566601DEST_PATH_IMAGE009
;其中
Figure 492532DEST_PATH_IMAGE010
为滤波 器的参数化表示,代表第
Figure 442033DEST_PATH_IMAGE002
层卷积层的权重,
Figure 327950DEST_PATH_IMAGE011
表示实数;
步骤1.3:构建基于滤波器的神经网络模型:第
Figure 653889DEST_PATH_IMAGE002
层的卷积操作表示为:
Figure 613754DEST_PATH_IMAGE012
,其中,
Figure 858791DEST_PATH_IMAGE013
表示形状为
Figure 372949DEST_PATH_IMAGE014
的输入张量,
Figure 361634DEST_PATH_IMAGE015
表示形状 为
Figure 379268DEST_PATH_IMAGE016
的输出张量,
Figure 296671DEST_PATH_IMAGE017
Figure 32546DEST_PATH_IMAGE018
分别表示输入张量的高和宽,
Figure 497025DEST_PATH_IMAGE019
Figure 493800DEST_PATH_IMAGE020
表示 输出张量的高和宽。
进一步的,所述步骤二具体为:
将当前卷积层的滤波器组成
Figure 221584DEST_PATH_IMAGE006
拆分为两个集合,分别为裁剪滤波器集合
Figure 569389DEST_PATH_IMAGE021
和保留滤波器
Figure 775243DEST_PATH_IMAGE022
,将目标定义为:给定数据集
Figure 892103DEST_PATH_IMAGE023
和压缩率参 数e,
Figure 790789DEST_PATH_IMAGE024
表示为数据集第m张图片的特征矩阵,n表示输入图片的总数,将卷积神经网络 的滤波器裁剪问题定义为带有稀疏参数约束的优化问题:
Figure 858846DEST_PATH_IMAGE025
Figure 868390DEST_PATH_IMAGE026
,其中,
Figure 105336DEST_PATH_IMAGE027
是标准的损失函数,如交叉熵损 失,保留滤波器
Figure 909344DEST_PATH_IMAGE028
是当前层保留滤波器的集合,N 是保留滤波器的总数。
进一步的,所述步骤三具体为:
步骤3.1:滤波器降维:首先利用 Minkowski 度量距离作为滤波器之间的相似度分数,将三维滤波器变换为一维向量;
步骤3.2:基于滤波器的卷积层表示:第
Figure 435004DEST_PATH_IMAGE002
层的卷积层表示为
Figure 779397DEST_PATH_IMAGE029
Figure 74112DEST_PATH_IMAGE030
包 括全部的
Figure 675120DEST_PATH_IMAGE004
个滤波器的一维向量,每个向量的长度是
Figure 360179DEST_PATH_IMAGE031
步骤3.3:计算两个滤波器的相似度分数:假如度量两个滤波器
Figure 836160DEST_PATH_IMAGE032
之间 的相似度分数,利用 Minkowski 距离度量滤波器
Figure 657486DEST_PATH_IMAGE033
Figure 193509DEST_PATH_IMAGE034
之间的关联分数为:
Figure 100285DEST_PATH_IMAGE035
进一步的,所述步骤四中具体如下:
定义当前滤波器的平均相似度分数,利用平均相似度分数来表示滤波器的分布特 征,选择具有较小平均相似度分数的滤波器进行裁剪的准则,具体的裁剪准则表示为:
Figure 114378DEST_PATH_IMAGE036
Figure 852527DEST_PATH_IMAGE037
表示当前层滤波器,
Figure 169238DEST_PATH_IMAGE038
表示其他滤波器,
Figure 192339DEST_PATH_IMAGE039
为计算当前滤波器
Figure 885489DEST_PATH_IMAGE037
与其它滤波器
Figure 806040DEST_PATH_IMAGE038
的距离,选择的与
Figure 559232DEST_PATH_IMAGE037
距离最近的滤波器。
一种基于滤波器分布的神经网络模型加速平台,包括以下组件:
数据加载组件:用于获取卷积神经网络的训练数据,所述训练数据是满足监督学习任务的有标签的样本;
压缩组件:用于将卷积神经网络模型压缩得到卷积神经网络的压缩模型,包括滤波器分布计算模块、滤波器裁剪模块、剪枝网络微调模块;
推理组件:登陆用户从所述平台获取卷积神经网络的压缩模型,用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的特定任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理模型性能对比信息;
其中所述滤波器分布计算模块根据基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况,获取待裁剪滤波器的列表;首先,根据所述滤波器平均相似度分数的计算方法,统计卷积神经网络当前训练状态下所有滤波器的平均相似度分数;然后,将每层卷积网络的所有滤波器的分数由高到低进行排序;最后,根据用户需求给出的压缩率 e,计算得到待裁剪的平均相似度分数较小的滤波器列表。
所述滤波器裁剪模块是根据所述滤波器分布计算模块输出的待裁剪的滤波器列表,裁剪掉当前网络中对应位置的滤波器,首先,将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪;其次,将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪;
所述剪枝网络微调模块是端到端地训练网络,具体地,将训练数据输入剪枝网络;更新网络的权重。
本发明的有益效果是:本发明研究基于滤波器分布的神经网络模型加速方法有以下几方面有益效果:
一、基于滤波器分布裁剪所得的模型在网络结构上没有差异,因此可以被任何现成的深度学习库很好地支持。
二、显著减少内存占用。这种内存的减少不仅来自模型参数本身,也来自中间的激活层,这在以往的研究中很少被考虑。
三、由于裁剪后的网络结构没有被破坏,可以通过其他压缩方法对其进行进一步的压缩和加速,如参数量化方法。
四、裁剪后的模型可以大大加快更多的视觉任务的训练和推断过程,如目标检测或语义分割、细粒度识别等实际应用问题。
附图说明
图1是本发明的基于滤波器分布的神经网络模型加速平台的整体架构图;
图2是元学习的剪枝网络的训练流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明考虑到不同通道滤波器的幅值信息和彼此之间的关联特征,提出基于滤波器分布的神经网络模型加速方法,其整体架构如图1所示。引入滤波器彼此之间的距离来反映滤波器的分布,而且在此基础上设计了一种基于滤波器平均相似度分数的裁剪准则,即随着网络迭代训练的不断更新,根据当前通道滤波器的分布计算神经网络模型的裁剪准则。
本发明的基于滤波器分布的神经网络模型加速方法,整个过程如图2所示,分为四个步骤:第一步是定义问题,将神经网络卷积操作进行建模;第二步是设计基于滤波器裁剪的神经网络优化目标;第三步是计算基于Minkowski 距离的滤波器相似度分数;第四步是设计滤波器裁剪准则。具体为:
第一步:定义问题,将神经网络卷积操作进行建模。考虑到根据滤波器的分布设计神经网络模型的裁剪准则,本发明将神经网络当前通道的卷积操作定义为该通道上的滤波器与输入张量的卷积运算。
定义问题具体包括以下子步骤:
步骤一:定义滤波器表示:首先,假设神经网络具有
Figure 565234DEST_PATH_IMAGE001
层卷积层,在第
Figure 124392DEST_PATH_IMAGE002
层卷积层 的输入和输出通道数分别为
Figure 774816DEST_PATH_IMAGE003
Figure 325008DEST_PATH_IMAGE004
,假设当前网络的滤波器大小为
Figure 693673DEST_PATH_IMAGE005
,采用
Figure 853259DEST_PATH_IMAGE006
表示 第
Figure 358189DEST_PATH_IMAGE002
层卷积层的第
Figure 577818DEST_PATH_IMAGE007
个滤波器;
步骤二:定义卷积层表示:对于第
Figure 230516DEST_PATH_IMAGE002
层卷积层,表示为由一组滤波器组成
Figure 803580DEST_PATH_IMAGE008
,且参数化表示为
Figure 756493DEST_PATH_IMAGE009
;其中
Figure 645558DEST_PATH_IMAGE010
为滤波器的 参数化表示,代表第
Figure 723235DEST_PATH_IMAGE002
层卷积层的权重,
Figure 490203DEST_PATH_IMAGE011
表示实数;
步骤三:构建基于滤波器的神经网络模型:第
Figure 235305DEST_PATH_IMAGE002
层的卷积操作表示为:
Figure 796736DEST_PATH_IMAGE012
。其中,
Figure 689606DEST_PATH_IMAGE013
表示形状为
Figure 604472DEST_PATH_IMAGE014
的输入张量,
Figure 830180DEST_PATH_IMAGE015
表示形状 为
Figure 437878DEST_PATH_IMAGE016
的输出张量。
Figure 614782DEST_PATH_IMAGE017
Figure 598918DEST_PATH_IMAGE018
分别表示输入张量的高和宽,
Figure 177667DEST_PATH_IMAGE019
Figure 956267DEST_PATH_IMAGE020
表示 输出张量的高和宽;
第二步:设计基于滤波器裁剪的神经网络优化目标。卷积神经网络的滤波器裁剪目标是满足用户需求的压缩率,所以该步骤的目标是,在给定的数据集和压缩率的条件下,将卷积神经网络的滤波器裁剪问题定义为一个带有稀疏参数约束的优化问题。
基于滤波器裁剪的神经网络优化目标具体为:将当前卷积层的
Figure 354888DEST_PATH_IMAGE006
拆分为两个 集合,分别为裁剪滤波器集合
Figure 877136DEST_PATH_IMAGE021
和保留滤波器
Figure 295346DEST_PATH_IMAGE022
。将我们的目标定义为:给定 数据集
Figure 369481DEST_PATH_IMAGE023
和压缩率参数e,
Figure 130764DEST_PATH_IMAGE024
表示为数据集第m张图片的特征矩阵,n 表示输入图片的总数。所以,将卷积神经网络的滤波器裁剪问题定义为一个带有稀疏参数 约束的优化问题:
Figure 846916DEST_PATH_IMAGE040
Figure 744465DEST_PATH_IMAGE026
,其中,
Figure 255081DEST_PATH_IMAGE041
是标准的损失函数,如交叉熵损 失,保留滤波器
Figure 503660DEST_PATH_IMAGE028
是当前层保留滤波器的集合,N 是保留滤波器的总数。
第三步:计算基于Minkowski 距离的滤波器相似度分数。已有的滤波器裁剪准则大多数是以下策略:如果滤波器的范数越小,则相对应的特征图越接近于零,该滤波器对网络贡献越小。因此裁剪掉该滤波器,而且不会严重影响网络的性能。已有方法利用滤波器的范数进行滤波器的重要性排序,并且删除范数较小的滤波器。由于滤波器范数只模拟了滤波器的幅值信息,没有反映滤波器彼此之间的关联特征。
本发明引入滤波器范数,模拟滤波器的幅值信息,而且提出利用滤波器分布来反映滤波器彼此之间关联特征的度量方法。计算当前层网络中滤波器两两之间的距离,得到滤波器彼此之间的相似度分数表示的分布矩阵。
所述基于Minkowski 距离的滤波器相似度分数具体包括以下子步骤:
步骤一:滤波器降维:首先利用 Minkowski 度量距离作为滤波器之间的相似度分数。为了避免维数灾难,将三维滤波器变换为一维向量;
步骤二:基于滤波器的卷积层表示:第
Figure 259388DEST_PATH_IMAGE002
层的卷积层表示为
Figure 11444DEST_PATH_IMAGE029
Figure 692961DEST_PATH_IMAGE030
包括全 部的
Figure 428835DEST_PATH_IMAGE004
个滤波器的一维向量,每个向量的长度是
Figure 955632DEST_PATH_IMAGE031
步骤三:计算两个滤波器的相似度分数:假如度量两个滤波器
Figure 890090DEST_PATH_IMAGE032
之间的 相似度分数,利用 Minkowski 距离度量滤波器
Figure 617874DEST_PATH_IMAGE033
Figure 434521DEST_PATH_IMAGE034
之间的关联分数为:
Figure 905953DEST_PATH_IMAGE035
第四步:设计滤波器裁剪准则。考虑到当前滤波器与其它所有滤波器的关系,本发 明定义了当前滤波器的平均相似度分数,利用平均相似度分数来表示滤波器的分布特征。 考虑到如果一个滤波器具有一个较大的值,则它与网络中其它滤波器的关联性可能很小, 说明它独立于其它滤波器,在网络中起着特殊的作用。因此该滤波器的贡献是很难被其它 滤波器替换掉。在保证相同精度损失的情况下,很难裁剪掉平均相似度分数很大的滤波器。 相反,如果一个滤波器的平均相似度分数很小,则说明它与其它滤波器起相似的作用。平均 相似度分数较小的滤波器与其它滤波器有相似甚至相同的贡献,裁剪掉该类滤波器是相对 较安全的,而且压缩模型最终精度的损失比较小。基于以上分析, 本发明提出选择具有较 小平均相似度分数的滤波器进行裁剪的准则,具体的裁剪准则表示为:
Figure 521349DEST_PATH_IMAGE036
Figure 154456DEST_PATH_IMAGE037
表示当前层滤波器,
Figure 989556DEST_PATH_IMAGE038
表示其他滤波器,
Figure 795838DEST_PATH_IMAGE039
为计算当前滤波器
Figure 970468DEST_PATH_IMAGE037
与其它滤波器
Figure 40055DEST_PATH_IMAGE038
的距离,选择的与
Figure 768977DEST_PATH_IMAGE037
距离最近的滤波器。
本发明的基于滤波器分布的神经网络模型加速平台,包括以下组件:
数据加载组件:用于获取卷积神经网络的训练数据,所述训练数据是满足监督学习任务的有标签的样本;
压缩组件:用于将卷积神经网络模型压缩,包括滤波器分布计算模块、滤波器裁剪模块、剪枝网络微调模块;
所述滤波器分布计算模块是根据以上所述的基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况,获取待裁剪滤波器的列表。首先,根据以上所述滤波器平均相似度分数的计算方法,统计网络当前训练状态下所有滤波器的平均相似度分数;然后,将每层卷积网络的所有滤波器的分数由高到低进行排序;最后,根据用户需求给出的压缩率e,计算得到待裁剪的平均相似度分数较小的滤波器列表。
所述滤波器裁剪模块是根据所述滤波器分布计算模块输出的待裁剪的滤波器列表,裁剪掉当前网络中对应位置的滤波器,值得注意的是,首先,将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪;其次,将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪。
所述剪枝网络微调模块是端到端地训练网络,具体地,将训练数据输入剪枝网络;更新网络的权重;
推理组件:登陆用户从所述平台获取卷积神经网络的压缩模型,用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的特定任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理模型性能对比信息。
下面将在ImageNet2012分类数据集上进行卷积神经网络模型的压缩实验。根据该图像分类任务对本发明的技术方案做进一步的详细描述。
通过所述平台的数据加载组件获取登陆用户上传的ImageNet2012分类数据集和原网络模型;
通过用户需求设置的压缩率 e和所述平台压缩组件中的滤波器分布计算模块,生成待裁剪的平均相似度分数较小的滤波器列表;
通过所述平台压缩组件中的滤波器裁剪模块,将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪,与此同时,将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪;
通过所述平台压缩组件中的剪枝网络微调模块,将训练数据输入剪枝网络,训练剪枝网络。将所述压缩模型输出到指定的容器,可供所述登陆用户下载,并在所述平台的输出压缩模型的页面呈现压缩前后模型性能对比信息,表1比较了原ResNet50网络模型与基于滤波器分布的剪枝模型的精度。原ResNet50网络模型运行313M浮点数运算所得top-1和top-5的精度分别为76.15% 和92.87%,而基于滤波器分布的剪枝模型在几乎没有精度损失的情况下,减少了54M的浮点数计算量,加快模型的训练和推理过程;
Figure 706846DEST_PATH_IMAGE042
表1 图像分类任务ResNet50模型压缩前后对比信息。
通过所述平台的推理组件,利用所述平台输出的压缩模型对登陆用户上传的ImageNet2012测试集数据进行推理,在8张Nvidia 1080Ti GPU显卡上推理压缩模型并在所述平台的压缩模型推理页面呈现压缩前后的性能信息。

Claims (6)

1.一种基于滤波器分布的神经网络模型加速方法,其特征在于包括如下步骤:
步骤一、定义问题,将神经网络卷积操作进行建模;
步骤二、设计基于滤波器裁剪的神经网络优化目标;
步骤三、计算基于Minkowski 距离的滤波器相似度分数;
步骤四、设计滤波器裁剪准则。
2.如权利要求1所述的基于滤波器分布的神经网络模型加速方法,其特征在于:所述步骤一包括如下步骤:
步骤1.1:定义滤波器表示:假设神经网络具有
Figure 56439DEST_PATH_IMAGE001
层卷积层,在第
Figure 567054DEST_PATH_IMAGE002
层卷积层的输入和输 出通道数分别为
Figure 815633DEST_PATH_IMAGE003
Figure 804318DEST_PATH_IMAGE004
,当前网络的滤波器大小为
Figure 87532DEST_PATH_IMAGE005
,采用
Figure 7864DEST_PATH_IMAGE006
表示第
Figure 540476DEST_PATH_IMAGE002
层卷积层 的第
Figure 208218DEST_PATH_IMAGE007
个滤波器;
步骤1.2:定义卷积层表示:对于第
Figure 470572DEST_PATH_IMAGE002
层卷积层,表示为由一组滤波器组成
Figure 932778DEST_PATH_IMAGE008
,且参数化表示为
Figure 280582DEST_PATH_IMAGE009
;其中
Figure 486436DEST_PATH_IMAGE010
为滤波 器的参数化表示,代表第
Figure 603296DEST_PATH_IMAGE002
层卷积层的权重,
Figure 501982DEST_PATH_IMAGE011
表示实数;
步骤1.3:构建基于滤波器的神经网络模型:第
Figure 838548DEST_PATH_IMAGE002
层的卷积操作表示为:
Figure 582513DEST_PATH_IMAGE012
,其中,
Figure 819459DEST_PATH_IMAGE013
表示形状为
Figure 623467DEST_PATH_IMAGE014
的输入张量,
Figure 945864DEST_PATH_IMAGE015
表示形状 为
Figure 227941DEST_PATH_IMAGE016
的输出张量,
Figure 319394DEST_PATH_IMAGE017
Figure 559882DEST_PATH_IMAGE018
分别表示输入张量的高和宽,
Figure 602531DEST_PATH_IMAGE019
Figure 953878DEST_PATH_IMAGE020
表示 输出张量的高和宽。
3.如权利要求2所述的基于滤波器分布的神经网络模型加速方法,其特征在于:
所述步骤二具体为:
将当前卷积层的滤波器组成
Figure 899837DEST_PATH_IMAGE006
拆分为两个集合,分别为裁剪滤波器集合
Figure 107965DEST_PATH_IMAGE021
和保留滤波器
Figure 14741DEST_PATH_IMAGE022
,将目标定义为:给定数据集
Figure 28833DEST_PATH_IMAGE023
和压缩率参数e,
Figure 970244DEST_PATH_IMAGE024
表示为数据集第m张图片的特征矩阵,n表示输入图片的总数,将卷积神经网络的滤 波器裁剪问题定义为带有稀疏参数约束的优化问题:
Figure 677169DEST_PATH_IMAGE025
Figure 71241DEST_PATH_IMAGE026
,其中,
Figure 124910DEST_PATH_IMAGE027
是标准的损失函数,保留滤波器
Figure 655249DEST_PATH_IMAGE028
是当前层保留滤波器的集合,N 是保留滤波器的总数。
4.如权利要求3所述的基于滤波器分布的神经网络模型加速方法,其特征在于:
所述步骤三具体为:
步骤3.1:滤波器降维:首先利用 Minkowski 度量距离作为滤波器之间的相似度分数,将三维滤波器变换为一维向量;
步骤3.2:基于滤波器的卷积层表示:第
Figure 533075DEST_PATH_IMAGE002
层的卷积层表示为
Figure 414443DEST_PATH_IMAGE029
Figure 35918DEST_PATH_IMAGE030
包括全部的
Figure 483079DEST_PATH_IMAGE004
个滤波器的一维向量,每个向量的长度是
Figure 141594DEST_PATH_IMAGE031
步骤3.3:计算两个滤波器的相似度分数:假如度量两个滤波器
Figure 634892DEST_PATH_IMAGE032
之间的相似 度分数,利用 Minkowski 距离度量滤波器
Figure 669844DEST_PATH_IMAGE033
Figure 57664DEST_PATH_IMAGE034
之间的关联分数为:
Figure 887079DEST_PATH_IMAGE035
5.如权利要求4所述的基于滤波器分布的神经网络模型加速方法,其特征在于:所述步骤四中具体如下:
定义当前滤波器的平均相似度分数,利用平均相似度分数来表示滤波器的分布特征, 选择具有较小平均相似度分数的滤波器进行裁剪的准则,具体的裁剪准则表示为:
Figure 867674DEST_PATH_IMAGE036
Figure 440737DEST_PATH_IMAGE037
表示当前层滤波器,
Figure 924808DEST_PATH_IMAGE038
表示其他滤波器,
Figure 190705DEST_PATH_IMAGE039
为计算当前滤波器
Figure 393016DEST_PATH_IMAGE037
与其它滤波器
Figure 35350DEST_PATH_IMAGE038
的距离,选择的与
Figure 140971DEST_PATH_IMAGE037
距离最近的滤波器。
6.一种基于滤波器分布的神经网络模型加速平台,包括以下组件:
数据加载组件:用于获取卷积神经网络的训练数据,所述训练数据是满足监督学习任务的有标签的样本;
压缩组件:用于将卷积神经网络模型压缩得到卷积神经网络的压缩模型,包括滤波器分布计算模块、滤波器裁剪模块、剪枝网络微调模块;
推理组件:登陆用户从所述平台获取卷积神经网络的压缩模型,用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的特定任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理模型性能对比信息;
其中所述滤波器分布计算模块根据基于Minkowski 距离的滤波器相似度分数计算每层卷积网络中滤波器的分布情况,获取待裁剪滤波器的列表;首先,根据所述滤波器平均相似度分数的计算方法,统计卷积神经网络当前训练状态下所有滤波器的平均相似度分数;然后,将每层卷积网络的所有滤波器的分数由高到低进行排序;最后,根据用户需求给出的压缩率e,计算得到待裁剪的平均相似度分数较小的滤波器列表;
所述滤波器裁剪模块是根据所述滤波器分布计算模块输出的待裁剪的滤波器列表,裁剪掉当前网络中对应位置的滤波器,首先,将待裁剪列表中具有较小平均相似度分数的滤波器和其相应的特征图进行裁剪;其次,将当前层的下一个卷积层中与待裁剪的特征图相对应的滤波器也相应地进行裁剪;
所述剪枝网络微调模块是端到端地训练网络,将训练数据输入剪枝网络;更新网络的权重。
CN202110209931.2A 2021-02-25 2021-02-25 基于滤波器分布的神经网络模型加速方法及平台 Active CN112561041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209931.2A CN112561041B (zh) 2021-02-25 2021-02-25 基于滤波器分布的神经网络模型加速方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209931.2A CN112561041B (zh) 2021-02-25 2021-02-25 基于滤波器分布的神经网络模型加速方法及平台

Publications (2)

Publication Number Publication Date
CN112561041A true CN112561041A (zh) 2021-03-26
CN112561041B CN112561041B (zh) 2023-10-27

Family

ID=75034744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209931.2A Active CN112561041B (zh) 2021-02-25 2021-02-25 基于滤波器分布的神经网络模型加速方法及平台

Country Status (1)

Country Link
CN (1) CN112561041B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033804A (zh) * 2021-03-29 2021-06-25 北京理工大学重庆创新中心 一种面向遥感图像的卷积神经网络压缩方法
CN113255907A (zh) * 2021-05-20 2021-08-13 广州广电运通金融电子股份有限公司 一种小网络模型裁剪方法及系统
CN114154589A (zh) * 2021-12-13 2022-03-08 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法
WO2023159760A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
CN116820730A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846445A (zh) * 2018-06-26 2018-11-20 清华大学 一种基于相似性学习的卷积神经网络滤波器剪枝技术
US20190294929A1 (en) * 2018-03-20 2019-09-26 The Regents Of The University Of Michigan Automatic Filter Pruning Technique For Convolutional Neural Networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294929A1 (en) * 2018-03-20 2019-09-26 The Regents Of The University Of Michigan Automatic Filter Pruning Technique For Convolutional Neural Networks
CN108846445A (zh) * 2018-06-26 2018-11-20 清华大学 一种基于相似性学习的卷积神经网络滤波器剪枝技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张亚平;吴绩伟;马占刚;曹喜信;郭文海;: "基于YOLOv3的神经网络模型压缩与实现", 微纳电子与智能制造, no. 01 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033804A (zh) * 2021-03-29 2021-06-25 北京理工大学重庆创新中心 一种面向遥感图像的卷积神经网络压缩方法
CN113255907A (zh) * 2021-05-20 2021-08-13 广州广电运通金融电子股份有限公司 一种小网络模型裁剪方法及系统
WO2022241804A1 (zh) * 2021-05-20 2022-11-24 广州广电运通金融电子股份有限公司 一种小网络模型裁剪方法及系统
CN113255907B (zh) * 2021-05-20 2024-05-14 广州广电运通金融电子股份有限公司 一种网络模型经裁剪以进行图像识别的方法
CN114154589A (zh) * 2021-12-13 2022-03-08 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法
CN114154589B (zh) * 2021-12-13 2023-09-29 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法
WO2023159760A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
CN116820730A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质
CN116820730B (zh) * 2023-08-28 2024-01-09 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质

Also Published As

Publication number Publication date
CN112561041B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN112561041A (zh) 基于滤波器分布的神经网络模型加速方法及平台
CN112101190B (zh) 一种遥感图像分类方法、存储介质及计算设备
JP6950756B2 (ja) ニューラルネットワークのランク最適化装置および最適化方法
US20230401833A1 (en) Method, computer device, and storage medium, for feature fusion model training and sample retrieval
CN113850162B (zh) 一种视频审核方法、装置及电子设备
US10115393B1 (en) Reduced size computerized speech model speaker adaptation
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
KR20200089588A (ko) 전자 장치 및 이의 제어 방법
CN111414513A (zh) 音乐流派的分类方法、装置及存储介质
CN113420651A (zh) 深度卷积神经网络的轻量化方法、系统及目标检测方法
CN110232154B (zh) 基于随机森林的产品推荐方法、装置及介质
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
CN102063897B (zh) 一种用于嵌入式语音合成系统的音库压缩及使用方法
CN113434639A (zh) 审计数据处理方法及装置
CN112561040A (zh) 面向神经网络模型的滤波器分布感知训练加速方法及平台
CN116542783A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN112200275B (zh) 人工神经网络的量化方法及装置
CN112652299B (zh) 时间序列语音识别深度学习模型的量化方法及装置
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN114882409A (zh) 一种基于多模态特征融合的智能暴力行为检测方法及装置
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置
CN113361707A (zh) 一种模型压缩方法、系统及计算机可读介质
CN114764437A (zh) 用户意图识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant