CN115131646A - 基于离散系数的深度网络模型压缩方法 - Google Patents

基于离散系数的深度网络模型压缩方法 Download PDF

Info

Publication number
CN115131646A
CN115131646A CN202210521648.8A CN202210521648A CN115131646A CN 115131646 A CN115131646 A CN 115131646A CN 202210521648 A CN202210521648 A CN 202210521648A CN 115131646 A CN115131646 A CN 115131646A
Authority
CN
China
Prior art keywords
network model
convolution
convolution kernel
layer
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210521648.8A
Other languages
English (en)
Inventor
蒋雯
李祥
邓鑫洋
耿杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210521648.8A priority Critical patent/CN115131646A/zh
Publication of CN115131646A publication Critical patent/CN115131646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于离散系数的深度网络模型压缩方法,包括以下步骤:步骤一、构建深度网络模型;步骤二、获取数据集样本;步骤三、将数据集样本输入深度网络模型,获得特征图集合;步骤四、计算深度网络模型中各卷积核的激活值;步骤五、利用各卷积核的激活值计算各卷积核的离散系数;步骤六、根据离散系数计算各卷积核的贡献度;步骤七、根据深度网络模型各层卷积核的贡献度对深度网络模型的各层卷积核进行删减。本发明结构简单、设计合理,利用离散系数计算贡献度,借用贡献度鉴别不重要的卷积核并删掉,解决深度网络模型节点规模庞大的问题,影响深度网络模型精度的同时提高了运行速度,引入离散系数,增强了深度网络模型的可解释性。

Description

基于离散系数的深度网络模型压缩方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于离散系数的深度网 络模型压缩方法。
背景技术
随着近些年计算机性能的快速发展,深度学习卷积网络模型成为了引 领本轮的人工智能热潮的关键技术,得到了社会的广泛讨论与关注。深度 学习卷积网络模型已经在计算机视觉、自然语言处理、音频识别等领域取 得了重大成果,如应用于视觉领域的卷积神经网络和应用于语音识别或自 然语言处理领域的递归神经网络等,这些神经网络技术均极大地提高了相 应领域的处理精度。
深度神经网络与浅层学习相比,深度神经网络的开发潜力巨大。然而, 尽管深度学习技术已经取得许多不错的成绩,但其仍然存在着一些需要攻 克的局限与缺点。目前深度网络模型对于使用者来说如同一个黑盒,使用 者缺乏对深度学习卷积网络模型运行的网络结构和中间过程的清晰认识, 使用者对深度学习卷积网络模型输入一个参数,然后通过深度学习卷积网 络模型计算后得出决策结果,但是使用者并不能清晰的知道深度学习卷积 网络模型内部决策的过程以及决策的依据是什么,从而也无法得知决策结 果是否可靠。
深度学习卷积网络模型可解释性的缺乏严重制约着其进一步落地:缺 乏可解释性就意味着使用者无法预期黑盒的可靠性,往往不敢贸然承担极 大风险完全依赖于用深度学习卷积网络模型去解决安全攸关领域中各方 面的问题,例如军事方面的情报搜集、敌我态势评估,政经方面的投资预 测、风险评价,选民投票意向分析,甚至无人驾驶、医疗领域。从军事的 角度来看,真实战场中存在的不确定因素多,环境复杂,加上来自敌方的 信息封锁以及干扰对抗,这些不可控因素都急切要求参战方对黑盒作出一 定程度的解释,以增强其在恶劣环境中的可靠性,使之能够真正发挥出应 有的价值。此外,深度学习卷积网络模型可解释性的严重匮乏也导致了其 可靠性方面面临的诸多质疑。而在某些应用场景中,哪怕只是微小的扰动, 都有可能会影响系统运作的性能。为了提高深度学习卷积网络模型的可解 释性和透明性,建立用户与深度学习卷积网络模型之间的信任关系,消除 深度学习卷积网络模型在实际部署应用中的潜在威胁,国内研究人员也对 其黑盒特性进行深入研究,提升智能算法的可理解性、透明性和可信性。
综上所述,深度学习卷积网络模型透明性、可解释性、可信性不足, 使得其无法直接应用于安全敏感任务中。因此对深度学习技术的可理解 性、透明性和可信性展开深入研究,简化和理解深度学习卷积网络模型, 可以为军事研究、社会进步提供一个强有力的工具,具有极为重大的实际 意义。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一 种基于离散系数的深度网络模型压缩方法,其结构简单、设计合理,利用离 散系数计算贡献度,借用贡献度鉴别不重要的卷积核并删掉,解决深度网络 模型节点规模庞大的问题,影响深度网络模型精度的同时提高了运行速度, 引入离散系数,增强深度网络模型的可解释性,使用效果好。
为解决上述技术问题,本发明采用的技术方案是:一种基于离散系数 的深度网络模型压缩方法,其特征在于:包括以下步骤:
步骤一、构建深度网络模型,深度网络模型具有k个卷积层;
步骤二、获取数据集样本,将数据集样本均分为n类,每一类样本类别 均包括m个样本,
步骤三、将数据集样本输入深度网络模型,获得特征图集合:按样本类 别将样本输入深度网络模型,获取特征图集合X,
Figure BDA0003643710400000031
其中
Figure BDA0003643710400000032
表示第i 类样本类别中第j个样本经过第l个卷积层中第fl个卷积核得到的特征图, 1≤j≤m,1≤i≤n,1≤l≤k,1≤fl≤cl,cl表示第l个卷积层的卷积核数量;
步骤四、利用特征图集合X计算深度网络模型中各卷积核的激活值
Figure BDA0003643710400000033
步骤五、利用各卷积核的激活值计算各卷积核的离散系数
Figure BDA0003643710400000034
步骤六、根据公式
Figure BDA0003643710400000035
计算各卷积核的贡献度
Figure BDA0003643710400000036
Figure BDA0003643710400000037
表示第 l个卷积层中第fl个卷积核的贡献度;
步骤七、根据深度网络模型各层卷积核的贡献度
Figure BDA0003643710400000038
对深度网络模型的 各层卷积核进行删减,对删减后的各层卷积核的权重和偏置项重新赋值。
上述的基于离散系数的深度网络模型压缩方法,其特征在于:获取删减 后的深度网络模型的关键路径,根据关键路径回溯得到深度网络模型的近似 树网络结构。
上述的基于离散系数的深度网络模型压缩方法,其特征在于:各卷积核 的激活值
Figure BDA0003643710400000039
的计算方法为:对第i类样本类别中第j个样本在第l个卷积层中 第fl个卷积核上基于h×w维度的激活值取最大值,其中第fl个卷积核的维度为 h×w×d。
上述的基于离散系数的深度网络模型压缩方法,其特征在于:利用各卷 积核的激活值计算各卷积核的离散系数
Figure BDA00036437104000000310
的计算方法为:
Figure BDA00036437104000000311
其中
Figure BDA00036437104000000312
表示卷积核激活值均值
Figure BDA00036437104000000313
在第l个卷积层中第fl个卷积核上的均值,
Figure BDA00036437104000000314
表示卷积核激活值均值
Figure BDA00036437104000000315
在第l个卷积层中第fl个卷积核上的标准差,
Figure BDA00036437104000000316
上述的基于离散系数的深度网络模型压缩方法,其特征在于:
Figure BDA00036437104000000317
Figure BDA00036437104000000318
表示第i类样本类别的卷积核激活值均值。
上述的基于离散系数的深度网络模型压缩方法,其特征在于:
Figure BDA0003643710400000041
上述的基于离散系数的深度网络模型压缩方法,其特征在于:步骤七的 具体步骤为:
步骤701、将第x个卷积层共cx个卷积核的贡献度按照从小到大的顺序排 序,对
Figure BDA0003643710400000042
所对应的卷积核进行删除,得到第x个卷积层第y+1次压 缩后的深度网络模型,对经过第x个卷积层第y+1次压缩后的深度网络模型第 x个卷积层的各卷积核的权重和偏置项重新赋值,x的取值依次为k到1,y的 取值依次为0到cx-1;
步骤702、将数据集样本输入经过第x个卷积层第y+1次压缩后的深度网 络模型,计算第x个卷积层第y+1次压缩后的深度网络模型的第x个卷积层的 网络性能下降值tx,若
Figure BDA0003643710400000043
tx-set进入步骤703,否则恢复第x个卷积层第y+1次 压缩删除的卷积核,然后进入步骤703,其中tx-set表示第x个卷积层网络性能 降低的最大限度值;
步骤703、y的取值加1,返回步骤701,重复执行,直到y的取值为c-1, 进入步骤704;
步骤704、x的取值减1,返回步骤701,重复执行,直到x的取值为1。
上述的一种基于离散系数的深度网络模型压缩方法,其特征在于: tx-set=0.3%。
本发明与现有技术相比具有以下优点:
1、本发明的结构简单、设计合理,实现及使用操作方便。
2、本发明将离散系数引入到深度网络模型的可解释性分析中,利用离 散系数计算各卷积核的贡献度,以衡量各卷积核在深度网络模型中的重要程 度,借用贡献度鉴别不重要的卷积核并删掉,从而获得深度网络模型的关键 路径,以此得到简化后、节点紧凑且性能良好的深度网络模型,解决深度网 络模型节点规模庞大的问题。
3、本发明对深度网络模型的卷积核从最后一层到第一层进行逐层删除, 从而有效地减小了深度网络模型的大小和深度网络模型运行时对内存的占 用,且不影响深度网络模型精度的同时提高了运行速度,使用效果好。
4、本发明根据深度网络模型的关键节点,构建与深度网络模型等价的 近似树网络结构,挖据各个输出类别与输入样本的主要模式变化关系,利 用近似树网络结构的节点路径分析方法探索深度网络模型的逐层传递和演 变规律。
5、本发明引入贡献度,增强深度网络模型的可解释性,帮助理解深度 网络模型,提高深度网络模型算法的可信性,而且几乎不影响深度网络模型 的泛化性能,使用效果好。
综上所述,本发明结构简单、设计合理,利用离散系数计算贡献度, 借用贡献度鉴别不重要的卷积核并删掉,解决深度网络模型节点规模庞大的 问题,影响深度网络模型精度的同时提高了运行速度,引入离散系数,增强 深度网络模型的可解释性,使用效果好。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中 的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
图2为本申请实施例提供的一种根据贡献度删除卷积核的示意性流程 图。
图3为本发明深度网络模型压缩前后和近似树网络结构的对照图。
图4为本发明深度网络模型分类精度多次下降到阈值时分类精度的变化 曲线图。
图5为本发明的电路原理框图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说 明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的 特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非 意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文 另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的 是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特 征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺 序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这 里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以 外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意 图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、 系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没 有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单 元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、 “在……上方”、“在……上表面”、“上面的”等,用来描述如在图中 所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的 是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或 操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在 其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语 “在……上方”可以包括“在……上方”和“在……下方”两种方位。该 器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里 所使用的空间相对描述作出相应解释。
实施例一
如图1所示,本发明包括一种基于离散系数的深度网络模型压缩方法, 具有以下步骤:
步骤一、构建深度网络模型,深度网络模型具有k个卷积层,第l个卷积 层具有cl个卷积核,第fl个卷积核的尺寸为h×w×d,其中k为正整数,c为正 整数,h、w、d均为正整数。
深度网络模型可采用VGG16学习框架搭建的卷积网络模型,卷积网络模 型由输入层、卷积层、全连接层共同组成。采用Pytorch作为开发工具,构 建出VGG16神经网络模型,VGG16神经网络模型共包含13个卷积层、3个 全连接层,需要说明的是,每个卷积核具有不同的大小或尺寸是可能的。VGG16 神经网络模型可以用于图像处理,图像处理被用于各种各样的技术应用中, 作为示例,可用于图像中的特定种类或类型的对象的定位,例如在用于图 像和视频分析的计算机视觉应用中,本实施例不做具体限制,神经网络模 型以下简称VGG16神经网络、VGG16网络模型,其各层特性如表1所示:
表1 VGG16神经网络模型网络结构变化表
Figure BDA0003643710400000071
Figure BDA0003643710400000081
VGG16神经网络模型隐藏层的激活函数采用ReLU函数:输出层的激活 函数采用softmax函数:训练中,采用交叉熵损失函数作为代价函数,通 过梯度下降法实现权值更新,优化模型的参数,训练流程完成后,VGG16 神经网络模型在测试集上的识别精度为0.9815。
步骤二、获取数据集样本,将数据集样本均分为n类,每一类样本类别 均包括m个样本,n、m均为正整数。实际使用时,根据应用场景采集图像数 据并制作数据集样本,应用场景包括n类,对应的数据集样本分为n类,这意 味着所采集生成的图被保存或存储在电子或计算机可读存储介质上,和/或被 传输到另一个程序或应用以供进一步处理或使用。数据集样本也可以直接采 用Cifar10数据集,Cifar10数据集包含10类,每个样本类别的样本数均为 5000张。
步骤三、将数据集样本输入深度网络模型,获得特征图集合:按样本类 别将样本输入深度网络模型,获取特征图集合X,
Figure BDA0003643710400000082
其中
Figure BDA0003643710400000083
表示第i 类样本类别中第j个样本经过第l个卷积层中第fl个卷积核得到的特征图, 1≤j≤m,1≤i≤n,1≤l≤k,1≤fl≤cl,cl表示第l个卷积层的卷积核数量。
将数据集样本中各样本类别的样本依次输入深度网络模型中,获得各样 本类别的样本在深度网络模型各中间隐藏层所对应的特征图集合X,
Figure BDA0003643710400000084
此处,1≤j≤5000,1≤i≤10,1≤l≤13,1≤fl≤cl。各样本类别的样 本所对应的特征图,可以用于表示各样本类别的样本对应的实体的性质、特 征和属性等信息。
步骤四、利用特征图集合X计算深度网络模型中各卷积核的激活值
Figure BDA0003643710400000085
Figure BDA0003643710400000086
表示第i类样本类别中第j个样本在第l个卷积层中第fl个卷积核上基于 h×w维度的最大值。在进行图像分类时更加关注的是特征图中的最大值,故 取特征图的全局最大池化作为卷积核节点的激活值。第i类样本类别中第j个 样本在深度网络模型第l个卷积层中第fl个卷积核上的特征图
Figure BDA0003643710400000087
的维度为 h×w×d,在h×w维度上取最大值得到激活值样本对
Figure BDA0003643710400000088
Figure BDA0003643710400000089
为长度为d的一 维向量。
一个结构、参数合理的深度网络模型之所以能够极为出色地完成各种 分类任务,在于深度网络模型从输入图像中提取出的特征满足了将其判定 为某一特定类别的条件。而在分类任务中,当模型节点处理来自数据集样 本中的不同输入图像时必然产生不同的激活值,负责提取特征的模型节点 通过激活值的大小反映输入图像的性质。在处理不同种类输入图像的过程 中,模型节点提取得到的特征不同,那么模型节点输出的激活值会根据特 征的不同发生变化。
如果模型节点提取得到的特征是各个不同类别所共同具有的特征,则 模型节点输出的激活值的变化将不会存在很大的差异。
基于此,在处理不同类别的输入图像时,激活值变化越剧烈的节点, 对于深度网络模型分类发挥的作用越大,越属于模型的关键节点。由各卷 积层关键节点相互连接构成的网络结构,就是整个深度网络模型中的关键 路径。
步骤五、根据公式
Figure BDA0003643710400000091
计算深度网络模型各卷积核的离散系数
Figure BDA0003643710400000092
Figure BDA0003643710400000093
表示第l个卷积层中第fl个卷积核的离散系数。
本申请引入离散系数,离散系数又称变异系数,是统计学当中常用的统 计指标。当待比较的各卷积核的激活值相差较大时,利用标准差显然不合适。 在这种情况下,离散系数是一种十分有价值的工具。基于各卷积核的激活值 计算各卷积核的离散系数
Figure BDA0003643710400000094
各,离散系数高的卷积核,对于分类任务的作 用更为显著。反之,离散系数偏小,则说明该卷积核所携带的可用于区分 所属类别的信息相对较少。
Figure BDA0003643710400000095
表示卷积核激活值均值
Figure BDA0003643710400000096
在第l个卷积层中 第fl个卷积核上的均值,
Figure BDA0003643710400000097
标准差的定义是总体各单位标准值与其平均数离差平方的算数平均数的 平方根,标准差反应组内个体间的离散程度,具有非负性。
Figure BDA0003643710400000098
表示卷积核 激活值均值
Figure BDA0003643710400000099
在第l个卷积层中第fl个卷积核上的标准差,标准差
Figure BDA0003643710400000101
Figure BDA0003643710400000102
表示第i类样本类别的卷积核激活值均值,
Figure BDA0003643710400000103
步骤六、根据公式
Figure BDA0003643710400000104
计算各卷积核的贡献度
Figure BDA0003643710400000105
Figure BDA0003643710400000106
表示第 l个卷积层中第fl个卷积核的贡献度。公式
Figure BDA0003643710400000107
是对每一层的cl个卷 积核的贡献度进行归一化,使得每一层cl个卷积核贡献度加和为一。通过计 算深度网络模型在各类别样本上各卷积核的离散系数,度量深度网络模型中 各卷积核的贡献度,用于增强深度网络模型的可解释性,帮助理解深度网络 模型,提高深度网络模型算法的可信性。
步骤七、根据深度网络模型各层卷积核的贡献度
Figure BDA0003643710400000108
对深度网络模型的 各层卷积核进行删减,对删减后的各层卷积核的权重和偏置项重新赋值。利 用离散系数计算贡献度,借用贡献度鉴别不重要的卷积核并删掉,删掉一个 卷积核的本质是要删掉于这个卷积核对应的输入和输出的连接关系,从而直 接获得一个压缩优化后的深度网络模型,解决深度网络模型节点规模庞大导 致网络难以分析的问题,而且几乎不影响深度网络模型的泛化性能,使用效 果好。
图2是本申请实施例提供的一种根据贡献度删除卷积核的示意性流程 图,作为示例而非限定。参见图2,该方法包括:步骤701、将第x个卷积层 共cx个卷积核的贡献度按照从小到大的顺序排序,对
Figure BDA0003643710400000109
所对应的卷 积核进行删除,得到第x个卷积层第y+1次压缩后的深度网络模型,对经过第 x个卷积层第y+1次压缩后的深度网络模型第x个卷积层的各卷积核的权重 和偏置项重新赋值,x的取值依次为k到1,y的取值依次为0到cx-1。
步骤702、将数据集样本输入经过第x个卷积层第y+1次压缩后的深度网 络模型,计算第x个卷积层第y+1次压缩后的深度网络模型的第x个卷积层的 网络性能下降值tx,若
Figure BDA00036437104000001010
tx-set进入步骤703,否则恢复第x个卷积层第y+1次 压缩删除的卷积核,然后进入步骤703,其中tx-set表示第x个卷积层网络性能 降低的最大限度值。
每删除一个卷积核,都再使用测试集对当前经过第x个卷积层第y+1次压 缩后的深度网络模型的分类精度进行一次测试。若删除卷积核以后,卷积层 不收敛,即网络性能损失过大,则恢复删除的卷积核;若删除卷积核以后, 卷积层收敛,即网络性能损失小于阈值,则保存删除后的深度网络模型,从 而得到一个节点紧凑且性能良好的网络。
实际使用时,tx-set取值为0.3%。网络性能表示深度网络模型对数据集样 本的分类正确率,分类正确率acc=分类正确数量/总样本数量,分类正确率 acc控制在0.8以上,当分类正确率跌至0.8以下时,重新用训练集将余下 的深度网络模型训练1个轮次。分类正确率acc的计算方法此处不再赘述。
步骤703、y的取值加1,返回步骤701,重复执行,直到y的取值为c-1, 进入步骤704;
步骤704、x的取值减1,返回步骤701,重复执行,直到x的取值为1。
采用步骤701到步骤704的循环,对VGG16神经网络模型从最后一层到 第一层进行逐层删除,当分类精度低于0.8时,利用训练集中的样本重新训 练VGG16神经网络模型,以使剩下的各节点对输入图像可能所属的类别的特 征进行补充,记录VGG16神经网络模型分类精度下降到0.8时删除的节点个 数,如表2所示。
表2 全连接网络模型节点变化情况
Figure BDA0003643710400000111
Figure BDA0003643710400000121
经过节点删除后VGG16神经网络模型仅保留26.56%节点数量,但在 Cifar10数据集训练集上识别正确率仍有95.71%,说明压缩简化后的VGG16 神经网络模型在性能上与原VGG16神经网络模型十分接近。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实 施过程构成任何限定。
如图3所示,获取删减后的深度网络模型的关键路径,根据关键路径回 溯得到深度网络模型的近似树网络结构。
模型A为原始网络模型,模型B为压缩后的网络模型,模型C为近似树 网络结构。模型A中最上层为输入节点,最下层为输出节点,中间4层为隐 层节点。模型B中最上层为输入节点,最下层为输出节点,而隐层节点经过 删减,只留下对分类效果作用显著的关键节点,连接关键节点、输入节点和 输出节点构成关键路径。
分析模型B可看到,每一个输入样本,经过第一层卷积层,均有2个分 支,第一层卷积层到第二层卷积层,也有2个分支,依此类推,多个关键路 径对应得到多个近似树网络结构,模型B的层数即为近似树的高度,每一条 路径代表不同的规则。模型C为模型B的其中一个近似树网络结构。
根据近似树网络结构,探索深度网络模型从输入到输出的主要模式,拟 合各个近似树网络结构的输入输出变化关系,进而分析信息在关键路径的演 化规律,有助于理解深度网络模型内部的工作机理,为解释、乃至控制深度 探索深度网络模型提供基本依据。
实施例二
与实施例一不同的是,本申请的网络模型,还可以选用全连接网络模 型。全连接网络模型被分为输入层、输出层,以及若干隐藏层。隐藏层中 又包含若干节点,节点即卷积核,需要说明的是,每个卷积核具有不同的大 小或尺寸是可能的。作为示例,采用TensorFlow作为开发工具,构建出一 个具有5层隐藏层的全连接网络模型,其各层特性如表3所示。
表3 全连接网络模型结构概览表
Figure BDA0003643710400000131
如表3所示全连接网络模型的隐藏层的的节点共计320个。全连接网 络模型的隐藏层的激活函数采用sigmoid函数:
Figure BDA0003643710400000132
输出层的激活函数采用softmax函数:
Figure BDA0003643710400000133
采 用交叉熵损失函数作为代价函数,通过梯度下降法实现权值更新,优化全 连接网络模型的参数。训练流程完成后,全连接网络模型在测试集上的识 别精度为0.9445。
采用步骤701到步骤704的循环,对全连接网络模型从最后一层到第一 层进行逐层删除,当分类精度低于0.8时,利用训练集中的样本重新训练全 连接网络模型,以使剩下的各节点对输入图像可能所属的类别的特征进行补 充,之后继续采用步骤701到步骤704的循环,删除节点。记录每次全连接 网络模型分类精度下降到0.8时删除的节点个数,如表4所示。
表4 全连接网络模型节点变化情况
Figure BDA0003643710400000141
记录每次网络模型分类精度下降到0.8时分类精度的变化曲线,如图4 所示。结合图4和表4,可以看到,每次重新训练网络模型后删除掉的节点 数目明显越来越少,也印证了离散系数越大的节点,其重要性越大,在网络 中越不可替代这一理论。若取第6次删减后的、离散系数较大的130个节点 互相连接组成的网络作为原始全连接网络模型的压缩模型,在精度变化曲线 图中可以看到经过补充特征信息之后,该简化模型的识别精度仍然可以达到 0.9293。
即经过第6次节点删除后全连接网络模型仅保留40.62%节点数量,但在 Cifar10数据集训练集上识别正确率仍有0.9293%,从而有效地减小了深度网 络模型的大小和深度网络模型运行时对内存的占用,且保持了深度网络模型 的分类准确率,使用效果好。
实施例三
与实施例一不同的是,删除卷积核时,从最后一层卷积层按照从后向前 依次删除贡献度
Figure BDA0003643710400000142
小于贡献度阈值的卷积核,若删除卷积核以后,网络性 能损失大于损失阈值,则恢复删除的卷积核;若删除卷积核以后,网络性能 损失小于损失阈值,则保存删除后的深度网络模型,从而得到一个节点紧凑 且性能良好的网络。实际使用时,网络性能表示深度网络模型对数据集样本 的分类正确率,分类正确率acc控制在80%以上。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的 算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。 这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和 设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实 现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述,仅是本发明的实施例,并非对本发明作任何限制,凡是根 据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构 变化,均仍属于本发明技术方案的保护范围内。

Claims (8)

1.一种基于离散系数的深度网络模型压缩方法,其特征在于:包括以下步骤:
步骤一、构建深度网络模型,深度网络模型具有k个卷积层;
步骤二、获取数据集样本,将数据集样本均分为n类,每一类样本类别均包括m个样本,
步骤三、将数据集样本输入深度网络模型,获得特征图集合:按样本类别将样本输入深度网络模型,获取特征图集合X,
Figure FDA0003643710390000011
其中
Figure FDA0003643710390000012
表示第i类样本类别中第j个样本经过第l个卷积层中第fl个卷积核得到的特征图,1≤j≤m,1≤i≤n,1≤l≤k,1≤fl≤cl,cl表示第l个卷积层的卷积核数量;
步骤四、利用特征图集合X计算深度网络模型中各卷积核的激活值
Figure FDA0003643710390000013
步骤五、利用各卷积核的激活值计算各卷积核的离散系数
Figure FDA0003643710390000014
步骤六、根据公式
Figure FDA0003643710390000015
计算各卷积核的贡献度
Figure FDA0003643710390000016
Figure FDA0003643710390000017
表示第l个卷积层中第fl个卷积核的贡献度;
步骤七、根据深度网络模型各层卷积核的贡献度
Figure FDA0003643710390000018
对深度网络模型的各层卷积核进行删减,对删减后的各层卷积核的权重和偏置项重新赋值。
2.按照权利要求1所述的基于离散系数的深度网络模型压缩方法,其特征在于:获取删减后的深度网络模型的关键路径,根据关键路径回溯得到深度网络模型的近似树网络结构。
3.按照权利要求1所述的基于离散系数的深度网络模型压缩方法,其特征在于:各卷积核的激活值
Figure FDA0003643710390000019
的计算方法为:对第i类样本类别中第j个样本在第l个卷积层中第fl个卷积核上基于h×w维度的激活值取最大值,其中第fl个卷积核的维度为h×w×d。
4.按照权利要求1所述的基于离散系数的深度网络模型压缩方法,其特征在于:利用各卷积核的激活值计算各卷积核的离散系数
Figure FDA0003643710390000021
的计算方法为:
Figure FDA0003643710390000022
其中
Figure FDA0003643710390000023
表示卷积核激活值均值
Figure FDA0003643710390000024
在第l个卷积层中第fl个卷积核上的均值,
Figure FDA0003643710390000025
表示卷积核激活值均值
Figure FDA0003643710390000026
在第l个卷积层中第fl个卷积核上的标准差,
Figure FDA0003643710390000027
5.按照权利要求4所述的基于离散系数的深度网络模型压缩方法,其特征在于:
Figure FDA0003643710390000028
Figure FDA0003643710390000029
表示第i类样本类别的卷积核激活值均值。
6.按照权利要求4所述的基于离散系数的深度网络模型压缩方法,其特征在于:
Figure FDA00036437103900000210
7.按照权利要求1所述的基于离散系数的深度网络模型压缩方法,其特征在于:步骤七的具体步骤为:
步骤701、将第x个卷积层共cx个卷积核的贡献度按照从小到大的顺序排序,对
Figure FDA00036437103900000211
所对应的卷积核进行删除,得到第x个卷积层第y+1次压缩后的深度网络模型,对经过第x个卷积层第y+1次压缩后的深度网络模型第x个卷积层的各卷积核的权重和偏置项重新赋值,x的取值依次为k到1,y的取值依次为0到cx-1;
步骤702、将数据集样本输入经过第x个卷积层第y+1次压缩后的深度网络模型,计算第x个卷积层第y+1次压缩后的深度网络模型的第x个卷积层的网络性能下降值tx,若tx<txtes,进入步骤703,否则恢复第x个卷积层第y+1次压缩删除的卷积核,然后进入步骤703,其中tx-set表示第x个卷积层网络性能降低的最大限度值;
步骤703、y的取值加1,返回步骤701,重复执行,直到y的取值为c-1,进入步骤704;
步骤704、x的取值减1,返回步骤701,重复执行,直到x的取值为1。
8.按照权利要求7所述的基于离散系数的深度网络模型压缩方法,其特征在于:tx-set=0.3%。
CN202210521648.8A 2022-05-13 2022-05-13 基于离散系数的深度网络模型压缩方法 Pending CN115131646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210521648.8A CN115131646A (zh) 2022-05-13 2022-05-13 基于离散系数的深度网络模型压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210521648.8A CN115131646A (zh) 2022-05-13 2022-05-13 基于离散系数的深度网络模型压缩方法

Publications (1)

Publication Number Publication Date
CN115131646A true CN115131646A (zh) 2022-09-30

Family

ID=83376749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210521648.8A Pending CN115131646A (zh) 2022-05-13 2022-05-13 基于离散系数的深度网络模型压缩方法

Country Status (1)

Country Link
CN (1) CN115131646A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313562A (zh) * 2023-11-30 2023-12-29 西华大学 适用于机载防撞系统的逻辑表压缩方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313562A (zh) * 2023-11-30 2023-12-29 西华大学 适用于机载防撞系统的逻辑表压缩方法
CN117313562B (zh) * 2023-11-30 2024-02-27 西华大学 适用于机载防撞系统的逻辑表压缩方法

Similar Documents

Publication Publication Date Title
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
CN110188794B (zh) 一种深度学习模型的训练方法、装置、设备及存储介质
CN111222638B (zh) 一种基于神经网络的网络异常检测方法及装置
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN116316591A (zh) 基于混合双向门控循环的短期光伏功率预测方法及系统
CN116781346A (zh) 基于数据增强的卷积双向长短期记忆网络入侵检测方法
CN114004383A (zh) 时间序列预测模型的训练方法、时间序列预测方法及装置
CN112580780A (zh) 模型训练的处理方法、装置、设备和存储介质
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法
CN112766496A (zh) 基于强化学习的深度学习模型安全性保障压缩方法与装置
CN112560948A (zh) 数据偏差下的眼底图分类方法及成像方法
CN113344045A (zh) 一种结合hog特征提高sar船只分类精度的方法
CN115496144A (zh) 配电网运行场景确定方法、装置、计算机设备和存储介质
CN115131646A (zh) 基于离散系数的深度网络模型压缩方法
JP3896868B2 (ja) パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN113095501A (zh) 一种基于深度强化学习的不平衡分类决策树生成方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN117313160A (zh) 一种隐私增强的结构化数据仿真生成方法及系统
CN111832787B (zh) 教师风格预测模型的训练方法及计算机存储介质
WO2020190951A1 (en) Neural network trained by homographic augmentation
CN114821200B (zh) 一种应用于工业视觉检测领域的图像检测模型及方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination