CN111210009A - 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 - Google Patents
一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN111210009A CN111210009A CN202010039251.6A CN202010039251A CN111210009A CN 111210009 A CN111210009 A CN 111210009A CN 202010039251 A CN202010039251 A CN 202010039251A CN 111210009 A CN111210009 A CN 111210009A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- neural network
- information entropy
- following
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 46
- 230000003044 adaptive effect Effects 0.000 title claims description 23
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013138 pruning Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0409—Adaptive resonance theory [ART] networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,包括依次执行以下步骤:步骤一:每个周期内多个模型权值正常迭代更新;步骤二:计算每一层滤波器的信息熵;步骤三:相邻两个网络自适应的加权平均作为新的权值。本发明的有益效果是:1.该方法能够激活模型中的无效滤波器,从而在不改变模型结构的情况下提高模型的准确率;2.该方法提出使用滤波器的信息熵来评价滤波器的质量,相比使用范数能够更加准确地评价滤波器质量,相比计算输出特征图的信息熵需要更少的计算量;3.该方法提出自适应加权平均函数,针对每一层的特点,动态的调节两个模型中滤波器保留的比例,相比给所有层设置统一的系数更加的灵活。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法。
背景技术
深度神经网络的发展十分迅速,在计算机视觉,语音识别,自然语言处理等方面变得流行和高效。在计算机视觉领域,大量的滤波器被使用在神经网络中,滤波器可以用来提取前一层特征矩阵的特征,生成下一层的特征矩阵。实验表明,随着深度神经网络参数量的增大,模型的性能也在提升。因此越来越深的模型被提出。然而,最近的研究表明,深度神经网络中包含大量的无效滤波器。这些无效滤波器并没有对最终结果产生积极作用,因此这些滤波器浪费了大量的计算力。
常用的解决无效滤波器问题的方式是滤波器剪枝技术,剪枝技术将无效滤波器裁减掉,只保留好的滤波器。滤波器剪枝技术通常分为训练、剪枝、调整这三个阶段。在训练阶段,为了获得更加稀疏化的模型,需要在损失函数中添加相应的惩罚项进行结构化稀疏。在剪枝阶段,通过一些指标(例如滤波器的范数)来筛选出无效滤波器,并将这些滤波器从模型中减掉。为了恢复裁剪后模型的性能,在调整阶段,需要将裁剪后的模型重新训练。滤波器剪枝技术主要关注在裁剪阶段如何准确地评价滤波器的好坏,从而确定需要裁剪的位置。另外还有一些方法关注如何更好地裁减掉这些无效的滤波器,而不破坏模型的性能,从而省去调整阶段的计算。
深度神经网络通常会“过参数化”,即使用越来越深的网络,越来越多的参数来对数据进行拟合。但是这样过参数化的结果导致,模型中有很多的滤波器没有得到有效利用。现有的解决无效滤波器的方法都是将这些滤波器直接裁掉,这样得到的新的模型结构已经发生了变化,这给模型的部署增加了困难。改变了模型结构后,想要使用预训练模型会比较困难,此外裁掉这些滤波器后,模型精度也可能会下降。
发明内容
本发明提供了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,包括依次执行以下步骤:
步骤一:每个周期内多个模型权值正常迭代更新;
步骤二:计算每一层滤波器的信息熵;
步骤三:相邻两个网络自适应的加权平均作为新的权值。
在所述步骤1中,还包括执行以下步骤:
作为本发明的进一步改进,在所述步骤2中,还包括执行以下步骤:
第3步骤:将模型每一层的权重,离散化为B位,pb代表每一位出现的频率,则每一层的信息熵为:
第4步骤:使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小:
作为本发明的进一步改进,在所述步骤3中,还包括执行以下步骤:第5步骤:对于任一模型K,使用如下公式自适应的加权平均他和模型K-1的每一层,作为模型K的新的参数:
在所述步骤3后还包括执行以下步骤:
步骤四:进入下一个周期,重新执行上面的步骤1至步骤3,直到模型最终收敛。
本发明公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接装置,包括依次执行以下单元:
单元一:每个周期内多个模型权值正常迭代更新;
单元二:计算每一层滤波器的信息熵;
单元三:相邻两个网络自适应的加权平均作为新的权值。
在所述单元一中,还包括执行以下单元:
作为本发明的进一步改进,在所述单元二中,还包括执行以下单元:第3单元:将模型每一层的权重,离散化为B位,pb代表每一位出现的频率,则每一层的信息熵为:
第4单元:使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小:
作为本发明的进一步改进,在所述单元三中,还包括执行以下单元:第5单元:对于任一模型K,使用如下公式自适应的加权平均他和模型K-1的每一层,作为模型K的新的参数:
在所述单元三后还包括执行以下单元:
单元四:进入下一个周期,重新执行上面的单元一至单元三,直到模型最终收敛。
本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
本发明的有益效果是:1.该方法能够激活模型中的无效滤波器,从而在不改变模型结构的情况下提高模型的准确率;2.该方法提出使用滤波器的信息熵来评价滤波器的质量,相比使用l1范数能够更加准确地评价滤波器质量,相比计算输出特征图的信息熵需要更少的计算量;3.该方法提出自适应加权平均函数,针对每一层的特点,动态的调节两个模型中滤波器保留的比例,相比给所有层设置统一的系数更加的灵活,相比给每一层设置不同的系数需要更少的超参数。
附图说明
图1是本发明本发明的多模型自适应深度神经网络滤波器嫁接方法和以前方法的区别,浅灰色长方体代表无效滤波器,本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活,得到一个结构不变的更好的模型;
图2是本发明的多模型并行滤波器嫁接每个模型与其相邻前一个模型进行加权平均,互相激活彼此的无效滤波器;
图3是本发明的多模型自适应深度神经网络滤波器嫁接方法利用两个模型的信息熵自适应的计算加权平均系数的示意图,当两个模型第i层信息熵相同时,加权平均系数为0.5;当模型2相对模型1的信息熵越大,加权平均时模型2的系数就越大;
图4是本发明的多模型自适应深度神经网络滤波器嫁接方法采用滤波器嫁接方法的效果示意图,随着参与嫁接的模型数量越来越多,最终每个模型的信息量也越来越大,模型的准确率也越来越高。
具体实施方式
本发明公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,包括依次执行以下步骤:
步骤一:每个周期内多个模型权值正常迭代更新;
步骤二:计算每一层滤波器的信息熵;
步骤三:相邻两个网络自适应的加权平均作为新的权值。
在所述步骤1中,还包括执行以下步骤:
在所述步骤2中,还包括执行以下步骤:
第3步骤:将模型每一层的权重,离散化为B位,pb代表每一位出现的频率,则每一层的信息熵为:
第4步骤:使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小:
在所述步骤3中,还包括执行以下步骤:
第5步骤:对于任一模型K,使用如下公式自适应的加权平均他和模型K-1的每一层,作为模型K的新的参数:
在所述步骤3后还包括执行以下步骤:
步骤四:进入下一个周期,重新执行上面的步骤1至步骤3,直到模型最终收敛。
本发明公开的一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,该多模型自适应深度神经网络滤波器嫁接方法并行的训练多个模型,在每个训练周期结束时,使用信息熵来计算多个模型中每一层中无效滤波器数量的相对大小,根据信息熵的相对大小自适应的将每一层中的滤波器进行加权平均,由于多个模型之间具有差异性,每个模型使用自己的好滤波器,激活其他模型的无效滤波器,从而提高神经网络参数的利用率,进而在不改变模型结构的条件下,提高模型的准确率。
本发明公开的是一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,其采用的技术如图2中所示。我们并行的训练k个独立的深度神经网络模型,经过周期为T次迭代后,每个模型均获得其前一个模型的全部参数。分别计算两个模型的每一层中的滤波器信息熵,利用两个模型信息熵的相对大小,将每一层中的所有滤波器进行加权平均,然后再进行下一个周期的参数更新。
本发明的多模型自适应深度神经网络滤波器嫁接方法主要为了解决深度神经网络中存在大量无效滤波器的问题,以前解决无效滤波器的方法主要是将无效滤波器直接裁剪掉,本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活,从而提高模型参数的利用率。本发明的多模型自适应深度神经网络滤波器嫁接方法和以前方法的区别如图1所示,灰色长方体代表无效滤波器,本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活,得到一个结构不变的更好的模型。
本发明松开的的多模型自适应深度神经网络滤波器嫁接方法如图2所示并行训练多个模型,经过周期为NT次的迭代后,我们就将每个模型的前一个模型中好的滤波器,嫁接到当前模型中的无效滤波器上,这样每个模型都会得到一个重新激活的新的模型参数。
本发明公开的多模型自适应深度神经网络滤波器嫁接方法根据每个模型与其前一个模型好的滤波器数量相对大小(用模型权重的信息熵表示),自适应的计算两个模型嫁接的比例,如图3所示,当两个模型中好的滤波器的数量相同时,嫁接系数为0.5,当一个模型相对另一个模型越大,相应系数也越大。
本发明公开的多模型自适应深度神经网络滤波器嫁接方法通过在训练过程中多个模型互相嫁接好的滤波器到无效滤波器上,可以显著提高模型的信息量和准确率。如图4所示,baseline是不使用嫁接方法训练得到的模型,对比2、4、6、8个模型嫁接的模型。可以发现使用嫁接方法得到的模型,包涵了更多的信息,模型的准确率更高。并且,随着模型数量的增加,这一现象更加明显。
本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接装置,包括依次执行以下单元:
单元一:每个周期内多个模型权值正常迭代更新;
单元二:计算每一层滤波器的信息熵;
单元三:相邻两个网络自适应的加权平均作为新的权值。
在所述单元一中,还包括执行以下单元:
在所述单元二中,还包括执行以下单元:
第3单元:将模型每一层的权重,离散化为B位,pb代表每一位出现的频率,则每一层的信息熵为:
第4单元:使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小:
在所述单元三中,还包括执行以下单元:
第5单元:对于任一模型K,使用如下公式自适应的加权平均他和模型K-1的每一层,作为模型K的新的参数:
在所述单元三后还包括执行以下单元:
单元四:进入下一个周期,重新执行上面的单元一至单元三,直到模型最终收敛。
本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
本发明的有益效果是:1.该方法能够激活模型中的无效滤波器,从而在不改变模型结构的情况下提高模型的准确率;2.该方法提出使用滤波器的信息熵来评价滤波器的质量,相比使用l1范数能够更加准确地评价滤波器质量,相比计算输出特征图的信息熵需要更少的计算量;3.该方法提出自适应加权平均函数,针对每一层的特点,动态的调节两个模型中滤波器保留的比例,相比给所有层设置统一的系数更加的灵活,相比给每一层设置不同的系数需要更少的超参数。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法,其特征在于,包括依次执行以下步骤:
步骤一:每个周期内多个模型权值正常迭代更新;
步骤二:计算每一层滤波器的信息熵;
步骤三:相邻两个网络自适应的加权平均作为新的权值。
5.一种基于信息熵的多模型自适应深度神经网络滤波器嫁接装置,其特征在于,包括依次执行以下单元:
单元一:每个周期内多个模型权值正常迭代更新;
单元二:计算每一层滤波器的信息熵;
单元三:相邻两个网络自适应的加权平均作为新的权值。
9.一种基于信息熵的多模型自适应深度神经网络滤波器嫁接系统,其特征在于:包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010039251.6A CN111210009A (zh) | 2020-01-14 | 2020-01-14 | 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010039251.6A CN111210009A (zh) | 2020-01-14 | 2020-01-14 | 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111210009A true CN111210009A (zh) | 2020-05-29 |
Family
ID=70789134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010039251.6A Pending CN111210009A (zh) | 2020-01-14 | 2020-01-14 | 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210009A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435588A (zh) * | 2021-08-26 | 2021-09-24 | 之江实验室 | 基于深度卷积神经网络bn层尺度系数的卷积核嫁接方法 |
-
2020
- 2020-01-14 CN CN202010039251.6A patent/CN111210009A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435588A (zh) * | 2021-08-26 | 2021-09-24 | 之江实验室 | 基于深度卷积神经网络bn层尺度系数的卷积核嫁接方法 |
CN113435588B (zh) * | 2021-08-26 | 2022-01-04 | 之江实验室 | 基于深度卷积神经网络bn层尺度系数的卷积核嫁接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sung et al. | Resiliency of deep neural networks under quantization | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
CN110334580A (zh) | 基于集成增量的动态权重组合的设备故障分类方法 | |
CN111985523A (zh) | 基于知识蒸馏训练的2指数幂深度神经网络量化方法 | |
CN113011570A (zh) | 一种卷积神经网络模型的自适应高精度压缩方法及系统 | |
Shan et al. | Residual learning of deep convolutional neural networks for image denoising | |
CN112990420A (zh) | 一种用于卷积神经网络模型的剪枝方法 | |
CN110634476A (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
CN112884149A (zh) | 一种基于随机敏感度st-sm的深度神经网络剪枝方法及系统 | |
CN114970853A (zh) | 一种跨范围量化的卷积神经网络压缩方法 | |
CN111353534A (zh) | 一种基于自适应分数阶梯度的图数据类别预测方法 | |
CN117521763A (zh) | 一种融合组正则化剪枝和重要性剪枝的人工智能模型压缩方法 | |
CN111210009A (zh) | 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、系统及存储介质 | |
CN113393317A (zh) | 基于算法、大数据和区块链的汽车金融贷款风控系统 | |
CN117610689A (zh) | 基于信息熵的集成学习的动态神经网络模型的训练方法 | |
CN115994590B (zh) | 基于分布式集群的数据处理方法、系统、设备及存储介质 | |
CN115170902B (zh) | 图像处理模型的训练方法 | |
CN114742036B (zh) | 一种预训练语言模型的组合式模型压缩方法及系统 | |
CN113554104B (zh) | 一种基于深度学习模型的图像分类方法 | |
Sarkar et al. | An incremental pruning strategy for fast training of CNN models | |
CN114611673A (zh) | 神经网络压缩方法、装置、设备及可读存储介质 | |
Awan et al. | A theoretical cnn compression framework for resource-restricted environments | |
CN114820326B (zh) | 基于可调节核稀疏化的高效单帧图像超分方法 | |
WO2023027128A1 (ja) | 情報処理装置、及び記録媒体 | |
CN114219069B (zh) | 一种基于自动变分自编码器的脑效应连接网络学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200529 |