CN110766138A - 基于脑发育机制的自适应神经网络模型的构建方法及系统 - Google Patents
基于脑发育机制的自适应神经网络模型的构建方法及系统 Download PDFInfo
- Publication number
- CN110766138A CN110766138A CN201910999416.1A CN201910999416A CN110766138A CN 110766138 A CN110766138 A CN 110766138A CN 201910999416 A CN201910999416 A CN 201910999416A CN 110766138 A CN110766138 A CN 110766138A
- Authority
- CN
- China
- Prior art keywords
- network
- neurons
- pruning
- neuron
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003062 neural network model Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 230000004641 brain development Effects 0.000 title claims abstract description 29
- 210000002569 neuron Anatomy 0.000 claims abstract description 151
- 238000013138 pruning Methods 0.000 claims abstract description 85
- 230000003044 adaptive effect Effects 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000002441 reversible effect Effects 0.000 claims abstract description 7
- 230000006978 adaptation Effects 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 244000141353 Prunus domestica Species 0.000 abstract description 9
- 210000000225 synapse Anatomy 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 210000004556 brain Anatomy 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 210000003520 dendritic spine Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 210000003792 cranial nerve Anatomy 0.000 description 4
- 230000000946 synaptic effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000000653 nervous system Anatomy 0.000 description 2
- 230000001242 postsynaptic effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000012868 Overgrowth Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 210000001787 dendrite Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002964 excitative effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000005215 presynaptic neuron Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003956 synaptic plasticity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于脑发育机制的自适应神经网络模型的构建方法及系统,所述构建方法包括:对全连接的三层人工神经网络初始化;根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络;采用反方向传播算法重训练剪枝网络,得到更新网络;计算所述更新网络的适应性值;根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。本发明根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,剪去一定比例不重要的神经元后,再次训练网络,直到网络的适应性达到最高值,从而可实现神经元的动态分配,进而提高样本分类的准确性。
Description
技术领域
本发明涉及计算神经科学技术领域,具体涉及一种基于脑发育机制的自适应神经网络模型的构建方法及系统。
背景技术
近年来,来自神经科学的发现已经从若干角度影响了人工智能的研究,例如深度神经网络借鉴脑视觉系统的层次信息处理机制;长短期记忆网络借鉴的是人脑在信息处理上的记忆与遗忘机制,通过门控机制,将输入的信息作保留或删减,更好地保留关键信息。但这些网络的训练方法是非生物的方法,而且学习过程往往需要大量的人工标注。
此外,当前神经网络需要事先定义网络的结构,设计与任务复杂度相匹配的网络大小是非常困难的,通常网络超参数过多会导致过拟合的发生,而且收敛速度缓慢。脑神经系统是一个自适应的动态过程,从微观角度来说,发育过程中树突棘、突触和神经元都在不断地自适应的生长和消亡,这对于脑神经系统适应不同任务的学习以及高效合理的运作起着至关重要的作用。
受脑多层信息处理方式启发的深度神经网络在图像分类,人脸识别等任务上也取得了巨大的成功。然而当前神经网络的规模及超参数很难被突破,在保证模型性能的情况下,需要最大程度地压缩模型参数及运算量。最小值删除法是一种简单而有效的网络修剪方法,该方法剪枝所有权重小于阈值的连接,网络能够得到极大的压缩同时准确率保持不变。最小值删除法的缺点在于依赖于阈值的剪枝可能会导致一些有用的突触因为偶然一次小于阈值而被删除了。还有一些方法设计合适的评估标准来评估突触的重要性,从而剪枝最不重要的突触,这里的评估方法包括泰勒的一阶展开,二阶展开等等。退火剪枝算法通过剪枝不重要的连接来提升模型的泛化性,退火机制体现在被剪枝的连接会随机地重新回到网络中。还有一些方法使用平均激活为零的数量来评估深度网络中卷积核的重要程度,剔除不重要的卷积核来降低模型的大小和运算量。基于熵值的剪枝方法利用熵值来评估卷积核的重要性,再剪枝不重要的卷积核。随机裁剪通过对每一种随机方式统计模型的性能,来确定局部最优的裁剪方式,这种方法可能需要尝试多次裁剪才能得到较好的结果。
Dropout是一种有效避免过拟合的方法。在训练阶段,每个神经元以一定的概率不被激活(将神经元的输出置零)。每次Dropout相当于从原始网络中只学习一部分更小的网络。这种方法能够一定程度地避免过拟合,提升网络的性能,不过本质来说网络的规模并没有减小。由此衍生出了一些避免过拟合的算法,例如Dropconnect算法随机丢弃一部分网络的突触连接(权重置零),帮助正则化网络,这种方法在分类性能上能够超过Dropout方法。这些方法都是在训练阶段正则化网络,使得保留下来的神经元或突触在当前迭代中得到更有效的优化。而被丢弃的神经元或突触并不是真正地被删除,因此网络结构并没有得到压缩。
演化人工神经网络可以动态地优化网络结构以及网络的参数,该方法通过适应性函数来评估网络的性能,适应性函数通常包括网络的分类准确率以及网络的规模。通过大量的演化子代并评估每个子代网络的性能,最后选择较优的网络结构及超参数。该方法通常搜索空间巨大,计算耗时,对计算资源和硬件要求非常高。
发明内容
为了解决现有技术中的上述问题,即为了解决自适应地调整网络的结构以避免过拟合或欠拟合,实现了针对不同任务需求的神经元动态分配,本发明提供一种基于脑发育机制的自适应神经网络模型的构建方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于脑发育机制的自适应神经网络模型的构建方法,所述构建方法包括:
对全连接的三层人工神经网络初始化;
根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络;
采用反方向传播算法重训练剪枝网络,得到更新网络;
计算所述更新网络的适应性值;
根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
可选的,所述人工神经网络包括输入层、隐层及输出层,且所述输入层、隐层及输出层的神经元个数互不影响,所述输出层的神经元个数为类别个数。
可选的,所述根据所述输入层及输出层的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络,具体包括:
基于重要性评估函数,计算神经元j的重要性Ij:
其中,Nin是神经元j的输入连接的个数,Nout是神经元j的输出连接的个数,wij是从神经元i到神经元j的连接权重,wjk是从神经元j到神经元k的连接权重;
根据各神经元的重要性及重要性阈值,剪枝神经元,获得剪枝网络,其中,所述重要性阈值与所述适应性值相关联。
可选的,根据各神经元的重要及重要性阈值,剪枝神经元,获得剪枝网络,具体包括:
重要性小于重要性阈值的神经元为不重要神经元,删除各不重要神经元;删除各不重要神经元为剪枝所述不重要神经元的所有输入和输出连接;
重要性大于或等于重要性阈值的神经元为重要神经元,保留各重要神经元;各重要神经元的输入和输出连接,形成剪枝网络。
可选的,所述计算所述更新网络的适应性值,具体包括:
计算所述更新网络的分类性能的分类准确率A;
计算所述更新网络的网络稳定性S;
计算所述更新网络的权重均值E;
根据所述分类准确率A、网络稳定性S及权重均值E,计算所述更新网络的适应性值F。
可选的,所述计算所述更新网络的分类性能的分类准确率A,具体包括:
通过所述更新网络,对测试样本进行分类测试,得到分类结果;
根据所述分类结果及测试样本的个数,基于以下公式,计算分类准确率A:
其中,Nr表示分类正确样本的个数,Ns表示所有测试样本的个数,error表示分类错误率。
可选的,所述计算所述更新网络的网络稳定性S,具体包括:
根据以下公式,计算剪枝后保留的权重和重训练后权重的变化量pi:
pi=wri-wpi;
其中,wpi表示剪枝掉不重要的神经元之后神经元i的连接权重,wri表示经过重训练之后的神经元i的连接权重;
根据以下公式,计算更新网络的熵值H(p):
其中,Ncon表示网络剩下的连接个数;
基于以下公式,对所述更新网络的熵值进行归一化处理,得到网络稳定性S:
其中,max(.)为取最大值函数。
可选的,计算所述更新网络的权重均值E:
其中,n是更新网络的输入层神经元的个数,m是隐层神经元的个数,wij是从神经元i到神经元j的连接权重,wjk是从神经元j到神经元k的连接权重。
可选的,根据以下公式,算所述更新网络的适应性值F:
F=αA+βS+γE;
其中,α,β,γ分别表示分类准确率A、网络稳定性S及权重均值E的比例系数。
为解决上述技术问题,本发明还提供了如下方案:
一种基于脑发育机制的自适应神经网络模型的构建系统,所述构建系统包括:
初始化单元,用于对全连接的三层人工神经网络初始化;
剪枝单元,用于根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络;
重构单元,用于采用反方向传播算法重训练剪枝网络,得到更新网络;
计算单元,用于计算所述更新网络的适应性值;
调整单元,分别与所述计算单元及剪枝单元连接,用于根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
根据本发明的实施例,本发明公开了以下技术效果:
本发明根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,剪去一定比例不重要的神经元后,再次训练网络,直到网络的适应性达到最高值,从而可实现神经元的动态分配,进而提高样本分类的准确性。
附图说明
图1是本发明基于脑发育机制的自适应神经网络模型的构建方法的流程图;
图2中A部分是本发明中传统神经网络分类性能与模型复杂度的关系图,图2中B部分是BDNN-sp网络中适应性函数与模型复杂度的关系图,图2中C部分是最优网络复杂度与数据复杂度的关系图;
图3为本发明中脑神经系统树突棘、突触以及神经元的剪枝过程;
图4中A部分为本发明中剪枝过程准确率变化图,图4中B部分为稳定性变化图,图4中C部分是权重均值变化图,图4中D部分是适应性函数变化图;
图5为本发明中模型在不同复杂度任务下的网络大小;
图6为本发明中模型在新样本上的准确率对比结果;
图7为本发明基于脑发育机制的自适应神经网络模型的构建系统的模块结构示意图。
符号说明:
初始化单元—1,剪枝单元—2,重构单元—3,计算单元—4,调整单元—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的提供一种基于脑发育机制的自适应神经网络模型的构建方法,根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,剪去一定比例不重要的神经元后,再次训练网络,直到网络的适应性达到最高值,从而可实现神经元的动态分配,进而提高样本分类的准确性。
其中,借鉴脑神经系统的工作原理是解决当前神经网络存在问题的有效手段。脑神经系统不只有连接强度的改变,也存在网络结构的可塑性。脑发育过程中树突棘的总量会随着年龄的增长而动态的改变。刚出生的婴儿,脑中突触的数量很少,这时全新的环境暴露在婴儿面前,各种各样的信息都需要脑进行处理,神经元之间的突触连接会形成爆发式的增长,突触数目急剧增加形成过生长,到2-3岁时达到顶峰。在这之后,脑会根据生物学上的“用进废退”原则,动态地剪枝掉冗余的突触甚至神经元,到成人阶段趋于稳定。脑发育过程中突触的修剪是非常重要的,过多或过少的修剪都会导致各种疾病的产生。具体的突触修剪机制如下:当环境信号传入脑后,引起突触后神经元的兴奋,并依次在神经系统中传播,重复的使用会加强突触的连接,而不怎么利用的突触连接会逐渐被减弱甚至删除,这是保证脑高效运作的基础。本发明将脑发育过程中的动态剪枝机制应用到神经网络的训练和优化当中去,以实现针对不同任务需求的神经元动态分配。
根据经验设定好的深度神经网络结构容易陷入过拟合或欠拟合的问题,这是由于深度神经网络无法估计要处理的任务的复杂程度。即使根据经验为当前任务设计了恰当的神经网络,再拓展到其他更复杂或简单的任务上时就会出现欠拟合或过拟合的现象,即事先设定的网络结构不具备一定的适应性。
如图2中A部分所示,传统神经网络通过权衡测试误差和训练误差来找到最合适的网络规模。而实际上,网络性能在很大范围的网络复杂度下都保持稳定,如图2中A部分的实线曲线所示,因此只使用准确率作为网络学习的评估标准是不全面的,还应该考虑网络对样本的适应性以及网络的稳定性等等。本发明提出基于脑发育机制的自适应神经网络模型(BDNN-sp),用于实现针对不同任务需求的神经元动态分配。本发明提出了一种适应性函数来评估网络大小与任务的匹配程度,适应性函数的曲线如图2中B部分中的点线曲线所示,适应性最高的点对应的网络大小就是最适合的网络大小。如图2中C部分显示的是最优网络复杂度与数据复杂度的关系,任务越复杂,网络的复杂度应该越大。
一般情况下,过拟合伴随着训练误差低而测试误差高,欠拟合伴随着训练误差和测试误差都高,因此传统的深度神经网络使用错误率作为损失函数来更新网络权值,目的是找到一个训练错误率和测试错误率都比较低的状态,然而这也需要事先设计好网络结构。能够自动地找到最优的网络结构是本发明的重点,而引入脑发育中动态地突触可塑性机制可以自适应地调整网络的结构以避免过拟合或欠拟合。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于脑发育机制的自适应神经网络模型的构建方法包括:
步骤100:对全连接的三层人工神经网络初始化。
所述人工神经网络包括输入层、隐层及输出层,且所述输入层、隐层及输出层的神经元个数互不影响,所述输出层的神经元个数为类别个数。
在本实施例中,输入层神经元个数为784个,隐层为1000个(确保初始网络是足够复杂的),输出层神经元个数为类别个数。网络中神经元的激活函数是sigmoid函数,学习率为1,迭代次数为500次。
步骤200:根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络。
人脑在学习一个新任务时,会有一定比例的突触被加强伴随着增加树突棘,而一定比例的突触被减弱。这些增加的树突棘在新的任务上是十分重要的,而无用的树突棘甚至神经元会被修剪在学习过程中。在网络的学习过程中,一定比例的最不重要的神经元逐渐地被删除来降低网络的复杂度。
步骤300:采用反方向传播算法重训练剪枝网络,得到更新网络。
步骤400:计算所述更新网络的适应性值。
步骤500:根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
其中,在步骤200中,所述根据所述输入层及输出层的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络,具体包括:
步骤201:由于突触前神经元对突触后神经元有兴奋性或抑制性的作用,可基于重要性评估函数,计算神经元j的重要性Ij:
其中,Nin是神经元j的输入连接的个数,Nout是神经元j的输出连接的个数,wij是从神经元i到神经元j的连接权重,wjk是从神经元j到神经元k的连接权重。
步骤202:根据各神经元的重要性及重要性阈值,剪枝神经元,获得剪枝网络,其中,所述重要性阈值与所述适应性值相关联。
进一步地,在步骤202中,根据各神经元的重要及重要性阈值,剪枝神经元,获得剪枝网络,具体包括:
重要性小于重要性阈值的神经元为不重要神经元,删除各不重要神经元;删除各不重要神经元为剪枝所述不重要神经元的所有输入和输出连接;重要性大于或等于重要性阈值的神经元为重要神经元,保留各重要神经元;各重要神经元的输入和输出连接,形成剪枝网络。
在脑神经系统的学习和发育过程中,反复被激活的突触会被加强并保留,同时,无用的突触甚至神经元会在学习的过程中逐渐被删除掉,如图3所示。
在步骤400中,所述计算所述更新网络的适应性值,具体包括:
步骤401:计算所述更新网络的分类性能的分类准确率A。
步骤402:计算所述更新网络的网络稳定性S。
步骤403:计算所述更新网络的权重均值E。
步骤404:根据所述分类准确率A、网络稳定性S及权重均值E,计算所述更新网络的适应性值F。
其中,在步骤401中,所述计算所述更新网络的分类性能的分类准确率A,具体包括:
步骤4011:通过所述更新网络,对测试样本进行分类测试,得到分类结果;
步骤4012:根据所述分类结果及测试样本的个数,基于以下公式,计算分类准确率A:
其中,Nr表示分类正确样本的个数,Ns表示所有测试样本的个数,error表示分类错误率。
分类准确率是评估网络的基本指标,也是网络适应性的重要参考。但是只有准确率不足以找到最合适拓扑结构,因为最好的准确率未必具有最好的适应性。
信息熵是信息论里面被广泛应用的衡量标准,通常来说,信息熵衡量了把信息中的冗余排除后的平均信息量。本发明提出了一个类似于熵的衡量标准来衡量神经网络的稳定性,网络稳定性通过借鉴熵的方法来评估,即判断剩下的网络权重在训练前后的变化量很小,则熵值就很大,这样在过量网络上剪枝网络最初权重变化很小,熵值提高,而剪到最合适的拓扑时网络处于最大的熵值,此后再剪枝网络更新网络会造成大幅度的权重改变,因此熵值减小,熵值可以恰当的反应网络的过拟合和欠拟合过程。
则,在步骤402中,所述计算所述更新网络的网络稳定性S,具体包括:
步骤4021:根据以下公式,计算剪枝后保留的权重和重训练后权重的变化量pi:
pi=wri-wpi;
其中,wpi表示剪枝掉不重要的神经元之后神经元i的连接权重,wri表示经过重训练之后的神经元i的连接权重。
若剪枝的神经元对网络的学习几乎没有什么影响,pi值较小同时熵值很大。当剪枝到一定程度时,剩下的网络受剪枝神经元的影响较大,pi值动荡同时熵值较小。
步骤4022:根据以下公式,计算更新网络的熵值H(p):
其中,Ncon表示网络剩下的连接个数。
步骤4023:基于以下公式,对所述更新网络的熵值进行归一化处理,得到网络稳定性S:
其中,max(.)为取最大值函数。
S能够有效地反映网络的稳定性,因为它能够反应网络的过拟合和欠拟合程度的改变。初始网络的复杂度过大容易陷入过拟合,这时剪枝不重要的神经元,网络变小稳定性S会逐渐变大直到达到最高的稳定性,在这之后,如果继续剪枝网络,网络太小而不能很好的学习训练样本,欠拟合发生同时S值降低。
在步骤403中,根据以下公式,计算所述更新网络的权重均值E:
其中,n是更新网络的输入层神经元的个数,m是隐层神经元的个数,wij是从神经元i到神经元j的连接权重,wjk是从神经元j到神经元k的连接权重。
进一步地,根据以下公式,算所述更新网络的适应性值F:
F=αA+βS+γE;
其中,α,β,γ分别表示分类准确率A、网络稳定性S及权重均值E的比例系数。
在本实施例中,α,β,γ取值均为1/3。适应性函数能够帮助网络剪枝到合适的网络大小。在适应性函数的指导下,网络将被尽可能的最小化,同时剪枝网络能够充分地利用剩余的突触连接得到可比较的准确率。
此外,为了验证模型的有效性,本发明在不同复杂度的MNIST数据集上进行了实验验证,包括不同样本数和不同类别个数。实验统计了在剪枝过程中适应性函数、分类准确率、稳定性和权重均值的变化情况,以及不同复杂度的任务下适应性最高的网络大小,并验证了剪枝后的网络在新的分类任务上的分类性能。
具体如下:
在MNIST数据集上进行验证,MNIST数据集共包括从0到9十类手写体的数字,其中有60000个训练样本和10000个测试样本。每张图片由28*28长度的向量表示,因此网络的输入层有784个神经元,输出层神经元的个数就是类别的个数。分别在600,1200,2400,4800,9600,19200个训练样本上进行实验,实验结果具体如下:
步骤S1:统计在10000个测试样本上的分类准确率A,网络的稳定性S,权重均值E和适应性函数F的变化,如图4所示。图4中A部分是不同样本个数下随着剪枝过程测试准确率的变化情况,在网络过大或过小的情况下,网络的准确率较低。准确率在合适的网络规模内保持稳定较高的水平,任务越复杂对应的合适的网络规模越大。图4中B部分显示的是稳定性的变化,稳定性具有清晰的尖峰对应于达到最高稳定性的网络大小,在尖峰的左边和右边分别对应着欠拟合和过拟合。不同复杂度的任务对应稳定性最高时的网络大小不相同,任务越复杂网络规模越大。图4中C部分显示的是权重均值的变化,权重均值随着网络复杂度的增加会急剧减小,随后保持稳定,任务越复杂权重均值越高。图4中D部分显示的是适应性函数的变化,适应性函数具有清晰的尖峰对应着最合适的网络大小,任务越复杂网络规模越大。
步骤S2:对于不同复杂度的任务,取出适应性最高的网络大小,统计结果如图5所示(两条曲线分别为10类不同训练样本个数下的网络大小及5类不同训练样本个数下的网络大小)。从图5可知,5类样本的网络大小均小于10类样本的网络大小,说明分类任务的类别越多(任务越复杂),网络的规模越大。此外,样本数越多,网络的规模越大。因此,实验结果证明了本发明提出的模型能够自适应地根据任务复杂度的增加来增加网络规模,从而实现了神经元的动态分配。
步骤S3:为了验证BDNN-sp算法在剪枝后的网络性能,本发明考察了初始网络与剪枝网络训练得到相同测试准确率时,在新的未见过的样本上测试分类性能。首先,在9600个训练样本上运行剪枝网络和初始1000个隐层神经元的网络,剪枝完成后的测试准确率为88.72\%,在训练初始网络得到相同测试准确率的同时,将两个网络用于1200,9600,19200个新的未见过的样本上进行测试,分类准确率如图6所示,在更小和更大的样本集上,剪枝网络均能够取得比初始网络要高的分类准确率,验证了BDNN-sp算法的有效性。
此外,本发明还提供一种基于脑发育机制的自适应神经网络模型的构建系统。
如图7所示,本发明基于脑发育机制的自适应神经网络模型的构建系统包括初始化单元1、剪枝单元2、重构单元3、计算单元4及调整单元5。
其中,所述初始化单元1用于对全连接的三层人工神经网络初始化。所述剪枝单元2用于根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络。所述重构单元3用于采用反方向传播算法重训练剪枝网络,得到更新网络。所述计算单元4用于计算所述更新网络的适应性值。所述调整单元5分别与所述计算单元4及剪枝单元2连接,所述调整单元5用于根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
相对于现有技术,本发明基于脑发育机制的自适应神经网络模型的构建系统与上述基于脑发育机制的自适应神经网络模型的构建方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,所述构建方法包括:
对全连接的三层人工神经网络初始化;
根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络;
采用反方向传播算法重训练剪枝网络,得到更新网络;
计算所述更新网络的适应性值;
根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
2.根据权利要求1所述的基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,所述人工神经网络包括输入层、隐层及输出层,且所述输入层、隐层及输出层的神经元个数互不影响,所述输出层的神经元个数为类别个数。
4.根据权利要求2所述的基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,根据各神经元的重要及重要性阈值,剪枝神经元,获得剪枝网络,具体包括:
重要性小于重要性阈值的神经元为不重要神经元,删除各不重要神经元;删除各不重要神经元为剪枝所述不重要神经元的所有输入和输出连接;
重要性大于或等于重要性阈值的神经元为重要神经元,保留各重要神经元;各重要神经元的输入和输出连接,形成剪枝网络。
5.根据权利要求2所述的基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,所述计算所述更新网络的适应性值,具体包括:
计算所述更新网络的分类性能的分类准确率A;
计算所述更新网络的网络稳定性S;
计算所述更新网络的权重均值E;
根据所述分类准确率A、网络稳定性S及权重均值E,计算所述更新网络的适应性值F。
7.根据权利要求5所述的基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,所述计算所述更新网络的网络稳定性S,具体包括:
根据以下公式,计算剪枝后保留的权重和重训练后权重的变化量pi:
pi=wri-wpi;
其中,wpi表示剪枝掉不重要的神经元之后神经元i的连接权重,wri表示经过重训练之后的神经元i的连接权重;
根据以下公式,计算更新网络的熵值H(p):
其中,Ncon表示网络剩下的连接个数;
基于以下公式,对所述更新网络的熵值进行归一化处理,得到网络稳定性S:
其中,max(.)为取最大值函数。
9.根据权利要求5所述的基于脑发育机制的自适应神经网络模型的构建方法,其特征在于,根据以下公式,算所述更新网络的适应性值F:
F=αA+βS+γE;
其中,α,β,γ分别表示分类准确率A、网络稳定性S及权重均值E的比例系数。
10.一种基于脑发育机制的自适应神经网络模型的构建系统,其特征在于,所述构建系统包括:
初始化单元,用于对全连接的三层人工神经网络初始化;
剪枝单元,用于根据所述人工神经网络的神经元的个数及连接权重,对神经元剪枝,获得剪枝网络;
重构单元,用于采用反方向传播算法重训练剪枝网络,得到更新网络;
计算单元,用于计算所述更新网络的适应性值;
调整单元,分别与所述计算单元及剪枝单元连接,用于根据所述适应性值调整对神经元的剪枝情况,以获得最优适应性值对应的更新网络,所述最优适应性值对应的更新网络为所述自适应神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910999416.1A CN110766138A (zh) | 2019-10-21 | 2019-10-21 | 基于脑发育机制的自适应神经网络模型的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910999416.1A CN110766138A (zh) | 2019-10-21 | 2019-10-21 | 基于脑发育机制的自适应神经网络模型的构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766138A true CN110766138A (zh) | 2020-02-07 |
Family
ID=69331430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910999416.1A Pending CN110766138A (zh) | 2019-10-21 | 2019-10-21 | 基于脑发育机制的自适应神经网络模型的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766138A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275190A (zh) * | 2020-02-25 | 2020-06-12 | 北京百度网讯科技有限公司 | 神经网络模型的压缩方法及装置、图像处理方法及处理器 |
CN112132062A (zh) * | 2020-09-25 | 2020-12-25 | 中南大学 | 一种基于剪枝压缩神经网络的遥感图像分类方法 |
CN112364913A (zh) * | 2020-11-09 | 2021-02-12 | 重庆大学 | 一种基于核心数据集的联邦学习通信量优化方法及系统 |
WO2023093229A1 (zh) * | 2021-11-29 | 2023-06-01 | 新智我来网络科技有限公司 | 一种联合学习参数聚合方法、装置及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787408A (en) * | 1996-08-23 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | System and method for determining node functionality in artificial neural networks |
CN101242101A (zh) * | 2007-02-09 | 2008-08-13 | 上海磁浮交通工程技术研究中心 | 电力系统负荷谐波稳态模型的建立方法及仿真方法 |
CN101393693A (zh) * | 2008-09-12 | 2009-03-25 | 浙江大学 | 一种汉字书写计算机教学方法 |
CN106777864A (zh) * | 2016-11-11 | 2017-05-31 | 浙江大学 | 一种低成本pm2.5监测节点的校准方法 |
US9798751B2 (en) * | 2013-10-16 | 2017-10-24 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network |
CN108197711A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于类脑多感觉注意切换的计算方法 |
US10067669B1 (en) * | 2017-07-13 | 2018-09-04 | King Fahd University Of Petroleum And Minerals | Online character recognition |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN109445935A (zh) * | 2018-10-10 | 2019-03-08 | 杭州电子科技大学 | 云计算环境下一种高性能大数据分析系统自适应配置方法 |
CN109492287A (zh) * | 2018-10-30 | 2019-03-19 | 成都云材智慧数据科技有限公司 | 一种基于bp神经网络的固态电解质离子电导率预测方法 |
CN109886405A (zh) * | 2019-02-20 | 2019-06-14 | 华南理工大学 | 一种抑制噪声的基于人工神经网络结构优化方法 |
WO2019200289A1 (en) * | 2018-04-13 | 2019-10-17 | The Regents Of The University Of California | Devices and methods employing optical-based machine learning using diffractive deep neural networks |
-
2019
- 2019-10-21 CN CN201910999416.1A patent/CN110766138A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787408A (en) * | 1996-08-23 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | System and method for determining node functionality in artificial neural networks |
CN101242101A (zh) * | 2007-02-09 | 2008-08-13 | 上海磁浮交通工程技术研究中心 | 电力系统负荷谐波稳态模型的建立方法及仿真方法 |
CN101393693A (zh) * | 2008-09-12 | 2009-03-25 | 浙江大学 | 一种汉字书写计算机教学方法 |
US9798751B2 (en) * | 2013-10-16 | 2017-10-24 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network |
CN106777864A (zh) * | 2016-11-11 | 2017-05-31 | 浙江大学 | 一种低成本pm2.5监测节点的校准方法 |
US10067669B1 (en) * | 2017-07-13 | 2018-09-04 | King Fahd University Of Petroleum And Minerals | Online character recognition |
CN108197711A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于类脑多感觉注意切换的计算方法 |
WO2019200289A1 (en) * | 2018-04-13 | 2019-10-17 | The Regents Of The University Of California | Devices and methods employing optical-based machine learning using diffractive deep neural networks |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN109445935A (zh) * | 2018-10-10 | 2019-03-08 | 杭州电子科技大学 | 云计算环境下一种高性能大数据分析系统自适应配置方法 |
CN109492287A (zh) * | 2018-10-30 | 2019-03-19 | 成都云材智慧数据科技有限公司 | 一种基于bp神经网络的固态电解质离子电导率预测方法 |
CN109886405A (zh) * | 2019-02-20 | 2019-06-14 | 华南理工大学 | 一种抑制噪声的基于人工神经网络结构优化方法 |
Non-Patent Citations (2)
Title |
---|
FEIFEI ZHAO等: "Towards a Brain-Inspired Developmental Neural Network by Adaptive Synaptic Pruning", 《ICONIP 2017》 * |
白天毅: "基于神经网络的手写体数字识别关健技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275190A (zh) * | 2020-02-25 | 2020-06-12 | 北京百度网讯科技有限公司 | 神经网络模型的压缩方法及装置、图像处理方法及处理器 |
CN111275190B (zh) * | 2020-02-25 | 2023-10-10 | 北京百度网讯科技有限公司 | 神经网络模型的压缩方法及装置、图像处理方法及处理器 |
CN112132062A (zh) * | 2020-09-25 | 2020-12-25 | 中南大学 | 一种基于剪枝压缩神经网络的遥感图像分类方法 |
CN112364913A (zh) * | 2020-11-09 | 2021-02-12 | 重庆大学 | 一种基于核心数据集的联邦学习通信量优化方法及系统 |
WO2023093229A1 (zh) * | 2021-11-29 | 2023-06-01 | 新智我来网络科技有限公司 | 一种联合学习参数聚合方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766138A (zh) | 基于脑发育机制的自适应神经网络模型的构建方法及系统 | |
WO2021128510A1 (zh) | 基于sdae和改进gwo-svm的轴承缺陷识别方法 | |
CN106485251B (zh) | 基于深度学习的鸡蛋胚胎分类 | |
CN111858989B (zh) | 一种基于注意力机制的脉冲卷积神经网络的图像分类方法 | |
CN112633497A (zh) | 一种基于重加权膜电压的卷积脉冲神经网络的训练方法 | |
CN114170789A (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN114926680B (zh) | 一种基于AlexNet网络模型的恶意软件分类方法及系统 | |
Zhang et al. | Evolving neural network classifiers and feature subset using artificial fish swarm | |
CN111652264B (zh) | 基于最大均值差异的负迁移样本筛选方法 | |
CN108647206B (zh) | 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 | |
CN114266351A (zh) | 基于无监督学习时间编码的脉冲神经网络训练方法及系统 | |
CN114819143A (zh) | 一种适用于通信网现场维护的模型压缩方法 | |
CN116912568A (zh) | 基于自适应类别均衡的含噪声标签图像识别方法 | |
CN112926739B (zh) | 一种基于神经网络模型的网络对抗效能评估方法 | |
Urgun et al. | Composite power system reliability evaluation using importance sampling and convolutional neural networks | |
CN116884067A (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
Spanakis et al. | Amsom: Adaptive moving self-organizing map for clustering and visualization | |
Paudel et al. | Resiliency of SNN on black-box adversarial attacks | |
CN114898777A (zh) | 基于深度直推式迁移网络的跨库语音情感识别方法及装置 | |
CN114399041A (zh) | 一种脉冲神经网络训练方法、装置及芯片 | |
Kang et al. | Comparison of weight initialization techniques for deep neural networks | |
CN113408602A (zh) | 一种树突神经网络初始化方法 | |
CN114780722B (zh) | 一种结合领域通用型语言模型的领域泛化方法 | |
OZALP et al. | A data science study for determining food quality: an application to wine | |
CN116992944B (zh) | 基于可学习重要性评判标准剪枝的图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |