CN115023708A - 通过神经元-等级可塑性控制克服灾难性遗忘问题的一种方法以及执行此操作的一种计算系统 - Google Patents
通过神经元-等级可塑性控制克服灾难性遗忘问题的一种方法以及执行此操作的一种计算系统 Download PDFInfo
- Publication number
- CN115023708A CN115023708A CN202080095037.0A CN202080095037A CN115023708A CN 115023708 A CN115023708 A CN 115023708A CN 202080095037 A CN202080095037 A CN 202080095037A CN 115023708 A CN115023708 A CN 115023708A
- Authority
- CN
- China
- Prior art keywords
- neuron
- computing system
- learning
- npc
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000002569 neuron Anatomy 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 6
- 238000004260 weight control Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 14
- 230000000750 progressive effect Effects 0.000 abstract description 6
- 230000001537 neural effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 16
- 238000010606 normalization Methods 0.000 description 13
- 230000010354 integration Effects 0.000 description 12
- 238000013459 approach Methods 0.000 description 10
- 206010027175 memory impairment Diseases 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000007596 consolidation process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 241001645095 Parisis Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000001073 episodic memory Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000005155 neural progenitor cell Anatomy 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
为了解决人工神经网络中灾难性的遗忘问题(issue of catastrophic forgetting),提出了一种被称为神经元‑等级可塑性控制(neuron‑level plasticity control;NPC)的简单、有效、全新的解决方案。所提议的方法是,在学习新任务的过程中,在神经水平而不是连接水平上控制网络的可塑性,同时保存现有知识。神经元‑等级可塑性控制通过评估每个神经元的重要度和应用较低的学习速度来统合重要的神经元。另外,还提出一种被称为预定NPC(scheduled NPC;SNPC)的NPC扩展。该扩展利用学习日程信息,更明确地保护重要的神经元。渐进式MNIST(incremental MNIST;iMNIST)及渐进式CIFAR100(incremental CIFAR100)数据集的实验结果表明,NPC和SNPC与连接水平的所有相似的方法相比效果更加显著,特别是SNPC在两个数据集中体现出卓越的性能。
Description
技术领域
为了解决人工神经网络中的灾难性遗忘(catastrophic forgetting)问题,提出了一种被称为神经元-等级可塑性控制(neuron-level plasticity control;NPC)的简单、有效、全新的解决方案。
背景技术
在通过深度神经网络实现人工一般智能的过程中,灾难性遗忘(atastrophicforgetting)仍然是最根本的挑战之一。为了依次训练针对各种任务的神经网络而应用最常用的学习算法“梯度下降法(gradient descent)”时引发的问题。“梯度下降法(gradientdescent)”优化当前任务的神经网络时,先前任务的知识会被新知识灾难性(catastrophically)覆盖。
这一问题首次被发现[McCloskey Cohen(1989)McCloskey and Cohen]后,曾提出过缓解人工神经网络灾难性遗忘问题的各种相似的方法。这些相似的方法之一是在所有迷你配置中包含多项任务的数据。这种方法可以有效地保持之前任务的性能,但会产生需要保留之前任务的训练数据的开销。[Gepperth Karaoguz(2016)Gepperth and Karaoguz,Lopez-Paz(2017)]不使用以前的数据[Li Hoiem(2018)Li and Hoiem,Shin et~al.(2017)Shin,Lee,Kim,and Kim,Kamra et~al.(2017)Kamra,Gupta,and Liu,ZacariasAlexandre(2018)Zacarias and Alexandre,Kim et~al.(2018)Kim,Kim,and Lee]有几次尝试达到相似效果。
另一种方法是分离包含现有知识的神经网络的一部分,使用网络的其他部分学习新的任务。这包括为神经网络设计动态体系结构,通过将网络的其他部分分配给新任务来学习新任务。[Fernando et~al.(2017)Fernando,Banarse,Blundell,Zwols,Ha,Rusu,Pritzel,and Wierstra,Aljundi et~al.(2017)Aljundi,Chakravarty,and Tuytelaars,Lee et~al.(2017)Lee,Yun,Hwang,and Yang]建议的算法使用网络的不同部分学习多项任务,因此我们的任务与这种方法相似且密切相关。这里,部分单位是单个神经元。
弹性加权统合(Elastic weight consolidation;EWC)[Kirkpatrick et~al.(2017)Kirkpatrick,Pascanu,Rabinowitz,Veness,Desjardins,Rusu,Milan,Quan,Ramalho,Grabska-Barwinska,et~al.]是在这一领域所取得的值得瞩目的进步。利用Fisher信息矩阵的对角线,EWC识别并统合了与对先前任务至关重要的神经网络的连接权值相对应的参数。用这种方式,网络可以在保持之前所学知识的同时,使用次要参数学习新的任务。EWC引起了大量关注,因此在许多研究中被选择[Lee et al.(2017)Lee,Kim,Jun,Ha,Zhang,Nguyen et al.(2017)Nguyen,Li,Bui,and Turner,Liu et al.(2018)Liu,Masana,Herranz,Van~de Weijer,Lopez and Bagdanov,Zenke et al.(2017)Zenke,Poole,Ganguli],EWC的个别性能还有许多可改进的空间[Parisi et al.(2018)Parisi,Kemker,Part,Kanan,Wermter]。在最近的研究中,将作为正规手段的EWC与其他方法结合使用[Kim et~al.(2018)Kim,Kim,and Lee,Lee et~al.(2017)Lee,Yun,Hwang,and Yang]。
*先行技术文献
-非专利文献:
参考资料
[Aljundi et~al.(2017)Aljundi,Chakravarty,and Tuytelaars]Aljundi,R.,Chakravarty,P.,and Tuytelaars,T.Expert gate:Lifelong learning with a networkof experts.pp.3366-3375,2017.
[De~Vries et~al.(2017)De~Vries,Strub,Mary,Larochelle,Pietquin,andCourville]De Vries,H.,Strub,F.,Mary,J.,Larochelle,H.,Pietquin,O.,andCourville,A.C.Modulating early visual processing by language.pp.6594-6604,2017.
[Fernando et~al.(2017)Fernando,Banarse,Blundell,Zwols,Ha,Rusu,Pritzel,and Wierstra]Fernando,C.,Banarse,D.,Blundell,C.,Zwols,Y.,Ha,D.,Rusu,A.A.,Pritzel,A.,and Wierstra,D.PathNet:Evolution channels gradient descent insuper neural networks.arXiv preprint arXiv:1701.08734,2017.
[Gepperth Karaoguz(2016)Gepperth and Karaoguz]Gepperth,A.andKaraoguz,C.A bio-inspired incremental learning architecture for appliedperceptual problems.Cognitive Computation,80(5):0 924-934,2016.
[He et~al.(2016)He,Zhang,Ren,and Sun]He,K.,Zhang,X.,Ren,S.,and Sun,J.Deep residual learning for image recognition.pp.770-778,2016.
[Ioffe Szegedy(2015)Ioffe and Szegedy]Ioffe,S.and Szegedy,C.Batchnormalization:Accelerating deep network training by reducing internalcovariate shift.arXiv preprint arXiv:1502.03167,2015.
[Kamra et~al.(2017)Kamra,Gupta,and Liu]Kamra,N.,Gupta,U.,and Liu,Y.Deep generative dual memory network for continual learning.arXiv preprintarXiv:1710.10368,2017.
[Kim et~al.(2018)Kim,Kim,and Lee]Kim,H.-E.,Kim,S.,and Lee,J.Keep andlearn:Continual learning by constraining the latent space for knowledgepreservation in neural networks.arXiv preprint arXiv:1805.10784,2018.
[Kirkpatrick et~al.(2017)Kirkpatrick,Pascanu,Rabinowitz,Veness,Desjardins,Rusu,Milan,Quan,Ramalho,Grabska-Barwinska,et~al.]Kirkpatrick,J.,Pascanu,R.,Rabinowitz,N.,Veness,J.,Desjardins,G.,Rusu,A.A.,Milan,K.,Quan,J.,Ramalho,T.,Grabska-Barwinska,A.,et al.Overcoming catastrophic forgetting inneural networks.Proceedings of the national academy of sciences,pp.201611835,2017.
[Krizhevsky Hinton(2009)Krizhevsky and Hinton]Krizhevsky,A.andHinton,G.Learning multiple layers of features from tiny images.2009.
[LeCun et~al.(1998)LeCun,Bottou,Bengio,and Haffner]LeCun,Y.,Bottou,L.,Bengio,Y.,and Haffner,P.Gradient-based learning applied to documentrecognition.Proceedings of the IEEE,860(11):0 2278-2324,1998.
[Lee et~al.(2017)Lee,Yun,Hwang,and Yang]Lee,J.,Yun,J.,Hwang,S.,andYang,E.Lifelong learning with dynamically expandable networks.arXiv preprintarXiv:1708.01547,2017 a.
[Lee et~al.(2017)Lee,Kim,Jun,Ha,and Zhang]Lee,S.-W.,Kim,J.-H.,Jun,J.,Ha,J.-W.,and Zhang,B.-T.Overcoming catastrophic forgetting by incrementalmoment matching.pp.4652-4662,2017 b.
[Liu et~al.(2018)Liu,Masana,Herranz,Van~de Weijer,Lopez,andBagdanov]Liu,X.,Masana,M.,Herranz,L.,Van de Weijer,J.,Lopez,A.M.,andBagdanov,A.D.Rotate your networks:Better weight consolidation and lesscatastrophic forgetting.arXiv preprint arXiv:1802.02950,2018.
[Li Hoiem(2018)Li and Hoiem]Li,Z.and Hoiem,D.Learning withoutforgetting.IEEE Transactions on Pattern Analysis and Machine Intelligence,400(12):0 2935-2947,2018.
[Lopez-Paz(2017)]Lopez-Paz,D.Gradient episodic memory for continuallearning.Advances in Neural Information Processing Systems,pp.6467-6476,2017.
[Luo Wu(2017)Luo and Wu]Luo,J.-H.and Wu,J.An entropy-based pruningmethod for cnn compression.arXiv preprint arXiv:1706.05791,2017.
[Luo et~al.(2017)Luo,Wu,and Lin]Luo,J.-H.,Wu,J.,and Lin,W.Thinet:Afilter level pruning method for deep neural network compression.pp.5068-5076,2017.
[McCloskey Cohen(1989)McCloskey and Cohen]McCloskey,M.and Cohen,N.J.Catastrophic interference in connectionist networks:The sequentiallearning problem.24:0 109-165,1989.
[Mermillod et~al.(2013)Mermillod,Bugaiska,and Bonin]Mermillod,M.,Bugaiska,A.,and Bonin,P.The stability-plasticity dilemma:Investigating thecontinuum from catastrophic forgetting to age-limited learningeffects.Frontiers in psychology,4:0 504,2013.
[Molchanov et~al.(2016)Molchanov,Tyree,Karras,Aila,and Kautz]Molchanov,P.,Tyree,S.,Karras,T.,Aila,T.,and Kautz,J.Pruning convolutionalneural networks for resource efficient inference.arXiv preprint arXiv:1611.06440,2016.
[Nguyen et~al.(2017)Nguyen,Li,Bui,and Turner]Nguyen,C.V.,Li,Y.,Bui,T.D.,and Turner,R.E.Variational continual learning.arXiv preprint arXiv:1710.10628,2017.
[Parisi et~al.(2018)Parisi,Kemker,Part,Kanan,and Wermter]Parisi,G.I.,Kemker,R.,Part,J.L.,Kanan,C.,and Wermter,S.Continual lifelong learningwith neural networks:A review.arXiv preprint arXiv:1802.07569,2018.
[Real et~al.(2018)Real,Aggarwal,Huang,and Le]Real,E.,Aggarwal,A.,Huang,Y.,and Le,Q.V.Regularized evolution for image classifier architecturesearch.arXiv preprint arXiv:1802.01548,2018.
[Salimans et~al.(2016)Salimans,Goodfellow,Zaremba,Cheung,Radford,andChen]Salimans,T.,Goodfellow,I.,Zaremba,W.,Cheung,V.,Radford,A.,and Chen,X.Improved techniques for training GANs.pp.2234-2242,2016.
[Shin et~al.(2017)Shin,Lee,Kim,and Kim]Shin,H.,Lee,J.K.,Kim,J.,andKim,J.Continual learning with deep generative replay.pp.2990-2999,2017.
[Simonyan Zisserman(2014)Simonyan and Zisserman]Simonyan,K.andZisserman,A.Very deep convolutional networks for large-scale imagerecognition.arXiv preprint arXiv:1409.1556,2014.
[Ulyanov et~al.(2016)Ulyanov,Vedaldi,and Lempitsky]Ulyanov,D.,Vedaldi,A.,and Lempitsky,V.Instance normalization:The missing ingredient forfast stylization.arXiv preprint arXiv:1607.08022,2016.
[Wikipedia contributors(2018)]Wikipedia contributors.Error function―Wikipedia,the free encyclopedia,2018.URL https://en.wikipedia.org/wiki/Error_function.[Online;accessed 23-Jan-2019].
[Yu et~al.(2018)Yu,Li,Chen,Lai,Morariu,Han,Gao,Lin,and Davis]Yu,R.,Li,A.,Chen,C.-F.,Lai,J.-H.,Morariu,V.I.,Han,X.,Gao,M.,Lin,C.-Y.,and Davis,L.S.NISP:Pruning networks using neuron importance score propagation.pp.9194-9203,2018.
[Zacarias Alexandre(2018)Zacarias and Alexandre]Zacarias,A.S.andAlexandre,L.A.Overcoming catastrophic forgetting in convolutional neuralnetworks by selective network augmentation.arXiv preprint arXiv:1802.08250,2018.
[Zenke et~al.(2017)Zenke,Poole,and Ganguli]Zenke,F.,Poole,B.,andGanguli,S.Continual learning through synaptic intelligence.arXiv preprintarXiv:1703.04200,2017.
发明内容
技术课题
在本研究中,我们看到了EWC的局限性,并提出了一种名为神经元-等级可塑性控制(NPC)的经改进的算法。顾名思义,NPC是通过控制卷积神经网络(CNN,ConvolutionalNeural Network)中每个神经元或每个过滤器的可塑性,保留现有知识。这与通过统合个别连接权值后启动的EWC形成了鲜明对比。NPC的另一个主要特点是调整学习率(learningrate)以稳定重要神经元,而不是将重要参数维持在接近特定值。此特性除了提高NPC的效率外,还可以提高内存效率,而与任务数量无关。换句话说,NPC只需要存储每个神经元的单一重要度值,而不是每一个任务的参数集合,因此无论任务数多少,内存使用量都可以始终保持不变。
以往的研究一般假设任务转换的正确时机是众所周知的。因此,学习算法可以在每个任务发生变化时明确地维持多个参数(参变量)值集合等上下文,并切换至上下文。相反,NPC不保留信息,而是不断评估每个神经元的重要度,并根据重要度的移动平均值单纯调整学习率,以控制神经元的可塑性。因此,除了计算分类损失(classification loss)所需的当前任务的标识符(ID)外,NPC不需要有关学习日程的信息。另一方面,有预设的学习日程时则可以进一步提高NPC。为此,提出了被称为预定NPC(SNPC)的NPC扩展,根据学习日程更明确地保存重要的神经元。对于每项任务,SNPC都能识别重要神经元,并在训练其他任务的同时将其统合。实验结果表明,NPC和SNPC在减少灾难性遗忘方面实际上比连接等级统合相似法效果更加显著。特别是,在对iMNIST数据集的SNPC评估中,灾难性遗忘的影响几乎消失。
技术解决办法
神经元-等级可塑性的控制(Neuron-Level plasticity control;NPC)公开了一种克服灾难性遗忘的方法。
神经元-等级可塑性的控制(Neuron-Level plasticity control;NPC)公开了一种计算系统,用于实施克服灾难性遗忘的方法。
发明的效果
渐进式MNIST(incremental MNIST;iMNIST)和渐进式CIFAR100(incrementalCIFAR100)数据集的实验结果表明,NPC和SNPC与连接等级综合相似方法相比效果更加显著,尤其是SNPC在两组数据集中体现了卓越的性能。
附图说明
图1是用于比较连接-等级和神经元-等级统合的。图1(a)所示的是对任务1至关重要的神经元和连接。图1(b)是连接-等级的统合。虽然统合了重要的连接,但神经元可能会受到学习任务2期间可能会发生变化的其他内插连接的影响。图1(c)是神经元-等级的统合。NPC统合了重要神经元的所有内插连接,这对保存神经元知识更有效。
图2所示的是重要度值Ci的直方图的例子。图2(a)是均等化之前的原始分布,图2(b)是均等化的分布。
图3所示的是iMNIST数据集中连续性学习算法的验证准确率。图3(a)所示的是训练至每一时刻的任务的平均验证准确率,图3(b)所示的是根据学习算法进行的5项任务的训练曲线。在连续学习算法中,SNPC和NPC分别体现出最佳性能。
图4所示的是iCIFAR100数据集中连续性学习算法的有效性验证准确率。图4(a)所示的是训练到每一时刻的任务的平均验证准确率,图3(b)显示的是根据学习算法进行的5项任务的训练曲线。在连续性学习算法中,SNPC和NPC分别展现了最佳性能。训练曲线之间的差异在iCIFAR100中比iMNIST更明显。
图5所示的是不同设置下的第5个iCIFAR100任务的训练曲线。图5(a)是从T1到T4学习后的SNPC学习T5的训练曲线,图5(b)是完整VGG网络(full VGG net)的部分训练的训练曲线,随机初始化的参数中,仅允许14.33%(=r5)的神经元变化,图5的(c)是缩小的部分VGG网络训练的训练曲线,以从随机初始化的参数开始,仅拥有原始模型的14.33%(=r5)。
图6所示的是本发明的一个实施例涉及的计算系统的简要配置的直块图。
图7所示的是本发明的一个实施例涉及的计算系统执行的神经元-等级可塑性控制方法的流程图。
图8所示的是本发明的一个实施例涉及的计算系统执行的预定神经元-等级可塑性控制方法的流程图。
具体实施方式
一.成为理论背景的研究
为了帮助理解本发明,以下将首先介绍成为本发明理论背景的研究。
摘要
为了解决人工神经网络中灾难性遗忘问题(issue of catastrophicforgetting),提出了一种被称为神经元-等级可塑性控制(neuron-level plasticitycontrol;NPC)的简单、有效、全新的解决方案。所提议的方法是,在学习新任务的过程中,在神经水平而不是连接水平上控制网络的可塑性,同时保存现有知识。神经元-等级可塑性控制通过评估每个神经元的重要度和应用较低的学习速度来统合重要的神经元。
另外,还提出一种被称为预定NPC(scheduled NPC;SNPC)的NPC扩展。该扩展利用学习日程信息,更明确地保护重要的神经元。渐进式MNIST(incremental MNIST;iMNIST)及渐进式CIFAR100(incremental CIFAR100)数据集的实验结果表明,NPC和SNPC与连接水平的所有相似方法相比效果更加显著,特别是SNPC在两个数据集中体现出卓越的性能。
1.概述
在用深度神经网络实现人工一般智能的过程中,灾难性遗忘(catastrophicforgetting)仍然是最根本的挑战之一。
最常用的学习算法“梯度下降法”(gradient descent)在应用于依次训练多项任务的神经网络时引发问题。当梯度下降法(gradient descent)最优化当前任务的神经网络时之前任务的知识被新的知识灾难性(catastrophically)覆盖。
早期发现问题[McCloskey Cohen(1989)McCloskey and Cohen]之后,提出了缓解人工神经网络中灾难性遗忘的各种相似的方法。这些相似方法的其中之一是在所有迷你配置中包含多项任务的数据。这种方法可以有效地保持之前任务的性能,但会发生保存之前任务的训练数据的间接费用。使用之前数据中被限制的部分[Gepperth Karaoguz(2016)Gepperth and Karaoguz,Lopez-Paz(2017)]或不使用之前的数据[Li Hoiem(2018)Li andHoiem,Shin et~al.(2017)Shin,Lee,Kim,and Kim,Kamra et~al.(2017)Kamra,Gupta,and Liu,Zacarias Alexandre(2018)Zacarias and Alexandre,Kim et~al.(2018)Kim,Kim,and Lee]为了达到相似的效果而做的几种尝试。
另一种方法是分离包含以前知识的神经网络的一部分,使用网络的其他部分学习新的任务。其中,包括将网络的其他部分分给新的任务,来学习新任务的神经网络的动态架构设计。[Fernando et~al.(2017)Fernando,Banarse,Blundell,Zwols,Ha,Rusu,Pritzel,and Wierstra,Aljundi et~al.(2017)Aljundi,Chakravarty,and Tuytelaars,Lee et~al.(2017)Lee,Yun,Hwang,and Yang]提议的算法使用网络的其他部分学习多项任务,因此我们的任务与这种方法相似且密切相关。其中,部分的单位是单个神经元。
可塑权重巩固(Elastic weight consolidation;EWC)[Kirkpatrick et~al.(2017)Kirkpatrick,Pascanu,Rabinowitz,Veness,Desjardins,Rusu,Milan,Quan,Ramalho,Grabska-Barwinska,et~al.]是在这一领域取得的值得瞩目的进步。利用Fisher信息矩阵的对角线,EWC识别并统合了与之前任务至关重要的神经网络的连接权值相对应的参数。网络可以用这种方式在保持之前所学知识的同时,使用不太重要的参数学习新的任务。EWC引起了众多关注,因此被选用于许多研究[Lee et al.(2017)Lee,Kim,Jun,Ha,Zhang,Nguyen et al.(2017)Nguyen,Li,Bui,and Turner,Liu et al.(2018)Liu,Masana,Herranz,Van~de Weijer,Lopez和Bagdanov,Zenke et al.(2017)Zenke,Poole,Ganguli],EWC的单独性能有很多改进的空间[Parisi et al.(2018)Parisi,Kemker,Part,Kanan,Wermter].在最近的研究中,将EWC作为一种正规的手段与其他方法结合使用[Kimet~al。(2018)Kim、Kim、and Lee、Lee et~al。(2017)Lee、Yun、Hwang、and Yang]。
在本研究中,我们展示了EWC的局限性并提出了一种经改进的算法,即神经元-等级可塑性控制(NPC)。顾名思义,NPC通过控制CNN(Convolutional Neural Network)中每个神经元或每个过滤器的可塑性来保持现有知识。这与通过统合单独连接权值而工作的EWC形成了鲜明对比。NPC的另一个主要特点是调整学习率(learning rate)以稳定重要神经元,而不是使重要参数保持在接近特定值的位置。这些特性除了提高NPC的效率外,还可以提高内存效率,而和任务数无关。即,NPC只需要存储每个神经元单独的重要度数值,而不是各项任务的参数集合,从而内存使用量可以保持一致,而与任务数无关。
在以往的研究中,一般假设任务转换的确切时间是已知的。因此,学习算法可以在每次任务发生变化时明确地保持多组参数(变量)值等上下文,并切换到上下文。相反,NPC不保留信息,而是不断评估每个神经元的重要度,并根据重要度的移动平均值简单调整学习率,以控制神经元的可塑性。因此,除了计算分类损失(classification loss)时必需的当前任务的标识符(ID)外,NPC不需要学习日程的有关信息。另一方面,如果有预先设定的学习日程则可以进一步提高NPC。为此,提出了被称为预定NPC(SNPC)的NPC的扩展,根据学习日程更明确地保存重要的神经元。对于每项任务,SNPC都会识别重要神经元,并在训练其他任务的同时将其统合。实验结果表明,实际上NPC和SNPC在减少致命性遗忘这方面比连接等级统合相似方法更有效。特别是,在SNPC对iMNIST数据集的评估中,灾难性遗忘的影响几乎消失了。
2神经元-等级vs.连接-等级统合(Neuron-level Versus Connection-levelConsolidation)
EWC与其后续研究[Kirkpatrick et~al.(2017)Kirkpatrick,Pascanu,Rabinowitz,Veness,Desjardins,Rusu,Milan,Quan,Ramalho,Grabska-Barwinska,et~al.,Lee et~al.(2017)Lee,Kim,Jun,Ha,and Zhang,Nguyen et~al.(2017)Nguyen,Li,Bui,and Turner,Liu et~al.(2018)Liu,Masana,Herranz,Van~de Weijer,Lopez,andBagdanov,Zenke et~al.(2017)Zenke,Poole,and Ganguli]侧重于神经网络的连接权值中存储知识的概念,但不强调这些连接之间的相关性。EWC的损失函数用如下公式(1)定义。其中Tn表示第n次任务。
有一个暗示性的假设,神经网络的权值大致独立,神经网络可以通过其权值线性逼近。但是,深层神经网络的结构本质上是分层的,参数之间有很强的关联性。因此,独立考虑连接权值是不妥当的,因为参数值会影响其他数值的重要性。
我们主张神经元或CNN过滤器比人工神经网络统合的知识的基本单位的个别连接更合适。现有的连接-等级算法无法保证神经元表达的重要知识的保存。即使学习算法统合了对重要神经元的连接中的一部分,神经元也可能保持自由的接收连接,而这种连接的改变会严重影响由神经元传递的知识。
图1更明确地表现出深度神经网络连接水平统合的局限性。在图1中,连接权值θ1和θ2的值接近于0,这将使学习算法对他们的重要度进行最低程度的评估。也就是说,单独更改θ1和θ2的值对任务1的输出没有重要影响。在这种情况下,由于最低程度的重要度,连接水平算法不会统合两个连接参数。但是,在后续学习中,如果两个参数都迅速增加,可能会严重影响任务1。这是因为他们彼此密切相关。这一问题在同一过滤器在不同位置的多个输出节点之间共享的卷积层上可能特别严重。因此,即使能完美地实现连接水平统合概念,也不能完全消除灾难性遗忘。
为了克服这一问题,提出了控制如图1(c)所示的神经元-等级而不是连接-等级上可塑性的建议。所提议的算法NPC统合了重要神经元的所有内插连接,包括没得到重要评估的单个的连接。结果是,NPC比连接-等级统合算法更有效地保护更加重要的神经元免受非重要神经元变化的影响。
从非重要神经元Y到重要神经元X的连接可能很小。否则,评估算法就会因此将Y定为重要神经元。在图1的示例中,NPC统合了X的所有内插连接,结果是,θ1的值保持较小,θ2的更改对X就不会造成严重影响。相反,NPC不会统合即使单个重要、但目的神经元(destination neuron)不重要的连接。因此,从整体上看,被统合的连接的总数是可以接受的。
3.神经元-等级可塑性控制(Neuron-level Plasticity Control)
3.1重要度评估(Importance Evaluation)
为了评估每个神经元的重要度,根据网络裁剪领域使用的泰勒扩展来调整标准(criterion)[Molchanov et al.(2016)Molchanov,Tyree,Karras,Aila和Kautz]。虽然在网络整理中其他方法主张性能更好,但[Yu et~al.(2018)Yu,Li,Chen,Lai,Morariu,Han,Gao,Lin,Davis,Luo Wu(2017)Luo and Wu Luo et al.(2017)Luo,Wu,Lin]还是因计算效率更高而选择了泰勒标准。泰勒判据(Taylor criterion)是从反向传播(back-propagation)期间计算的神经元损失函数的斜率(gradient)计算得出的。因此,这可以通过最少的额外计算轻松地统合入训练过程。
在这项研究中,我们用如下公式(4)表示的规范化泰勒标准的移动平均值来定义时间t上第i个神经元ni的重要度Ci(t)。其中Nlayer是层的节点数。
如果节点在多个位置(例如CNN的卷积过滤器)上共享,我们将根据原始论文[Molchanov et al.(2016)Molchanov,Tyree,Karras,Aila和Kautz]在考虑绝对值之前平均所有位置的重要度值。但是,我们为了更严格地保持由不同数量的神经元构成的各个层之间的平衡,我们使用了如公式(3)的均方值(quadratic mean),而不是L2范数。
在我们早期的实验中,我们发现分布大致为高斯分布,如图2(a)所示。为了更好地区分相对重要度,我们使用以下公式(5)将分布均等化为均匀分布。其中,是补充误差函数(complementary error function)[Wikipedia Contributors(2018)]。图2(b)所示的是均等化后的重要度分布。
3.2可塑性控制(Plasticity Control)
稳定性-可塑性困境(stability-plasticity dilemma)在人工和生物神经系统中都是众所周知的制约因素[Mermillod et al.(2013)Mermillod,Bugaiska,Bonin]。灾难性遗忘(catastrophic forgetting)可以看作是同一个权衡问题(即试图确定最大限度地提高多任务神经网络性能的最佳点)的结果。我们对每一个神经元ni应用不同的学习率(learning rate)ηi来控制各神经元的可塑性。如果ηi很高,那么神经元将积极学习新的知识,而不是快速失去现有知识。反之,如果ηi很低,那么可以更好地保存现有知识(knowledge)。但是该神经元将不愿学习新知识。
为了鼓励神经网络找到良好的稳定性-可塑性的平衡,我们将两个损失定义为具有相反作用的ηi的函数,然后我们将它们结合起来。首先是稳定性方面的损失,以最大限度地减少对现有知识的遗忘。它是从ηi=0开始的单调递增函数,应该受到现有知识的量的限制。我们使用a1tCi启发式地接近当前知识的上限(其中a1是比例常数,t≥1是当前训练阶段)。这里,我们的实验以一定的速度(rate)提供新的任务,因此假设知识总量与训练时间成正比。为了生成ηi的单调递增函数,将tanh(b1η)与上限(upper bound)结合起来。其中,b1是另一个常数,用于控制tanh函数的斜率。结果,稳定性损失(stability-loss)被定义为a1tCitanh(b1ηi)。
第二个函数是可塑性方面的损失,以减少对新知识的反抗(reluctance)。从上限ηi=从0开始单调递减到0的ηi的递减函数。在这种情况下,上限不考虑现有知识,因此,与Ci或t无关。因此,可塑性损失(plasticity-wise loss)被定义为a2(1-tanh(b2ηi))。其中,a2和b2是用来控制比例和斜度的常数。
为了找到稳定性和可塑性的平衡,选择最小化以下公式(6)的耦合损耗函数的ηi。
a1b1tCi·sech2(b1η)-a2b2sech2(b2η)=0 (7)
函数cosh(b2η)/cosh(b1η)的性质在很大程度上取决于它是b1≥b2还是b1<b2。如果b1≥b2,那么最优的ηi将成为简单阶跃函数(simple step function)。因此,我们将b1<b2设定为约束条件。
如果tCi>β,f(ηi)对ηi严格增加,最优的ηi为最低值,即ηi=0。对于tCi≥β这一情况,我们应用泰勒近似以求出上述公式(7)的解。这是因为cosh(b2η)/cosh(b1η)的闭合形式的逆函数不存在。如果cosh是偶函数(even function),就只剩下偶数次数(even degreeterm),如下述公式(9)所示。
在上述公式(10)中,当tCi=β时,ηi=0,这使得两个函数连续连接。当tCi>β和tCi≤β时,将两个事例结合在一起,公式(7)所给出的解和以下公式(11)相同。这时α,β>0是超参数。
在公式(11)中,Ci越大,ηi越小,因此在下一次学习中,重要的神经元将被统合(consolidating)在一起。但是如果Ci=0,ηi就会发散(diverge)。这可以从可塑性-稳定性困境的角度来解释。如果神经元完全没有知识,优选的是学习有可能的一个新知识,而非考虑现有知识的损失。但这实际上是错误的,因为即使神经元没有失去的知识,学习速度也不快,但这是提高学习效率的合适的学习率。因此,为了避免因为学习率过高而出现问题,设定了学习率的上限。公式(7)的最终解是以下公式(12)。
以下Algorithm 1所示的是NPC算法。NPC设计为在没有预先设定学习日程的情况下运行,但需要了解当前训练样本所属的任务,因此计算每项任务的损失是不可避免的。但是,不需要其他任务-特定(task-specific)信息,例如针对每个任务的优化的最新参数集。考虑到通过反向传播算法计算的激活度和斜度的简单计算,实现NPC的费用最小化。
3.3实例规一化(Instance Normalization)
“批量归一化”(Batch Normalization;BN)在深度神经网络(deep neuralnetwork)训练中起着重要作用[Ioffe Szegedy(2015)Ioffe and Szegedy]。但是,由于平均和分散受任务切换的影响很大,所以批量归一化在连续的学习环境中无法正常工作。在这种情况下,有“条件批量归一化”[De~Vries et al.(2017)De~Vries、Strub、Mary、Larochelle、Pietquin和Courville]和“虚拟批量归一化”等几种方案。不过,虽然这两种方法可以应用于SNPC,但由于维护管理任务-特殊信息而不适用于NPC。因此,应用“仿射变换”(affine transform)和删除移动平均值的实例规范化的简化版本[Ulyanov et al.(2016)Ulyanov、Vedaldi和Lempitsky]。考虑到实例归一化可以独立应用于每个样本,无论是在训练时间还是测试时间内,模型参数都可以在无特殊操作的情况下工作。
4.预定NPC(Scheduled NPC)
4.1利用学习日程的NPC(NPC Using Learning Schedule)
NPC并不依存于事先制定的学习日程。但是,当工作转换日程可用时,最好积极利用该信息来提高性能。虽然学习日程实际上并不是事先制定的,但最近关于连续学习的研究在类似的情况下得到了评价。[Li Hoiem(2018)Li and Hoiem,Shin et~al.(2017)Shin,Lee,Kim,and Kim,Kamra et~al.(2017)Kamra,Gupta,and Liu,Gepperth Karaoguz(2016)Gepperth and Karaoguz,Lopez-Paz(2017),Fernando et~al.(2017)Fernando,Banarse,Blundell,Zwols,Ha,Rusu,Pritzel,and Wierstra,Lee et~al.(2017)Lee,Yun,Hwang,and Yang,Aljundi et~al.(2017)Aljundi,Chakravarty,and Tuytelaars,Kirkpatrick et~al.(2017)Kirkpatrick,Pascanu,Rabinowitz,Veness,Desjardins,Rusu,Milan,Quan,Ramalho,Grabska-Barwinska,et~al.,Lee et~al.(2017)Lee,Kim,Jun,Ha,and Zhang,Nguyen et~al.(2017)Nguyen,Li,Bui,and Turner,Liu et~al.(2018)Liu,Masana,Herranz,Van~de Weijer,Lopez,and Bagdanov,Zenke et~al.(2017)Zenke,Poole,and Ganguli,Zacarias Alexandre(2018)Zacarias and Alexandre,Kim et~al.(2018)Kim,Kim,and Lee]。
下述Algorithm 2提出了经设计的NPC的扩展,即计划的神经元-等级可塑性控制(Scheduled Neuron-level Plasticity Control;SNPC)算法,旨在更积极地利用任务转换日程的知识。
学习开始后,由于没有分配给特定任务的神经元,因此所有神经元都是自由的(也就是说,任何任务都可以学习)。给出日程后,SNPC会选择对每项任务最重要的自由神经元子集,并将其分配给相应的任务。然后,在学习其他任务的同时,保护已选神经元免受以不可预测的方式修改的自由神经元的影响。这通过将从自由神经元中选择的神经元的连接权值冻结为0实现。然而,以这种方式消除从自由神经元中选择的神经元的连接可能会发生潜在的问题。第一,神经网络的容量可能减少。第二,新的知识可能无法提高之前任务的网络性能。至于第一个问题,对于所有任务的总和,当模型容量不足时,可能会对性能产生严重影响,但在更大的神经网络中,相对容易缓解。第二个问题虽然有远程可能性,但实际上这些现象几乎无法预测。如果无法以任何方式保持以往任务的知识,那么未被统合的神经元的变化几乎总会引起灾难性遗忘。
4.2按任务分配神经元(Per-task Neuron Allocation)
但是,考虑到来自之前统合的神经元的连接的有用性不能与直接分配给该任务的神经元相媲美,所以不能按任务平均分配rk(r1=r2=...=rk)。如果前者比后者有用μ<1倍,那么可用于任务tk的连接的总有用性将与下面公式(13)中的Vk成正比。其中,第一项所示的是分配给Tk的神经元之间的连接的总有用性,第二项所示的是从之前统合的神经元到Tk的神经元连接的总有用性。
因此,为了公平分配,所有Vk对所有任务都必须相同。这一约束条件一般表示没有闭合形式的解的非线性关系,所以我们从数值上找到了解。学习5个任务时(k=5),当μ=0.5,rk的值分别为0.2862、0.2235、0.1859、0.1610和0.1433时,所示的是神经网络达到平衡的结果。最佳分布会受到其他因素的影响,例如任务的困难或各个任务之间的相似性。但是,在本研究中不考虑此类任务-特殊化因素。
5实验(Experiments)
5.1数据集和实施的详细信息(Datasets and Implementation Detail)
我们将MNIST[LeCun et~al.(1998)LeCun,Bottou,Bengio,and Haffner]和CIFAR100[Krizhevsky Hinton(2009)Krizhevsky and Hinton]数据集的增量进行了实验。其中,包含L类的数据集被划分为L/K类的K子集,每个子集被划分为第k个任务。对于MNIST和CIFAR100,将K设为5。为了进行预处理,对两组数据都应用了填充大小为4的随机裁剪(random cropping),对增量CIFAR100(iCIFAR100)数据集应用了附加的随机水平翻转(random horizontal flip)。此外,为了保持一贯性,在所有实验中,将1个时期(epoch)单位重新定义为显示训练数据数的周期。例如,原始MNIST数据集有60,000个训练样本,因此将5次处理12,000个样本定义为iMNIST数据集的一个时期(epoch)。有了这一时期(epoch)的新定义,我们在iMNIST的每个任务的子集中学习了相当于10个时期(epoch)的模型,在iCIFAR100的每个子集中学习了相当于30个时期(epoch)的模型。我们在实验中使用了iCIFAR100的前5个分类子集。我们在所有任务中使用了迷你批量大小256。
我们对VGG-16[Simonyan Zisserman(2014)Simonyan and Zisserman]网络稍作修改后使用。如上所述,用实例归一化层替换了所有批量归一化层。对于最终分类层(finalclassification layer),我们为每个目标任务都配置了完全连接层(fully-connectedlayer)。每个任务的交叉熵损失(cross-entropy loss)仅在当前任务所属的输出节点上进行计算。
我们在所有实验中设定α=0.1,ηmax=0.1。对于NPC,β设为200。但是,在SNPC中不需要将重要节点的学习率完全降低到0,因此对SNPC设定了更大的值500。在所有实验中使用了迷你批量大小为256的平板SGD优化器(plain SGD optimizer)。
为了进行比较,实现了EWC、L2归一化和基线SGD这三种传统学习算法。对于EWC,设置λ=1000,以使实验环境中表现出最佳性能。不使用NPC算法时,则将学习率设定为0.01。
5.2实验结果(Experimental Results)
图3和图4所示的分别是iMNIST和iCIFAR100中5种连续学习算法(NPC、SNPC、EWC、L2归一化和SGD)的性能。在图3中,NPC和SNPC在平均精度(accuracy)方面的性能优于EWC和L2reg。它们的训练曲线表明,当网络被NPC或SNPC训练时,首先学习的知识受到后来学习的知识的影响要小得多。特别是对于SNPC来说,第一次任务的性能几乎不受后续学习的影响。结果表明,SNPC缓解了对iMNIST的灾难性遗忘,直至其影响消失。
我们测试了iMNIST数据集的附加配置。各参数的可塑性控制(parameter-wiseplasticity control;PPC)在连接等级而不是神经元等级进行可塑性控制。和NPC一样,我们用泰勒标准来评估重要度。我们使用β=300,这是β的最小值,以使PPC能够充分学习iMNIST算法的最后一项任务。PPC的性能比NPC差,这证实了神经元作为神经网络统合的单位比连接更加合适。
从图4可以看到,NPC和SNPC在iCIFAR100上提供比其他算法更高的平均精度,比iMNIST更难实现。但是,NPC最后一次任务的准确度比之前的任务更低。虽然在其他算法中也发现了同样的问题,但在NPC中更严重。我们假设主要原因是神经网络的部分统合消耗了模型的学习能力(learning capacity)。这一问题在iMNIST中并未得到明确观察。这是因为其单纯性使VGG网络能够以剩余神经元提供的最低容量掌握之后的任务。NPC和SNPC的这种差异表明,虽然NPC更好地保留了现有知识,但同时也更快地消耗了模型的学习能力。即,NPC对每个任务分配的神经元数量没有限制或规范化,所以模型在以往的任务中一般都会倾向于使用大部分神经元。因此,NPC统合了相当部分的神经元,以保护以往任务的知识不受灾难性遗忘的影响,结果如图4所示,在最后任务中性能下降。但是,SNPC对于每项任务只统合了rk×Nlayer个神经元,并保证后续的任务利用特定数量的神经元,因此能减少由于容量耗尽问题而带来的困难。
另外,我们观察到神经网络和用于连续学习的以往的任务相比能够更快地学习之后的任务。原因是神经网络利用了在以前的任务中学到的知识,因此之后的任务可以从传递的知识中获益。为了明确这一点,我们做了一个简单的实验,测试SNPC在学习最后一项任务的同时,是否在以前的任务中重复使用预先训练的知识。我们在不同的设置中只使用14.33%的神经元(与r5相同的比例),在iCIFAR100训练了3个VGG网络实例。图5中,线(a)代表的是4项前期任务后的SNPC训练T5的学习曲线。虚线(b)代表的是仅学习了连接到随机初始化和固定的其他神经元的14.33%的神经元。最后,虚线(c)是从网络随机初始化的参数开始,只学习14.33%神经元时的学习曲线。从图5可以看出,SNPC学习任务的速度比其他两个设定快得多。这证实了SNPC积极地重复使用在以往任务中获得的知识。
6结论(Conclusion)
在本研究中提出了用于控制神经元等级的神经网络可塑性的NPC和SNPC两种连续学习算法。NPC不保留为每项任务中优化的最新参数集等信息。因此,可以在没有预定义学习日程的情况下执行。反之,SNPC已经预定义了学习日程,并积极利用其来更明确地保护重要的神经元。根据iMNIST和iCIFAR100数据集的实验结果,NPC和SNPC比不考虑连接之间关系的传统连接等级统合算法更加有效。特别是,在针对iMNIST数据集的SNPC的结果中,灾难性遗忘几乎消失了。
虽然NPC和SNPC在连续学习中有了明显的改进,但仍然存在挑战课题。NPC对信息的从属性是最小的,但仍然受到要计算分类损失就必须要识别任务这一事实的限制。此外,NPC虽然定义了控制可塑性的单位和方法,但为了评估和管理每个神经元的重要度,尚有探索战略的余地。
在实验过程中,我们更专注于在持续学习环境中证明概念,而不是在分类中表现出最佳性能。例如,从AmoebaNetReal et~al.(2018)Real,Aggarwal,Huang,and Le]等最新的分类模型中可以看到在单个任务环境中的容量比VGG高得多。偏向单纯性的另一个选择是实例归一化,这也许不是为了性能的最佳选择。
为了在更多样的架构上应用NPC,残留连接(residual connection)[He et~al.(2016)He,Zhang,Ren,and Sun]是需要解决的障碍之一。解释多个神经元输出的总和并决定应该保留哪些神经元,尤其是在添加重要和不重要的神经元时,是一个不言而喻的问题,
iCIFAR100等常见的线上学习基准不会再次访问同一任务,因此模型可能会单纯地将段落(passage)区块化,从而引发灾难性遗忘。但是,在可以两次以上训练任务的情况下,优选统合学习下一个任务期间获得的知识,以进一步提高模型。这对NPC来说不是问题,但对考虑到对SNPC来说,之后的任务的神经元会依赖以前任务的神经元而变大,这可能会成为问题。除了使用足够慢的学习速度外,简单的解决办法之一是把重新研讨的任务当作新的任务。但是,这虽然可以缓解灾难性遗忘的影响,但模型的容量要大得多,因此从长远来看,可能会引起实际的问题。
与重要度评估中使用的Taylor判据相似,从对网络定理的研究中看到深度学习模型以惊人的小规模学习复杂知识的方法。但是,如果没有明确的干预,深度神经网络就会出现消耗比实际需要更多容量的倾向。SNPC通过各任务神经元的分配来避免这个问题,但当任务累积时模型容量耗尽,NPC不会被排除在这个问题之外。根据观察,不管模型大小,前几项工作具有占据大多数模型的倾向。我们认为,如果有一种办法能够强制使模型使用每项任务的最小容量,那么NPC将受益匪浅。
与重要度评价中使用的Taylor标准相似,对网络整理的研究展示了深度学习模型以惊人的小尺寸学习复杂知识的方法。但如果没有明示的介入,深层神经网络就会有消耗比实际需要的更多的容量的倾向。SNPC虽然通过按作业分配神经元来避免这个问题,但是作业累积时模型容量会耗尽,因此NPC不会被排除在该问题之外。观察到,无论型号大小,前几项工作都倾向于占据大部分型号。我们认为,如果有强制要求型号每工作使用最小容量的方法,NPC将获益匪浅。
二.本发明提出的方法和系统
根据上述研究,通过神经元-等级可塑性控制(NPC)或预定NPC(SNPC)克服灾难性遗忘的方法可以由计算系统执行。
所述计算系统是指具有实现本发明技术思想的运算能力的数据处理装置,一般来说,除了客户端可通过网络连接的服务器等数据处理装置外,个人电脑、移动终端等任何能够执行特定服务的设备都可以定义为计算,这一点本发明技术领域的普通专家都能够轻易地进行推断。
另一方面,所述计算系统可以具备实施本发明的技术思想所需的硬件资源(resource)和/或软件,不一定意味着一个物理组件或意味着一件设备。也就是说,所述计算系统可以指为实施本发明的技术思想而配置的硬件和/或软件的逻辑结合,也可以在必要时通过安装在相互隔开的设备上并执行各自的功能来实现本发明的技术思想的逻辑配置的集成。此外,所述计算系统还可以指为实现本发明的技术思想而单独实现的各种功能或作用的一组配置。所述预测模型生成系统可以通过多个模块的形式实现。
在本说明书中,模块可以指用于执行本发明的技术思想的硬件和用于驱动所述硬件的软件的功能性和结构性组合。例如,所述模块可以指特定代码和执行所述特定代码的硬件资源的逻辑单位,不一定是指物理连接的代码,也不一定是指一种硬件,这一点本发明技术领域的普通专家能够轻易地进行推断。
图6是本发明的一个实施例涉及的计算系统的构成示意图。
参照图6,所述计算系统100可以包括输入模块110、输出模块120、存储模块130、控制模块140。
所述输入模块110可以从所述计算设备110的外部输入实现本发明的技术思想所需的各种数据。例如,所述输入模块110可以输入训练数据集、各种参数和/或超参数。
所述输出模块120可以向外输出存储在所述计算系统100中或由所述计算系统100生成的数据。
所述存储模块130可以存储实施本发明的技术思想所需的各种信息和/或数据。例如,所述存储模块130可以存储神经网络模型(neural network model)、训练数据、各种参数和/或超参数。所述存储模块130可以包括随机存储器(RAM)等易失性内存、或是硬盘驱动器(HDD)和固态磁盘(SSD)等非易失性内存。
所述控制模块140可以控制所述计算系统100中包含的其他组件(例如,输入模块110、输出模块120和/或存储模块130)。所述控制模块140可以包括单核CPU、多核CPU、GPU等处理器。
另外,所述控制模块140可以根据上述研究执行神经元-等级可塑性控制(NPC)或预定NPC(SNPC)。例如,所述控制模块140可以将存储在所述存储模块130中的神经网络模型和训练数据应用于所述NPC算法或SNPC算法。
图7所示的是所述控制模块140执行的神经元-等级可塑性控制方法的流程图。
图8所示的是所述控制模块140执行的预定神经元-等级可塑性控制方法的流程图。
另一方面,根据实施例,所述计算系统100可以包括至少一个处理器和存储由所述处理器执行的程序的内存。所述处理器可以包含单核CPU或多核CPU。内存可以包括高速随机存取内存,也可以包括非易失性内存,例如一个或多个磁光盘存储设备、闪存设备、或其他非易失性固态存储器设备。处理器和其他组件对内存的访问可以由内存控制器控制。
另一方面,本发明的实施例涉及的方法可以通过计算机可读程序命令的形式实现,并存储在计算机可读的存储器或记录介质中。计算机可读记录介质包括存储计算机系统可读数据的所有类型的记录设备。
记录介质上记录的程序命令可以是专为本发明设计和配置的,也可以是软件领域从业人员都知道且使用的。
计算机可读记录介质包括硬盘、软盘和磁带等磁性介质(magnetic media)、CD-ROM、DVD等光学介质(optical media)、光磁软盘(floptical disk)等光磁介质(magneto-optical media)和ROM、RAM、闪存等存储并执行程序命令的特别构成的硬件设备。另外,计算机可读的记录介质分布在联网的计算机系统中,可以用分散的方式存储和执行计算机可读的代码。
程序命令不仅包括编译器创建的机器语言代码,还包括使用翻译器等以电子方式处理信息的设备,例如计算机可以执行的高级语言代码。
所述硬件设备可被配置为作为一个或多个软件模块运作来执行本发明的操作,反之亦然。
所述本发明的说明仅用于举例,对具有本发明所属技术领域常规知识的人来说,在不改变本发明的技术思想或本质特征的情况下,可以轻松地改变为其他具体形式,理解这一点并不难。因此,上述各实施例都应理解为只是例子,并非限定性的。例如,单个描述的每个组件可以分散实施,同样,被描述为分布式的各组件也可以组合实施。
本发明的范围应被解释为通过下述权利要求范围体现,而非上述具体说明,并且权利要求范围的含义和范围以及从其均等概念中推导的所有更改或变形都包括在本发明的范围内。
应用于产业的可用性
本发明涉及一种用于通过神经元-等级可塑性控制克服灾难性遗忘的方法以及实施该方法的计算系统。
Claims (6)
1.神经元-等级可塑性控制方法,作为一种由第1神经元至第N神经元(其中,N是2以上的整数)组成的人工神经网络模型的神经元-等级可塑性控制方法,包括:
对于预设的训练数据集中包含的多个单个数据中的每个数据(其中,所述多个单个数据各自被赋予相应的正确标签),计算系统基于所述单个数据执行权值控制处理程序的步骤,
上述基于所述单个数据执行权值控制处理程序的步骤包括:
通过在所述人工神经网络模型中输入所述单个数据,获得与所述单个数据相对应的预测值的步骤;
根据所述预测值和赋予所述单个数据的正确标签,计算交叉熵(Cross Entropy)的步骤;和
对于所述人工神经网络模型中包含的每个神经元ni(其中i是1≤i≤N的整数),以所述神经元ni为内插节点调整所有连接的权值的步骤。
上述以所述神经元ni为内插节点调整所有连接的权值的步骤包括:
计算规范化泰勒标准的移动平均值神经元ni的重要度Ci的步骤;
用以下[公式1]计算神经元ni的学习率ηi的步骤;和使用应用计算所得的所述学习率ηi的梯度下降法(gradient descent),以所述神经元ni为内插节点更新所有连接的权值的步骤。
[公式1]
(其中,α和β是所述预定义的所述人工神经网络模型的超参数,ηmax是预定义学习率的上限,t是所述训练数据集内所述单个数据的序列)
2.神经元-等级可塑性控制方法,作为一种人工神经网络模型的预定神经元-等级可塑性控制方法,包括:
计算系统获得与成为连续学习(continual learning)对象的多个任务相对应的训练数据集的步骤;和
所述计算系统,对于所述多个任务中的每项任务,执行与所述任务相对应的学习过程的步骤。
所述执行与所述任务相对应的学习过程的步骤包括:
所述计算系统使用与所述任务相对应的训练数据集,执行权利要求1中所列的神经元-等级可塑性控制方法的步骤;
所述计算系统,对于构成所述人工神经网络的多个层中的每一层,选择所述层中包含的自由神经元中重要度最大的一部分的重要神经元的步骤;
将从所述人工神经网络内的自由神经元中向所述重要神经元的所有连接的权值固定为0的步骤;
所述计算系统,用与所述任务相对应的训练数据集,超过2个时期(epoch)反复执行权利要求1中所列的神经元-等级可塑性控制方法的步骤;和
以所述重要神经元为内插节点固定所有连接的权值的步骤。
3.一种计算机程序,安装在数据处理装置中,为了执行权利要求1中所列的方法而存储在记录介质中。
4.一种计算机程序,安装在数据处理装置中,为了执行权利要求2中所列的方法而存储在记录介质中。
5.计算系统,作为一种计算系统,包括:
处理器;和
存储由所述处理器运行的计算机程序的内存,
所述计算机程序在通过所述处理器运行时,所述计算系统执行权利要求1中所列的方法。
6.计算系统,作为一种计算系统,包括:
处理器;和
存储由所述处理器运行的计算机程序的内存,
所述计算机程序在通过所述处理器运行时,所述计算系统执行权利要求1中所列的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200009615A KR20210096342A (ko) | 2020-01-28 | 2020-01-28 | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 |
KR10-2020-0009615 | 2020-01-28 | ||
PCT/KR2020/009823 WO2021153864A1 (ko) | 2020-01-28 | 2020-07-24 | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115023708A true CN115023708A (zh) | 2022-09-06 |
Family
ID=77078190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080095037.0A Pending CN115023708A (zh) | 2020-01-28 | 2020-07-24 | 通过神经元-等级可塑性控制克服灾难性遗忘问题的一种方法以及执行此操作的一种计算系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230072274A1 (zh) |
EP (1) | EP4099223A4 (zh) |
JP (1) | JP7431473B2 (zh) |
KR (1) | KR20210096342A (zh) |
CN (1) | CN115023708A (zh) |
WO (1) | WO2021153864A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102130162B1 (ko) | 2015-03-20 | 2020-07-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 인공 신경망들에 대한 관련성 스코어 할당 |
WO2018017546A1 (en) | 2016-07-18 | 2018-01-25 | Google Llc | Training machine learning models on multiple machine learning tasks |
EP3477591B1 (en) * | 2017-10-24 | 2020-05-27 | AGFA Healthcare | Avoiding catastrophic interference while training an artificial neural network on an additional task |
KR102471514B1 (ko) * | 2019-01-25 | 2022-11-28 | 주식회사 딥바이오 | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 |
CN109934343A (zh) * | 2019-02-25 | 2019-06-25 | 中国科学院自动化研究所 | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 |
-
2020
- 2020-01-28 KR KR1020200009615A patent/KR20210096342A/ko unknown
- 2020-07-24 US US17/795,546 patent/US20230072274A1/en active Pending
- 2020-07-24 JP JP2022542682A patent/JP7431473B2/ja active Active
- 2020-07-24 EP EP20916689.1A patent/EP4099223A4/en active Pending
- 2020-07-24 CN CN202080095037.0A patent/CN115023708A/zh active Pending
- 2020-07-24 WO PCT/KR2020/009823 patent/WO2021153864A1/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2021153864A1 (ko) | 2021-08-05 |
EP4099223A4 (en) | 2023-03-22 |
US20230072274A1 (en) | 2023-03-09 |
JP2023510837A (ja) | 2023-03-15 |
JP7431473B2 (ja) | 2024-02-15 |
KR20210096342A (ko) | 2021-08-05 |
EP4099223A1 (en) | 2022-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Dynamic task prioritization for multitask learning | |
Aljundi et al. | Online continual learning with maximal interfered retrieval | |
Parisi et al. | Continual lifelong learning with neural networks: A review | |
KR102471514B1 (ko) | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 | |
Pham et al. | Contextual transformation networks for online continual learning | |
Paik et al. | Overcoming catastrophic forgetting by neuron-level plasticity control | |
Shi et al. | Continual learning via bit-level information preserving | |
Kong et al. | Balancing stability and plasticity through advanced null space in continual learning | |
Awasthi et al. | Continual learning with neural networks: A review | |
KR20220166716A (ko) | 퓨샷 모방을 위한 시연 조건부 보강 학습 | |
Shekhovtsov et al. | Stochastic normalizations as bayesian learning | |
Lechat et al. | Semi-supervised class incremental learning | |
Ma et al. | Adaptive stochastic gradient descent for deep learning on heterogeneous CPU+ GPU architectures | |
WO2022195494A1 (en) | A computer implemented method for real time quantum compiling based on artificial intelligence | |
CN115023708A (zh) | 通过神经元-等级可塑性控制克服灾难性遗忘问题的一种方法以及执行此操作的一种计算系统 | |
Zhu et al. | ARTS: An adaptive regularization training schedule for activation sparsity exploration | |
Huang et al. | Altersgd: Finding flat minima for continual learning by alternative training | |
Garg et al. | Structured pruning for multi-task deep neural networks | |
Khan et al. | DaCapo: An On-Device Learning Scheme for Memory-Constrained Embedded Systems | |
Wu et al. | Learning compact DNN models for behavior prediction from neural activity of calcium imaging | |
CN115599296A (zh) | 一种分布式存储系统的节点自动伸缩方法及系统 | |
CN115080244A (zh) | 一种基于负载智能预测的云平台资源调度方法及系统 | |
Watt et al. | Dropout for recurrent neural networks | |
Chen et al. | SMALE: Enhancing Scalability of Machine Learning Algorithms on Extreme-Scale Computing Platforms | |
Mandow et al. | Pruning dominated policies in multiobjective Pareto q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |