JP7431473B2

JP7431473B2 - ニューロン－レベル塑性制御を通じて破局的忘却を克服するための方法およびこれを行うコンピューティングシステム

Info

Publication number: JP7431473B2
Application number: JP2022542682A
Authority: JP
Inventors: イニョンペク; サンジュンオ; テヨンカク
Original assignee: ディープバイオインク
Priority date: 2020-01-28
Filing date: 2020-07-24
Publication date: 2024-02-15
Anticipated expiration: 2040-07-24
Also published as: EP4099223A1; KR20210096342A; WO2021153864A1; EP4099223A4; JP2023510837A; CN115023708A; US20230072274A1

Description

人工ニューラルネットワークにおいて破局的忘却（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ）の問題を解決するために、ニューロン－レベル塑性制御（ｎｅｕｒｏｎ－ｌｅｖｅｌｐｌａｓｔｉｃｉｔｙｃｏｎｔｒｏｌ；ＮＰＣ）と呼ばれる簡単かつ効果的であり、しかも、新規なソリューションが提案される。

深層ニューラルネットワークで人工一般知能を実現する過程において、破局的忘却（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ）は、依然として最も根本的な挑戦の一つである。最も頻繁に用いられる学習アルゴリズムである勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）は、色々な作業に対するニューラルネットワークを順次に訓練させるために適用されるときに問題を引き起こしてしまう。勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）が現在の作業に対するニューラルネットワークを最適化させるとき、以前の作業に関する知識は、新たな知識により破局的に（ｃａｔａｓｔｒｏｐｈｉｃａｌｌｙ）上書きされてしまう。

問題の最初の発見［ＭｃＣｌｏｓｋｅｙＣｏｈｅｎ（１９８９）ＭｃＣｌｏｓｋｅｙａｎｄＣｏｈｅｎ］以来、人工ニューラルネットワークにおいて破局的忘却を緩和させるための様々な接近法が提案された。このような接近方式の一つは、すべてのミニバッチに色々な作業のデータを含めることである。このような方法は、以前の作業の性能を保持する上で効果的であるかもしれないが、以前の作業に関するトレーニングデータを保持しなければならないというオーバーヘッドが生じる。以前のデータの限られた一部のみを用いるか［ＧｅｐｐｅｒｔｈＫａｒａｏｇｕｚ（２０１６）ＧｅｐｐｅｒｔｈａｎｄＫａｒａｏｇｕｚ，Ｌｏｐｅｚ－Ｐａｚ（２０１７）］、あるいは、以前のデータを用いずに［ＬｉＨｏｉｅｍ（２０１８）ＬｉａｎｄＨｏｉｅｍ，Ｓｈｉｎｅｔ～ａｌ．（２０１７）Ｓｈｉｎ，Ｌｅｅ，Ｋｉｍ，ａｎｄＫｉｍ，Ｋａｍｒａｅｔ～ａｌ．（２０１７）Ｋａｍｒａ，Ｇｕｐｔａ，ａｎｄＬｉｕ，ＺａｃａｒｉａｓＡｌｅｘａｎｄｒｅ（２０１８）ＺａｃａｒｉａｓａｎｄＡｌｅｘａｎｄｒｅ，Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ］類似の効果を成し遂げようとするいくつかの試みがあった。

別の方法は、以前の知識が含まれているニューラルネットワークの一部を分離し、ネットワークの他の部分を用いて新たな作業を学ぶことである。ここには、ネットワークの他の部分を新たな作業に割り当てて新たな作業を学習できるニューラルネットワークのための動的アーキテクチャー設計が含まれる［Ｆｅｒｎａｎｄｏｅｔ～ａｌ．（２０１７）Ｆｅｒｎａｎｄｏ，Ｂａｎａｒｓｅ，Ｂｌｕｎｄｅｌｌ，Ｚｗｏｌｓ，Ｈａ，Ｒｕｓｕ，Ｐｒｉｔｚｅｌ，ａｎｄＷｉｅｒｓｔｒａ，Ａｌｊｕｎｄｉｅｔ～ａｌ．（２０１７）Ａｌｊｕｎｄｉ，Ｃｈａｋｒａｖａｒｔｙ，ａｎｄＴｕｙｔｅｌａａｒｓ，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｙｕｎ，Ｈｗａｎｇ，ａｎｄＹａｎｇ］。提案されたアルゴリズムは、ネットワークの他の部分を用いて色々な作業を学習するため、我々の作業は、このような接近と密接に関連している。ここで、部分の単位は、個別ニューロンである。

弾性的重み統合（Ｅｌａｓｔｉｃｗｅｉｇｈｔｃｏｎｓｏｌｉｄａｔｉｏｎ；ＥＷＣ）［Ｋｉｒｋｐａｔｒｉｃｋｅｔ～ａｌ．（２０１７）Ｋｉｒｋｐａｔｒｉｃｋ，Ｐａｓｃａｎｕ，Ｒａｂｉｎｏｗｉｔｚ，Ｖｅｎｅｓｓ，Ｄｅｓｊａｒｄｉｎｓ，Ｒｕｓｕ，Ｍｉｌａｎ，Ｑｕａｎ，Ｒａｍａｌｈｏ，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，ｅｔ～ａｌ．］は、この分野において成し遂げられた注目すべき発展である。Ｆｉｓｈｅｒ情報マトリックスの対角線を用いて、ＥＷＣは、以前の作業に重要なニューラルネットワークの接続重み（接続重み付け）に相当する媒介変数を識別しかつ統合する。このような方式で、ネットワークは、以前に学んだ知識を保持しながら、より重要度の低い媒介変数を用いて新たな作業を学習することができる。ＥＷＣは、多大な関心を引き寄せたため、多くの研究において採択された［Ｌｅｅｅｔａｌ．（２０１７）Ｌｅｅ，Ｋｉｍ，Ｊｕｎ，Ｈａ，Ｚｈａｎｇ，Ｎｇｕｙｅｎｅｔａｌ．（２０１７）Ｎｇｕｙｅｎ，Ｌｉ，Ｂｕｉ，ａｎｄＴｕｒｎｅｒ，Ｌｉｕｅｔａｌ．（２０１８）Ｌｉｕ，Ｍａｓａｎａ，Ｈｅｒｒａｎｚ，Ｖａｎ～ｄｅＷｅｉｊｅｒ，ＬｏｐｅｚａｎｄＢａｇｄａｎｏｖ，Ｚｅｎｋｅｅtａｌ．（２０１７）Ｚｅｎｋｅ，Ｐｏｏｌｅ，Ｇａｎｇｕｌｉ］。ＥＷＣ単独の性能は、かなりの改善の余地がある［Ｐａｒｉｓｉｅｔａｌ．（２０１８）Ｐａｒｉｓｉ，Ｋｅｍｋｅｒ，Ｐａｒｔ，Ｋａｎａｎ，Ｗｅｒｍｔｅｒ］。最近の研究においては、ＥＷＣを正規化の手段として、別の方法を結合して用いられた［Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｙｕｎ，Ｈｗａｎｇ，ａｎｄＹａｎｇ］。

Ｒｅｆｅｒｅｎｃｅｓ
［Ａｌｊｕｎｄｉｅｔ～ａｌ．（２０１７）Ａｌｊｕｎｄｉ，Ｃｈａｋｒａｖａｒｔｙ，ａｎｄＴｕｙｔｅｌａａｒｓ］Ａｌｊｕｎｄｉ，Ｒ．，Ｃｈａｋｒａｖａｒｔｙ，Ｐ．，ａｎｄＴｕｙｔｅｌａａｒｓ，Ｔ．ＥｘｐｅｒＴｇａｔｅ：Ｌｉｆｅｌｏｎｇｌｅａｒｎｉｎｇｗｉｔｈａｎｅｔｗｏｒｋｏｆｅｘｐｅｒｔｓ．ｐｐ．３３６６－３３７５，２０１７．［Ｄｅ～Ｖｒｉｅｓｅｔ～ａｌ．（２０１７）Ｄｅ～Ｖｒｉｅｓ，Ｓｔｒｕｂ，Ｍａｒｙ，Ｌａｒｏｃｈｅｌｌｅ，Ｐｉｅｔｑｕｉｎ，ａｎｄＣｏｕｒｖｉｌｌｅ］ＤｅＶｒｉｅｓ，Ｈ．，Ｓｔｒｕｂ，Ｆ．，Ｍａｒｙ，Ｊ．，Ｌａｒｏｃｈｅｌｌｅ，Ｈ．，Ｐｉｅｔｑｕｉｎ，Ｏ．，ａｎｄＣｏｕｒｖｉｌｌｅ，Ａ．Ｃ．Ｍｏｄｕｌａｔｉｎｇｅａｒｌｙｖｉｓｕａｌｐｒｏｃｅｓｓｉｎｇｂｙｌａｎｇｕａｇｅ．ｐｐ．６５９４－６６０４，２０１７．［Ｆｅｒｎａｎｄｏｅｔ～ａｌ．（２０１７）Ｆｅｒｎａｎｄｏ，Ｂａｎａｒｓｅ，Ｂｌｕｎｄｅｌｌ，Ｚｗｏｌｓ，Ｈａ，Ｒｕｓｕ，Ｐｒｉｔｚｅｌ，ａｎｄＷｉｅｒｓｔｒａ］Ｆｅｒｎａｎｄｏ，Ｃ．，Ｂａｎａｒｓｅ，Ｄ．，Ｂｌｕｎｄｅｌｌ，Ｃ．，Ｚｗｏｌｓ，Ｙ．，Ｈａ，Ｄ．，Ｒｕｓｕ，Ａ．Ａ．，Ｐｒｉｔｚｅｌ，Ａ．，ａｎｄＷｉｅｒｓｔｒａ，Ｄ．ＰａｔｈＮｅｔ：Ｅｖｏｌｕｔｉｏｎｃｈａｎｎｅｌｓｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｉｎｓｕｐｅｒｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０１．０８７３４，２０１７．［ＧｅｐｐｅｒｔｈＫａｒａｏｇｕｚ（２０１６）ＧｅｐｐｅｒｔｈａｎｄＫａｒａｏｇｕｚ］Ｇｅｐｐｅｒｔｈ，Ａ．ａｎｄＫａｒａｏｇｕｚ，Ｃ．Ａｂｉｏ－ｉｎｓｐｉｒｅｄｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｒｃｈｉｔｅｃｔｕｒｅｆｏｒａｐｐｌｉｅｄｐｅｒｃｅｐｔｕａｌｐｒｏｂｌｅｍｓ．ＣｏｇｎｉｔｉｖｅＣｏｍｐｕｔａｔｉｏｎ，８０（５）：０９２４－９３４，２０１６．［Ｈｅｅｔ～ａｌ．（２０１６）Ｈｅ，Ｚｈａｎｇ，Ｒｅｎ，ａｎｄＳｕｎ］Ｈｅ，Ｋ．，Ｚｈａｎｇ，Ｘ．，Ｒｅｎ，Ｓ．，ａｎｄＳｕｎ，Ｊ．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．ｐｐ．７７０－７７８，２０１６．［ＩｏｆｆｅＳｚｅｇｅｄｙ（２０１５）ＩｏｆｆｅａｎｄＳｚｅｇｅｄｙ］Ｉｏｆｆｅ，Ｓ．ａｎｄＳｚｅｇｅｄｙ，Ｃ．Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ：Ａｃｃｅｌｅｒａｔｉｎｇｄｅｅｐｎｅｔｗｏｒｋｔｒａｉｎｉｎｇｂｙｒｅｄｕｃｉｎｇｉｎｔｅｒｎａｌｃｏｖａｒｉａｔｅｓｈｉｆｔ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５０２．０３１６７，２０１５．［Ｋａｍｒａｅｔ～ａｌ．（２０１７）Ｋａｍｒａ，Ｇｕｐｔａ，ａｎｄＬｉｕ］Ｋａｍｒａ，Ｎ．，Ｇｕｐｔａ，Ｕ．，ａｎｄＬｉｕ，Ｙ．Ｄｅｅｐｇｅｎｅｒａｔｉｖｅｄｕａｌｍｅｍｏｒｙｎｅｔｗｏｒｋｆｏｒｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１０．１０３６８，２０１７．［Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ］Ｋｉｍ，Ｈ．－Ｅ．，Ｋｉｍ，Ｓ．，ａｎｄＬｅｅ，Ｊ．Ｋｅｅｐａｎｄｌｅａｒｎ：Ｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇｂｙｃｏｎｓｔｒａｉｎｉｎｇｔｈｅｌａｔｅｎｔｓｐａｃｅｆｏｒｋｎｏｗｌｅｄｇｅｐｒｅｓｅｒｖａｔｉｏｎｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０５．１０７８４，２０１８．［Ｋｉｒｋｐａｔｒｉｃｋｅｔ～ａｌ．（２０１７）Ｋｉｒｋｐａｔｒｉｃｋ，Ｐａｓｃａｎｕ，Ｒａｂｉｎｏｗｉｔｚ，Ｖｅｎｅｓｓ，Ｄｅｓｊａｒｄｉｎｓ，Ｒｕｓｕ，Ｍｉｌａｎ，Ｑｕａｎ，Ｒａｍａｌｈｏ，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，ｅｔ～ａｌ．］Ｋｉｒｋｐａｔｒｉｃｋ，Ｊ．，Ｐａｓｃａｎｕ，Ｒ．，Ｒａｂｉｎｏｗｉｔｚ，Ｎ．，Ｖｅｎｅｓｓ，Ｊ．，Ｄｅｓｊａｒｄｉｎｓ，Ｇ．，Ｒｕｓｕ，Ａ．Ａ．，Ｍｉｌａｎ，Ｋ．，Ｑｕａｎ，Ｊ．，Ｒａｍａｌｈｏ，Ｔ．，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，Ａ．，ｅｔａｌ．Ｏｖｅｒｃｏｍｉｎｇｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｎａｔｉｏｎａｌａｃａｄｅｍｙｏｆｓｃｉｅｎｃｅｓ，ｐｐ．２０１６１１８３５，２０１７．［ＫｒｉｚｈｅｖｓｋｙＨｉｎｔｏｎ（２００９）ＫｒｉｚｈｅｖｓｋｙａｎｄＨｉｎｔｏｎ］Ｋｒｉｚｈｅｖｓｋｙ，Ａ．ａｎｄＨｉｎｔｏｎ，Ｇ．Ｌｅａｒｎｉｎｇｍｕｌｔｉｐｌｅｌａｙｅｒｓｏｆｆｅａｔｕｒｅｓｆｒｏｍｔｉｎｙｉｍａｇｅｓ．２００９．［ＬｅＣｕｎｅｔ～ａｌ．（１９９８）ＬｅＣｕｎ，Ｂｏｔｔｏｕ，Ｂｅｎｇｉｏ，ａｎｄＨａｆｆｎｅｒ］ＬｅＣｕｎ，Ｙ．，Ｂｏｔｔｏｕ，Ｌ．，Ｂｅｎｇｉｏ，Ｙ．，ａｎｄＨａｆｆｎｅｒ，Ｐ．Ｇｒａｄｉｅｎｔ－ｂａｓｅｄｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，８６０（１１）：０２２７８－２３２４，１９９８．［Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｙｕｎ，Ｈｗａｎｇ，ａｎｄＹａｎｇ］Ｌｅｅ，Ｊ．，Ｙｕｎ，Ｊ．，Ｈｗａｎｇ，Ｓ．，ａｎｄＹａｎｇ，Ｅ．Ｌｉｆｅｌｏｎｇｌｅａｒｎｉｎｇｗｉｔｈｄｙｎａｍｉｃａｌｌｙｅｘｐａｎｄａｂｌｅｎｅｔｗｏｒｋｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０８．０１５４７，２０１７ａ．［Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｋｉｍ，Ｊｕｎ，Ｈａ，ａｎｄＺｈａｎｇ］Ｌｅｅ，Ｓ．－Ｗ．，Ｋｉｍ，Ｊ．－Ｈ．，Ｊｕｎ，Ｊ．，Ｈａ，Ｊ．－Ｗ．，ａｎｄＺｈａｎｇ，Ｂ．－Ｔ．Ｏｖｅｒｃｏｍｉｎｇｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇｂｙｉｎｃｒｅｍｅｎｔａｌｍｏｍｅｎｔｍａｔｃｈｉｎｇ．ｐｐ．４６５２－４６６２，２０１７ｂ．［Ｌｉｕｅｔ～ａｌ．（２０１８）Ｌｉｕ，Ｍａｓａｎａ，Ｈｅｒｒａｎｚ，Ｖａｎ～ｄｅＷｅｉｊｅｒ，Ｌｏｐｅｚ，ａｎｄＢａｇｄａｎｏｖ］Ｌｉｕ，Ｘ．，Ｍａｓａｎａ，Ｍ．，Ｈｅｒｒａｎｚ，Ｌ．，ＶａｎｄｅＷｅｉｊｅｒ，Ｊ．，Ｌｏｐｅｚ，Ａ．Ｍ．，ａｎｄＢａｇｄａｎｏｖ，Ａ．Ｄ．Ｒｏｔａｔｅｙｏｕｒｎｅｔｗｏｒｋｓ：Ｂｅｔｔｅｒｗｅｉｇｈｔｃｏｎｓｏｌｉｄａｔｉｏｎａｎｄｌｅｓｓｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０２９５０，２０１８．［ＬｉＨｏｉｅｍ（２０１８）ＬｉａｎｄＨｏｉｅｍ］Ｌｉ，Ｚ．ａｎｄＨｏｉｅｍ，Ｄ．Ｌｅａｒｎｉｎｇｗｉｔｈｏｕｔｆｏｒｇｅｔｔｉｎｇ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，４００（１２）：０２９３５－２９４７，２０１８．［Ｌｏｐｅｚ－Ｐａｚ（２０１７）］Ｌｏｐｅｚ－Ｐａｚ，Ｄ．Ｇｒａｄｉｅｎｔｅｐｉｓｏｄｉｃｍｅｍｏｒｙｆｏｒｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇ．ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，ｐｐ．６４６７－６４７６，２０１７．［ＬｕｏＷｕ（２０１７）ＬｕｏａｎｄＷｕ］Ｌｕｏ，Ｊ．－Ｈ．ａｎｄＷｕ，Ｊ．Ａｎｅｎｔｒｏｐｙ－ｂａｓｅｄｐｒｕｎｉｎｇｍｅｔｈｏｄｆｏｒｃｎｎｃｏｍｐｒｅｓｓｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０６．０５７９１，２０１７．［Ｌｕｏｅｔ～ａｌ．（２０１７）Ｌｕｏ，Ｗｕ，ａｎｄＬｉｎ］Ｌｕｏ，Ｊ．－Ｈ．，Ｗｕ，Ｊ．，ａｎｄＬｉｎ，Ｗ．Ｔｈｉｎｅｔ：Ａｆｉｌｔｅｒｌｅｖｅｌｐｒｕｎｉｎｇｍｅｔｈｏｄｆｏｒｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｃｏｍｐｒｅｓｓｉｏｎ．ｐｐ．５０６８－５０７６，２０１７．［ＭｃＣｌｏｓｋｅｙＣｏｈｅｎ（１９８９）ＭｃＣｌｏｓｋｅｙａｎｄＣｏｈｅｎ］ＭｃＣｌｏｓｋｅｙ，Ｍ．ａｎｄＣｏｈｅｎ，Ｎ．Ｊ．Ｃａｔａｓｔｒｏｐｈｉｃｉｎｔｅｒｆｅｒｅｎｃｅｉｎｃｏｎｎｅｃｔｉｏｎｉｓｔｎｅｔｗｏｒｋｓ：Ｔｈｅｓｅｑｕｅｎｔｉａｌｌｅａｒｎｉｎｇｐｒｏｂｌｅｍ．２４：０１０９－１６５，１９８９．［Ｍｅｒｍｉｌｌｏｄｅｔ～ａｌ．（２０１３）Ｍｅｒｍｉｌｌｏｄ，Ｂｕｇａｉｓｋａ，ａｎｄＢｏｎｉｎ］Ｍｅｒｍｉｌｌｏｄ，Ｍ．，Ｂｕｇａｉｓｋａ，Ａ．，ａｎｄＢｏｎｉｎ，Ｐ．Ｔｈｅｓｔａｂｉｌｉｔｙ－ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ：Ｉｎｖｅｓｔｉｇａｔｉｎｇｔｈｅｃｏｎｔｉｎｕｕｍｆｒｏｍｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇｔｏａｇｅ－ｌｉｍｉｔｅｄｌｅａｒｎｉｎｇｅｆｆｅｃｔｓ．Ｆｒｏｎｔｉｅｒｓｉｎｐｓｙｃｈｏｌｏｇｙ，４：０５０４，２０１３．［Ｍｏｌｃｈａｎｏｖｅｔ～ａｌ．（２０１６）Ｍｏｌｃｈａｎｏｖ，Ｔｙｒｅｅ，Ｋａｒｒａｓ，Ａｉｌａ，ａｎｄＫａｕｔｚ］Ｍｏｌｃｈａｎｏｖ，Ｐ．，Ｔｙｒｅｅ，Ｓ．，Ｋａｒｒａｓ，Ｔ．，Ａｉｌａ，Ｔ．，ａｎｄＫａｕｔｚ，Ｊ．Ｐｒｕｎｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｒｅｓｏｕｒｃｅｅｆｆｉｃｉｅｎｔｉｎｆｅｒｅｎｃｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１１．０６４４０，２０１６．［Ｎｇｕｙｅｎｅｔ～ａｌ．（２０１７）Ｎｇｕｙｅｎ，Ｌｉ，Ｂｕｉ，ａｎｄＴｕｒｎｅｒ］Ｎｇｕｙｅｎ，Ｃ．Ｖ．，Ｌｉ，Ｙ．，Ｂｕｉ，Ｔ．Ｄ．，ａｎｄＴｕｒｎｅｒ，Ｒ．Ｅ．Ｖａｒｉａｔｉｏｎａｌｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１０．１０６２８，２０１７．［Ｐａｒｉｓｉｅｔ～ａｌ．（２０１８）Ｐａｒｉｓｉ，Ｋｅｍｋｅｒ，Ｐａｒｔ，Ｋａｎａｎ，ａｎｄＷｅｒｍｔｅｒ］Ｐａｒｉｓｉ，Ｇ．Ｉ．，Ｋｅｍｋｅｒ，Ｒ．，Ｐａｒｔ，Ｊ．Ｌ．，Ｋａｎａｎ，Ｃ．，ａｎｄＷｅｒｍｔｅｒ，Ｓ．Ｃｏｎｔｉｎｕａｌｌｉｆｅｌｏｎｇｌｅａｒｎｉｎｇｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ：Ａｒｅｖｉｅｗ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０７５６９，２０１８．［Ｒｅａｌｅｔ～ａｌ．（２０１８）Ｒｅａｌ，Ａｇｇａｒｗａｌ，Ｈｕａｎｇ，ａｎｄＬｅ］Ｒｅａｌ，Ｅ．，Ａｇｇａｒｗａｌ，Ａ．，Ｈｕａｎｇ，Ｙ．，ａｎｄＬｅ，Ｑ．Ｖ．Ｒｅｇｕｌａｒｉｚｅｄｅｖｏｌｕｔｉｏｎｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｅｒａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０１５４８，２０１８．［Ｓａｌｉｍａｎｓｅｔ～ａｌ．（２０１６）Ｓａｌｉｍａｎｓ，Ｇｏｏｄｆｅｌｌｏｗ，Ｚａｒｅｍｂａ，Ｃｈｅｕｎｇ，Ｒａｄｆｏｒｄ，ａｎｄＣｈｅｎ］Ｓａｌｉｍａｎｓ，Ｔ．，Ｇｏｏｄｆｅｌｌｏｗ，Ｉ．，Ｚａｒｅｍｂａ，Ｗ．，Ｃｈｅｕｎｇ，Ｖ．，Ｒａｄｆｏｒｄ，Ａ．，ａｎｄＣｈｅｎ，Ｘ．ＩｍｐｒｏｖｅｄｔｅｃｈｎｉｑｕｅｓｆｏｒｔｒａｉｎｉｎｇＧＡＮｓ．ｐｐ．２２３４－２２４２，２０１６．［Ｓｈｉｎｅｔ～ａｌ．（２０１７）Ｓｈｉｎ，Ｌｅｅ，Ｋｉｍ，ａｎｄＫｉｍ］Ｓｈｉｎ，Ｈ．，Ｌｅｅ，Ｊ．Ｋ．，Ｋｉｍ，Ｊ．，ａｎｄＫｉｍ，Ｊ．Ｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇｗｉｔｈｄｅｅｐｇｅｎｅｒａｔｉｖｅｒｅｐｌａｙ．ｐｐ．２９９０－２９９９，２０１７．［ＳｉｍｏｎｙａｎＺｉｓｓｅｒｍａｎ（２０１４）ＳｉｍｏｎｙａｎａｎｄＺｉｓｓｅｒｍａｎ］Ｓｉｍｏｎｙａｎ，Ｋ．ａｎｄＺｉｓｓｅｒｍａｎ，Ａ．Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅ－ｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．１５５６，２０１４．［Ｕｌｙａｎｏｖｅｔ～ａｌ．（２０１６）Ｕｌｙａｎｏｖ，Ｖｅｄａｌｄｉ，ａｎｄＬｅｍｐｉｔｓｋｙ］Ｕｌｙａｎｏｖ，Ｄ．，Ｖｅｄａｌｄｉ，Ａ．，ａｎｄＬｅｍｐｉｔｓｋｙ，Ｖ．Ｉｎｓｔａｎｃｅｎｏｒｍａｌｉｚａｔｉｏｎ：Ｔｈｅｍｉｓｓｉｎｇｉｎｇｒｅｄｉｅｎｔｆｏｒｆａｓｔｓｔｙｌｉｚａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０７．０８０２２，２０１６．［Ｗｉｋｉｐｅｄｉａｃｏｎｔｒｉｂｕｔｏｒｓ（２０１８）］Ｗｉｋｉｐｅｄｉａｃｏｎｔｒｉｂｕｔｏｒｓ．Ｅｒｒｏｒｆｕｎｃｔｉｏｎ― Ｗｉｋｉｐｅｄｉａ，ｔｈｅｆｒｅｅｅｎｃｙｃｌｏｐｅｄｉａ，２０１８．ＵＲＬｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅｒｒｏｒ＿ｆｕｎｃｔｉｏｎ．［Ｏｎｌｉｎｅ；ａｃｃｅｓｓｅｄ２３－Ｊａｎ－２０１９］．［Ｙｕｅｔ～ａｌ．（２０１８）Ｙｕ，Ｌｉ，Ｃｈｅｎ，Ｌａｉ，Ｍｏｒａｒｉｕ，Ｈａｎ，Ｇａｏ，Ｌｉｎ，ａｎｄＤａｖｉｓ］Ｙｕ，Ｒ．，Ｌｉ，Ａ．，Ｃｈｅｎ，Ｃ．－Ｆ．，Ｌａｉ，Ｊ．－Ｈ．，Ｍｏｒａｒｉｕ，Ｖ．Ｉ．，Ｈａｎ，Ｘ．，Ｇａｏ，Ｍ．，Ｌｉｎ，Ｃ．－Ｙ．，ａｎｄＤａｖｉｓ，Ｌ．Ｓ．ＮＩＳＰ：Ｐｒｕｎｉｎｇｎｅｔｗｏｒｋｓｕｓｉｎｇｎｅｕｒｏｎｉｍｐｏｒｔａｎｃｅｓｃｏｒｅｐｒｏｐａｇａｔｉｏｎ．ｐｐ．９１９４－９２０３，２０１８．［ＺａｃａｒｉａｓＡｌｅｘａｎｄｒｅ（２０１８）ＺａｃａｒｉａｓａｎｄＡｌｅｘａｎｄｒｅ］Ｚａｃａｒｉａｓ，Ａ．Ｓ．ａｎｄＡｌｅｘａｎｄｒｅ，Ｌ．Ａ．Ｏｖｅｒｃｏｍｉｎｇｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇｉｎｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｂｙｓｅｌｅｃｔｉｖｅｎｅｔｗｏｒｋａｕｇｍｅｎｔａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０８２５０，２０１８．［Ｚｅｎｋｅｅｔ～ａｌ．（２０１７）Ｚｅｎｋｅ，Ｐｏｏｌｅ，ａｎｄＧａｎｇｕｌｉ］Ｚｅｎｋｅ，Ｆ．，Ｐｏｏｌｅ，Ｂ．，ａｎｄＧａｎｇｕｌｉ，Ｓ．Ｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇｔｈｒｏｕｇｈｓｙｎａｐｔｉｃｉｎｔｅｌｌｉｇｅｎｃｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０３．０４２００，２０１７．

この研究において、我々は、ＥＷＣの限界を明らかにし、ニューロン－レベルの塑性制御（ＮＰＣ）といった改善されたアルゴリズムを提案する。その名から明らかなように、ＮＰＣは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）において各ニューロンまたは各フィルターの塑性を制御して既存の知識を保持する。これは、個別的な接続重みを統合して作動するＥＷＣとは対照的である。ＮＰＣの別の主な特徴は、重要な媒介変数を特定の値に近いように保持する代わりに、学習率（ｌｅａｒｎｉｎｇｒａｔｅ）を調整して重要なニューロンを安定化させることである。このような特性は、ＮＰＣの効率性を高めることの他にも、作業数とは無関係にメモリ効率性を高めることができる。すなわち、ＮＰＣは、作業ごとの媒介変数値の集まりの代わりに、一つのニューロン当たりに単一の重要度値さえ格納すれば済むことから、作業数とは無関係にメモリの使用量が一貫して保持されることが可能である。

以前の研究においては、一般に、作業の切り換えの正確なタイミングが知られていると仮定していた。したがって、学習アルゴリズムは、作業が変更される度に色々なパラメーター（媒介変数）値セットといったコンテキストを明示的に保持し、コンテキストに切り換えることができた。これに対し、ＮＰＣは、情報を保持することなく、各ニューロンの重要性を評価し続け、重要度の移動平均に応じて学習率を簡単に調整してニューロンの塑性を制御する。したがって、ＮＰＣは、分類損失（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）を計算する上で欠かせない現在の作業の識別子（ＩＤ）を除いて、学習スケジュールに関する情報を求めない。一方、予め定められた学習スケジュールがあれば、ＮＰＣをさらに向上させることができる。このために、スケジュールされたＮＰＣ（ＳＮＰＣ）と呼ばれるＮＰＣの拡張を提案して、学習スケジュールに従って重要なニューロンをさらに明確に保存する。各作業に対して、ＳＮＰＣは、重要なニューロンを識別し、他の作業を訓練する間にこれを統合する。実験結果は、ＮＰＣとＳＮＰＣが接続レベル統合接近方式よりも致命的な忘却を減らす上で実質的にさらに効果的であるということを示す。特に、ｉＭＮＩＳＴデータセットに対するＳＮＰＣ評価において、破局的忘却の影響はほとんど消えていた。

ニューロン－レベル塑性制御（ｎｅｕｒｏｎ－ｌｅｖｅｌｐｌａｓｔｉｃｉｔｙｃｏｎｔｒｏｌ；ＮＰＣ）を通じた破局的忘却を克服するための方法が提供される。

ニューロン－レベル塑性制御（ｎｅｕｒｏｎ－ｌｅｖｅｌｐｌａｓｔｉｃｉｔｙｃｏｎｔｒｏｌ；ＮＰＣ）を通じた破局的忘却を克服するための方法を行うコンピューティングシステムが提供される。

インクリメンタルＭＮＩＳＴ（ｉｎｃｒｅｍｅｎｔａｌＭＮＩＳＴ；ｉＭＮＩＳＴ）およびインクリメンタルＣＩＦＡＲ１００（ｉｎｃｒｅｍｅｎｔａｌＣＩＦＡＲ１００）データセットに関する実験結果は、ＮＰＣおよびＳＮＰＣが接続レベル統合接近方式に比べて遥かに効果的であるということを示し、特に、ＳＮＰＣは、二つのデータセットにおいて卓越した性能を示す。

接続－レベルとニューロン－レベル統合とを比較するための図である。図１（ａ）は、Ｔａｓｋ１に重要なニューロンおよび接続を示す。図１（ｂ）は、接続－レベル統合である。重要な接続が統合されているものの、ニューロンは、Ｔａｓｋ２を学習する間に変更され得る他の入接続（入ってくる接続）により影響を受ける虞がある。図１（ｃ）は、ニューロン－レベル統合である。ＮＰＣは、重要ニューロンのすべての入接続を統合し、これは、ニューロンの知識を保存する上でより一層効果的である。重要度値Ｃ_ｉのヒストグラムの例を示す。図２（ａ）は、均等化前の元の分布であり、図２（ｂ）は、均等化済みの分布である。ｉＭＮＩＳＴデータセットにおいて継続的な学習アルゴリズムの検証正確度を示す。図３（ａ）は、各瞬間まで訓練された作業の平均検証正確性を示し、図３（ｂ）は、学習アルゴリズムに応じた５種類の作業の訓練曲線を示す。ＳＮＰＣとＮＰＣは、継続的な学習アルゴリズムの中で、それぞれ最高の性能を示す。ｉＣＩＦＡＲ１００データセットにおいて継続的な学習アルゴリズムの有効性検証正確度を示す。図４（ａ）は、各瞬間まで訓練された作業の平均検証正確性を示し、図３（ｂ）は、学習アルゴリズムに応じた５種類の課題の訓練曲線を示す。ＳＮＰＣとＮＰＣは、継続的な学習アルゴリズムの中で、それぞれ最高の性能を示す。訓練曲線間の差は、ｉＭＮＩＳＴよりもｉＣＩＦＡＲ１００の方においてより一層際立つ。互いに異なる設定下における５番目のｉＣＩＦＡＲ１００作業の訓練曲線を示す。図５の線（ａ）は、Ｔ_１からＴ_４まで学習した後のＳＮＰＣ学習Ｔ_５の訓練曲線であり、図５の点線（ｂ）は、ランダムに初期化されたパラメーターからニューロンの１４．３３％（＝ｒ_５）のみが変化するように許容された完全ＶＧＧネット（ｆｕｌｌＶＧＧｎｅｔ）の部分訓練の訓練曲線であり、図５の点線（ｃ）は、ランダムに初期化されたパラメーターから始まって、オリジナルモデルの１４．３３％のみを備えるように縮小された部分ＶＧＧネットの訓練の訓練曲線である。本発明の一実施形態に係るコンピューティングシステムの概略構成を示すブロック図である。本発明の一実施形態に係るコンピューティングシステムが行うニューロン－レベル塑性の制御方法を示すフローチャートである。本発明の一実施形態に係るコンピューティングシステムが行うスケジュールされたニューロン－レベル塑性の制御方法を示すフローチャートである。

Ｉ．理論的な背景となる研究
本発明の理解への一助となるために、以下では、まず、本発明の理論的な背景となる研究について紹介する。

要約Ａｂｓｔｒａｃｔ
人工ニューラルネットワークにおいて破局的忘却の問題（ｉｓｓｕｅｏｆｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ）を解決するために、ニューロン－レベル塑性制御（ｎｅｕｒｏｎ－ｌｅｖｅｌｐｌａｓｔｉｃｉｔｙｃｏｎｔｒｏｌ；ＮＰＣ）と呼ばれる簡単かつ効果的であり、しかも、新規なソリューションが提案される。提案された方法は、新たなタスクを学習する間に接続レベルではなく、神経レベルにおいてネットワークの塑性を制御して既存の知識を保存する。ニューロン－レベル塑性制御は、各ニューロンが重要性を評価し、低い学習速度を適用して重要なニューロンを統合する。

また、スケジュールされたＮＰＣ（ｓｃｈｅｄｕｌｅｄＮＰＣ；ＳＮＰＣ）と呼ばれるＮＰＣの拡張が提案される。この拡張は、学習スケジュール情報を用いて重要なニューロンをより明確に保護する。インクリメンタルＭＮＩＳＴ（ｉｎｃｒｅｍｅｎｔａｌＭＮＩＳＴ；ｉＭＮＩＳＴ）およびインクリメンタルＣＩＦＡＲ１００（ｉｎｃｒｅｍｅｎｔａｌＣＩＦＡＲ１００）データセットに対する実験結果は、ＮＰＣおよびＳＮＰＣが接続レベル統合接近方式に比べて遥かに効果的であるということを示し、特に、ＳＮＰＣは、二つのデータセットにおいて卓越した性能を示す。

１．概要（Ｉｎｔｒｏｄｕｃｔｉｏｎ）
深層ニューラルネットワークにて人工一般知能を実現する過程において、破局的忘却（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ）は、依然として最も根本的な挑戦の一つである。最も頻繁に用いられる学習アルゴリズムである勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）は、色々な作業に対するニューラルネットワークを順次に訓練させるために適用されるときに問題を引き起こしてしまう。勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）が現在の作業に対するニューラルネットワークを最適化させるとき、以前の作業に関する知識は、新たな知識により破局的に（ｃａｔａｓｔｒｏｐｈｉｃａｌｌｙ）上書きされてしまう。

問題の初期の発見［ＭｃＣｌｏｓｋｅｙＣｏｈｅｎ（１９８９）ＭｃＣｌｏｓｋｅｙａｎｄＣｏｈｅｎ］以来、人工ニューラルネットワークにおいて破局的忘却を緩和させるための様々な接近法が提案された。このような接近方式の一つは、すべてのミニバッチに色々な作業のデータを含めることである。このような方法は、以前の作業の性能を保持する上で効果的であるかもしれないが、以前の作業に関するトレーニングデータを保持しなければならないというオーバーヘッドが生じる。以前のデータの限られた一部のみを用いるか［ＧｅｐｐｅｒｔｈＫａｒａｏｇｕｚ（２０１６）ＧｅｐｐｅｒｔｈａｎｄＫａｒａｏｇｕｚ，Ｌｏｐｅｚ－Ｐａｚ（２０１７）］、あるいは、以前のデータを用いずに［ＬｉＨｏｉｅｍ（２０１８）ＬｉａｎｄＨｏｉｅｍ，Ｓｈｉｎｅｔ～ａｌ．（２０１７）Ｓｈｉｎ，Ｌｅｅ，Ｋｉｍ，ａｎｄＫｉｍ，Ｋａｍｒａｅｔ～ａｌ．（２０１７）Ｋａｍｒａ，Ｇｕｐｔａ，ａｎｄＬｉｕ，ＺａｃａｒｉａｓＡｌｅｘａｎｄｒｅ（２０１８）ＺａｃａｒｉａｓａｎｄＡｌｅｘａｎｄｒｅ，Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ］類似の効果を成し遂げようとするいくつかの試みがあった。

弾性的重み統合（Ｅｌａｓｔｉｃｗｅｉｇｈｔｃｏｎｓｏｌｉｄａｔｉｏｎ；ＥＷＣ）［Ｋｉｒｋｐａｔｒｉｃｋｅｔ～ａｌ．（２０１７）Ｋｉｒｋｐａｔｒｉｃｋ，Ｐａｓｃａｎｕ，Ｒａｂｉｎｏｗｉｔｚ，Ｖｅｎｅｓｓ，Ｄｅｓｊａｒｄｉｎｓ，Ｒｕｓｕ，Ｍｉｌａｎ，Ｑｕａｎ，Ｒａｍａｌｈｏ，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，ｅｔ～ａｌ．］は、この分野において成し遂げられた注目すべき発展である。Ｆｉｓｈｅｒ情報マトリックスの対角線を用いて、ＥＷＣは、以前の作業に重要なニューラルネットワークの接続重みに相当する媒介変数を識別しかつ統合する。このような方式で、ネットワークは、以前に学んだ知識を保持しながら、より重要度の低い媒介変数を用いて新たな作業を学習することができる。ＥＷＣは、多大な関心を引き寄せたため、多くの研究において採択された［Ｌｅｅｅｔａｌ．（２０１７）Ｌｅｅ，Ｋｉｍ，Ｊｕｎ，Ｈａ，Ｚｈａｎｇ，Ｎｇｕｙｅｎｅｔａｌ．（２０１７）Ｎｇｕｙｅｎ，Ｌｉ，Ｂｕｉ，ａｎｄＴｕｒｎｅｒ，Ｌｉｕｅｔａｌ．（２０１８）Ｌｉｕ，Ｍａｓａｎａ，Ｈｅｒｒａｎｚ，Ｖａｎ～ｄｅＷｅｉｊｅｒ，ＬｏｐｅｚａｎｄＢａｇｄａｎｏｖ，Ｚｅｎｋｅｅｔａｌ．（２０１７）Ｚｅｎｋｅ，Ｐｏｏｌｅ，Ｇａｎｇｕｌｉ］。ＥＷＣ単独の性能は、かなりの改善の余地がある［Ｐａｒｉｓｉｅｔａｌ．（２０１８）Ｐａｒｉｓｉ，Ｋｅｍｋｅｒ，Ｐａｒｔ，Ｋａｎａｎ，Ｗｅｒｍｔｅｒ］。最近の研究においては、ＥＷＣを正規化の手段として、別の方法を結合して用いられた［Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｙｕｎ，Ｈｗａｎｇ，ａｎｄＹａｎｇ］。

２．ニューロン－レベル対接続－レベル統合（Ｎｅｕｒｏｎ－ｌｅｖｅｌＶｅｒｓｕｓＣｏｎｎｅｃｔｉｏｎ－ｌｅｖｅｌＣｏｎｓｏｌｉｄａｔｉｏｎ）
ＥＷＣとその後続研究［Ｋｉｒｋｐａｔｒｉｃｋｅｔ～ａｌ．（２０１７）Ｋｉｒｋｐａｔｒｉｃｋ，Ｐａｓｃａｎｕ，Ｒａｂｉｎｏｗｉｔｚ，Ｖｅｎｅｓｓ，Ｄｅｓｊａｒｄｉｎｓ，Ｒｕｓｕ，Ｍｉｌａｎ，Ｑｕａｎ，Ｒａｍａｌｈｏ，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，ｅｔ～ａｌ．，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｋｉｍ，Ｊｕｎ，Ｈａ，ａｎｄＺｈａｎｇ，Ｎｇｕｙｅｎｅｔ～ａｌ．（２０１７）Ｎｇｕｙｅｎ，Ｌｉ，Ｂｕｉ，ａｎｄＴｕｒｎｅｒ，Ｌｉｕｅｔ～ａｌ．（２０１８）Ｌｉｕ，Ｍａｓａｎａ，Ｈｅｒｒａｎｚ，Ｖａｎ～ｄｅＷｅｉｊｅｒ，Ｌｏｐｅｚ，ａｎｄＢａｇｄａｎｏｖ，Ｚｅｎｋｅｅｔ～ａｌ．（２０１７）Ｚｅｎｋｅ，Ｐｏｏｌｅ，ａｎｄＧａｎｇｕｌｉ］は、ニューラルネットワークの接続重みに知識が格納されるという考え方に重点を置くものの、このような接続間の相関関係は強調されない。ＥＷＣの損失関数は、下記の数１のように定義される。ここで、Ｔ_ｎは、ｎ番目の作業を示す。

（１）

ニューラルネットワークの重みは、概ね独立的であり、ニューラルネットワークは、その重みにより線形的に近似可能であるという示唆的な仮定がある。しかしながら、深層ニューラルネットワークの構造は、本質的に階層的であり、媒介変数の間には強い相関関係がある。したがって、媒介変数値が他の値の重要性に影響を与える虞があるため、接続重みを独立的に考慮することは適切ではない。

我々は、ニューロンまたはＣＮＮフィルターが人工ニューラルネットワークの統合に関する知識の基本単位に対する個別接続よりもさらに適切であると主張する。既存の接続－レベルアルゴリズムは、ニューロンにより表わされる重要な知識の保存を保証しない。たとえ学習アルゴリズムが重要なニューロンに対する接続の一部を統合するとしても、ニューロンは自由な受信接続を保持した可能性があり、この接続の変更は、ニューロンにより伝達される知識に深刻な影響を与える虞がある。

図１は、深層ニューラルネットワークの接続レベル統合の限界をより明確に示している。図１において、接続重みθ₁とθ₂の値は０に近く、これは、学習アルゴリズムがそれらの重要度を最小限に評価するようにする。すなわち、θ₁とθ₂の値を個別的に変更した方が、Ｔａｓｋ１の出力に重要な影響を及ぼさない。このような状況下で、最小限の重要性により、接続レベルアルゴリズムは、二つの接続パラメーターを統合しない。しかしながら、後続学習の最中に二つのパラメーターが両方とも高速にて増加すれば、Ｔａｓｋ１に深刻な影響を及ぼす虞がある。これらが互いに密接に連関しているからである。この問題点は、同一のフィルターが異なる位置の色々な出力ノードの間に共有される畳み込みレイヤーにおいて特に深刻になる虞がある。したがって、たとえ接続レベル統合という考え方を完璧に実現できたとしても、破局的忘却を完全に除去することはできない。

この問題を克服するために、図１（ｃ）に示すように、接続－レベルではなく、ニューロン－レベルにおいて塑性を制御することを提案する。提案されたアルゴリズムであるＮＰＣは、個別的には重要に評価されない可能性がある接続を含んでいる重要なニューロンのすべての入接続を統合する。結果的に、ＮＰＣは、接続－レベル統合アルゴリズムよりもさらに効果的に、重要ではないニューロンの変更からさらに重要なニューロンを保護する。

重要ではないニューロンＹから重要なニューロンＸへの接続は小さいことがある。そうではなければ、評価アルゴリズムがＹを重要なニューロンと決定するからである。図１の例において、ＮＰＣは、Ｘのすべての入接続を統合するため、結果的にθ₁の値が小さく保持されてθ₂の変更がＸに深刻な影響を及ぼさない。これに対し、ＮＰＣは、たとえ個別的に重要であるとしても、目的地ニューロン（ｄｅｓｔｉｎａｔｉｏｎｎｅｕｒｏｎ）が重要ではない接続は統合しない。したがって、全体的に、統合された接続の総数は許容可能である。

３．ニューロン－レベル塑性制御（Ｎｅｕｒｏｎ－ｌｅｖｅｌＰｌａｓｔｉｃｉｔｙＣｏｎｔｒｏｌ）
３．１重要度評価（ＩｍｐｏｒｔａｎｃｅＥｖａｌｕａｔｉｏｎ）
各ニューロンの重要性を評価するためにネットワークプルーニング分野において用いられるテイラー（Ｔａｙｌｏｒ）拡張に基づいて基準（ｃｒｉｔｅｒｉｏｎ）を調整する［Ｍｏｌｃｈａｎｏｖｅｔａｌ．（２０１６）Ｍｏｌｃｈａｎｏｖ，Ｔｙｒｅｅ，Ｋａｒｒａｓ，ＡｉｌａａｎｄＫａｕｔｚ］。ネットワーク定理において性能がさらに優秀であると主張する別の方法があるとはいえ［ＹｕｅＴ～ａｌ．（２０１８）Ｙｕ，Ｌｉ，Ｃｈｅｎ，Ｌａｉ，Ｍｏｒａｒｉｕ，Ｈａｎ，Ｇａｏ，Ｌｉｎ，Ｄａｖｉｓ，ＬｕｏＷｕ（２０１７）ＬｕｏａｎｄＷｕＬｕｏｅｔａｌ．（２０１７）Ｌｕｏ，Ｗｕ，Ｌｉｎ］、計算の効率性によりテイラー基準を選択した。テイラー基準（Ｔａｙｌｏｒｃｒｉｔｅｒｉｏｎ）は、逆伝播（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）の間に計算されるニューロンに対する損失関数の勾配度（ｇｒａｄｉｅｎｔ）から計算される。したがって、これは、最小限の追加計算により訓練過程に容易に統合されることが可能である。

この研究において、我々は、下記の数４で表わされた正規化済みのテイラー基準の移動平均にて時間ｔにｉ番目のニューロンｎ_ｉの重要度Ｃ_ｉ ^（ｔ）を定義する。ここで、Ｎ_{ｌａｙｅｒ}は、レイヤーのノード数である。

（２）

（３）

（４）

もし、ノードが色々な位置（例えば、ＣＮＮの畳み込みフィルター）において共有されるのであれば、我々は、本来の論文［Ｍｏｌｃｈａｎｏｖｅｔａｌ．（２０１６）Ｍｏｌｃｈａｎｏｖ，Ｔｙｒｅｅ，Ｋａｒｒａｓ，ＡｉｌａａｎｄＫａｕｔｚ］に従って、絶対値を考慮する前にすべての位置の重要度値を平均する。しかしながら、我々は、異なる数のニューロンから構成された層の間においてさらに厳しい釣り合いを保つために、Ｌ２－ｎｏｒｍの代わりに、数３のような平方平均（ｑｕａｄｒａｔｉｃｍｅａｎ）を用いる。

我々の初期の実験において、我々は、図２（ａ）のように、分布が概ねガウシアンであることを見出した。我々は、相対的な重要性をさらに上手く区別するために、下記の数５を用いて分布を均一分布に均等化した。ここで、
は、相補誤差関数（ｃｏｍｐｌｅｍｅｎｔａｒｙｅｒｒｏｒｆｕｎｃｔｉｏｎ）［Ｗｉｋｉｐｅｄｉａｃｏｎｔｒｉｂｕｔｏｒｓ（２０１８）］である。図２（ｂ）は、イークワラゼイション後の重要度の分布を示す。

（５）

３．２塑性制御（ＰｌａｓｔｉｃｉｔｙＣｏｎｔｒｏｌ）
安定性－塑性ジレンマ（ｓｔａｂｉｌｉｔｙ－ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ）は、人工および生物学的な神経システムの両方ともにおいてよく知られている制約である［Ｍｅｒｍｉｌｌｏｄｅｔａｌ．（２０１３）Ｍｅｒｍｉｌｌｏｄ，Ｂｕｇａｉｓｋａ，Ｂｏｎｉｎ］。破局的忘却（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔｔｉｎｇ）は、同一のトレード－オフの問題（すなわち、多重作業のためのニューラルネットワークの性能を最大化させる最適な個所を決定するために試みること）の結果であるとみなすことができる。我々は、各ニューロンｎ_ｉに対して異なる学習率（ｌｅａｒｎｉｎｇｒａｔｅ）η_iを適用して各ニューロンの塑性を制御する。もし、η_iが高ければ、ニューロンは、既存の知識を速やかに失う代わりに、新たな知識を積極的に学ぶことになる。これに対し、η_iが低ければ、既存の知識（ｋｎｏｗｌｅｄｇｅ）をさらに上手く保存することができる。しかしながら、そのニューロンは、新たな知識を学ぶことをはばかる筈である。

ニューラルネットワークが良好な安定性－塑性の釣り合いを見出すことを励ますために、我々は、反対の役割を果たすη_iの関数にて二つの損失を定義し、その後、我々は、それらを結合する。第一番目の関数は、既存の知識の忘れを最小化させるための安定性側面の損失である。それは、η_i＝０から始まる単調増加関数であり、現在の知識の量により制限されなければならない。我々は、a₁tC_iを用いて現在の知識の上限をヒューリスティックに近似する（ここで、ａ_１はスケーリング定数であり、t>=1は、現在のトレーニング段階である）。ここで、我々の実験においては、一定の速度（ｒａｔｅ）にて新たな作業（ｔａｓｋ）を提供するため、知識の総量がトレーニング時間に正比例すると仮定する。η_iの単調増加関数を作るために、tanh(b₁η)を上限（ｕｐｐｅｒｂｏｕｎｄ）と結合する。ここで、ｂ_１は、ｔａｎｈ関数の勾配（傾斜）を制御するための別の定数である。結果的に、安定性損失（ｓｔａｂｉｌｉｔｙ－ｌｏｓｓ）は、a₁tC_itanh(b₁η_i)と定義される。

第二番目の関数は、新たな知識に対する嫌気（ｒｅｌｕｃｔａｎｃｅ）を減らすための塑性側面の損失である。上限η_i＝０から始まって０まで単調に減少するη_iの減少関数である。この場合、上限は、既存の知識を考慮せず、したがって、Ｃ_ｉもしくはｔとは関連性がない。したがって、塑性損失（ｐｌａｓｔｉｃｉｔｙ－ｗｉｓｅｌｏｓｓ）は、a₂(1-tanh(b₂η_i))と定義される。ここで、ａ_２とｂ_２は、スケールと勾配を制御するための定数である。

安定性と塑性との釣り合いを見出すために、下記の数６の結合損失関数を最小化させるη_iを選択する。

df/dη_i=0にセットして、我々は、下記の数７を得る。ここで、
である。

関数cosh(b₂η)/cosh(b₁η)の性質は、b₁>=b₂ であるか、もしくは、b₁<b₂であるかに応じて大きく左右される。もし、b₁>=b₂であれば、最適なη_iは、単純階段関数（ｓｉｍｐｌｅｓｔｅｐｆｕｎｃｔｉｏｎ）となる。したがって、我々は、b₁<b₂を制約条件として設定する。

もし、tC_i>βであれば、f(η_i)は、η_iに対して厳格に増加し、最適なη_iは、最小値、すなわち、η_i=０である。tC_i>=βである場合に対して、我々は、上記の数７を解くためにテイラー近似を適用する。cosh(b₂η)/cosh(b₁η)の閉じた形態の逆関数が存在しないからである。ｃｏｓｈが偶関数（ｅｖｅｎｆｕｎｃｔｉｏｎ）であれば、下記の数９から明らかなように、偶数次数（ｅｖｅｎｄｅｇｒｅｅｔｅｒｍ）のみが残ることになる。

小さなη_iに対して
であると仮定すれば、数９の解き方は、下記の数１０の通りである。このとき、
である。

上記の数１０において、tC_i=βであるとき、η_i=０であり、これは、二つの関数が連続して接続されるようにする。それぞれtC_i>βであり、かつ、tC_i<=βであるとき、二つのケースを結合すれば、数７のソリューションは、下記の数１１のように与えられる。このとき、α，β＞０は、ハイパーパラメーターである。

（１１）

数１１において、Ｃ_ｉが大きければ大きいほど、η_iが小さくなるため、その次の学習において重要なニューロンが統合（ｃｏｎｓｏｌｉｄａｔｉｎｇ）される。しかしながら、もし、Ｃ_ｉ＝０であれば、η_iは発散（ｄｉｖｅｒｇｅ）する。これは、塑性－安定性ジレンマの視点から説明することができる。もし、ニューロンが全く知識がなければ、既存の知識の損失を考慮せず、できる限り新たな知識を学ぶことが好ましい。しかしながら、たとえニューロンが失う知識がないとしても、学習速度が高くはないものの、学習効率を高める適切な学習率であるため、これは、実際に誤ったことである。したがって、大きな学習率により問題が生じないように学習率の上限を設定した。数７の最終解は、下記の数（１２）である。

（１２）

下記のＡｌｇｏｒｉｔｈｍ１は、ＮＰＣアルゴリズムを示す。ＮＰＣは、予め定められた学習スケジュールなしに起動されるように設計されたものの、現在のトレーニングサンプルが属している作業に関する知識が必要であるため、各作業の損失を計算することが避けられない。しかしながら、各作業に最適化された最新のパラメーターセットのような追加的な作業－特化（ｔａｓｋ－ｓｐｅｃｉｆｉｃ）情報が必要ではない。逆伝搬アルゴリズムにより計算される活性化および勾配度から簡単に計算されることを考慮すれば、ＮＰＣを実現するオーバーヘッドは最小となる。

３．３インスタンス正規化（ＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）
バッチ正規化（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ；ＢＮ）は、深層ニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）訓練に重要な役割を果たす［ＩｏｆｆｅＳｚｅｇｅｄｙ（２０１５）ＩｏｆｆｅａｎｄＳｚｅｇｅｄｙ］。しかしながら、平均および分散が作業の切り換えに大きく影響を受けるため、継続的な学習環境においてはバニラ―バッチ正規化が正常に作動しない。この場合、条件付き一括処理正規化［Ｄｅ～Ｖｒｉｅｓｅｔａｌ．（２０１７）Ｄｅ～Ｖｒｉｅｓ，Ｓｔｒｕｂ，Ｍａｒｙ，Ｌａｒｏｃｈｅｌｌｅ，ＰｉｅｔｑｕｉｎａｎｄＣｏｕｒｖｉｌｌｅ］および仮想一括正規化［Ｓａｌｉｍａｎｓｅｔａｌ．（２０１６）Ｓａｌｉｍａｎｓ，Ｇｏｏｄｆｅｌｌｏｗ，Ｚａｒｅｍｂａ，Ｃｈｅｕｎｇ，ＲａｄｆｏｒｄａｎｄＣｈｅｎ］などのいくつかの代案がある。しかしながら、これらの二種類の方法は、ＳＮＰＣに適用することができるものの、作業－特化情報を保持・管理するため、ＮＰＣには向いていない。したがって、アフィン変換（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍ）と移動平均が除去されるインスタンス正規化の単純化されたバージョン［Ｕｌｙａｎｏｖｅｔａｌ．（２０１６）Ｕｌｙａｎｏｖ，ＶｅｄａｌｄｉａｎｄＬｅｍｐｉｔｓｋｙ］を適用する。インスタンス正規化が各サンプルに独立的に適用できるということに鑑みると、トレーニング時間だけではなく、テスト時間にもモデルパラメーターを特別な操作なしに作動させる。

４．スケジュールされたＮＰＣ（ＳｃｈｅｄｕｌｅｄＮＰＣ）
４．１学習スケジュールを用いるＮＰＣ（ＮＰＣＵｓｉｎｇＬｅａｒｎｉｎｇＳｃｈｅｄｕｌｅ）
ＮＰＣは、予め定められた学習スケジュールに依存しない。しかしながら、作業切り換えスケジュールが利用可能であるとき、性能を改善するためにその情報を積極的利用することが好ましい。学習スケジュールが実際に予め定められたわけではないものの、最近、継続的な学習に関する研究は、これと類似する状況において評価されたことがある。［ＬｉＨｏｉｅｍ（２０１８）ＬｉａｎｄＨｏｉｅｍ，Ｓｈｉｎｅｔ～ａｌ．（２０１７）Ｓｈｉｎ，Ｌｅｅ，Ｋｉｍ，ａｎｄＫｉｍ，Ｋａｍｒａｅｔ～ａｌ．（２０１７）Ｋａｍｒａ，Ｇｕｐｔａ，ａｎｄＬｉｕ，ＧｅｐｐｅｒｔｈＫａｒａｏｇｕｚ（２０１６）ＧｅｐｐｅｒｔｈａｎｄＫａｒａｏｇｕｚ，Ｌｏｐｅｚ－Ｐａｚ（２０１７），Ｆｅｒｎａｎｄｏｅｔ～ａｌ．（２０１７）Ｆｅｒｎａｎｄｏ，Ｂａｎａｒｓｅ，Ｂｌｕｎｄｅｌｌ，Ｚｗｏｌｓ，Ｈａ，Ｒｕｓｕ，Ｐｒｉｔｚｅｌ，ａｎｄＷｉｅｒｓｔｒａ，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｙｕｎ，Ｈｗａｎｇ，ａｎｄＹａｎｇ，Ａｌｊｕｎｄｉｅｔ～ａｌ．（２０１７）Ａｌｊｕｎｄｉ，Ｃｈａｋｒａｖａｒｔｙ，ａｎｄＴｕｙｔｅｌａａｒｓ，Ｋｉｒｋｐａｔｒｉｃｋｅｔ～ａｌ．（２０１７）Ｋｉｒｋｐａｔｒｉｃｋ，Ｐａｓｃａｎｕ，Ｒａｂｉｎｏｗｉｔｚ，Ｖｅｎｅｓｓ，Ｄｅｓｊａｒｄｉｎｓ，Ｒｕｓｕ，Ｍｉｌａｎ，Ｑｕａｎ，Ｒａｍａｌｈｏ，Ｇｒａｂｓｋａ－Ｂａｒｗｉｎｓｋａ，ｅｔ～ａｌ．，Ｌｅｅｅｔ～ａｌ．（２０１７）Ｌｅｅ，Ｋｉｍ，Ｊｕｎ，Ｈａ，ａｎｄＺｈａｎｇ，Ｎｇｕｙｅｎｅｔ～ａｌ．（２０１７）Ｎｇｕｙｅｎ，Ｌｉ，Ｂｕｉ，ａｎｄＴｕｒｎｅｒ，Ｌｉｕｅｔ～ａｌ．（２０１８）Ｌｉｕ，Ｍａｓａｎａ，Ｈｅｒｒａｎｚ，Ｖａｎ～ｄｅＷｅｉｊｅｒ，Ｌｏｐｅｚ，ａｎｄＢａｇｄａｎｏｖ，Ｚｅｎｋｅｅｔ～ａｌ．（２０１７）Ｚｅｎｋｅ，Ｐｏｏｌｅ，ａｎｄＧａｎｇｕｌｉ，ＺａｃａｒｉａｓＡｌｅｘａｎｄｒｅ（２０１８）ＺａｃａｒｉａｓａｎｄＡｌｅｘａｎｄｒｅ，Ｋｉｍｅｔ～ａｌ．（２０１８）Ｋｉｍ，Ｋｉｍ，ａｎｄＬｅｅ］

下記のＡｌｇｏｒｉｔｈｍ２は、作業切り換えスケジュールに関する知識をより積極的に活用するように設計されたＮＰＣの拡張であるスケジュールされたニューロン－レベル塑性制御（ＳｃｈｅｄｕｌｅｄＮｅｕｒｏｎ－ｌｅｖｅｌＰｌａｓｔｉｃｉｔｙＣｏｎｔｒｏｌ；ＳＮＰＣ）アルゴリズムを提示する。

学習が始まると、特定の作業に割り当てられたニューロンがないため、すべてのニューロンは自由である（すなわち、いかなる作業であろうとも、学習することができる）。スケジュールが与えられれば、ＳＮＰＣは、各作業に最も重要な自由ニューロンの部分集合を選択して当該作業に割り当てる。しかる後、他の作業を学びながら予測できない方式により修正され得る自由ニューロンの影響から選択済みのニューロンを保護する。これは、自由ニューロンから選択済みのニューロンへの接続重みを０に凍結することにより成し遂げられる。しかしながら、このような方式により自由ニューロンから選択済みのニューロンへの接続を除去すれば、潜在的な問題が生じることが懸念される。第一に、ニューラルネットワークの容量が減ることが懸念される。第二に、新たな知識が以前の作業に対するネットワーク性能を向上させる上で邪魔になることが懸念される。第一番目の問題は、すべての作業の総和に対してモデル容量が十分ではないときに性能に深刻な影響を及ぼすことが懸念されるものの、より大きなニューラルネットワークにおいては比較的に容易に緩和させることができる。第二番目の問題は、遠隔可能性があるものの、実際にこのような現象はほとんど予想することができない。以前の作業に関する知識がいかなる方式によろうとも保持されない限り、統合されていないニューロンの変更によりほとんど常に破局的忘却を引き起こす虞がある。

４．２作業ごとのニューロン割り当て（Ｐｅｒ－ｔａｓｋＮｅｕｒｏｎＡｌｌｏｃａｔｉｏｎ）
ＳＮＰＣは、ｒ_ｋ×Ｎ_{ｌａｙｅｒ}により各作業に割り当てるべきニューロンの数を決定する（ここで、ｒ_ｋは、Ｔ_ｋに割り当てられるニューロンの割合であり、
である）。ＳＮＰＣは、すべての階層において同一の値を共有して作業間の釣り合いと単純性を向上させる。

しかしながら、以前に統合されたニューロンからの接続の有用性が当該作業に直接的に割り当てられたニューロンに匹敵しないという点を考慮するとき、作業ごとにｒ_ｋを均等に振り分け（ｒ_１＝ｒ_２＝．．．＝ｒ_ｋ）てはいけない。前者が後者よりもμ＜１倍に見合う分だけ有用であるとすれば、作業Ｔ_ｋに使用可能な接続の総有用性は、下記の数１３によるＶ_ｋに比例することになる。ここで、第一番目の項は、Ｔ_ｋに割り当てられたニューロン間の接続の総有用性を示し、第二番目の項は、以前に統合されたニューロンからＴ_ｋに対するニューロンへの接続の総有用性を示す。

（１３）

したがって、公正な振り分けのためには、すべてのＶ_ｋがすべての作業に対して同一ではなければならない。この制約条件は、一般に、閉じた形態のソリューションがない非線形関係を示すため、我々は、数値的に解を見出した。５つの作業を学習するとき（ｋ＝５）、μ＝０．５であり、ｒ_ｋの値がそれぞれ０．２８６２、０．２２３５、０．１８５９、０．１６１０および０．１４３３である場合、ニューラルネットワークは、釣り合いのとれた結果を示す。最適な分布は、作業のしにくさもしくは作業間の類似性といった他の要因により影響を受ける可能性がある。しかしながら、この研究においては、このような作業－特化要素を考慮しない。

５．実験（Ｅｘｐｅｒｉｍｅｎｔｓ）
５．１データセットおよび実現詳細（ＤａｔａｓｅｔｓａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎＤｅｔａｉｌ）
我々は、ＭＮＩＳＴ［ＬｅＣｕｎｅｔ～ａｌ．（１９９８）ＬｅＣｕｎ，Ｂｏｔｔｏｕ，Ｂｅｎｇｉｏ，ａｎｄＨａｆｆｎｅｒ］およびＣＩＦＡＲ１００［ＫｒｉｚｈｅｖｓｋｙＨｉｎｔｏｎ（２００９）ＫｒｉｚｈｅｖｓｋｙａｎｄＨｉｎｔｏｎ］データセットの増分バージョンを実験した。ここで、Ｌクラスを含むデータセットは、Ｌ／ＫクラスのＫサブセットに分けられ、それぞれは、ｋ番目の作業に分類される。ＭＮＩＳＴおよびＣＩＦＡＲ１００の場合、Ｋを５に設定した。事前処理のために、二つのデータセットの両方ともにパディングの大きさが４であるランダム切り抜き（ｒａｎｄｏｍｃｒｏｐｐｉｎｇ）を適用し、増分ＣＩＦＡＲ１００（ｉＣＩＦＡＲ１００）データセットに対する追加的な任意の水平反転（ｒａｎｄｏｍｈｏｒｉｚｏｎｔａｌｆｌｉｐ）を適用した。また、一貫性を保つために、すべての実験において、一つのエポック（ｅｐｏｃｈ）単位を総トレーニングデータ数が表示される周期と再定義した。例えば、元々ＭＮＩＳＴデータセットに６０，０００個のトレーニングサンプルがあるため、１２，０００個のサンプルを５回処理することとｉＭＮＩＳＴデータセットの一つのエポックを定義した。このようなエポックの新たな定義とともに、我々は、ｉＭＮＩＳＴの各作業に対する下位集合においては１０エポックに見合う分だけモデルを学習し、ｉＣＩＦＡＲ１００の各下位集合においては３０エポックに見合う分だけモデルを学習した。我々は、実験において、ｉＣＩＦＡＲ１００の最初の５個の部分集合を用いた。我々は、すべての作業にミニバッチサイズ２５６を用いた。

我々は、ＶＧＧ－１６［ＳｉｍｏｎｙａｎＺｉｓｓｅｒｍａｎ（２０１４）ＳｉｍｏｎｙａｎａｎｄＺｉｓｓｅｒｍａｎ］ネットワークを僅かに修正して用いた。上述したように、すべてのバッチ正規化レイヤーをインスタンス正規化レイヤーに取り替えた。最終分類階層（ｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｌａｙｅｒ）の場合、各対象作業に対して完全接続階層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を配置した。各作業に対する交差エントロピー損失（ｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ）は、現在の作業に属する出力ノードにおいてのみ計算された。

我々は、すべての実験において、α＝０．１、η_max＝０．１に設定した。ＮＰＣの場合、βを２００に設定した。しかしながら、ＳＮＰＣにおいては、重要なノードの学習率を０に完全に落とす必要がなかったため、ＳＮＰＣに対してはさらに大きな値である５００を設定した。すべての実験において、ミニバッチサイズが２５６であるプレーンＳＧＤオプティマイザー（ｐｌａｉｎＳＧＤｏｐｔｉｍｉｚｅｒ）を用いた。

比較のために、ＥＷＣ、Ｌ２正規化および基準線ＳＧＤという３種類の既存の学習アルゴリズムを実現した。ＥＷＣの場合、λ＝１０００に設定して実験環境において最高の性能を示すようにした。ＮＰＣアルゴリズムを用いなかった場合、学習率を０．０１に設定した。

５．２実験結果（ＥｘｐｅｒｉｍｅｎｔａｌＲｅｓｕｌｔｓ）
図３および図４は、それぞれｉＭＮＩＳＴとｉＣＩＦＡＲ１００において５種類の継続学習アルゴリズム（ＮＰＣ、ＳＮＰＣ、ＥＷＣ、Ｌ２正規化およびＳＧＤ）の性能を示す。図３において、ＮＰＣおよびＳＮＰＣは、平均正確度（ａｃｃｕｒａｃｙ）の側面からみて、ＥＷＣおよびＬ２ｒｅｇよりも優れた性能を示す。それらの訓練曲線は、ネットワークがＮＰＣまたはＳＮＰＣにより訓練されるときに、先行して学習した知識が後続して学習した知識によりはるかに影響を少なく受けたということを示す。特に、ＳＮＰＣの場合、第一番目の作業の性能は、後続学習の影響をほとんど受けない。その結果は、ＳＮＰＣがその影響が消える時点までｉＭＮＩＳＴに対して破局的忘却を緩和させるということを示す。

我々は、ｉＭＮＩＳＴデータセットに対する追加構成をテストした。媒介変数ごとの塑性制御（ｐａｒａｍｅｔｅｒ－ｗｉｓｅｐｌａｓｔｉｃｉｔｙｃｏｎｔｒｏｌ；ＰＰＣ）は、ニューロンレベルではなく、接続レベルにおいて塑性を制御する。ＮＰＣと同様に、我々は、テイラー基準を用いて重要性を評価した。我々は、β＝３００を用いたが、これは、ＰＰＣがｉＭＮＩＳＴアルゴリズムの最後の作業を十分に学べるようにするβの最小値である。ＰＰＣの性能はＮＰＣよりも悪かった。これは、ニューロンが、ニューラルネットワーク統合の単位として、接続よりもさらに適切であるということを確認してくれる。

図４は、ＮＰＣおよびＳＮＰＣがｉＣＩＦＡＲ１００において他のアルゴリズムよりも高い平均正確度を提供し、ｉＭＮＩＳＴよりもさらに成し遂げ難いということを示す。しかしながら、ＮＰＣは、以前の作業よりも最後の作業の方の正確度が低い。他のアルゴリズムにおいても同じ問題が観察されたが、ＮＰＣにおいてはより一層深刻である。我々は、主な理由が、ニューラルネットワークの部分的な統合がモデルの学習能力（ｌｅａｒｎｉｎｇｃａｐａｃｉｔｙ）を費やすからであると仮定する。このような問題は、ｉＭＮＩＳＴにおいて明確に観察されなかった。その単純性のおかげで、ＶＧＧネットワークが残りのニューロンが提供する最小容量にて以降の作業をマスターすることができたからである。ＮＰＣとＳＮＰＣとのこのような違いは、ＮＰＣが既存の知識をより一層上手く保存するものの、モデルの学習能力をさらに早く費やすということを示す。すなわち、ＮＰＣは、一つの作業当たりに割り当てられたニューロン数に対する制限や正規化がないため、モデルは、一般に、以前の作業にほとんどのニューロンを用いる傾向にある。したがって、ＮＰＣは、以前の作業に関する知識を致命的な忘却から保護するためにニューロンのかなりの部分を統合し、その結果、図４に示すように、最後の作業において性能が低下する。しかしながら、ＳＮＰＣは、各作業に対してｒ_ｋ×Ｎ_{ｌａｙｅｒ}個のニューロンのみを統合し、以降の作業が特定の数のニューロンを活用することを保証するため、容量の枯渇の問題により困難さが低い。

また、我々は、ニューラルネットワークが継続的な学習のための以前の作業よりも以降の作業の方をさらに速く学習するということを観察した。その理由は、ニューラルネットワークが以前の作業において学んだ知識を活用するため、以降の作業が伝達された知識から利益を得ることができるからである。これを明らかにするために、我々は、ＳＮＰＣが最後の作業を学びながら以前の作業において予め訓練された知識を再使用するか否かをテストするための簡単な実験を行った。我々は、他の設定において、ニューロンの１４．３３％（ｒ_５と同じ割合）のみを用いてｉＣＩＦＡＲ１００において３つのＶＧＧネットワークインスタンスを訓練した。図５において、線（ａ）は、４種類の先行作業後のＳＮＰＣ訓練Ｔ_５の学習曲線を示す。点線（ｂ）は、ランダムに初期化されかつ固定された他のニューロンに接続されたニューロンの１４．３３％のみを学習したことを示す。最後に、点線（ｃ）は、ネットワークがランダムに初期化された媒介変数から始まってニューロンの１４．３３％のみを学習するときの学習曲線である。図５は、ＳＮＰＣが他の二つの設定よりもはるかに速く作業を学習するということを示す。これは、ＳＮＰＣが以前の作業において得た知識を積極的に再使用するということを確認してくれる。

６結論（Ｃｏｎｃｌｕｓｉｏｎ）
この研究においては、ニューロンレベルにおいてニューラルネットワークの塑性を制御するＮＰＣおよびＳＮＰＣという二つの継続的な学習アルゴリズムを提案した。ＮＰＣは、各作業に最適化された最新の媒介変数セットのような情報を保持しない。したがって、予め定義された学習スケジュールなしに実行することができない。これに対し、ＳＮＰＣは、学習スケジュールが予め定義されており、重要なニューロンをより明示的に保護するために積極的に活用する。ｉＭＮＩＳＴおよびｉＣＩＦＡＲ１００データセットの実験結果によれば、ＮＰＣおよびＳＮＰＣは、接続間の関係を考慮しない既存の接続レベル統合アルゴリズムよりもはるかに効果的である。特に、ｉＭＮＩＳＴデータセットに対するＳＮＰＣの結果においては、破局的忘却がほとんど消えていた。

ＮＰＣとＳＮＰＣは、継続的な学習において著しく改善されたものの、依然として課題が残っている。情報に対するＮＰＣの従属性は最小であるものの、分類損失を計算するためには、作業を識別しなければならないという事実により依然として制限される。なお、ＮＰＣは、塑性を制御する単位と方法を定義するものの、各ニューロンの重要性を評価しかつ管理するための戦略は探索してみる余地がある。

実験する間に、我々は、分類において最高の性能を示すわけではなく、持続的な学習環境において概念を認証するのにさらに集中した。例えば、［Ｒｅａｌｅｔ～ａｌ．（２０１８）Ｒｅａｌ，Ａｇｇａｒｗａｌ，Ｈｕａｎｇ，ａｎｄＬｅ］のような最新の分類モデルは、単一の作業環境においてＶＧＧよりもはるかに高い容量を示す。単純性を好む別の選択は、インスタンス正規化であるが、これは、性能のための最善の選択ではない可能性がある。

より多様性に富んだアーキテクチャーにＮＰＣを適用するために、残留接続（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）［Ｈｅｅｔ～ａｌ．（２０１６）Ｈｅ，Ｚｈａｎｇ，Ｒｅｎ，ａｎｄＳｕｎ］は、解決すべき邪魔物の一つである。色々なニューロン出力の合算を解析し、いかなるニューロンを保存すべきであるかを決定することは特に重要であり、重要ではないニューロンが追加されるときに、明らかではない問題である。

ｉＣＩＦＡＲ１００などの一般的なオンライン学習ベンチマークは、同じ作業を再び訪れないため、モデルが一節（ｐａｓｓａｇｅ）を単にブロックして破局的忘却を引き起こす虞がある。しかしながら、作業を２回以上訓練することができる状況においては、今後作業を学習する間に取得した知識を統合してモデルをさらに向上させることが好ましい。これは、ＮＰＣには問題にならないものの、ＳＮＰＣにとっては以降の作業に対するニューロンが以前の作業に対するニューロンに依存して大きくなる虞があるという点を考慮すれば、問題になる可能性がある。十分に低い学習速度を用いることの他に、簡単な解決策の一つは、見直された作業をまるで新たな作業であるかのように取り扱うことである。しかしながら、これは、破局的忘却の影響を緩和させることができるものの、モデルの容量がはるかに大きくなければならないため、長期的な観点からみて、実際的な問題を引き起こす虞がある。

重要度の評価に用いたテイラー基準とほぼ同様に、ネットワーク定理に関する研究は、ディープラーニング（深層学習）モデルが驚くべきことに小さな大きさにて複雑な知識を学べる方法を示す。しかしながら、明らかな介入がなければ、深層ニューラルネットワークは、実際に必要な容量よりもさらに多い容量を費やす傾向にある。ＳＮＰＣは、作業ごとのニューロンの割り当てによりこの問題を避けるが、作業が累積されるときにモデル容量が枯渇されるため、ＮＰＣは、この問題から除外されない。モデルの大きさとは無関係に、最初のいくつかの作業がほとんどのモデルを占める傾向にあるということを観察した。我々は、モデルが一つの作業当たりに最小容量を用いるように強制する方法があるのであれば、ＮＰＣが大きな利益を得る筈であると考える。

ＩＩ．本発明において提案する方法およびシステム
上述した以上の研究によるニューロン－レベル塑性制御（ＮＰＣ）またはスケジュールされたＮＰＣ（ＳＮＰＣ）を通じて破局的忘却を克服するための方法は、コンピューティングシステムにより行われることができる。

上述のコンピューティングシステムとは、本発明の技術的な思想を実現するための演算能力をもったデータ処理装置のことをいい、一般に、ネットワークを介してクライアントが接続可能なサーバーなどのデータ処理装置だけではなく、パソコン、携帯端末のように特定のサービスが行えるいかなる装置もコンピューティングと定義可能であるということを本発明の技術分野における平均的な専門家は容易に推論できる筈である。

一方、上述のコンピューティングシステムは、本発明の技術的な思想を実現するために必要なハードウェアリソース（ｒｅｓｏｕｒｃｅ）及び／又はソフトウェアを備えることができ、必ずしも一つの物理的な構成要素を意味したり、一台の装置を意味したりするとは限らない。すなわち、上述のコンピューティングシステムは、本発明の技術的な思想を実現するために備えられるハードウェア及び／又はソフトウェアの論理的な結合を意味することもあり、必要に応じては、互いに離れている装置に設けられてそれぞれの機能を行うことにより本発明の技術的な思想を実現するための論理的な構成の集合により実現されてもよい。なお、上述のコンピューティングシステムは、本発明の技術的な思想を実現するためのそれぞれの機能または役割ごとに別途に実現される構成の集合を意味することもある。上述のコンピューティングシステムは、多数のモジュールの形態として実現されることが可能である。

この明細書において、モジュールとは、本発明の技術的な思想を行うためのハードウェアおよびハードウェアを駆動するためのソフトウェアの機能的、構造的な結合を意味することがある。例えば、モジュールは、所定のコードと所定のコードが実行されるためのハードウェアリソースの論理的な単位を意味することがあり、必ずしも物理的に接続されたコードを意味したり、一種類のハードウェアを意味したりするとは限らないということは、本発明の技術分野における平均的な専門家にとっては容易に推論されることが可能である。

図６は、本発明の一実施形態に係るコンピューティングシステムの構成を示す図である。

図６を参照すると、コンピューティングシステム１００は、入力モジュール１１０と、出力モジュール１２０と、格納モジュール１３０と、制御モジュール１４０と、を備えていてもよい。

入力モジュール１１０は、本発明の技術的な思想を実現する上で必要とされる各種のデータをコンピューティング装置１１０の外部から入力されることができる。例えば、入力モジュール１１０は、トレーニングデータセット、各種のパラメーター及び／又はハイパーパラメーターを入力されることができる。

出力モジュール１２０は、コンピューティングシステム１００に格納されていたり、コンピューティングシステム１００が生成したりしたデータを外部に出力することができる。

格納モジュール１３０は、本発明の技術的な思想を実現する上で必要とされる各種の情報及び／又はデータを格納することができる。例えば、格納モジュール１３０は、ニューラルネットワークモデル（ｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）、トレーニングデータ、各種のパラメーター及び／又はハイパーパラメーターを格納することができる。格納モジュール１３０は、ランダムアクセスメモリ（ＲＡＭ：ＲａｍｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリやハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）やソリッドステートディスク（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）などの不揮発性メモリを備えていてもよい。

制御モジュール１４０は、コンピューティングシステム１００に備えられている他の構成要素（例えば、入力モジュール１１０、出力モジュール１２０及び／又は格納モジュール１３０）を制御することができる。制御モジュール１４０は、シングルコアＣＰＵやマルチコアＣＰＵ、ＧＰＵなどのプロセッサーを備えていてもよい。

また、制御モジュール１４０は、上述した研究によるニューロン－レベル塑性制御（ＮＰＣ）またはスケジュールされたＮＰＣ（ＳＮＰＣ）を行うことができる。例えば、制御モジュール１４０は、格納モジュール１３０に格納されたニューラルネットワークモデルおよびトレーニングデータを上述したＮＰＣアルゴリズムまたはＳＮＰＣアルゴリズムに適用することができる。

図７は、制御モジュール１４０が行うニューロン－レベル塑性の制御方法を示すフローチャートである。

図８は、制御モジュール１４０が行うスケジュールされたニューロン－レベル塑性の制御方法を示すフローチャートである。

一方、実現例に応じて、コンピューティングシステム１００は、少なくとも一つのプロセッサーおよびプロセッサーにより起動されるプログラムを格納するメモリを備えていてもよい。プロセッサーは、シングルコアＣＰＵもしくはマルチコアＣＰＵを備えていてもよい。メモリは、高速ランダムアクセスメモリを備えていてもよく、一台以上の磁気ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステートメモリ装置などの不揮発性メモリを備えていてもよい。プロセッサーおよびその他の構成要素によるメモリへのアクセスは、メモリコントローラーにより制御されることが可能である。

一方、本発明の実施形態に係る方法は、コンピューターにて読み取り可能なプログラム指令の形態として実現されてコンピューターにて読み取り可能なメモリもしくは記録媒体に格納されてもよい。コンピューターにて読み取り可能な記録媒体は、コンピューターシステムにより読み取られ得るデータが記憶されるあらゆる種類の記録装置を網羅する。

記録媒体に書き込まれるプログラム指令は、本発明のために特別に設計されかつ構成されたものであってもよく、ソフトウェア分野における当業者に公知となって使用可能なものであってもよい。

コンピューターにて読取り可能な記録媒体の例としては、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ－ＲＯＭ、ＤＶＤなどの光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）などの磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）および読み取り専用のメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリなどのようにプログラム指令を記憶しかつ実行するように特別に構成されたハードウェア装置が挙げられる。なお、コンピューターにて読取り可能な記録媒体は、ネットワークにより結ばれたコンピューターに分散されて、分散方式によりコンピューターにて読取り可能なコードが記憶されかつ起動されてもよい。

プログラム指令の例としては、コンパイラーにより作成されるもののような機械語コードだけではなく、インタープリターなどを用いて電子的に情報を処理する装置、例えば、コンピューターにより実行可能な高級言語コードが挙げられる。

上述したハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆もまた同様である。

上述した本発明の説明は、単なる例示のためのものであり、本発明が属する技術分野における通常の知識を有する者は、本発明の技術的な思想や必須的な特徴を変更することなく、他の具体的な形態へと容易に変形できるということが理解できる筈である。よって、上述した実施形態は、あらゆる面において例示的なものに過ぎず、限定的なものではないものと理解すべきである。例えば、単一型であると説明されている各構成要素は、分散されて実施されてもよく、同様に、分散されていると説明されている構成要素も、組み合わせられた形態に実施されてもよい。

本発明の範囲は、上記の詳細な説明よりは特許請求の範囲によって表わされ、特許請求の範囲の意味及び範囲、並びにその均等概念から導き出されるあらゆる変更または変形された形態もまた本発明の範囲に含まれるものと解釈されるべきである。

本発明は、ニューロン－レベル塑性制御を通じて破局的忘却を克服するための方法およびこれを行うコンピューティングシステムに利用可能である。

Claims

第１のニューロン乃至第Ｎのニューロン（ここで、Ｎは２以上の整数）から構成される人工ニューラルネットワークモデルに対するニューロン－レベル塑性の制御方法であって、
コンピューティングシステムが、継続学習（ｃｏｎｔｉｎｕａｌｌｅａｒｎｉｎｇ）の対象となる複数の作業のそれぞれに見合うトレーニングデータセットを取得するステップと、
前記コンピューティングシステムが、前記複数の作業のそれぞれに対して、前記作業に見合う学習プロセスを行うステップと、
を含むが、
前記作業に見合う学習プロセスを行うステップは、
前記コンピューティングシステムが、前記作業に見合うトレーニングデータセットに含まれている複数の個別データのそれぞれに対して（ここで、前記複数の個別データのそれぞれには、それに見合う正解ラベルが与えられる）、前記個別データに基づいて重み調節プロセスを行うステップと、
前記コンピューティングシステムが、前記人工ニューラルネットワークを構成する複数のレイヤーのそれぞれに対して、前記レイヤーに含まれている自由ニューロンのうち、重要度が最も大きな一部である重要ニューロンを選択するステップと、
前記人工ニューラルネットワーク内の自由ニューロンから前記重要ニューロンへと向かうすべての接続の重みを０に固定するステップと、
前記コンピューティングシステムが、前記作業に見合うトレーニングデータセットにて、前記重み調節プロセスを行うステップを２以上のエポック（ｅｐｏｃｈ）に見合う分だけ繰り返し行うステップと、
前記重要ニューロンを入力ノードとするすべての接続の重みを固定するステップと、を含み、
前記重み調節プロセスを行うステップは、
前記人工ニューラルネットワークモデルに前記個別データを入力して、前記個別データに見合う予測値を取得するステップと、
前記予測値および前記個別データに与えられた正解ラベルに基づいて、交差エントロピー（ＣｒｏｓｓＥｎｔｒｏｐｙ）を算出するステップと、
前記人工ニューラルネットワークモデルに含まれているそれぞれのニューロンｎｉに対して（ここで、ｉは１≦ｉ≦Ｎの整数）、前記ニューロンｎｉを入力ノードとするすべての接続の重みを調節するステップと、
を含み、
前記ニューロンｎｉを入力ノードとするすべての接続の重みを調節するステップは、
正規化済みのテイラー基準の移動平均であるニューロンｎｉの重要度Ｃｉを算出するステップと、
下記の数１に基づいて、ニューロンｎｉの学習率ηiを算出するステップと、
（ここで、αおよびβは、予め定義された前記人工ニューラルネットワークモデルのハイパーパラメーターであり、ηmaxは、予め定義された学習率の上限であり、ｔは、前記トレーニングデータセット内における前記個別データの順番である。）
算出された前記学習率ηiを適用した勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を通じて、前記ニューロンｎｉを入力ノードとするすべての接続の重みを更新するステップと、
を含むニューロン－レベル塑性の制御方法。
データ処理装置にインストールされ、請求項１に記載の方法を行うために記録媒体に格納されたコンピュータープログラム。
コンピューティングシステムであって、
プロセッサーと、
前記プロセッサーにより起動されるコンピュータープログラムを格納するメモリと、
を備え、
前記コンピュータープログラムは、前記プロセッサーにより起動される場合、前記コンピューティングシステムが、請求項１に記載の方法を行うようにするコンピューティングシステム。