JP2024037650A - 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム - Google Patents
破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2024037650A JP2024037650A JP2022179070A JP2022179070A JP2024037650A JP 2024037650 A JP2024037650 A JP 2024037650A JP 2022179070 A JP2022179070 A JP 2022179070A JP 2022179070 A JP2022179070 A JP 2022179070A JP 2024037650 A JP2024037650 A JP 2024037650A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- weighting coefficient
- task
- weighting
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000010365 information processing Effects 0.000 title claims description 20
- 238000013526 transfer learning Methods 0.000 title abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
【課題】破滅的忘却が発生することを抑えつつ転移学習を行う技術を提供する。【解決手段】方法は、第Tタスクの学習において、第T学習セットを用いて判定した第1重み係数の第1勾配と、第1重み係数の重要度パラメータと、に基づき、第1重み係数を調整することと、第T学習セットを用いた学習が完了した後に、複数の層の内の第1重み係数を含む第1層に含まれる、第1重み係数を含む複数の第2重み係数それぞれの第2勾配を第T学習セットに基づき判定し、複数の第2重み係数それぞれの第2勾配に基づき、第T+1タスクの学習において使用する第1重み係数の重要度パラメータを求めることと、を含む。【選択図】図6
Description
本開示は、深層学習(Deep Learning)技術に関し、より詳しくは、破滅的忘却(Catastrophic Forgetting)の発生を抑えつつ転移学習(Transfer Learning)を行う技術に関する。
例えば、ニューラルネットワークを使用して、画像認識、文書分類、行動認識、行動予測の様な様々な処理が行われている。ニューラルネットワークは、複数の層の接続により構成され、各層は、1つ以上のユニットを含む。ユニットは、ニューロンとしても参照され得る。第1層の各ユニットには、ニューラルネットワークの入力値が入力される。残りの層の各ユニットには、1つ前の層の1つ以上のユニットの出力値が入力値として入力される。各ユニットは、ユニットの各入力値に対応する重み係数を有する。各ユニットは、各入力値に対して対応する重み係数を乗じ、重み係数を乗じた値の和に基づき出力値を求める。各ユニットの各入力値に対応する重み係数は、単に、パラメータとも呼ばれ得る。但し、本開示においては、"重み係数"との用語を使用する。最後の層以外の層の各ユニットは、その出力値を1つ後の層の1つ以上のユニットに出力する。最後の層のユニットの出力値は、ニューラルネットワークの出力値となる。なお、最後の層のユニットの後段に分岐を設け、最後の層のユニットの出力値を、複数のヘッドそれぞれに出力し、各ヘッドの出力をニューラルネットワークの出力値とすることもできる。各ヘッドは、1つ以上の層を有し得る。
ニューラルネットワークを様々なタスクに使用するため、例えば、学習が行われる。学習とは、タスクに対応する学習データのセット(以下、学習セットと表記する。)を用いて各ユニットの重み係数を当該タスクに最適化する処理である。例えば、画像から対象物A、B、Cを認識するタスクのため、対象物A、B、Cの多数の画像を含む学習セットが用意される。そして、学習セット内の画像の画像データを順にニューラルネットワークに入力し、ニューラルネットワークの出力値を求める(順方向伝搬)。これらの出力値の誤差を所定の誤差関数(損失関数としても参照され得る。)に基づき評価し、所謂、誤差逆伝搬法により、最後の層のユニットから順にユニットの誤差量を求め、ユニットの誤差量から当該ユニットの各重み係数の"勾配"を求める。各重み係数は、対応する勾配に基づき変更/調整される(逆方向伝搬)。学習セットを用いて、順方向伝搬と、それに続く逆方向伝搬を繰り返すことで、各ユニットの重み係数はタスクに最適化される。
深層学習においては、破滅的忘却という現象が知られている。例えば、画像認識を例にすると、ある学習セットにより対象物A、B、Cを識別可能なニューラルネットワークに対して、対象物D及びEを更に認識可能とするために、対象物D及びEの画像を含む別の学習セットで学習を行うと、対象物A、B、Cの識別精度が劣化する現象が破滅的忘却である。
非特許文献1(以下、HAT技術)は、破滅的忘却を抑える技術を開示している。
Joan Serra and Didac Suris and Marius Miron and Alexandros Karatzoglou.Overcoming Catastrophic Forgetting with Hard Attention to the Task. In Proc. of ICML,2018.
具体的には、HAT技術においては、新しいタスク(例えば、対象物D及びEを識別するタスク)の学習において、過去に学習したタスク(例えば、対象物A、B、Cを識別するタスク)に重要な重み係数の更新を遮断することにより破滅的忘却を抑えている。
一方、過去に学習したタスクの知識を、新しく学習するタスクに転移させることで、新しく学習するタスクの性能を向上させる、所謂、転移学習が注目されている。
ここで、HAT技術が開示する様に、過去に学習したタスクに重要な重み係数の更新を遮断すると、転移学習が阻害され得る。
本開示は、破滅的忘却が発生することを抑えつつ転移学習を行う技術を提供する。
本開示の一態様によると、第1学習セットから第T-1学習セット(Tは2以上の整数)を順に使用することで、第1タスクから第T-1タスクを順に学習したニューラルネットワークに対して、第T学習セットを使用して第Tタスクを学習させるために情報処理装置が実行する方法が提供される。前記ニューラルネットワークは、複数の層を含み、前記複数の層それぞれは複数のユニットを含む。前記複数のユニットそれぞれは、ユニットの各入力に関連付けられた重み係数と、前記重み係数の重要度を示す重要度パラメータと、を有する。前記方法は、前記第Tタスクの学習において、前記第T学習セットを用いて判定した第1重み係数の第1勾配と、前記第1重み係数の前記重要度パラメータと、に基づき、前記第1重み係数を調整することと、前記第T学習セットを用いた学習が完了した後に、前記複数の層の内の前記第1重み係数を含む第1層に含まれる、前記第1重み係数を含む複数の第2重み係数それぞれの第2勾配を前記第T学習セットに基づき判定し、前記複数の第2重み係数それぞれの前記第2勾配に基づき、第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータを求めることと、を含む。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
図1は、本実施形態の説明に使用するニューラルネットワークの構成図である。なお、図1は、タスク#1~タスク#T-1(Tは2以上の整数)の計T-1個のタスクの学習が終了した際のニューラルネットワークの構成を示している。ニューラルネットワークは、レイヤ部100と、ヘッド部200と、を有する。ヘッド部200は、過去に学習したタスクそれぞれに対応して設けられたヘッドを有し、よって、本例では、ヘッド#1~ヘッド#T-1の計T-1個のヘッドを有する。ヘッド#t(tは1~T-1までの整数)は、タスク#tに対応する。
レイヤ部100は、第1層から第L層(Lは3以上の整数)の計L個の層を有する。本実施形態において各層は、N個(Nは2以上の整数)のユニットを有する。以下では、第l層(lは、1~Lまでの整数)のn番目(nは、1~Nまでの整数)のユニットを、ユニット#lnと表記する。第1層の各ユニットにはニューラルネットワークの入力値が入力される。第2層から第L層の各ユニットには、1つ前の層の総てのユニットの出力値が入力される。第L層の各ユニットの出力値は、ヘッド部200のヘッド#1~ヘッド#T-1それぞれに出力される。ヘッド#1~ヘッド#T-1の構成は、レイヤ部100の構成と同様であり得る。但し、層の数や、1つの層におけるユニット数は、レイヤ部100とは異なり得る。ヘッド#1~ヘッド#T-1の出力が、ニューラルネットワークの出力となる。
なお、図1のニューラルネットワークは例示であり、ニューラルネットワークの構成は図1に示すものに限定されない。例えば、第1層から第L-1層の各ユニットの出力は、次の層の一部のユニットに入力されるものであっても良い。また、各層のユニット数は同じでなくても良い。さらに、本実施形態のニューラルネットワークは、各タスクに対応するヘッド#tを有するヘッド部200を設けているが、ヘッド部200を有さないものであっても良い。
上述した様に、図1のニューラルネットワークは、(T-1)個の学習セットにより学習が行われている。以下の説明において、タスク#tの学習に使用した学習セットを学習セット#tと表記する。
発明を限定しない具体的な例として、タスク#1は、例えば、画像から対象物A1、A2、A3を認識するものであり、タスク#2は、画像から、対象物A1、A2、A3とは異なる対象物B1、B2を認識するものである。以下同様に、タスク#3~#T-1は、画像から所定の対象物を認識するものである。なお、ニューラルネットワークが行う処理は、画像認識に限定されず、文書分類、行動認識、行動予測といった様々なものであり得る。
以下では、学習セット#Tにより、新たなタスク#Tの学習を行う場合を例にして本開示の説明を行う。なお、タスク#Tの学習の開始時における、レイヤ部100とヘッド部200の各重み係数は、タスク#T-1の学習が完了した時点の値に設定される。また、タスク#Tの学習のため、ヘッド部200には、ヘッド#Tが追加される。タスク#Tの学習の開始時におけるヘッド#Tの各重み係数の初期値は、任意の方法で設定される。
タスク#Tの学習は、通常の学習と同様に、学習セット#Tのデータを順にニューラルネットワークに入力してニューラルネットワークの出力値を求める(順方向伝搬)ことと、ニューラルネットワークの出力値に基づき各ユニットの重み係数を更新する(逆方向伝搬)ことと、を有する。なお、順方向伝搬及び逆方向伝搬における各ユニットの動作は同様であるため、以下では、ユニット#lnでの動作について説明する。なお、ヘッド部200の各ヘッドにおける各ユニットについても同様である。
図2は、順方向伝搬時におけるユニット#lnの動作を説明するための機能ブロック図である。ニューロン部101には、第(l-1)層のユニット#(l-1)1~ユニット#(l-1)Nより、入力値Il-1,1~Il-1,Nが入力される。ニューロン部101は、入力値Il-1,1~Il-1,Nそれぞれに対応する重み係数Wl-1,1~Wl-1,Nを有し、入力値Il-1,1~Il-1,Nそれぞれに対して対応する重み係数を乗じて加算することで出力値Оl,nを求める。出力値Оl,nは、ユニット#(l+1)1~ユニット#(l+1)N又はヘッド#1~ヘッド#Tに出力される。
図3は、逆方向伝搬時におけるユニット#lnの動作を説明するための機能ブロック図である。誤差判定部201には、ユニット#(l+1)1~ユニット#(l+1)Nそれぞれから誤差量Δl+1,1~Δl+1,Nが入力される。誤差判定部201は、入力された誤差量に基づきユニット#lnの誤差量Δl,nを求める。ユニット#lnの誤差量Δl,nは、ユニット#(l-1)1~ユニット#(l-1)Nに出力される。この処理は、通常の誤差逆伝搬法での処理と同様である。
勾配判定部202は、ユニット#lnの誤差量Δl,nに基づきニューロン部101が保持する重み係数Wl-1,nの勾配Gl-1,nを求める。この処理も通常の誤差逆伝搬法での処理と同様である。
重要度パラメータ保持部203は、ニューロン部101が保持する各重み係数Wl-1,nに関連付けられた重要度パラメータγMax
l-1,nを保持している。重要度パラメータγMax
l-1,nは、0以上、かつ、1未満の値であり、関連付けられた重み係数Wl-1,nが過去タスク(タスク#1~タスク#T-1)において重要であるほど、値が大きくなる。重要度パラメータγMax
l-1,nの算出については後述する。
乗算部206は、重み係数Wl-1,nの勾配Gl-1,nに(1-γMax
l-1,n)を乗じた値を、重み係数Wl-1,nの更新後の勾配G´l-1,nとして重み係数調整部205に出力する。重み係数調整部205は、勾配G´l-1,nに基づき重み係数Wl-1,nを更新する。
上述した様に、重要度パラメータγMax
l-1,nは、重み係数Wl-1,nが過去タスク(タスク#1~タスク#T-1)において重要であるほど、値が大きくなる。したがって、(1-γMax
l-1,n)の値は、重み係数Wl-1,nが過去タスクにおいて重要であるほど、値が小さくなる。よって、重み係数Wl-1,nが過去タスクにおいて重要であるほど、更新後の勾配G´l-1,nは小さくなり、重み係数Wl-1,nの更新は抑制される。これにより、破滅的忘却の発生を抑制できる。
また、HAT技術では、過去に学習したタスクに重要な重み係数の更新を遮断するため、新しくタスクを学習する毎に、全体の重み係数に対する更新されない重み係数の割合が増加し、よって、ニューラルネットワークの新しいタスクに対する表現能力が低下してしまう。一方、本実施形態の重要度パラメータγMax
l-1,nは1未満であり、よって、(1-γMaxl-1,n)の値は0より大きい。したがって、各重み係数は、新しいタスクの学習においても更新され、ニューラルネットワークの表現能力の低下を抑えることができる。
情報処理装置は、タスク#Tの学習において、上記順方向伝搬と逆方向伝搬を繰り返し行う。なお、繰り返しの回数は、所定の回数とすることができる。或いは、繰り返しの回数は、損失の値や各ユニットの重み係数が収束するまでとすることができる。
情報処理装置は、タスク#Tの学習が完了すると、タスク#T+1の学習の際に使用する重要度パラメータγMax
l-1,nの算出を行う。
以下、タスク#T+1の学習の際に使用する重要度パラメータγMax
l-1,nの算出について説明する。なお、1つの重み係数に関連付けられた重要度パラメータの算出方法は、ニューラルネットワークの各重み係数について同様である。したがって、以下では、タスク#Tの学習が終了した時点の1つの重み係数について、タスク#T+1の学習の際に使用する重要度パラメータの算出方法について説明する。以下では、表記の簡略化のため、説明対象の重み係数をWと表記し、算出する重要度パラメータをγMaxと表記する。
また、以下の説明においては、レイヤ部100と、ヘッド#tを1つの関数として関数ftと表記する。つまり、関数ftは、レイヤ部100に入力した値を引数としたときの、ヘッド#tが出力する出力値を求める関数である。なお、説明は省略するが、各ヘッドのユニットの重み係数に関連付けられた重要度パラメータの算出方法についても同様である。
タスク#Tの学習の終了時点における重み係数Wのタスク#tに対する第1重要度γtは、以下の式で計算される。
式(1)において、Lは誤差関数であり、xTは、学習セット#Tの入力データであり、yTは、入力データxTに対する正解データである。式(1)において、関数Normの引数は、重み係数Wの勾配である。関数Normは、関数tanhの引数の絶対値が無限大となることを抑えるためのものであり、例えば、以下の関数を使用することができる。
式(2)において、mean(p)は、pの平均値であり、var(p)は、pの分散であり、εは、関数tanhの引数の絶対値が無限大となることを抑えるための極めて小さい所定値である。
なお、第1重要度γtの計算は層単位で行う。つまり、重み係数Wが第l層のユニットに対応する場合、関数Normを求めるために使用する平均値及び分散は、第l層のN個のユニットそれぞれの重み係数に対応する。なお、本例において、1つの層のN個のユニットそれぞれは、N個の重み係数に関連付けられるため、平均値及び分散を求める重み係数の数はN2である。
式(1)において、関数tanhは、重み係数Wの勾配を0以上、かつ、1未満の値に正規化するものである。
情報処理装置は、タスク#1~タスク#Tそれぞれについて第1重要度γ1~γTを求め、その内の最大値をγT,Maxとして、この最大値γT,Maxを記録する。したがって、情報処理装置は、タスク#Tの学習が完了した時点において、最大値γ1,Max~最大値γT,Maxの計T個の最大値を記録している。情報処理装置は、最大値γ1,Max~最大値γT,Maxの内の最大値を、タスク#T+1の学習で使用する重み係数Wの重要度パラメータγMaxとする。
なお、タスク#Tで使用した重み係数Wの重要度パラメータは、最大値γ1,Max~最大値γT-1,Maxの内の最大値である。したがって、情報処理装置は、最大値γT,Maxと、タスク#Tで使用した重み係数Wの重要度パラメータとの内の大きい方を、タスク#T+1の学習で使用する重み係数Wの重要度パラメータγMaxとし得る。この場合、情報処理装置は、過去の最大値γ1,Max~最大値γT,Maxの総てを記録する必要はなく、学習処理が終了した時点において計算した、次の学習処理で使用する最新の重要度パラメータのみを記録すれば良い。
重み係数Wの重要度パラメータγMaxは、タスク#1~タスク#Tそれぞれにおける重み係数Wの重要度の最大値である。本実施形態では、この重要度に応じて、タスク#T+1の学習における重み係数Wの更新を抑制する。より詳しくは、タスク#1~タスク#Tの内の少なくとも1つにおける重要度が高い程、タスク#T+1の学習における重み係数Wの更新量を小さくする。
この構成により、過去タスクにおいて重要な重み係数Wの更新量が小さくなり、破滅的忘却の発生を抑制することができる。
なお、HAT技術では、過去タスクにおいて重要な重み係数Wの更新量を略0にしているため、当該重み係数Wは、タスク#T+1の学習時には更新されず、効率的な知識転移(転移学習)の妨げとなっていた。
一方、本実施形態の重要度パラメータγMaxの値は、重み係数Wの重要度に応じて0以上、かつ、1未満の範囲で連続的に変化する。したがって、該重み係数Wは、タスク#T+1の学習時にも更新され、よって、知識転移(転移学習)が促進される。逆に、本実施形態では、過去のタスクにおいて重要な重み係数Wであっても、その重要度に応じて更新するため、タスク#T+1の学習により、過去タスクの性能が向上する、所謂、後方移転(Backward Transfer)が生じ得るという利点を有する。
図4は、本実施形態による情報処理装置1のハードウェア構成図である。情報処理装置1は、1つ以上のプロセッサ11と、揮発性及び不揮発性メモリを含む記憶デバイス12と、キーボード、マウス、ディスプレイ等の入出力インタフェース13と、を有する。1つ以上のプロセッサ11が記憶デバイス12に格納されたプログラムを実行することで、図5に示す機能ブロックが実現される。
以下、図5に示す情報処理装置1の機能ブロックについて説明する。モデル格納部16は、モデル情報を格納している。モデル情報は、レイヤ部100の複数の層の各ユニットの各重み係数や、各ユニット間の接続関係等の情報を含む。また、モデル情報は、ヘッド部200の各ヘッドの数や、各ヘッドの1つ以上の層の各ユニットの各重み係数等の情報を含む。履歴格納部17は、例えば、タスク#T-1の学習が終了した時点においては、各重み係数について、最大値γ1,Max~最大値γT-1,Maxを格納している。
学習部15は、タスク#Tの学習において、上述した順方向伝搬と逆方向伝搬を繰り返し行ってタスク#Tの学習を行う。また、タスク#Tの学習が完了すると、上述した様に、各重み係数について、タスク#T+1の学習の際に使用する重要度パラメータγMaxを求めて、モデル格納部16に格納する。
図6は、タスク#Tの学習の際に学習部15が実行する処理のフローチャートである。S10において、学習部15は、各重み係数の重要度パラメータに基づき各重み係数の勾配を調整しながら学習セット#Tにより学習を行う。
学習セット#Tによる学習が完了すると、学習部15は、S11で、各重み係数について、タスク#1~タスク#Tそれぞれの第1重要度γ1~γTを求め、S12で、各重み係数について、第1重要度の最大値γT,Maxを求めて、履歴格納部17に格納する。
学習部15は、S13において、各重み係数について、履歴格納部17に格納されている最大値γ1,Max~γT,Maxの最大値を判定し、判定した最大値をタスク#T+1の学習において使用する重要度パラメータに設定する。重要度パラメータは、モデル格納部16に設定される。
なお、情報処理装置として機能させるプログラムは、例えば、非一時的なコンピュータ可読記憶媒体に格納されて配布され得る。
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
Claims (9)
- 第1学習セットから第T-1学習セット(Tは2以上の整数)を順に使用することで、第1タスクから第T-1タスクを順に学習したニューラルネットワークに対して、第T学習セットを使用して第Tタスクを学習させるために情報処理装置が実行する方法であって、
前記ニューラルネットワークは、複数の層を含み、前記複数の層それぞれは複数のユニットを含み、
前記複数のユニットそれぞれは、ユニットの各入力に関連付けられた重み係数と、前記重み係数の重要度を示す重要度パラメータと、を有し、
前記方法は、
前記第Tタスクの学習において、前記第T学習セットを用いて判定した第1重み係数の第1勾配と、前記第1重み係数の前記重要度パラメータと、に基づき、前記第1重み係数を調整することと、
前記第T学習セットを用いた学習が完了した後に、前記複数の層の内の前記第1重み係数を含む第1層に含まれる、前記第1重み係数を含む複数の第2重み係数それぞれの第2勾配を前記第T学習セットに基づき判定し、前記複数の第2重み係数それぞれの前記第2勾配に基づき、第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータを求めることと、
を含む、方法。 - 請求項1に記載の方法であって、
前記第1重み係数を調整することは、
前記第T学習セットを用いて判定した前記第1重み係数の前記第1勾配を、前記第1重み係数の前記重要度パラメータに基づき調整して第3勾配を求めることと、
前記第3勾配に基づき、前記第1重み係数を調整することと、
を含み、
前記第3勾配の絶対値は、前記第1勾配の絶対値より小さく、
前記第3勾配と前記第1勾配との差は、前記第1重み係数の前記重要度パラメータが示す前記第1重み係数の重要度が高い程、大きくなる、方法。 - 請求項1に記載の方法であって、
前記第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータを求めることは、
前記複数の第2重み係数それぞれの前記第2勾配に基づき、前記第1重み係数の前記第2勾配を正規化すること、を含む方法。 - 請求項3に記載の方法であって、
前記第1重み係数の前記第2勾配の絶対値は、0以上、かつ、1未満の値に正規化される、方法。 - 請求項3に記載の方法であって、
前記第1重み係数の前記第2勾配を正規化することは、前記複数の第2重み係数それぞれの前記第2勾配の平均値と分散とを求めることを含む、方法。 - 請求項3に記載の方法であって、
前記第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータは、前記第1重み係数の正規化した前記第2勾配と、前記第Tタスクの学習において使用した前記第1重み係数の前記重要度パラメータとの内の大きい方である、方法。 - 請求項3に記載の方法であって、
前記複数の層は、前記第1タスクから前記第Tタスクそれぞれに対応する前記ニューラルネットワークの出力を行うための第1ヘッドから第Tヘッドを有し、
前記第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータを求めることは、
前記第T学習セットによる第tヘッド(tは、1からTまでの整数)の出力に基づき、前記複数の第2重み係数それぞれの第tタスクにおける第4勾配を判定することと、
前記複数の第2重み係数それぞれの前記第tタスクにおける前記第4勾配に基づき、前記第1重み係数の前記第tタスクにおける前記第4勾配を正規化することと、
前記第1タスクから前記第Tタスクそれぞれの正規化した前記第4勾配の内の最大値を判定することと、を含み、
前記第1重み係数の正規化した前記第2勾配は、前記最大値である、方法。 - 1つ以上のプロセッサを有する装置の前記1つ以上のプロセッサで実行されると、前記装置に請求項1から7のいずれか1項に記載の方法を実行させる、プログラム。
- 情報処理装置であって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行可能なプログラムを格納する記憶デバイスと、
を備え、
前記記憶デバイスは、第1学習セットから第T-1学習セット(Tは2以上の整数)を使用することで、第1タスクから第T-1タスクを順に学習したニューラルネットワークの複数の層それぞれに含まれる複数のユニットそれぞれについて、ユニットの各入力に関連づけられた重み係数と、前記重み係数の重要度を示す重要度パラメータと、をさらに格納しており、
前記1つ以上のプロセッサは、前記プログラムを実行することで、第T学習セットを使用して第Tタスクを前記ニューラルネットワークに学習させる学習処理を前記情報処理装置に実行させ、
前記学習処理は、
前記第T学習セットを用いて判定した第1重み係数の第1勾配と、前記第1重み係数の前記重要度パラメータと、に基づき、前記第1重み係数を調整することと、
前記第T学習セットを用いた学習が完了した後に、前記複数の層の内の前記第1重み係数を含む第1層に含まれる、前記第1重み係数を含む複数の第2重み係数それぞれの第2勾配を前記第T学習セットに基づき判定し、前記複数の第2重み係数それぞれの前記第2勾配に基づき、第T+1タスクの学習において使用する前記第1重み係数の前記重要度パラメータを求めることと、
を含む、情報処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/939,215 | 2022-09-07 | ||
US17/939,215 US20240086678A1 (en) | 2022-09-07 | 2022-09-07 | Method and information processing apparatus for performing transfer learning while suppressing occurrence of catastrophic forgetting |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024037650A true JP2024037650A (ja) | 2024-03-19 |
Family
ID=90141099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022179070A Pending JP2024037650A (ja) | 2022-09-07 | 2022-11-08 | 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240086678A1 (ja) |
JP (1) | JP2024037650A (ja) |
-
2022
- 2022-09-07 US US17/939,215 patent/US20240086678A1/en active Pending
- 2022-11-08 JP JP2022179070A patent/JP2024037650A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240086678A1 (en) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11461628B2 (en) | Method for optimizing neural networks | |
US10460230B2 (en) | Reducing computations in a neural network | |
JP6620439B2 (ja) | 学習方法、プログラム及び学習装置 | |
WO2018192200A1 (en) | System and method for training neural network | |
US11037059B2 (en) | Self-supervised back propagation for deep learning | |
JP6610278B2 (ja) | 機械学習装置、機械学習方法及び機械学習プログラム | |
WO2020172974A1 (zh) | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 | |
US10922587B2 (en) | Analyzing and correcting vulnerabilities in neural networks | |
US11120333B2 (en) | Optimization of model generation in deep learning neural networks using smarter gradient descent calibration | |
JP2020135011A (ja) | 情報処理装置及び方法 | |
US20220036189A1 (en) | Methods, systems, and media for random semi-structured row-wise pruning in neural networks | |
US12106220B2 (en) | Regularization of recurrent machine-learned architectures with encoder, decoder, and prior distribution | |
US20240005166A1 (en) | Minimum Deep Learning with Gating Multiplier | |
CN111695624A (zh) | 数据增强策略的更新方法、装置、设备及存储介质 | |
CN111260056B (zh) | 一种网络模型蒸馏方法及装置 | |
JP7279225B2 (ja) | 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム | |
US11631002B2 (en) | Information processing device and information processing method | |
JP2024037650A (ja) | 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム | |
CN111814955A (zh) | 神经网络模型的量化方法、设备及计算机存储介质 | |
Michelucci et al. | Training neural networks | |
JP2021124974A (ja) | 演算装置、演算方法、プログラム及びテーブル生成装置 | |
WO2024157481A1 (ja) | メタ学習方法、メタ学習装置及びプログラム | |
JP6994572B2 (ja) | データ処理システムおよびデータ処理方法 | |
US20230153580A1 (en) | Method for Optimizing Neural Networks | |
WO2022201399A1 (ja) | 推論装置、推論方法および推論プログラム |