JP7279225B2

JP7279225B2 - 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム

Info

Publication number: JP7279225B2
Application number: JP2022028329A
Authority: JP
Inventors: 達也小西; 茂莉黒川; リゥビン; キムギュハク; エヅーシュウアン
Original assignee: KDDI Research Inc; University of Illinois
Current assignee: KDDI Research Inc; University of Illinois
Priority date: 2021-09-22
Filing date: 2022-02-25
Publication date: 2023-05-22
Anticipated expiration: 2042-02-25
Also published as: JP2023046213A; US20230086727A1

Description

本開示は、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）技術に関し、より詳しくは、破滅的忘却（ＣａｔａｓｔｒｏｐｈｉｃＦｏｒｇｅｔｔｉｎｇ）が生じることを抑えた転移学習（ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ）を行う技術に関する。

例えば、ニューラルネットワークを使用して、画像認識、文書分類、行動認識、行動予測の様な様々な処理が行われている。ニューラルネットワークは、複数の層の接続により構成され、各層は、１つ以上のユニットを含む。ユニットは、ニューロンとしても参照され得る。第１層の各ユニットには、ニューラルネットワークの入力値が入力される。残りの層の各ユニットには、１つ前の層の１つ以上のユニットの出力値が入力値として入力される。各ユニットは、各入力値に対応する重み係数を有する。各ユニットは、各入力値に対して、対応する重み係数を乗じ、重み係数を乗じた値の和に基づき出力値を求める。各ユニットの各入力値に対応する重み係数はパラメータと呼ばれ得る。最後の層以外の層の各ユニットは、その出力値を１つ後の層の１つ以上のユニットに出力する。最後の層のユニットの出力値は、ニューラルネットワークの出力値となる。

ニューラルネットワークを様々なタスクに使用するため、例えば、学習が行われる。学習とは、タスクに対応する学習データのセット（以下、学習セットと表記する。）を用いて各ユニットのパラメータを当該タスクに最適化する処理である。例えば、画像から対象物Ａ、Ｂ、Ｃを認識するタスクのため、対象物Ａ、Ｂ、Ｃの多数の画像を含む学習セットが用意される。そして、学習セット内の画像の画像データを順にニューラルネットワークに入力し、ニューラルネットワークの出力値を求める（順方向伝搬）。これらの出力値の誤差を所定の誤差関数に基づき評価し、所謂、誤差逆伝搬法により、最後の層のユニットから順にユニットの誤差量を求め、ユニットの誤差量から当該ユニットの各パラメータの"勾配"を求める。各パラメータは、対応する勾配に基づき変更／調整される（逆方向伝搬）。学習セットを用いて、順方向伝搬と、それに続く逆方向伝搬を繰り返すことで、各ユニットのパラメータがタスクに最適化される。

深層学習においては、破滅的忘却という現象が知られている。例えば、画像認識を例にすると、ある学習セットにより対象物Ａ、Ｂ、Ｃを識別可能なニューラルネットワークに対して、対象物Ｄ及びＥを更に認識可能とするために、対象物Ｄ及びＥの画像を含む別の学習セットで学習を行うと、対象物Ａ、Ｂ、Ｃの識別精度が劣化する現象が破滅的忘却である。

非特許文献１は、破滅的忘却を抑える技術（以下、ＨＡＴ技術）を開示している。また、非特許文献２は、ＨＡＴ技術を拡張し類似タスク間の知識転移を促進させる技術（以下、ＣＡＴ技術）を開示している。

ＪｏａｎＳｅｒｒa ａｎｄＤiｄａｃＳｕｒiｓａｎｄＭａｒｉｕｓＭｉｒｏｎａｎｄＡｌｅｘａｎｄｒｏｓＫａｒａｔｚｏｇｌｏｕ．ＯｖｅｒｃｏｍｉｎｇＣａｔａｓｔｒｏｐｈｉｃＦｏｒｇｅｔｔｉｎｇｗｉｔｈＨａｒｄＡｔｔｅｎｔｉｏｎｔｏｔｈｅＴａｓｋ．ＩｎＰｒｏｃ．ｏｆＩＣＭＬ，２０１８．ＺｉｘｕａｎＫｅ，ＢｉｎｇＬｉｕ，ａｎｄＸｉｎｇｃｈａｎｇＨｕａｎｇ．ＣｏｎｔｉｎｕａｌＬｅａｒｎｉｎｇｏｆａＭｉｘｅｄＳｅｑｕｅｎｃｅｏｆＳｉｍｉｌａｒａｎｄＤｉｓｓｉｍｉｌａｒＴａｓｋｓ．ＩｎＰｒｏｃ．ｏｆＮｅｕｒＩＰＳ，２０２０．

しかしながら、ＣＡＴ技術の計算コストは非常に高い。

本開示は、計算コストが低く、かつ、破滅的忘却が発生することを抑えた転移学習を行う技術を提供する。

本開示の一態様によると、第１学習セットから第Ｔ－１学習セット（Ｔは２以上の整数）を使用することで、前記第１学習セットから前記第Ｔ－１学習セットそれぞれに対応する第１タスクから第Ｔ－１タスクを順に学習したニューラルネットワークに、第Ｔ学習セットに対応する第Ｔタスクを学習させるため、情報処理装置が実行する方法であって、前記ニューラルネットワークは、複数の層を含み、前記複数の層それぞれは複数のユニットを含み、前記複数のユニットそれぞれは、ユニットへの入力値に対する重みパラメータを有し、前記方法は、前記複数の層に含まれる前記複数のユニットそれぞれのユニットについて、前記第Ｔタスクにおける当該ユニットの重要度を判定することと、前記複数の層それぞれの層について、前記第１タスクから前記第Ｔ－１タスクの内、当該層の挙動が前記第Ｔタスクでの挙動に類似しない非類似タスクを判定することと、前記第Ｔ学習セットを用いた学習において、前記複数の層に含まれる前記複数のユニットの前記重みパラメータの更新を、前記複数の層それぞれについて判定した前記非類似タスクにおける重要度に応じて抑制することと、を含む。

本開示によると、計算コストが低く、かつ、破滅的忘却が発生することを抑えた転移学習を行うことができる。

本開示の説明に使用する例示的なニューラルネットワークの構成図。情報処理装置が実行する学習処理のフローチャート。非類似タスク判定処理におけるユニットの順方向伝搬時の機能ブロック図。非類似タスク判定処理におけるユニットの逆方向伝搬時の機能ブロック図。パラメータ調整処理におけるユニットの逆方向伝搬時の機能ブロック図。情報処理装置のハードウェア構成を示す図。情報処理装置の機能ブロック図。非類似タスク判定処理のフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

図１は、本実施形態の説明に使用するニューラルネットワークの構成図である。ニューラルネットワークは、第１層から第Ｌ層（Ｌは３以上の整数）の計Ｌ個の層を有する。本実施形態において各層は、Ｎ個（Ｎは２以上の整数）のユニットを有する。以下では、第ｌ層（ｌは、１～Ｌまでの整数）のｎ番目（ｎは、１～Ｎまでの整数）のユニットを、ユニット＃ｌｎと表記する。第１層の各ユニットにはニューラルネットワークの入力値が入力される。第２層から第Ｌ層の各ユニットには、１つ前の層の総てのユニットの出力値が入力される。第Ｌ層の各ユニットの出力値は、ニューラルネットワークの出力値となる。なお、図１のニューラルネットワークは例示であり、ニューラルネットワークの構成は図１に示すものに限定されない。例えば、第１層から第Ｌ－１層の各ユニットの出力は、次の層の一部のユニットに入力されるものであっても良い。また、各層のユニット数は同じでなくても良い。

図１のニューラルネットワークは、過去、少なくとも１つの学習セットにより学習が行われている。以下の説明では、図１のニューラルネットワークが、（Ｔ－１）個の（Ｔは２以上の整数）学習セットにより学習が行われていたものとする。各学習セットには、学習に使用した順に、"１"、"２"、・・・"Ｔ－１"との識別子が付与されている。なお、各学習セットは、それぞれ、ある所定のタスクをニューラルネットワークに行わせるためのものであり、よって、各学習セットはタスクに対応する。したがって、以下の説明では、識別子Ｙの学習セットに対応するタスクをタスクＹと表記し、識別子Ｙの学習セットをタスクＹの学習セットと表記する。

発明を限定しない具体的な例として、タスク１は、例えば、画像から対象物Ａ１、Ａ２、Ａ３を認識するものであり、タスク２は、画像から、対象物Ａ１、Ａ２、Ａ３とは異なる対象物Ｂ１、Ｂ２を認識するものである。以下同様に、タスク３～Ｔ－１は、画像から所定の対象物を認識するものである。なお、ニューラルネットワークが行う処理は、画像認識に限定されず、文書分類、行動認識、行動予測といった様々なものであり得る。

以下では、新たなタスクＴの学習セットにより、このニューラルネットワークの学習を行う場合を例にして本開示の説明を行う。なお、タスクＴ－１の学習セットによる学習が完了した時点におけるニューラルネットワークの各ユニットのパラメータを初期パラメータと表記する。つまり、初期パラメータとは、タスクＴの学習セットによる学習を開始する時点におけるニューラルネットワークの各ユニットのパラメータである。

図２は、本実施形態による情報処理装置が実行する処理のフローチャートである。情報処理装置は、Ｓ１０で、各ユニットの初期パラメータとタスクＴの学習セットを利用して非類似タスク判定処理を行う。非類似タスク判定処理において、各ユニットのパラメータは初期パラメータから変更される。しかしながら、初期パラメータについては、Ｓ１１でのパラメータ調整処理で使用するため、情報処理装置は、初期パラメータについては別に保存しておく。

まず、Ｓ１０で行う非類似タスク判定処理について説明する。非類似タスク判定処理においては、通常の学習と同様に、タスクＴの学習セットのデータを順にニューラルネットワークに入力してニューラルネットワークの出力値を求める（順方向伝搬）。そして、ニューラルネットワークの出力値に基づき各ユニットのパラメータを更新する（逆方向伝搬）。なお、順方向伝搬及び逆方向伝搬における各ユニットの動作は同様であるため、以下では、ユニット＃ｌｎでの動作について説明する。

図３は、順方向伝搬時におけるユニット＃ｌｎの動作を説明するための機能ブロック図である。ニューロン部１０１には、第（ｌ－１）層のユニット＃（ｌ－１）１～ユニット＃（ｌ－１）Ｎより、入力値Ｉ_{ｌ－１，１}～Ｉ_{ｌ－１，Ｎ}が入力される。ニューロン部１０１は、重みパラメータとして、入力値Ｉ_{ｌ－１，１}～Ｉ_{ｌ－１，Ｎ}それぞれに対応する重み係数を有し、入力値Ｉ_{ｌ－１，１}～Ｉ_{ｌ－１，Ｎ}と、重みパラメータとに基づき中間値Ｏ_ｌ，ｎを出力する。通常の学習処理の場合、この中間値Ｏ_ｌ，ｎが、ユニット＃ｌｎの出力値となる。

一方、本実施形態において、ユニット＃ｌｎは、特徴パラメータＥ^Ｔ _ｌ，ｎを有する。特徴パラメータＥ^Ｔ _ｌ，ｎは、後述するタスク間における層の挙動の類似度を判定するために使用される。なお、Ｔは、第Ｔタスクを示している。特徴パラメータＥ^Ｔ _ｌ，ｎは、後述する逆方向伝搬時、ニューロン部１０１が有する重みパラメータと同様に更新されるため、特徴パラメータＥ^Ｔ _ｌ，ｎの初期値は任意の適切な値に設定される。また、ユニット＃ｌｎは、定数Ｓ_ｌ，ｎを有する。乗算部１０２は、特徴パラメータＥ^Ｔ _ｌ，ｎと定数Ｓ_ｌ，ｎとを乗じた値Ｓ_ｌ，ｎ＊Ｅ^Ｔ _ｌ，ｎをゲート部１０３に出力する。ゲート部１０３は、入力された値を所定の関数で変換して重要度パラメータＡ^Ｔ _ｌ，ｎを出力する。本実施形態において、所定の関数は、シグモイド関数であり、よって、Ａ^Ｔ _ｌ，ｎ＝σ（Ｓ_ｌ，ｎ＊Ｅ^Ｔ _ｌ，ｎ）である。

ここで、値Ｓ_ｌ，ｎが十分に大きい場合、重要度パラメータＡ^Ｔ _ｌ，ｎは、特徴パラメータＥ^Ｔ _ｌ，ｎが正であるか負であるかに応じて１に近い値又は０に近い値になる。乗算部１０４は、ニューロン部１０１からの中間値Ｏ_ｌ，ｎと重要度パラメータＡ^Ｔ _ｌ，ｎとを乗じた値を、ユニット＃ｌｎの出力値Ｈ_ｌ，ｎとして、ユニット＃（ｌ＋１）１～ユニット＃（ｌ＋１）Ｎに出力する。上述した様に、重要度パラメータＡ^Ｔ _ｌ，ｎが１に近い場合、出力値Ｈ_ｌ，ｎ≒中間値Ｏ_ｌ，ｎであり、重要度パラメータＡ^Ｔ _ｌ，ｎが０に近い場合、出力値Ｈ_ｌ，ｎ≒０となる。つまり、重要度パラメータＡ^Ｔ _ｌ，ｎが１に近い場合、ユニット＃ｌｎの出力値は、通常の学習処理での出力値（本例における中間値Ｏ_ｌ，ｎ）と略同じであり、重要度パラメータＡ^Ｔ _ｌ，ｎが０に近い場合、ユニット＃ｌｎの出力値は略０となる。この様に、重要度パラメータＡ^Ｔ _ｌ，ｎは、通常の学習処理での出力値（本例における中間値Ｏ_ｌ，ｎ）をユニット＃ｌｎの出力値として出力するか、ユニット＃ｌｎの出力値をブロックするかを制御するパラメータでもある。

フィルタ部１０５は、タスク１～タスクＴ－１それぞれについての重要度パラメータＡ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎを保持している。なお、フィルタ部１０５が保持している重要度パラメータＡ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎは、それぞれ、タスク１～タスクＴ－１の学習が完了した時点（図２のＳ１１のパラメータ調整処理が完了した時点）での値である。以下では、各学習セットでの学習が終了した時点における重要度パラメータの値を、重要度評価値と表記する。したがって、フィルタ部１０５が保持している値を、以下では、重要度評価値Ａ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎと表記する。

フィルタ部１０５は、重要度評価値Ａ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎと、現時点での重要度パラメータＡ^Ｔ _ｌ，ｎの値との内の最大値を最大重要度パラメータＡ^Ｔａ _ｌ，ｎとして求める。最大重要度パラメータＡ^Ｔａ _ｌ，ｎは、後述する逆方向伝搬時、ユニット＃ｌｎと、ユニット＃（ｌ＋１）１～ユニット＃（ｌ＋１）Ｎで使用される。このため、最大重要度パラメータＡ^Ｔａ _ｌ，ｎは、ユニット＃（ｌ＋１）１～ユニット＃（ｌ＋１）Ｎに出力される。

図４は、逆方向伝搬時におけるユニット＃ｌｎの動作を説明するための機能ブロック図である。誤差判定部２０１には、ユニット＃（ｌ＋１）１～ユニット＃（ｌ＋１）Ｎそれぞれから誤差量Δ_{ｌ＋１，１}～Δ_{ｌ＋１，Ｎ}が入力される。誤差判定部２０１は、入力された誤差量に基づきユニット＃ｌｎの誤差量Δ_ｌ，ｎを求める。ユニット＃ｌｎの誤差量Δ_ｌ，ｎは、ユニット＃（ｌ－１）１～ユニット＃（ｌ－１）Ｎに出力される。この処理は、通常の誤差逆伝搬法での処理と同様である。

勾配判定部２０２は、ユニット＃ｌｎの誤差量Δ_ｌ，ｎに基づきニューロン部１０１が保持する重みパラメータの勾配Ｇ_{ｌ，ｎ，ｍ}を求める。なお、勾配Ｇ_{ｌ，ｎ，ｍ}は、ユニット＃（ｌ－１）ｍからの入力値に対応する重み係数の勾配であり、ｍは１からＮまでの整数である。なお、この処理も通常の誤差逆伝搬法での処理と同様である。

本実施形態において、勾配判定部２０２は、勾配Ｇ_{ｌ，ｎ，ｍ}に加えて、特徴パラメータＥ^Ｔ _ｌ，ｎの勾配Ｑ_ｌ，ｎも求める。特徴パラメータ調整部２０３は、勾配Ｑ_ｌ，ｎに基づき特徴パラメータＥ^Ｔ _ｌ，ｎを更新する。

調整係数判定部２０４には、フィルタ部１０５が求めた最大重要度パラメータＡ^Ｔａ _ｌ，ｎと、ユニット＃（ｌ－１）１～ユニット＃（ｌ－１）Ｎのフィルタ部１０５が求めた最大重要度パラメータＡ^Ｔａ _{ｌ－１，１}～Ａ^Ｔａ _{ｌ－１，Ｎ}が入力される。調整係数判定部２０４は、例えば、勾配Ｇ_{ｌ，ｎ，ｍ}の調整係数ＡＤ_{ｌ，ｎ，ｍ}を求めるため、最大重要度パラメータＡ^Ｔａ _ｌ，ｎと最大重要度パラメータＡ^Ｔａ _{ｌ－１，ｍ}との内の小さい方の値を値Ｘとして選択する。そして、調整係数判定部２０４は、１から値Ｘを引いた値を調整係数ＡＤ_{ｌ，ｎ，ｍ}として乗算部２０６に出力する。乗算部２０６は、勾配Ｇ_{ｌ，ｎ，ｍ}に調整係数ＡＤ_{ｌ，ｎ，ｍ}を乗じた値を、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}としてパラメータ調整部２０５に出力する。パラメータ調整部２０５は、勾配Ｇ´_{ｌ，ｎ，ｍ}に基づきユニット＃（ｌ－１）ｍからの入力値に対応する重み係数を更新する。

通常の誤差逆伝搬法では、勾配Ｇ_{ｌ，ｎ，ｍ}により、ユニット＃（ｌ－１）ｍからの入力値に対応する重み係数を更新するが、本実施形態では、上述した様に、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}によりユニット＃（ｌ－１）ｍからの入力値に対応する重み係数を更新する。ここで、最大重要度パラメータＡ^Ｔａ _ｌ，ｎ及び最大重要度パラメータＡ^Ｔａ _{ｌ－１，ｍ}は、共に、０～１の値である。したがって、調整係数ＡＤ_{ｌ，ｎ，ｍ}も０～１の値であり、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}の絶対値は、調整前の勾配Ｇ_{ｌ，ｎ，ｍ}の絶対値より小さくなる。なお、値Ｘが大きい程、調整係数ＡＤ_{ｌ，ｎ，ｍ}は小さくなるため、値Ｘが大きい程、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}と調整前の勾配Ｇ_{ｌ，ｎ，ｍ}の差は大きくなる。

非類似タスク判定処理において、情報処理装置は、タスクＴの学習セットを利用して、上記順方向伝搬と逆方向伝搬を繰り返し行う。なお、繰り返しの回数は、所定の回数とすることができる。或いは、繰り返しの回数は、損失の値や各ユニットの特徴パラメータが収束するまでとすることができる。

上記の繰り返し処理は、ＨＡＴ技術での処理と同様である。順方向伝搬と逆方向伝搬を繰り返し行うことで、タスクＴに重要なユニットについては、重要度パラメータＡ^Ｔ _ｌ，ｎが１に近づく様になり、タスクＴに重要ではないユニットについては、重要度パラメータＡ^Ｔ _ｌ，ｎが０に近づく様になる。したがって、ユニット＃ｌｎが、タスクＴに重要である場合、ユニット＃ｌｎの出力値Ｈ_ｌ，ｎは、ニューロン部１０１が出力する中間値Ｏ_ｌ，ｎと同様になる。一方、ユニット＃ｌｎが、タスクＴにおいて重要ではない場合、ユニット＃ｌｎの出力値は略０、つまり、ブロックされる。

また、ユニット＃ｌｎ及びユニット＃（ｌ－１）ｍの両方が、タスク１～タスクＴ－１のいずれかにおいて重要であった場合、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}の絶対値は小さくなる。よって、ユニット＃（ｌ－１）ｍからの入力値に対応する重み係数の更新が抑制される。

情報処理装置は、タスクＴの学習セットによる順方向伝搬と逆方向伝搬の繰り返しが終了した時点における特徴パラメータＥ^Ｔ _ｌ，ｎを特徴値Ｅ^Ｔ _ｌ，ｎとして記録する。

したがって、情報処理装置は、タスク１～Ｔ－１の学習セットによる順方向伝搬と逆方向伝搬の繰り返しが終了した時点における特徴パラメータＥ^１ _ｌ，ｎ～Ｅ^Ｔ－１ _ｌ，ｎを特徴値Ｅ^１ _ｌ，ｎ～Ｅ^Ｔ－１ _ｌ，ｎとして記録している。

ユニット＃（ｌ－１）ｍとユニット＃ｌｎの両方が、過去のタスクに重要であった場合、調整後の勾配Ｇ´_{ｌ，ｎ，ｍ}は小さくなり、その結果、ユニット＃（ｌ－１）ｍからの入力値に対応する重み係数は、更新が行われ難くなる。したがって、その様なユニットについては、特徴パラメータＥ^Ｔ _ｌ，ｎが主に更新されるため、非類似タスク判定処理が終了した時点における特徴パラメータは、各タスクの特徴をあらわすものとなる。したがって、本実施形態では、非類似タスク判定処理が終了した時点における特徴パラメータ、つまり、特徴値Ｅ^１ _ｌ，ｎ～Ｅ^Ｔ _ｌ，ｎに基づき、各タスクにおける層の挙動の類似度を評価する。

このため、情報処理装置は、同じ層（第ｌ層）の各ユニットの特徴値Ｅ^Ｔ _ｌ，１～Ｅ^Ｔ _ｌ，Ｎを１つの特徴ベクトルＶ^Ｔ _ｌとし、タスク１～タスクＴそれぞれについて求めた特徴ベクトルＶ^１ _ｌ～Ｖ^Ｔ _ｌをクラスタリングし、複数のクラスタに分類する。なお、クラスタリングには、Ｋ－ｍｅａｎｓ法やＸ－ｍｅａｎｓ法等の任意のクラスタリング技術を適用することができる。

例えば、限定しない具体的な例として、特徴ベクトルＶ^Ｔ _ｌが、Ｖ^１ _ｌ、Ｖ^５ _ｌ、Ｖ^７ _ｌと同じクラスタとなったものとする。この場合、情報処理装置は、タスクＴにおける第ｌ層の挙動と、タスク１、５及び７それぞれにおける第ｌ層の挙動が類似していると判定する。また、情報処理装置は、タスクＴにおける第ｌ層の挙動と、タスク１からタスクＴ－１の内、タスク１、５及び７とは異なるタスクにおける第ｌ層の挙動とは類似していないと判定する。以下の説明では、タスクＴにおける第ｌ層の挙動に類似しない挙動となるタスクを第ｌ層の非類似タスクと表記する。

図２のＳ１０の非類似タスク判定処理は、各層の非類似タスクを判定することで終了する。

続いて、情報処理装置は、Ｓ１１において、パラメータ調整処理を行う。パラメータ調整処理も、通常の学習と同様に、タスクＴの学習セットのデータを順にニューラルネットワークに入力してニューラルネットワークの出力値を求める（順方向伝搬）ことと、ニューラルネットワークの出力値に基づき各ユニットのパラメータを更新する（逆方向伝搬）ことと、を繰り返す。なお、繰り返しの回数は、所定回数とすることも、各ユニットの重みパラメータが収束したと判定されるまでとすることもできる。

なお、パラメータ調整処理の開始時の各ユニットのパラメータには上述した様に、初期パラメータを使用する。パラメータ調整処理における順方向伝搬時の各ユニットの構成は図３と同様である。

一方、逆方向伝搬時の各ユニットの構成は、図４に代えて図５に示す様になる。つまり、調整係数判定部２０４への入力が、最大重要度パラメータＡ^Ｔａ _ｌ，ｎ及びＡ^Ｔａ _{ｌ－１，ｍ}に代えて、最大重要度パラメータＰ^Ｔａ _ｌ，ｎ及びＰ^Ｔａ _{ｌ－１，ｍ}になる。最大重要度パラメータＰ^Ｔａ _ｌ，ｎは、重要度評価値Ａ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎの内、第ｌ層の非類似タスクについての重要度評価値の最大値である。具体的な例として、第ｌ層の非類似タスクがタスク１から５であるものとする。この場合、情報処理装置は、重要度評価値Ａ^１ _ｌ，ｎ～Ａ^５ _ｌ，ｎの内の最大値を最大重要度パラメータＰ^Ｔａ _ｌ，ｎとする。

これにより、各ユニットの各入力値に対応する重み係数の更新は、各層の非類似タスクの重要度評価値に基づき抑制される。なお、第（ｌ－１）層のユニットから、第ｌ層のユニットに入力される入力値の重み係数の更新の抑制度は、第（ｌ－１）層及び第ｌ層それぞれの非類似タスクの重要度評価値が大きくなる程、高くなる。したがって、タスクＴとは類似しないタスクにおいて重要な重み係数の更新は抑制され、破滅的忘却が生じることを防ぐことができる。逆に、主に更新される重み係数は、タスクＴとは類似するタスクにとって重要な重み係数も含むため、パラメータの再利用、つまり、知識転移を促進することができる。

なお、パラメータ調整処理においても、順方向伝搬と逆方向伝搬の繰り返しにより、特徴パラメータ値Ｅ^Ｔ _ｌ，ｎが更新され、よって、重要度パラメータＡ^Ｔ _ｌ，ｎが更新される。情報処理装置は、パラメータ調整処理における順方向伝搬と逆方向伝搬の繰り返しが終了した時点における重要度パラメータＡ^Ｔ _ｌ，ｎの値を、タスクＴにおけるユニット＃ｌｎの重要度評価値Ａ^Ｔ _ｌ，ｎとして保存する。この値は、タスクＴ＋１の学習において使用される。

また、本実施形態では、特徴ベクトルＶ^１ _ｌ～Ｖ^Ｔ _ｌのクラスタリングにより、過去タスク（タスク１～タスクＴ－１）とタスクＴとの層毎の類似性を判定している。このため、タスクの類似性をタスク１～タスクＴ－１それぞれと個別に比較するＣＡＴ技術より、計算コストを低くすることができる。

図６は、本実施形態による情報処理装置１のハードウェア構成図である。情報処理装置１は、１つ以上のプロセッサ１１と、揮発性及び不揮発性メモリを含む記憶デバイス１２と、キーボード、マウス、ディスプレイ等の入出力インタフェース１３と、を有する。

１つ以上のプロセッサ１１が記憶デバイス１２に格納されたプログラムを実行することで、図７に示す機能ブロックが実現される。モデル格納部１６は、複数の層の各ユニットの各パラメータや、各ユニット間の接続関係等のニューラルネットワークのモデル情報を格納している。履歴格納部１７は、例えば、タスクＴの学習前には、特徴値Ｅ^１ _ｌ，ｎ～Ｅ^Ｔ－１ _ｌ，ｎと、重要度評価値Ａ^１ _ｌ，ｎ～Ａ^Ｔ－１ _ｌ，ｎと、を格納している。

類似性判定部１４は、図２のＳ１０で説明した非類似タスク判定処理を実行する。学習部１５は、図２のＳ１１で説明したパラメータ調整処理を実行する。

図８は、Ｓ１０の非類似タスク判定処理のフローチャートである。類似性判定部１４は、Ｓ２０で、タスクＴの学習セットを使用して各ユニットのパラメータを更新する。パラメータは、特徴パラメータＥ^Ｔ _ｌ，ｎを含む。更新は、タスクＴの学習セットを繰り返し使用して行われる。類似性判定部１４は、Ｓ２１で、タスクＴの学習セットによる繰り返しの更新が終了した時点における特徴パラメータＥ^Ｔ _ｌ，ｎの値を判定し、この値を特徴値Ｅ^Ｔ _ｌ，ｎとする。類似性判定部１４は、Ｓ２２で、各層それぞれについて、各ユニットの特徴値から特徴ベクトルＶ^Ｔ _ｌを判定する。類似性判定部１４は、Ｓ２３で、第１タスク～第Ｔタスクの学習セットそれぞれで求めた特徴ベクトルＶ^１ _ｌ～Ｖ^Ｔ _ｌをクラスタリングする。類似性判定部１４は、Ｓ２３でのクラスタリング結果に基づき、各層について、タスクＴと非類似の過去タスクを判定する。

学習部１５は、各パラメータの初期値を使用して、タスクＴの学習セットで学習を行う。なお、このとき、各層の非類似タスクの重要度評価値に基づき、重みパラメータの更新を抑制する。

なお、情報処理装置として機能させるプログラムは、例えば、非一時的なコンピュータ可読記憶媒体に格納されて配布され得る。

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

Claims

第１学習セットから第Ｔ－１学習セット（Ｔは２以上の整数）を使用することで、前記第１学習セットから前記第Ｔ－１学習セットそれぞれに対応する第１タスクから第Ｔ－１タスクを順に学習したニューラルネットワークに、第Ｔ学習セットに対応する第Ｔタスクを学習させるため、情報処理装置が実行する方法であって、
前記ニューラルネットワークは、複数の層を含み、前記複数の層それぞれは複数のユニットを含み、
前記複数のユニットそれぞれは、ユニットへの入力値に対する重みパラメータを有し、
前記方法は、
前記複数の層に含まれる前記複数のユニットそれぞれのユニットについて、前記第Ｔタスクにおける当該ユニットの重要度を判定することと、
前記複数の層それぞれの層について、前記第１タスクから前記第Ｔ－１タスクの内、当該層の挙動が前記第Ｔタスクでの挙動に類似しない非類似タスクを判定することと、
前記第Ｔ学習セットを用いた学習において、前記複数の層に含まれる前記複数のユニットの前記重みパラメータの更新を、前記複数の層それぞれについて判定した前記非類似タスクにおける重要度に応じて抑制することと、
を含む、方法。
請求項１に記載の方法であって、
前記複数の層の内の第１層に含まれる第１ユニットの前記重みパラメータは、前記複数の層の内の第２層に含まれる第２ユニットから前記第１ユニットに入力される前記入力値に対する第１重み係数を有し、
前記抑制することは、
前記第１層について判定した前記非類似タスクの前記第１ユニットにおける重要度の最大値と、前記第２層について判定した前記非類似タスクの前記第２ユニットにおける重要度の最大値と、の内の小さい方の第１の値に基づき前記第１重み係数を更新することを含み、
前記第１の値が大きい程、前記第１重み係数の更新の抑制の程度が高くなる、方法。
請求項２に記載の方法であって、
前記抑制することは、
前記第１ユニットの誤差量を求めることと、
前記第１ユニットの前記誤差量に基づき前記第１重み係数の第１勾配を求めることと、
前記第１の値に基づき前記第１勾配を第２勾配に変更することと、
前記第２勾配に基づき前記第１重み係数を更新することと、
を含み、
前記第２勾配の絶対値は、前記第１勾配の絶対値より小さい、方法。
請求項１に記載の方法であって、
前記複数の層の前記複数のユニットそれぞれは、特徴パラメータを有し、
前記非類似タスクを判定することは、前記複数の層に含まれる前記複数のユニットそれぞれのユニットについて、
前記第Ｔ学習セットによる前記ニューラルネットワークの出力を求めるために、前記ユニットへの入力値と、前記ユニットの前記重みパラメータ及び前記特徴パラメータと、に基づき前記ユニットの出力値を求めることと、
前記第Ｔ学習セットによる前記ニューラルネットワークの出力に基づき前記ユニットの誤差量を求めることと、
前記ユニットの誤差量に基づき前記特徴パラメータの第３勾配を求めることと、
前記特徴パラメータの前記第３勾配に基づき前記特徴パラメータを更新することと、
を繰り返す繰り返し処理を含む、方法。
請求項４に記載の方法であって、
前記非類似タスクを判定することは、
前記第Ｔ学習セットを使用しての前記繰り返し処理が終了した後、前記複数の層それぞれの層について、当該層に含まれる前記複数のユニットの前記特徴パラメータを要素とする特徴ベクトルを求めることと、
前記複数の層それぞれの層について、前記第１タスクから前記第Ｔタスクの前記特徴ベクトルをクラスタリングすることと、
を含み、
前記複数の層それぞれの層についての前記非類似タスクは、前記クラスタリングの結果に基づき判定される、方法。
請求項５に記載の方法であって、
前記層についての前記非類似タスクは、前記第１タスクから前記第Ｔ－１タスクの内、前記第Ｔタスクの前記特徴ベクトルとは異なるクラスタに分類された前記特徴ベクトルのタスクである、方法。
請求項４に記載の方法であって、
前記ユニットの出力値を求めることは、
前記ユニットへの入力値と前記重みパラメータとに基づき中間値を求めることと、
関数により、前記特徴パラメータに基づく値を０から１までの範囲の重要度パラメータに変換することと、
前記ユニットの出力値を求めるため、前記中間値に前記重要度パラメータを乗ずることと、
を含む、方法。
請求項７に記載の方法であって、
前記ユニットの重要度は、前記重要度パラメータの値により判定される、方法。
請求項８に記載の方法であって、
前記ユニットの重要度は、前記重要度パラメータの値が大きい程、大きい、方法。
請求項７に記載の方法であって、
前記関数はシグモイド関数である、方法。
請求項１０に記載の方法であって、
前記重要度パラメータは、前記特徴パラメータに第２の値を乗じた第３の値を前記シグモイド関数により変換した値である、方法。
請求項７に記載の方法であって、
前記複数の層の内の第１層に含まれる第１ユニットの前記重みパラメータは、前記複数の層の内の第２層に含まれる第２ユニットから前記第１ユニットに入力される前記入力値に対する第１重み係数を有し、
前記繰り返し処理は、
前記第１ユニットの前記重要度パラメータと、前記第１タスクから前記第Ｔ－１タスクにおける前記第１ユニットの重要度と、の内の第１最大値を判定することと、
前記ユニットの誤差量に基づき、前記第１重み係数の第４勾配を判定することと、
前記第２ユニットから、前記第２ユニットの前記重要度パラメータと、前記第１タスクから前記第Ｔ－１タスクにおける前記第２ユニットの重要度と、の内の第２最大値を取得することと、
前記第１最大値と前記第２最大値との内の小さい方の第４の値に基づき前記第４勾配を第５勾配に変更することと、
前記第５勾配に基づき前記第１重み係数を更新することと、
を含み、
前記第５勾配の絶対値は、前記第４勾配の絶対値より小さい、
方法。
請求項１２に記載の方法であって、
前記第４の値が大きい程、前記第５勾配と前記第４勾配との差が大きくなる、方法。
１つ以上のプロセッサを有する装置の前記１つ以上のプロセッサで実行されると、前記装置に請求項１から１３のいずれか１項に記載の方法を実行させる、プログラム。
情報処理装置であって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行可能なプログラムを格納する記憶デバイスと、
を備え、
前記記憶デバイスは、第１学習セットから第Ｔ－１学習セット（Ｔは２以上の整数）を使用することで、前記第１学習セットから前記第Ｔ－１学習セットそれぞれに対応する第１タスクから第Ｔ－１タスクを順に学習したニューラルネットワークの複数の層それぞれに含まれる複数のユニットそれぞれの重みパラメータをさらに格納しており、
前記１つ以上のプロセッサは、前記プログラムを実行することで、第Ｔ学習セットを使用して、前記第Ｔ学習セットに対応する第Ｔタスクを前記ニューラルネットに学習させる学習処理を前記情報処理装置に実行させ、
前記学習処理は、
前記複数の層に含まれる前記複数のユニットそれぞれのユニットについて、前記第Ｔタスクにおける当該ユニットの重要度を判定することと、
前記複数の層それぞれの層について、前記第１タスクから前記第Ｔ－１タスクの内、当該層の挙動が前記第Ｔタスクでの挙動に類似しない非類似タスクを判定することと、
前記第Ｔ学習セットを用いた学習において、前記複数の層に含まれる前記複数のユニットの前記重みパラメータの更新を、前記複数の層それぞれについて判定した前記非類似タスクの重要度に応じて抑制することと、
を含む、情報処理装置。