JP2024017751A

JP2024017751A - 機械学習装置、機械学習方法、および機械学習プログラム

Info

Publication number: JP2024017751A
Application number: JP2022120602A
Authority: JP
Inventors: 尹誠楊; Yincheng Yang
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2024-02-08
Also published as: WO2024024217A1

Abstract

【課題】基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる機械学習技術を提供する。【解決手段】特徴抽出部１０は、入力データの特徴を抽出し、特徴マップを生成する。プロトタイプ生成部１２は、特徴マップを入力して、クラスの特徴のプロトタイプを出力する。基本クラス分類部２０は、入力データの特徴マップを入力して基本クラス分類の重みに基づいて入力データを基本クラスに分類する。新規クラス分類部４０は、入力データの特徴マップを入力して、新規クラス分類の重みに基づいて入力データを新規クラスに分類する。連合分類部５０は、プロトタイプと入力データの特徴マップを入力して、メタモデルに基づいて調整された基本クラス分類の重みと、新規クラス分類の重みとを連合した連合分類の重みに基づいて入力データをクラスに分類する。【選択図】図２

Description

本発明は、機械学習技術に関する。

人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク（Convolutional Neural Network(CNN)）の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してＣＮＮのパラメータの再学習が必要となる。ＣＮＮでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにＣＮＮでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう致命的忘却(catastrophic forgetting)が避けられない。

より効率的で実用的な手法として、既に獲得した知識を再利用しつつ、過去のタスクの知識を忘れることなく、新たなタスクを学習する継続学習（incremental learningまたはcontinual learning）が提案されている。継続学習とは、新しいタスクや新しいデータが発生した時に、最初からモデルを学習するのではなく、現在の学習済みのモデルを改善して学習する学習方法である。深層学習では、過去に獲得した知識を大幅に喪失し、タスクの能力が大幅に低下する致命的忘却という現象があるが、継続学習ではこれが特に問題となる。クラス分類タスクにおける継続学習は基本クラス（過去に学習したクラス）が分類できる状態から新しいクラス（新規クラス）を学習して分類できるようにする手法である。致命的忘却を回避して基本クラスの分類性能を維持しつつ、新規クラスの分類性能を獲得することが最大の課題となる。

他方、新しいタスクは数少ないサンプルデータしか利用できないことが多いため、少ない教師データで効率的に学習する手法として、少数ショット学習（few-shot learning）が提案されている。少数ショット学習では、一度学習したパラメータを再学習せずに、別の少量のパラメータを用いて新しいタスクを学習する。

基本（ベース）クラスの学習結果に対して致命的忘却を伴わずに新規クラスを学習する継続学習と、基本クラスに比べて少数しかない新規クラスを学習する少数ショット学習とを組み合わせた継続少数ショット学習（incremental few-shot learning(IFSL)）と呼ばれる手法が提案されている（非特許文献１）。継続少数ショット学習では、基本クラスについては大規模なデータセットから学習し、新規クラスについては少数のサンプルデータから学習することができる。

Ren, M., Liao, R., Fetaya, E., & Zemel, R. S. (2018). Incremental few-shot learning with attention attractor networks. arXiv preprint arXiv:1810.07218. Oreshkin, B., Rodriguez Lopez, P., & Lacoste, A. (2018). TADAM: Task dependent adaptive metric for improved few-shot learning. Advances in neural information processing systems, 31. Yoon, S. W., Seo, J., & Moon, J. (2019). TapNet: Neural network augmented with task-adaptive projection for few-shot learning. International Conference on Machine Learning. PMLR.

継続少数ショット学習手法として非特許文献１に記載の注意アトラクタネットワーク（Attention Attractor Network）がある。注意アトラクタネットワークでは、基本クラス分類器の性能が新規クラス分類器や注意アトラクタに重大な影響を与える。しかし、基本クラス分類器は一旦作成されたら、変更されない。そのため、基本クラス分類器を新規クラス分類器と連結した後、両方の分類器の性能が落ちるという課題があった。

本発明はこうした状況に鑑みてなされたものであり、その目的は、基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる機械学習技術を提供することにある。

上記課題を解決するために、本発明のある態様の機械学習装置は、基本クラスに比べて少数の新規クラスを継続学習する機械学習装置であって、入力データの特徴を抽出し、特徴マップを生成する、基本クラスを学習済みの特徴抽出部と、前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成部と、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する、基本クラスを学習済みの基本クラス分類部と、前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類部と、前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類部とを含む。

本発明の別の態様は、機械学習方法である。この方法は、基本クラスに比べて少数の新規クラスを継続学習する機械学習方法であって、基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとを含む。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明のある態様によれば、基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる。

注意アトラクタネットワークの構成を説明する図である。図２（ａ）および図２（ｂ）は、２段階のトレーニングを説明する図である。図３（ａ）および図３（ｂ）は、第２段階のトレーニングの詳細を説明する図である。連合分類部の内部学習の詳細を説明する図である。連合分類部の外部学習の詳細を説明する図である。

図１は、注意アトラクタネットワークの構成を説明する図である。注意アトラクタネットワークは、特徴抽出部１０、基本クラス分類部２０、注意アトラクタ部３０、新規クラス分類部４０、および連合分類部５０を含む。

注意アトラクタネットワークは、動的少数ショット学習（Dynamic Few-Shot Learning(DFSL)）の代表的な手法の一つであり、注意（アテンション）アトラクタを利用して、基本クラス分類部２０と新規クラス分類部４０を連合することができる。

特徴抽出部１０は、バックボーンＣＮＮを含む。バックボーンＣＮＮは、畳み込みニューラルネットワークであり、入力データの特徴を抽出する。バックボーンＣＮＮにより抽出された入力データの特徴は、基本クラス分類部２０、注意アトラクタ部３０、および新規クラス分類部４０に供給される。

基本クラス分類部２０は、基本クラス分類器と基本クラス分類重みを含む。基本クラスのデータセットを教師データとして、特徴抽出部１０と基本クラス分類部２０をセットにして事前トレーニングする。基本クラスのデータセットは多数のサンプルを含む。サンプルの一例は画像であるが、これに限定されない。基本クラス分類重みは、基本クラス分類器の重みベクトルであり、基本クラスのデータセットのサンプルの平均特徴量を示すものである。

新規クラス分類部４０は、新規クラスを継続学習するための新規クラス分類器と新規クラス分類重みを含む。新規クラス分類部４０は、新規クラスのデータセットを事後学習する。新規クラスのデータセットに含まれるサンプルの数は、基本クラスのデータセットに含まれるサンプルの数に比べて少数である。新規クラス分類重みは、新規クラス分類器の重みベクトルであり、新規クラスのデータセットのサンプルの平均特徴量を示すものである。

注意アトラクタ部３０は、基本クラスの教師データを継続学習では使用できないという前提のもとで、継続的に新規クラスのデータセットを学習する際、基本クラスのデータセットで学んだ知識を忘却せず、推論結果が新規クラスに偏らないように学習を制御する。

注意アトラクタ部３０は、基本クラス分類重みと新規クラス分類重みを共通の特徴空間上で比較できるように正則化する。注意アトラクタ部３０は、基本クラス分類部２０から提供される基本クラスの情報を利用して、クラス分類のクロスエントロピー損失に加える正則化項の情報を算出し、新規クラス分類部４０に供給する。新規クラス分類部４０は、クロスエントロピー損失と正則化項を加算した正則化クロスエントロピー損失を最小化するように新規クラス分類重みを更新する。

連合分類部５０は、基本クラス分類部２０による分類結果と、新規クラス分類部４０による分類結果を結合して、最終的な分類結果を出力する。

従来の注意アトラクタネットワークでは、注意アトラクタを利用して、基本クラス分類部２０と新規クラス分類部４０を連合する際、学習後の基本クラス分類部２０を固定させて変更しない。基本クラス分類部２０が一旦作成されると、新規クラスの情報を吸収することができないことは連合分類部５０の分類性能に影響を与える。そこで、本実施の形態では、作成された基本クラス分類部２０を新規クラスの情報によって修正することにより、基本クラス分類部２０を新規クラス分類部４０と連結した後の分類性能の低下を抑制する。

図２（ａ）および図２（ｂ）は、２段階のトレーニングを説明する図である。

図２（ａ）は、第１段階のトレーニングであり、基本クラスの入力データを用いて特徴抽出部１０と基本クラス分類部２０をトレーニングする。

図２（ｂ）は、第２段階のトレーニングであり、第１段階のトレーニングで基本クラスを学習済みの特徴抽出部１０と基本クラス分類部２０を利用する。基本クラス分類部２０と新規クラス分類部４０を連合した連合分類部５０において、基本クラスと新規クラスの入力データを用いて新規クラス分類部４０をトレーニングし、基本クラス分類部２０をメタモデルに基づいて調整する。

図３（ａ）および図３（ｂ）は、第２段階のトレーニングの詳細を説明する図である。第２段階のトレーニングでは、エピソード形式の入力データを用いる。

各エピソードは、サポートセットＳとクエリセットＱから構成される。サポートセットＳは新規クラスのデータセットで構成され、クエリセットＱは基本クラスのデータセットと新規クラスのデータセットで構成される。

特徴抽出部１０は、第１段階のトレーニングによって基本クラスを学習済みである。特徴抽出部１０は、入力データの特徴を抽出し、特徴マップを生成し、入力データの特徴マップをプロトタイプ生成部１２と連合分類部５０に与える。

プロトタイプ生成部１２は、特徴マップからクラスの特徴の平均値であるプロトタイプを生成し、プロトタイプを連合分類部５０に与える。

基本クラス分類部２０は、第１段階のトレーニングによって基本クラスを学習済みである。基本クラス分類部２０は、入力データの特徴マップを入力して、基本クラス分類の重みに基づいて入力データを基本クラスに分類する。

新規クラス分類部４０は、入力データの特徴マップを入力して、新規クラス分類の重みに基づいて入力データを新規クラスに分類する。

連合分類部５０は、プロトタイプと入力データの特徴マップを入力して、メタモデルに基づいて調整された基本クラス分類の重みと、新規クラス分類の重みとを連合した連合分類の重みに基づいて入力データをクラスに分類する。

連合分類部５０はメタモデルであり、内部学習と外部学習を行う。新規クラス分類部４０の学習はメタモデルの内部学習に相当し、連合分類部５０の学習はメタモデルの外部学習に相当する。連合分類部５０の入力データは、基本クラス分類部２０の基本クラス分類の重み、新規クラス分類部４０の新規クラス分類の重み、特徴抽出部１０が求める入力データの特徴マップ、およびプロトタイプ生成部１２が求める各クラスの特徴の平均値すなわちプロトタイプである。

図３（ａ）は、内部（インナー）学習を説明する図である。内部学習では、入力データとして新規クラスのデータセットで構成されるサポートセットＳが与えられる。

内部学習では、メタモデルの重みは固定し、連合分類部５０による分類結果の損失を最小化するように新規クラス分類の重みをトレーニングする。

図３（ｂ）は、外部（アウター）学習を説明する図である。外部学習では、入力データとして基本クラスのデータセットと新規クラスのデータセットで構成されるクエリセットＱが与えられる。

外部学習では、新規クラス分類の重みは固定し、連合分類部５０による分類結果の損失を最小化するようにメタモデルの重みをトレーニングする。

このように、内部学習の教師データはサポートセットＳであり、外部学習の教師データはクエリセットＱである。内部学習の次に外部学習が行われる。内部学習から外部学習までのトレーニングを繰り返す。内部学習する際に、メタモデルの重みは更新しないが、新規分類の重みを更新させる。この時、メタモデルは新規クラス分類部４０の正則化項として、新規クラス分類部４０をトレーニングする。逆に、外部学習する際に、新規分類の重みは更新せずに、メタモデルの重みだけを更新する。

図４は、連合分類部５０の内部学習の詳細を説明する図である。内部学習では、ランダムな初期値で新規分類の重みが設定された新規クラス分類部４０をトレーニングし、基本クラス分類部２０と融合し、連合分類部５０を作成する。その後、サポートセットＳの特徴マップを連合分類部５０に入力し、分類結果を連合分類部５０から出力する。この分類結果によって損失を計算し、誤差の逆伝播により新規クラス分類部４０の新規分類の重みを更新する。

プロトタイプ生成部１２は、サポートセットＳの新規クラスの入力データの特徴マップを入力して、クラスの特徴のプロトタイプを出力し、メタモデル部６０に与える。

メタモデル部６０は、プロトタイプを入力して、メタモデルの重みに基づいてスケーリングマトリックス６２とバイアスマトリックス６４を出力し、調整部７０に与える。

調整部７０は、第１段階のトレーニングにより基本クラスを学習済みの基本クラス分類部２０の基本クラス分類の重みを初期値として、スケーリングマトリックス６２とバイアスマトリックス６４に基づいて基本クラス分類の重みを調整し、調整後の基本クラス分類重みを基本クラス分類部２０に設定する。

相関関係調整部７２は、調整部７０によって調整された基本クラス分類部２０の基本クラス分類の重みと、新規クラス分類部４０の新規クラス分類の重みとの相関関係を算出して、基本クラス分類の重みと新規クラス分類の重みを調整する。

合併部７４は、相関関係調整部７２によって調整された基本クラス分類の重み２２と、相関関係調整部７２によって調整された新規クラス分類の重み４４とを合併して連合分類の重みを生成し、連合分類部５０に連合分類の重みを設定する。

連合分類部５０は、特徴抽出部１０からサポートセットＳの入力データの特徴マップを受け取り、連合分類の重みに基づいてサポートセットＳの入力データをクラスに分類する。

学習部８０は、メタモデル部６０のメタモデルの重みは固定し、連合分類部５０による分類結果の損失を計算し、損失を最小化するように新規クラス分類部４０の新規クラス分類の重みを学習する。

図５は、連合分類部５０の外部学習の詳細を説明する図である。外部学習では、内部学習で学習済みの新規クラス分類部４０の新規分類の重みを固定し、メタモデル部６０のメタモデルの重みをトレーニングし、メタモデルによって調整された基本クラス分類部２０を新規クラス分類部４０と融合し、連合分類部５０を作成する。その後、クエリセットＱの特徴マップを連合分類部５０に入力し、分類結果を連合分類部５０から出力する。この分類結果によって損失を計算し、誤差の逆伝播によりメタモデル部６０のメタモデルの重みを更新する。

プロトタイプ生成部１２は、クエリセットＱの基本クラスと新規クラスの入力データの特徴マップを入力して、クラスの特徴のプロトタイプを出力し、メタモデル部６０に与える。

調整部７０は、内部学習によってトレーニングされた基本クラス分類部２０の基本クラス分類の重みを初期値として、スケーリングマトリックス６２とバイアスマトリックス６４に基づいて基本クラス分類の重みを調整し、調整後の基本クラス分類重みを基本クラス分類部２０に設定する。

連合分類部５０は、特徴抽出部１０からクエリセットＱの入力データの特徴マップを受け取り、連合分類の重みに基づいてクエリセットＱの入力データをクラスに分類する。

学習部８０は、新規クラス分類部４０の新規クラス分類の重みは固定し、連合分類部５０による分類結果の損失を計算し、損失を最小化するようにメタモデル部６０のメタモデルの重みを学習する。

外部学習においてトレーニングされたメタモデル部６０のメタモデルは、次のエピソードで内部学習において新規クラス分類部４０をトレーニングする時に利用される。要するに、メタモデルはエピソード毎に継続的にトレーニングされ、いずれの新規クラスに対しても適した基本クラス分類部２０を調整することができるメタモデルとなる。メタモデルは入力されたプロトタイプによってスケーリングマトリックスとバイアスマトリックスを出力し、これらのマトリックスは基本クラス分類部２０を修正するために用いられる。結果的に、新規クラスの情報を利用して、基本クラス分類部２０を調整することになる。よって、メタモデルによって調整された基本クラス分類部２０は新規クラス分類部４０と連結しやすくなる。調整部７０による基本クラス分類部２０の調整の詳細は非特許文献２に記載されている。

さらに、相関関係調整部７２は、調整後の基本クラス分類部２０と新規クラス分類部４０の相関関係を把握し、基本クラス分類部２０と新規クラス分類部４０の重要度を計算する。合併部７４は、これらの重要度によって、基本クラス分類部２０の基本クラス分類の重みと新規クラス分類部４０の新規分類の重みを新たな特徴空間に投影し、そこで連合分類部５０の連合分類の重みを作成する。相関関係調整部７２と合併部７４の動作の詳細は非特許文献３に記載されている。

以上説明した機械学習装置１００の各種の処理は、ＣＰＵやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ＲＯＭ（リード・オンリ・メモリ）やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。

以上述べたように、本実施の形態によれば、作成された基本クラス分類器を新規クラスの情報によって修正するため、基本クラス分類器を新規クラス分類器と連結した後、分類性能が低下しない。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

１０特徴抽出部、１２プロトタイプ生成部、２０基本クラス分類部、３０注意アトラクタ部、４０新規クラス分類部、５０連合分類部、６０メタモデル部、７０調整部、７２相関関係調整部、７４合併部、８０学習部。

Claims

基本クラスに比べて少数の新規クラスを継続学習する機械学習装置であって、
入力データの特徴を抽出し、特徴マップを生成する、基本クラスを学習済みの特徴抽出部と、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成部と、
前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する、基本クラスを学習済みの基本クラス分類部と、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類部と、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類部とを含むことを特徴とする機械学習装置。
前記入力データとして新規クラスのデータを含むサポートセットが与えられた場合、前記メタモデルの重みは固定し、前記連合分類部による分類結果の損失を計算し、前記損失を最小化するように前記新規クラス分類の重みを学習する学習部をさらに含むことを特徴とする請求項１に記載の機械学習装置。
前記学習部は、前記入力データとして基本クラスのデータと新規クラスのデータを含むクエリセットが与えられた場合、前記新規クラス分類の重みは固定し、前記連合分類部による分類結果の損失を計算し、前記損失を最小化するように前記メタモデルの重みを学習することを特徴とする請求項２に記載の機械学習装置。
前記プロトタイプを入力して、メタモデルの重みに基づいてスケーリングマトリックスとバイアスマトリックスを出力するメタモデル部と、
前記スケーリングマトリックスと前記バイアスマトリックスに基づいて前記基本クラス分類の重みを調整する調整部と、
前記調整部によって調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとの相関関係を算出して、前記基本クラス分類の重みと前記新規クラス分類の重みを調整する相関関係調整部と、
前記相関関係調整部によって調整された前記基本クラス分類の重みと前記相関関係調整部によって調整された前記新規クラス分類の重みとを合併して前記連合分類の重みを生成し、前記連合分類部に前記連合分類の重みを与える合併部とをさらに含むことを特徴とする請求項１から３のいずれかに記載の機械学習装置。
基本クラスに比べて少数の新規クラスを継続学習する機械学習方法であって、
基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、
基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとを含むことを特徴とする機械学習方法。
基本クラスに比べて少数の新規クラスを継続学習する機械学習プログラムであって、
基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、
基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとをコンピュータに実行させることを特徴とする機械学習プログラム。