JP2024017751A - 機械学習装置、機械学習方法、および機械学習プログラム - Google Patents
機械学習装置、機械学習方法、および機械学習プログラム Download PDFInfo
- Publication number
- JP2024017751A JP2024017751A JP2022120602A JP2022120602A JP2024017751A JP 2024017751 A JP2024017751 A JP 2024017751A JP 2022120602 A JP2022120602 A JP 2022120602A JP 2022120602 A JP2022120602 A JP 2022120602A JP 2024017751 A JP2024017751 A JP 2024017751A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- input data
- weight
- class classification
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000000034 method Methods 0.000 abstract description 13
- 230000006866 deterioration Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【課題】基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる機械学習技術を提供する。【解決手段】特徴抽出部10は、入力データの特徴を抽出し、特徴マップを生成する。プロトタイプ生成部12は、特徴マップを入力して、クラスの特徴のプロトタイプを出力する。基本クラス分類部20は、入力データの特徴マップを入力して基本クラス分類の重みに基づいて入力データを基本クラスに分類する。新規クラス分類部40は、入力データの特徴マップを入力して、新規クラス分類の重みに基づいて入力データを新規クラスに分類する。連合分類部50は、プロトタイプと入力データの特徴マップを入力して、メタモデルに基づいて調整された基本クラス分類の重みと、新規クラス分類の重みとを連合した連合分類の重みに基づいて入力データをクラスに分類する。【選択図】図2
Description
本発明は、機械学習技術に関する。
人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク(Convolutional Neural Network(CNN))の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してCNNのパラメータの再学習が必要となる。CNNでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにCNNでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう致命的忘却(catastrophic forgetting)が避けられない。
より効率的で実用的な手法として、既に獲得した知識を再利用しつつ、過去のタスクの知識を忘れることなく、新たなタスクを学習する継続学習(incremental learningまたはcontinual learning)が提案されている。継続学習とは、新しいタスクや新しいデータが発生した時に、最初からモデルを学習するのではなく、現在の学習済みのモデルを改善して学習する学習方法である。深層学習では、過去に獲得した知識を大幅に喪失し、タスクの能力が大幅に低下する致命的忘却という現象があるが、継続学習ではこれが特に問題となる。クラス分類タスクにおける継続学習は基本クラス(過去に学習したクラス)が分類できる状態から新しいクラス(新規クラス)を学習して分類できるようにする手法である。致命的忘却を回避して基本クラスの分類性能を維持しつつ、新規クラスの分類性能を獲得することが最大の課題となる。
他方、新しいタスクは数少ないサンプルデータしか利用できないことが多いため、少ない教師データで効率的に学習する手法として、少数ショット学習(few-shot learning)が提案されている。少数ショット学習では、一度学習したパラメータを再学習せずに、別の少量のパラメータを用いて新しいタスクを学習する。
基本(ベース)クラスの学習結果に対して致命的忘却を伴わずに新規クラスを学習する継続学習と、基本クラスに比べて少数しかない新規クラスを学習する少数ショット学習とを組み合わせた継続少数ショット学習(incremental few-shot learning(IFSL))と呼ばれる手法が提案されている(非特許文献1)。継続少数ショット学習では、基本クラスについては大規模なデータセットから学習し、新規クラスについては少数のサンプルデータから学習することができる。
Ren, M., Liao, R., Fetaya, E., & Zemel, R. S. (2018). Incremental few-shot learning with attention attractor networks. arXiv preprint arXiv:1810.07218.
Oreshkin, B., Rodriguez Lopez, P., & Lacoste, A. (2018). TADAM: Task dependent adaptive metric for improved few-shot learning. Advances in neural information processing systems, 31.
Yoon, S. W., Seo, J., & Moon, J. (2019). TapNet: Neural network augmented with task-adaptive projection for few-shot learning. International Conference on Machine Learning. PMLR.
継続少数ショット学習手法として非特許文献1に記載の注意アトラクタネットワーク(Attention Attractor Network)がある。注意アトラクタネットワークでは、基本クラス分類器の性能が新規クラス分類器や注意アトラクタに重大な影響を与える。しかし、基本クラス分類器は一旦作成されたら、変更されない。そのため、基本クラス分類器を新規クラス分類器と連結した後、両方の分類器の性能が落ちるという課題があった。
本発明はこうした状況に鑑みてなされたものであり、その目的は、基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる機械学習技術を提供することにある。
上記課題を解決するために、本発明のある態様の機械学習装置は、基本クラスに比べて少数の新規クラスを継続学習する機械学習装置であって、入力データの特徴を抽出し、特徴マップを生成する、基本クラスを学習済みの特徴抽出部と、前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成部と、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する、基本クラスを学習済みの基本クラス分類部と、前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類部と、前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類部とを含む。
本発明の別の態様は、機械学習方法である。この方法は、基本クラスに比べて少数の新規クラスを継続学習する機械学習方法であって、基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとを含む。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明のある態様によれば、基本クラス分類器を新規クラス分類器と連結した後の分類性能の低下を抑えることができる。
図1は、注意アトラクタネットワークの構成を説明する図である。注意アトラクタネットワークは、特徴抽出部10、基本クラス分類部20、注意アトラクタ部30、新規クラス分類部40、および連合分類部50を含む。
注意アトラクタネットワークは、動的少数ショット学習(Dynamic Few-Shot Learning(DFSL))の代表的な手法の一つであり、注意(アテンション)アトラクタを利用して、基本クラス分類部20と新規クラス分類部40を連合することができる。
特徴抽出部10は、バックボーンCNNを含む。バックボーンCNNは、畳み込みニューラルネットワークであり、入力データの特徴を抽出する。バックボーンCNNにより抽出された入力データの特徴は、基本クラス分類部20、注意アトラクタ部30、および新規クラス分類部40に供給される。
基本クラス分類部20は、基本クラス分類器と基本クラス分類重みを含む。基本クラスのデータセットを教師データとして、特徴抽出部10と基本クラス分類部20をセットにして事前トレーニングする。基本クラスのデータセットは多数のサンプルを含む。サンプルの一例は画像であるが、これに限定されない。基本クラス分類重みは、基本クラス分類器の重みベクトルであり、基本クラスのデータセットのサンプルの平均特徴量を示すものである。
新規クラス分類部40は、新規クラスを継続学習するための新規クラス分類器と新規クラス分類重みを含む。新規クラス分類部40は、新規クラスのデータセットを事後学習する。新規クラスのデータセットに含まれるサンプルの数は、基本クラスのデータセットに含まれるサンプルの数に比べて少数である。新規クラス分類重みは、新規クラス分類器の重みベクトルであり、新規クラスのデータセットのサンプルの平均特徴量を示すものである。
注意アトラクタ部30は、基本クラスの教師データを継続学習では使用できないという前提のもとで、継続的に新規クラスのデータセットを学習する際、基本クラスのデータセットで学んだ知識を忘却せず、推論結果が新規クラスに偏らないように学習を制御する。
注意アトラクタ部30は、基本クラス分類重みと新規クラス分類重みを共通の特徴空間上で比較できるように正則化する。注意アトラクタ部30は、基本クラス分類部20から提供される基本クラスの情報を利用して、クラス分類のクロスエントロピー損失に加える正則化項の情報を算出し、新規クラス分類部40に供給する。新規クラス分類部40は、クロスエントロピー損失と正則化項を加算した正則化クロスエントロピー損失を最小化するように新規クラス分類重みを更新する。
連合分類部50は、基本クラス分類部20による分類結果と、新規クラス分類部40による分類結果を結合して、最終的な分類結果を出力する。
従来の注意アトラクタネットワークでは、注意アトラクタを利用して、基本クラス分類部20と新規クラス分類部40を連合する際、学習後の基本クラス分類部20を固定させて変更しない。基本クラス分類部20が一旦作成されると、新規クラスの情報を吸収することができないことは連合分類部50の分類性能に影響を与える。そこで、本実施の形態では、作成された基本クラス分類部20を新規クラスの情報によって修正することにより、基本クラス分類部20を新規クラス分類部40と連結した後の分類性能の低下を抑制する。
図2(a)および図2(b)は、2段階のトレーニングを説明する図である。
図2(a)は、第1段階のトレーニングであり、基本クラスの入力データを用いて特徴抽出部10と基本クラス分類部20をトレーニングする。
図2(b)は、第2段階のトレーニングであり、第1段階のトレーニングで基本クラスを学習済みの特徴抽出部10と基本クラス分類部20を利用する。基本クラス分類部20と新規クラス分類部40を連合した連合分類部50において、基本クラスと新規クラスの入力データを用いて新規クラス分類部40をトレーニングし、基本クラス分類部20をメタモデルに基づいて調整する。
図3(a)および図3(b)は、第2段階のトレーニングの詳細を説明する図である。第2段階のトレーニングでは、エピソード形式の入力データを用いる。
各エピソードは、サポートセットSとクエリセットQから構成される。サポートセットSは新規クラスのデータセットで構成され、クエリセットQは基本クラスのデータセットと新規クラスのデータセットで構成される。
特徴抽出部10は、第1段階のトレーニングによって基本クラスを学習済みである。特徴抽出部10は、入力データの特徴を抽出し、特徴マップを生成し、入力データの特徴マップをプロトタイプ生成部12と連合分類部50に与える。
プロトタイプ生成部12は、特徴マップからクラスの特徴の平均値であるプロトタイプを生成し、プロトタイプを連合分類部50に与える。
基本クラス分類部20は、第1段階のトレーニングによって基本クラスを学習済みである。基本クラス分類部20は、入力データの特徴マップを入力して、基本クラス分類の重みに基づいて入力データを基本クラスに分類する。
新規クラス分類部40は、入力データの特徴マップを入力して、新規クラス分類の重みに基づいて入力データを新規クラスに分類する。
連合分類部50は、プロトタイプと入力データの特徴マップを入力して、メタモデルに基づいて調整された基本クラス分類の重みと、新規クラス分類の重みとを連合した連合分類の重みに基づいて入力データをクラスに分類する。
連合分類部50はメタモデルであり、内部学習と外部学習を行う。新規クラス分類部40の学習はメタモデルの内部学習に相当し、連合分類部50の学習はメタモデルの外部学習に相当する。連合分類部50の入力データは、基本クラス分類部20の基本クラス分類の重み、新規クラス分類部40の新規クラス分類の重み、特徴抽出部10が求める入力データの特徴マップ、およびプロトタイプ生成部12が求める各クラスの特徴の平均値すなわちプロトタイプである。
図3(a)は、内部(インナー)学習を説明する図である。内部学習では、入力データとして新規クラスのデータセットで構成されるサポートセットSが与えられる。
内部学習では、メタモデルの重みは固定し、連合分類部50による分類結果の損失を最小化するように新規クラス分類の重みをトレーニングする。
図3(b)は、外部(アウター)学習を説明する図である。外部学習では、入力データとして基本クラスのデータセットと新規クラスのデータセットで構成されるクエリセットQが与えられる。
外部学習では、新規クラス分類の重みは固定し、連合分類部50による分類結果の損失を最小化するようにメタモデルの重みをトレーニングする。
このように、内部学習の教師データはサポートセットSであり、外部学習の教師データはクエリセットQである。内部学習の次に外部学習が行われる。内部学習から外部学習までのトレーニングを繰り返す。内部学習する際に、メタモデルの重みは更新しないが、新規分類の重みを更新させる。この時、メタモデルは新規クラス分類部40の正則化項として、新規クラス分類部40をトレーニングする。逆に、外部学習する際に、新規分類の重みは更新せずに、メタモデルの重みだけを更新する。
図4は、連合分類部50の内部学習の詳細を説明する図である。内部学習では、ランダムな初期値で新規分類の重みが設定された新規クラス分類部40をトレーニングし、基本クラス分類部20と融合し、連合分類部50を作成する。その後、サポートセットSの特徴マップを連合分類部50に入力し、分類結果を連合分類部50から出力する。この分類結果によって損失を計算し、誤差の逆伝播により新規クラス分類部40の新規分類の重みを更新する。
プロトタイプ生成部12は、サポートセットSの新規クラスの入力データの特徴マップを入力して、クラスの特徴のプロトタイプを出力し、メタモデル部60に与える。
メタモデル部60は、プロトタイプを入力して、メタモデルの重みに基づいてスケーリングマトリックス62とバイアスマトリックス64を出力し、調整部70に与える。
調整部70は、第1段階のトレーニングにより基本クラスを学習済みの基本クラス分類部20の基本クラス分類の重みを初期値として、スケーリングマトリックス62とバイアスマトリックス64に基づいて基本クラス分類の重みを調整し、調整後の基本クラス分類重みを基本クラス分類部20に設定する。
相関関係調整部72は、調整部70によって調整された基本クラス分類部20の基本クラス分類の重みと、新規クラス分類部40の新規クラス分類の重みとの相関関係を算出して、基本クラス分類の重みと新規クラス分類の重みを調整する。
合併部74は、相関関係調整部72によって調整された基本クラス分類の重み22と、相関関係調整部72によって調整された新規クラス分類の重み44とを合併して連合分類の重みを生成し、連合分類部50に連合分類の重みを設定する。
連合分類部50は、特徴抽出部10からサポートセットSの入力データの特徴マップを受け取り、連合分類の重みに基づいてサポートセットSの入力データをクラスに分類する。
学習部80は、メタモデル部60のメタモデルの重みは固定し、連合分類部50による分類結果の損失を計算し、損失を最小化するように新規クラス分類部40の新規クラス分類の重みを学習する。
図5は、連合分類部50の外部学習の詳細を説明する図である。外部学習では、内部学習で学習済みの新規クラス分類部40の新規分類の重みを固定し、メタモデル部60のメタモデルの重みをトレーニングし、メタモデルによって調整された基本クラス分類部20を新規クラス分類部40と融合し、連合分類部50を作成する。その後、クエリセットQの特徴マップを連合分類部50に入力し、分類結果を連合分類部50から出力する。この分類結果によって損失を計算し、誤差の逆伝播によりメタモデル部60のメタモデルの重みを更新する。
プロトタイプ生成部12は、クエリセットQの基本クラスと新規クラスの入力データの特徴マップを入力して、クラスの特徴のプロトタイプを出力し、メタモデル部60に与える。
メタモデル部60は、プロトタイプを入力して、メタモデルの重みに基づいてスケーリングマトリックス62とバイアスマトリックス64を出力し、調整部70に与える。
調整部70は、内部学習によってトレーニングされた基本クラス分類部20の基本クラス分類の重みを初期値として、スケーリングマトリックス62とバイアスマトリックス64に基づいて基本クラス分類の重みを調整し、調整後の基本クラス分類重みを基本クラス分類部20に設定する。
相関関係調整部72は、調整部70によって調整された基本クラス分類部20の基本クラス分類の重みと、新規クラス分類部40の新規クラス分類の重みとの相関関係を算出して、基本クラス分類の重みと新規クラス分類の重みを調整する。
合併部74は、相関関係調整部72によって調整された基本クラス分類の重み22と、相関関係調整部72によって調整された新規クラス分類の重み44とを合併して連合分類の重みを生成し、連合分類部50に連合分類の重みを設定する。
連合分類部50は、特徴抽出部10からクエリセットQの入力データの特徴マップを受け取り、連合分類の重みに基づいてクエリセットQの入力データをクラスに分類する。
学習部80は、新規クラス分類部40の新規クラス分類の重みは固定し、連合分類部50による分類結果の損失を計算し、損失を最小化するようにメタモデル部60のメタモデルの重みを学習する。
外部学習においてトレーニングされたメタモデル部60のメタモデルは、次のエピソードで内部学習において新規クラス分類部40をトレーニングする時に利用される。要するに、メタモデルはエピソード毎に継続的にトレーニングされ、いずれの新規クラスに対しても適した基本クラス分類部20を調整することができるメタモデルとなる。メタモデルは入力されたプロトタイプによってスケーリングマトリックスとバイアスマトリックスを出力し、これらのマトリックスは基本クラス分類部20を修正するために用いられる。結果的に、新規クラスの情報を利用して、基本クラス分類部20を調整することになる。よって、メタモデルによって調整された基本クラス分類部20は新規クラス分類部40と連結しやすくなる。調整部70による基本クラス分類部20の調整の詳細は非特許文献2に記載されている。
さらに、相関関係調整部72は、調整後の基本クラス分類部20と新規クラス分類部40の相関関係を把握し、基本クラス分類部20と新規クラス分類部40の重要度を計算する。合併部74は、これらの重要度によって、基本クラス分類部20の基本クラス分類の重みと新規クラス分類部40の新規分類の重みを新たな特徴空間に投影し、そこで連合分類部50の連合分類の重みを作成する。相関関係調整部72と合併部74の動作の詳細は非特許文献3に記載されている。
以上説明した機械学習装置100の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
以上述べたように、本実施の形態によれば、作成された基本クラス分類器を新規クラスの情報によって修正するため、基本クラス分類器を新規クラス分類器と連結した後、分類性能が低下しない。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
10 特徴抽出部、 12 プロトタイプ生成部、 20 基本クラス分類部、 30 注意アトラクタ部、 40 新規クラス分類部、 50 連合分類部、 60 メタモデル部、 70 調整部、 72 相関関係調整部、 74 合併部、 80 学習部。
Claims (6)
- 基本クラスに比べて少数の新規クラスを継続学習する機械学習装置であって、
入力データの特徴を抽出し、特徴マップを生成する、基本クラスを学習済みの特徴抽出部と、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成部と、
前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する、基本クラスを学習済みの基本クラス分類部と、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類部と、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類部とを含むことを特徴とする機械学習装置。 - 前記入力データとして新規クラスのデータを含むサポートセットが与えられた場合、前記メタモデルの重みは固定し、前記連合分類部による分類結果の損失を計算し、前記損失を最小化するように前記新規クラス分類の重みを学習する学習部をさらに含むことを特徴とする請求項1に記載の機械学習装置。
- 前記学習部は、前記入力データとして基本クラスのデータと新規クラスのデータを含むクエリセットが与えられた場合、前記新規クラス分類の重みは固定し、前記連合分類部による分類結果の損失を計算し、前記損失を最小化するように前記メタモデルの重みを学習することを特徴とする請求項2に記載の機械学習装置。
- 前記プロトタイプを入力して、メタモデルの重みに基づいてスケーリングマトリックスとバイアスマトリックスを出力するメタモデル部と、
前記スケーリングマトリックスと前記バイアスマトリックスに基づいて前記基本クラス分類の重みを調整する調整部と、
前記調整部によって調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとの相関関係を算出して、前記基本クラス分類の重みと前記新規クラス分類の重みを調整する相関関係調整部と、
前記相関関係調整部によって調整された前記基本クラス分類の重みと前記相関関係調整部によって調整された前記新規クラス分類の重みとを合併して前記連合分類の重みを生成し、前記連合分類部に前記連合分類の重みを与える合併部とをさらに含むことを特徴とする請求項1から3のいずれかに記載の機械学習装置。 - 基本クラスに比べて少数の新規クラスを継続学習する機械学習方法であって、
基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、
基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとを含むことを特徴とする機械学習方法。 - 基本クラスに比べて少数の新規クラスを継続学習する機械学習プログラムであって、
基本クラスを学習後に、入力データの特徴を抽出し、特徴マップを生成する特徴抽出ステップと、
前記特徴マップを入力して、クラスの特徴のプロトタイプを出力するプロトタイプ生成ステップと、
基本クラスを学習後に、前記入力データの特徴マップを入力して基本クラス分類の重みに基づいて前記入力データを基本クラスに分類する基本クラス分類ステップと、
前記入力データの特徴マップを入力して、新規クラス分類の重みに基づいて前記入力データを新規クラスに分類する新規クラス分類ステップと、
前記プロトタイプと前記入力データの特徴マップを入力して、メタモデルに基づいて調整された前記基本クラス分類の重みと、前記新規クラス分類の重みとを連合した連合分類の重みに基づいて前記入力データをクラスに分類する連合分類ステップとをコンピュータに実行させることを特徴とする機械学習プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022120602A JP2024017751A (ja) | 2022-07-28 | 2022-07-28 | 機械学習装置、機械学習方法、および機械学習プログラム |
PCT/JP2023/018119 WO2024024217A1 (ja) | 2022-07-28 | 2023-05-15 | 機械学習装置、機械学習方法、および機械学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022120602A JP2024017751A (ja) | 2022-07-28 | 2022-07-28 | 機械学習装置、機械学習方法、および機械学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024017751A true JP2024017751A (ja) | 2024-02-08 |
Family
ID=89705994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022120602A Pending JP2024017751A (ja) | 2022-07-28 | 2022-07-28 | 機械学習装置、機械学習方法、および機械学習プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024017751A (ja) |
WO (1) | WO2024024217A1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220067582A1 (en) * | 2020-08-27 | 2022-03-03 | Samsung Electronics Co. Ltd. | Method and apparatus for continual few-shot learning without forgetting |
-
2022
- 2022-07-28 JP JP2022120602A patent/JP2024017751A/ja active Pending
-
2023
- 2023-05-15 WO PCT/JP2023/018119 patent/WO2024024217A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024024217A1 (ja) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DeVries et al. | Dataset augmentation in feature space | |
US10643124B2 (en) | Method and device for quantizing complex artificial neural network | |
KR101803471B1 (ko) | 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법 | |
JP7106902B2 (ja) | 学習プログラム、学習方法および学習装置 | |
WO2019207770A1 (ja) | 学習済みモデル更新装置、学習済みモデル更新方法、プログラム | |
US11449734B2 (en) | Neural network reduction device, neural network reduction method, and storage medium | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
CN113077388A (zh) | 一种数据增广的深度半监督超限学习图像分类方法及系统 | |
WO2020213742A1 (ja) | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム | |
CN111723203A (zh) | 一种基于终生学习的文本分类方法 | |
US20220101122A1 (en) | Energy-based variational autoencoders | |
JP6942203B2 (ja) | データ処理システムおよびデータ処理方法 | |
WO2024024217A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
WO2023053569A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
US20220101145A1 (en) | Training energy-based variational autoencoders | |
CN115640799A (zh) | 基于增强型动量对比学习的句向量表征方法 | |
WO2023119733A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
WO2023100427A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
WO2024047957A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
JP2023046498A (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
JP2024000676A (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
Sasipriyaa et al. | Recognizing Handwritten Offline Tamil Character using VAE-GAN & CNN | |
WO2023119742A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
JP2024033904A (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
CN117744757A (zh) | 一种基于数据特征统计学分布的智能模型逆向工程方法 |