JP2024043911A - 機械学習装置、機械学習方法、および機械学習プログラム - Google Patents
機械学習装置、機械学習方法、および機械学習プログラム Download PDFInfo
- Publication number
- JP2024043911A JP2024043911A JP2022149149A JP2022149149A JP2024043911A JP 2024043911 A JP2024043911 A JP 2024043911A JP 2022149149 A JP2022149149 A JP 2022149149A JP 2022149149 A JP2022149149 A JP 2022149149A JP 2024043911 A JP2024043911 A JP 2024043911A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- data
- class
- class classification
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims description 136
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000013140 knowledge distillation Methods 0.000 description 14
- 238000005192 partition Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】SaBにIFSLを適用した場合に致命的忘却を抑制しつつ、新規知識を獲得可能な機械学習技術を提供する。【解決手段】本発明の機械学習装置200は、NN下層部110sと、NN上層部120sであって、基本クラス分類を出力する基本クラス分類出力部121と、新規クラス分類を出力する新規クラス分類出力部122と、を含むNN上層部120sと、を含むNN32sと、基本及び新規クラス分類の損失を計算する損失計算部130sと、基本及び新規クラス分類の各損失に基づいて重みを更新する更新部140sと、を備え、更新部140sは、重みθsに正則化項と足し合わせた損失とを与えることで重みθsを更新する、【選択図】図8
Description
本発明は、機械学習技術に関する。
人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、ニューラルネットワークの知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータ分布の変化した新たなデータセット全体に対してニューラルネットワークのパラメータの再学習が必要となる。
より効率的で実用的な手法として、既に獲得した知識を再利用しつつ、新たなタスクを学習する継続学習(incremental learningまたはcontinual learning)という手法がある。特に、クラス分類タスクにおける継続学習は基本クラス(過去に学習したクラス)が分類できる状態から新しいクラス(新規クラス)を学習して分類できるようにする手法である。
一方、深層学習では、過去に獲得した知識を大幅に喪失し、タスクの能力が大幅に低下する致命的忘却(catastrophic forgetting)という現象があるが、継続学習ではこれが特に問題となる。クラス分類タスクにおける継続学習では、致命的忘却を抑制して基本クラスの分類性能を維持しつつ、新規クラスの分類性能を獲得することが最大の課題となる。
他方、新しいタスクは数少ないサンプルデータしか利用できないことが多いため、少ない教師データで効率的に学習する手法として、少数ショット学習(few-shot learning)が提案されている。少数ショット学習では、一度学習したパラメータを再学習せずに、別の少量のパラメータを用いて新しいタスクを学習する。通常であれば学習には全クラスで数千以上のサンプルが必要であるが、少数ショット学習では1クラスあたりにつき少数サンプル(例えば数個のサンプル)で学習が行われる。
また、基本(ベース)クラスを学習済みのモデルに対して追加で学習させ、新たなクラス(新規クラス)の分類を可能にするクラスインクリメンタル学習(Class Incremental Learning:CIL、継続学習)が提案されている。CILでは、クラス分類の学習済みモデルに対してタスクが継続的に追加され、新規タスクでは新規のクラス及び過去のクラスの分類性能が求められる。なお、通常、新規タスクの学習データはビッグデータである。
基本(ベース)クラスの学習結果に対して新規クラスを学習する継続学習と、クラス当たりのサンプル数が基本クラスに比べて少数のサンプルで新規クラスを学習する少数ショット学習とを組み合わせたインクリメンタル少数ショット学習(incremental few-shot learning(IFSL))と呼ばれる手法が提案されている(非特許文献1)。継続少数ショット学習では、基本クラスについては大規模なデータセットから学習し、新規クラスについては少数のサンプルデータから学習することができる。IFSLはCILに近いクラス分類のインクリメンタル学習シナリオだが、新規タスクの学習データが少数(スモールデータ)である点が大きく異なる。
クラス分類学習における継続学習の手法の1つとして、SaB(Split-and-Bridge)が提案されている(例えば、非特許文献2参照)。SaBは、ネットワークの規模の増大を抑制しつつ、新規クラスへの高い適応性と過去知識の忘却を抑制することを実現する。SaBは、インクリメンタルタスクにおいてネットワークを過去知識と新規知識とのパーティションに分割して学習を行うスプリットフェーズと、その後再度ネットワークを結合して学習を行うブリッジフェーズと、から構成される。スプリットフェーズでは、ネットワーク下層を過去知識と新規知識とで共用し、ネットワーク上層を過去知識及び新規知識のそれぞれに対して分割して割り当てることで、ローカル空間での過去知識と新規知識とが別々に獲得される(学習は同時に行われる)。ブリッジフェーズでは、分割したネットワークを結合することで、過去クラス及び新規クラスの統合知識を学習する。
Zhang, C., Song, N., Lin, G., Zheng, Y., Pan, P., & Xu, Y. (2021). "Few-shot incremental learning with continually evolved classifiers." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12455-12464).
Jong-Yeong Kim, Dong-Wan Choi. (2021). "Split-and-Bridge: Adaptable Class Incremental Learning within a Single Neural Network." In Proceedings of the AAAI Conference on Artificial Intelligence (pp. 8137-8145).
SaBは過去知識と新規知識とでネットワーク下層の重みを共用するため、新規知識を学習することでネットワーク下層の重みが更新される。すなわち、新規クラスのデータが過去知識の性能にも影響を及ぼす。一方、IFSLでは、インクリメンタルタスクでの学習が少数サンプルによって行われるが、サンプル1つの影響が強く出るため全体として情報が偏る可能性がある。そのため、SaBのように過去知識と新規知識とで一部ネットワークを共用してネットワークの重みを全体的に更新するアーキテクチャにおいてIFSLを適用する場合、少数データでの学習によって過去知識を忘却する可能性が非常に高くなる。
上記課題を鑑み、本発明の目的は、SaBにIFSLを適用した場合に致命的忘却を抑制しつつ、新規知識を獲得可能な機械学習技術を提供することにある。
上記課題を解決するために、本発明のある態様の機械学習装置は、基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習する機械学習装置であって、事前学習済みのニューラルネットワークであって、基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、を含む、前記ニューラルネットワークと、前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算する損失計算部と、前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新する更新部と、を備え、前記更新部は、現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、前記損失計算部は、前記現在のクラス分類タスクよりも前に実施された前記クラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて正則化項を算出し、前記更新部は、前記ニューラルネットワーク下層部の重みに、前記正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、機械学習装置である。
本発明の他の態様の機械学習装置は、基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習する機械学習装置であって、基本クラスのデータと新規クラスのデータとを入力とし、クラス分類を出力するニューラルネットワークであって、前記ニューラルネットワークは、前記基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部と、を含み、前記ニューラルネットワークは、前記ニューラルネットワークに入力された前記基本クラスのデータ及び前記新規クラスのデータと同じデータに基づいて更新された他のニューラルネットワークの重みを使用し、前記他のニューラルネットワークは、前記基本クラスのデータと新規クラスのデータとを入力とし、値を出力する他のニューラルネットワーク下層部と、前記他のニューラルネットワーク下層部よりも出力側に配置された他のニューラルネットワーク上層部と、を含み、前記他のニューラルネットワーク上層部は、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記他のニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記他のニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含み、前記他のニューラルネットワーク下層部の重み、前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みは、現在の前記クラス分類タスクにおける前記基本クラス分類の損失と前記新規クラス分類の損失を足し合わせた損失に基づいて更新され、前記ニューラルネットワーク上層部は、前記他のニューラルネットワーク上層部の前記基本クラス分類出力部と前記新規クラス分類出力部とを統合した構成に対応し、前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを統合した重みを用いる、前記ニューラルネットワークと、前記クラス分類に基づいて前記クラス分類の損失を計算する損失計算部と、前記クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新する更新部と、を備え、前記損失計算部は、前記現在のクラス分類タスクにおいて更新された前記他のニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて正則化項を算出し、前記更新部は、前記クラス分類の損失に基づいて前記ニューラルネットワーク上層部の重みを更新し、前記ニューラルネットワーク下層部の重みに、前記正則化項と前記クラス分類の損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、機械学習装置である。
本発明のさらに他の態様の機械学習方法は、基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習するための機械学習方法であって、事前学習済みのニューラルネットワークであって、基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、を含む、前記ニューラルネットワークに前記基本クラスのデータ及び前記新規クラスのデータを入力するステップと、前記基本クラスのデータ及び前記新規クラスのデータの入力に応じて前記ニューラルネットワークが前記基本クラス分類及び前記新規クラス分類を出力するステップと、前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算するステップと、前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新するステップと、を含み、前記更新するステップは、現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、前記ニューラルネットワーク下層部の重みに、前記現在のクラス分類タスクよりも前に実施されたクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて算出された正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、機械学習方法である。
本発明のさらに他の態様の機械学習プログラムは、基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習するための機械学習プログラムであって、コンピュータに、事前学習済みのニューラルネットワークであって、基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、を含む、前記ニューラルネットワークに前記基本クラスのデータ及び前記新規クラスのデータを入力するステップと、前記基本クラスのデータ及び前記新規クラスのデータの入力に応じて前記ニューラルネットワークが前記基本クラス分類及び前記新規クラス分類を出力するステップと、前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算するステップと、前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新するステップと、を実行させ、前記更新するステップは、現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、前記ニューラルネットワーク下層部の重みに、前記現在のクラス分類タスクよりも前に実施されたクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて算出された正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、機械学習プログラムである。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、SaBにIFSLを適用した場合に致命的忘却を抑制しつつ、新規知識を獲得可能な機械学習技術を提供することができる。
まず、従来技術であるSaBについて概要を説明する。SaBでは、一般的なニューラルネットワーク(以下、「NN」という場合がある)モデルを用いてクラス分類が行われる。
最初に、インクリメンタル学習の基本タスクにおいて、NNでビッグデータを用いて基本クラスの分類が事前学習される。図1は、事前トレーニングモジュール30の構成を説明する図である。事前トレーニングモジュール30は、NN32とNN32の基本クラス分類重みΘtを含む。
基本クラスのデータセット10はN個のサンプルを含む。サンプルの一例は画像であるが、これに限定されない。NN32は、基本クラスのデータセット10を事前学習するニューラルネットワークである。NN32の重みがΘtである。
SaBにおけるインクリメンタル学習のインクリメンタルタスクにおいては、学習済みの重みを基にしてスプリットフェーズで学習を行い、その学習後の重みがブリッジフェーズでさらに学習される。
スプリットフェーズは、現在のインクリメンタルタスクに対し過去のタスクの過去のクラスのみを分類するローカル空間での過去知識(基本クラス)と、現在のインクリメンタルタスクの新規クラスのみを分類するローカル空間での新規知識(新規クラス)とを学習することを目的とする。そのため、スプリットフェーズでは、NN32の上層部が、基本クラスを学習する重みθoを用いる部分と、新規クラスを学習する重みθnを用いる部分との2つのパーティションに分割される。NN32の下層部では基本クラス及び新規クラスで重みθsが共用される。このとき、基本クラスは<θs、θo>を用いて損失を出し、新規クラスは<θs、θn>を用いて損失を出し、それぞれの損失を足し合わせた損失に基づいて学習される。
図2は、通常のNN32の構成を例示する図である。図2に示すように、通常のNNでは隣接する層間の各ノードは全て結合されており、入力層側のノードから出力層側のノードに出力値が渡され、最終的な出力が出力層から出力される。この最終的な出力は、例えばsoftmax関数などの関数で確率値に変換される。
図3は、SaBのスプリットフェーズにおいて利用されるNN32の構成を例示する図である。図3に示すように、SaBでは、NN32において入力側の1つ又は複数の層で構成されるNN下層部110と、NN下層部110よりも出力側の1つ又は複数の層で構成されるNN上層部120とが設定される。NN32の全体の重みはΘtであり、そのうち、NN下層部110では重みθsが用いられ、NN上層部120では2つの分割された基本クラス分類重みθo及び新規クラス分類重みθnが用いられる。NN上層部120は、基本クラス分類重みθoを用いる基本クラス分類出力部121と、新規クラス分類重みθnを用いる新規クラス分類出力部122と、を含む。ここで、スプリッドフェーズの前に、スプリットフェーズで切断する重みを疎にする前処理が行われる。基本クラス分類出力部121の各ノードと新規クラス分類出力部122の各ノードとは結合されておらず、これらノードの間では伝播がない。重みΘtの事前学習済みNN32に基づいて、重みθsのNN下層部110、重みθoの基本クラス分類出力部121、及び重みθnの新規クラス分類出力部122を設定する手法としては、例えば、非特許文献2に記載の手法が用いられる。
図4は、SaBのスプリットフェーズにおいて利用される従来の機械学習装置100の構成を説明するための機能ブロック図である。図4の機械学習装置100は、インクリメンタルタスクの学習前を表す。データセット1は、基本クラスのリハーサルデータ15と、新規クラスのデータセット20と、を含む。基本クラスのリハーサルデータ15は、基本クラスのデータセット10の一部のデータセットであり、n個のサンプルを含む(N>n)。新規クラスのデータセット20はk個のサンプルを含む。サンプルの一例は画像であるが、これに限定されない。
従来の機械学習装置100は、基本クラスを事前学習した第1学習済みNN32sと、第1損失計算部130sと、第1更新部140sと、を含む。第1学習済みNN32sは、NN下層部110sと、NN上層部120sと、を含む。
NN下層部110sは、基本クラスのデータ及び新規クラスのデータを入力とし、基本クラスのデータ及び新規クラスのデータのいずれに対しても重みθsを用いて値を出力する。
上述したように、SaBでは、NN上層部120sは、重みθoを用いる基本クラス分類出力部121と、重みθnを用いる新規クラス分類出力部122と、を含む。基本クラス分類出力部121は、基本クラスと新規クラスのデータに基づくNN下層部110sの出力値を入力とし、重みθoを用いて基本クラスと新規クラスのデータに基づくクラス分類(以下、基本クラス分類という)を出力する。新規クラス分類出力部122は、新規クラスのデータに基づくNN下層部110sの出力値を入力とし、重みθnを用いて新規クラスのデータに基づくクラス分類(以下、新規クラス分類という)を出力する。
第1損失計算部130sは、NN上層部120sから基本クラス分類及び新規クラス分類を入力し、基本クラス分類に基づいて知識蒸留(knowledge distillation)損失Lkdを計算し、新規クラス分類に基づいてクロスエントロピー損失Llceを計算する。
第1更新部140sは、第1損失計算部130sから知識蒸留損失Lkd及びクロスエントロピー損失Llceを入力し、知識蒸留損失Lkdとクロスエントロピー損失Llceとを足し合わせた損失に基づいて重みθs、θo及びθnを更新する。この重みθs、θo及びθnの更新では、知識蒸留損失Lkd及びクロスエントロピー損失Llceの和を小さくするようにNN下層部110sの重みθs、θo及びθnがそれぞれ更新される。第1損失計算部130sにおけるクラス分類の損失の計算手法及び第1更新部140sにおける更新手法としては、例えば、非特許文献2に記載される手法が用いられる。
上記スプリットフェーズの一連の処理が、ハイパーパラメータとして定められた1又は複数のエポック数に応じて繰り返し実行される。
ブリッジフェーズでは、現在のインクリメンタルタスクの過去のクラスと新規クラス全てを分類する統合知識を学習することを目的とし、スプリットフェーズで更新された重みθs、θo及びθnに対して統合知識を学習する。ブリッジフェーズでは、図3の基本クラス分類出力部121と新規クラス分類出力部122とで結合のなかったノードがつながり、図2に示すような通常のNNの状態で学習が行われる。
図5は、SaBのブリッジフェーズにおいて利用される従来の機械学習装置100の構成を説明するための機能ブロック図である。ここでは、SaBのスプリットフェーズにおいて利用される従来の機械学習装置100の構成の説明と重複する点は適宜省略し、異なる点のみを重点的に説明する。
従来の機械学習装置100は、スプリットフェーズで学習済みの第2学習済みNN32bと、第2損失計算部130bと、第2更新部140bと、を含む。ブリッジフェーズでは、第2学習済みNN32bは、第1学習済みNN32sにおいて学習済みの分類器の重み、すなわち、スプリットフェーズで第1更新部140sによって更新された重みθs、θo及びθnを初期値として使用する。第2学習済みNN32bは、スプリットフェーズで更新された重みθsを用いるNN下層部110bと、スプリットフェーズで更新された重みθo及びθnを統合した重みθpを用いるNN上層部120bと、を含む。
第2学習済みNN32bは、基本クラスのデータ及び新規クラスのデータを入力とし、重みθs、θpを用いて基本クラスのデータ及び新規クラスのデータに基づくクラス分類(以下、統合クラス分類という)を出力する。第2学習済みNN32bに入力されるデータは、スプリットフェーズで用いられたデータと同じデータである。第2学習済みNN32bは、第1学習済みNN32sと同じ層数及びノード数を有し、第1学習済みNN32sの基本クラス分類出力部121及び新規クラス分類出力部122において隣接する層の各ノードが全て結合された構成に対応する。第2学習済みNN32bのNN下層部110bは第1学習済みNN32sのNN下層部110sと同じ層数及びノード数を有する。第2学習済みNN32bのNN上層部120bは、第1学習済みNN32sのNN上層部120sと同じ層数及びノード数を有し、第1学習済みNN32sの基本クラス分類出力部121及び新規クラス分類出力部122において隣接する層の各ノードが全て結合された構成に対応する。したがって、第2学習済みNN32bのNN上層部120bは、第1学習済みNN32sのNN上層部120sの基本クラス分類出力部121と新規クラス分類出力部122とを統合した構成に対応する。
第2損失計算部130bは、第2学習済みNN32bから統合クラス分類を入力し、統合クラス分類に基づいて知識蒸留損失Lkd及びクロスエントロピー損失Lceをそれぞれ計算し、知識蒸留損失Lkd及びクロスエントロピー損失Lceの和をクラス分類の損失として計算する。ブリッジフェーズでの知識蒸留損失Lkd及びクロスエントロピー損失Lceの和は、クラス分類の損失の一例である。
第2更新部140bは、クラス分類の損失に基づいて第2学習済みNN32bの重みθs及びθpを更新する。例えば、第2更新部140bは、第2損失計算部130bからクラス分類の損失を入力し、クラス分類の損失に基づいて重みθs及びθpを更新する。この重みθs及びθpの更新では、クラス分類の損失を小さくするように第2学習済みNN32bの重みθs、θpがそれぞれ更新される。
上記ブリッジフェーズの一連の処理が、ハイパーパラメータとして定められた1又は複数のエポック数に応じて繰り返し実行される。
なお、従来のSaBはCILを前提としており、インクリメンタルタスクにおける新規クラスについてビッグデータ、即ち大量のサンプルを用いる。
ここで、IFSLは、少数の新規タスクの学習データ(スモールデータ)を用いるため、CILに比べて適切な学習がより困難である一方で多数のデータを収集する必要がないことからより現実的なシナリオである。このIFSLシナリオの重要性を受けて、本発明では、前述のSaBに対しIFSLを適用することを考える。CIL及びIFSLシナリオの条件を考慮すると、SaBにIFSLを適用することが可能である。
しかし、SaBでは基本クラスを学習するパーティションと新規クラスを学習するパーティションとでNN下層部110の重みθsが共用されるため、新規クラスを学習することで重みθsが更新される。すなわち、新規クラスのデータが基本クラスに基づいて学習されたNNの性能にも影響を及ぼす。
一方、IFSLでは、インクリメンタルタスクでの学習が少数サンプルによって行われるが、サンプル1つの影響が強く出るため全体として情報が偏る。そのため、SaBにIFSLを適用する場合、少数データに基づいて重みθsが更新されることとなるため、1つのサンプルの影響が更新後の重みθsに強く出てしまう。その結果、基本クラス及び新規クラスの分類性能が低下する可能性が非常に高くなる。
本発明者らは、過去知識のパーティションと新規知識のパーティションとのうち共用部分であるNN下層部110の重みθsが少数データに基づいて大きく変化すると、NN上層部120の重みθo及びθnが少数データに基づいて大きく変化する場合と比べて、致命的忘却が生じやすくなり、NNの分類精度が大きく低下しやすくなることに着目し、本発明に至った。すなわち、本発明は、過去知識のパーティションと新規知識のパーティションとのうち共用部分であるNN下層部110の重みθsの更新について制約を与える。以下、本発明の各実施形態について説明する。
第1実施形態
以下、本発明の第1実施形態を説明する。第1実施形態の図面および説明では、従来の構成と同一または同等の構成要素には、同一の符号を付する。従来の構成と重複する説明を適宜省略し、従来の構成と相違する構成について重点的に説明する。
以下、本発明の第1実施形態を説明する。第1実施形態の図面および説明では、従来の構成と同一または同等の構成要素には、同一の符号を付する。従来の構成と重複する説明を適宜省略し、従来の構成と相違する構成について重点的に説明する。
図6は、SaBのスプリットフェーズにおいて利用される第1実施形態の機械学習装置200の構成を説明するための機能ブロック図である。第1実施形態の機械学習装置200は、第1学習済みNN32sと、第1損失計算部130sと、第1更新部140sと、を含む。第1学習済みNN32sは、NN下層部110sと、NN上層部120sと、を含む。第1学習済みNN32sは、事前学習済みの基本クラスの分類器の重みΘtを用い、そのうち、NN下層部110では重みθsが用いられ、NN上層部120の基本クラス分類出力部121では基本クラス分類重みθoが用いられ、NN上層部120の新規クラス分類出力部では新規クラス分類重みθnが用いられる。
第1実施形態の機械学習装置200は、スプリットフェーズにおいて、基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習する。新規クラスのデータセット20は、基本クラスのデータセット10よりも少数のサンプルを含む。以下で説明するブリッジフェーズについても同様である。
第1更新部140sは、第1損失計算部130sから知識蒸留損失Lkd及びクロスエントロピー損失Llceを入力し、知識蒸留損失Lkdとクロスエントロピー損失Llceとを足し合わせた損失に基づいて第1学習済みNN32sの重みθo、θnを更新する。この更新では、知識蒸留損失Lkd及びクロスエントロピー損失Llceの和を小さくするように基本クラス分類出力部121の重みθo及び新規クラス分類出力部122の重みθnがそれぞれ更新される。ここで、第1実施形態の機械学習装置200では、NN下層部110の重みθsの更新の制約として、重みθsが固定される。したがって、基本クラス分類出力部121の重みθo及び新規クラス分類出力部122の重みθnが更新される一方で、NN下層部110sの重みθsは固定されたままとなる(重みθsは更新されない)。すなわち、第1更新部140sは、NN下層部110sの重みθsを固定しつつ、基本クラス分類の損失と新規クラス分類の損失とを足し合わせた損失に基づいて基本クラス分類出力部121の重みθo及び新規クラス分類出力部122の重みθnを更新する。
図7は、SaBのブリッジフェーズにおいて利用される第1実施形態の機械学習装置200の構成を説明するための機能ブロック図である。第1実施形態の機械学習装置200は、第2学習済みNN32bと、第2損失計算部130bと、第2更新部140bと、を含む。第2学習済みNN32bは、NN下層部110bと、NN上層部120bと、を含む。NN下層部110bは、スプリットフェーズで更新された第1学習済みNN32sのNN下層部110sの重みθsを用いる。NN上層部120bは、スプリットフェーズで更新された第1学習済みNN32sのNN上層部120sの重みθo及びθnを統合した重みθpを用いる。ブリッジフェーズにおける第1学習済みNN32sは、他のニューラルネットワークの一例である。
第1実施形態の機械学習装置200では、第2学習済みNN32bのNN下層部110bの重みθsの更新の制約として重みθsが固定された上で、第2学習済みNN32bにおいて統合知識の学習が行われる。したがって、第2学習済みNN32bのNN上層部120bの重みθpが更新される一方で、第2学習済みNN32bのNN下層部110bの重みθsは固定されたままとなる(重みθsは更新されない)。すなわち、第2更新部140bは、NN下層部110bの重みθsを固定しつつ、知識蒸留損失Lkd及びクロスエントロピー損失Lceの和であるクラス分類の損失に基づいてNN上層部120bの重みθpを更新する。
第1実施形態では、重みθsが固定される。本構成によると、少数データにおけるサンプル1つによるNNへの影響を抑制することが可能になり、致命的忘却を抑制しつつ、新規知識を獲得することが可能となる。
第1実施形態では、知識蒸留損失Lkd及びクロスエントロピー損失Lce、Llceが計算されたが、これに限定されず、他の手法によりクラス分類の損失が計算されてもよい。以下の第2実施形態も同様である。
第1実施形態では、スプリットフェーズ及びブリッジフェーズの両方において重みθsが固定された例を示したが、これに限定されず、スプリットフェーズ及びブリッジフェーズの少なくとも一方において重みθsが固定されてもよい。
第2実施形態
以下、本発明の第2実施形態を説明する。第2実施形態の図面および説明では、第1実施形態と同一または同等の構成要素には、同一の符号を付する。第1実施形態と重複する説明を適宜省略し、第1実施形態と相違する構成について重点的に説明する。
以下、本発明の第2実施形態を説明する。第2実施形態の図面および説明では、第1実施形態と同一または同等の構成要素には、同一の符号を付する。第1実施形態と重複する説明を適宜省略し、第1実施形態と相違する構成について重点的に説明する。
図8は、SaBのスプリットフェーズにおいて利用される第2実施形態の機械学習装置200の構成を説明するための機能ブロック図である。第2実施形態の機械学習装置200は、重みθsの更新の制約として、重みの正則化を行う。
スプリットフェーズでは、第1更新部140sは、継続学習における現在のクラス分類タスクにおいて、知識蒸留損失Lkd及びクロスエントロピー損失Llceの和を小さくするように重みθo及びθnをそれぞれ更新する。第1損失計算部130sは、現在のクラス分類タスクよりも前に実施された前のクラス分類タスクにおいて更新された重みθsと、現在のクラス分類タスクにおいて更新された重みθsとに基づいて以下の式(1)に示す正則化項L2
WC
θssを算出する。ここでの前のクラス分類タスクとは、継続学習において現在のクラス分類タスクで用いられる新規クラスのデータとは別のデータを用いて過去に実施されたインクリメンタルタスクである。前のクラス分類タスクは、例えば、現在のクラス分類タスクの1回前に実施されたクラス分類タスクとすることができる。第1更新部140sは、NN下層部110sの重みθsに対し、算出した正則化項L2
WC
θssと知識蒸留損失Lkd及びクロスエントロピー損失Llceを足し合わせた損失とを与えることにより重みθsを更新する。正則化の手法としては、例えばL2
WC重み制約等が利用できる。
ここで、θspは前のクラス分類タスクにおいてブリッジフェーズで更新された最終的なNN下層部110bの重みθsを表す。最初のインクリメンタルタスクの場合、前のクラス分類タスクがないため、事前学習後の重みθsがθspとして用いられる。θssは現在のクラス分類タスクにおいて更新されたNN下層部110sの重みθsを表す。θssとして、現在のクラス分類タスクにおいてスプリットフェーズの1つ前のエポックで更新されたNN下層部110sの重みθsを用いることができるが、これに限定されない。例えば、現在のクラス分類タスクにおいてスプリットフェーズの2つ以上前のエポックで更新された重みθsが用いられてもよい。スプリットフェーズの最初のエポックであるため前のエポックで更新された重みθsがない場合には、例えば、正則化項を与えず、知識蒸留損失Lkd及びクロスエントロピー損失Llceを足し合わせた損失のみを与えることにより重みθsが更新される。
図9は、SaBのブリッジフェーズにおいて利用される第2実施形態の機械学習装置200の構成を説明するための機能ブロック図である。ブリッジフェーズでは、第2更新部140bは、現在のクラス分類タスクにおいて、クラス分類の損失を小さくするように第2学習済みNN32bのNN上層部120bの重みθpを更新する。第2損失計算部130bは、現在のクラス分類タスクにおいてスプリットフェーズで更新されたNN下層部110sの重みθsと、現在のクラス分類タスクにおいてブリッジフェーズで更新されたNN下層部110bの重みθsとに基づいて、以下の式(2)に示す正則化項L2
WC
θsbを算出する。第2更新部140bは、NN下層部110bの重みθsに対し、算出した正則化項L2
WC
θsbとクラス分類の損失とを与えることによりNN下層部110bの重みθsを更新する。正則化の手法としては、スプリットフェーズと同様に例えばL2
WC重み制約等が利用できる。
ここで、θssは現在のクラス分類タスクにおいてスプリットフェーズで更新されたNN下層部110sの最終的な重みθs、θsbは現在のクラス分類タスクにおいて更新されたNN下層部110bの重みθsを表す。θsbとして、現在のクラス分類タスクにおいてブリッジフェーズの1つ前のエポックで更新されたNN下層部110bの重みθsを用いることができるが、これに限定されない。例えば、現在のクラス分類タスクにおいてブリッジフェーズの2つ以上前のエポックで更新された重みθsが用いられてもよい。ブリッジフェーズの最初のエポックであるため前のエポックで更新された重みθsがない場合には、例えば、正則化項を与えず、クラス分類の損失のみを与えることにより重みθsが更新される。
第2実施形態では、NN下層部110bの重みθsに正則化項とクラス分類の損失とを与えてNN下層部110bの重みθsを更新することにより、少数データにおけるサンプル1つによるNNへの影響を抑制することが可能になり、致命的忘却を抑制しつつ、新規知識を獲得することが可能となる。
第2実施形態では、スプリットフェーズ及びブリッジフェーズの両方において重みθsに正則化項とクラス分類の損失とを与えた例を示したが、これに限定されず、スプリットフェーズ及びブリッジフェーズの少なくとも一方において重みθsに正則化項とクラス分類の損失とが与えられてもよい。
以上、本発明によれば、SaBにIFSLを適用した場合に、過去の知識の忘却を抑制することができ、その結果新規クラスの分類性能の向上及び過去のクラスの分類性能の維持を図ることができる。
以上説明した機械学習装置200の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
1 データセット、 10 基本クラスのデータセット、 15 基本クラスのリハーサルデータ、 20 新規クラスのデータセット、 30 事前トレーニングモジュール、 32 NN、 110 NN下層部、 120 NN上層部、 121 基本クラス分類出力部、 122 新規クラス分類出力部、 130 損失計算部、 140 更新部、 100、200 機械学習装置。
Claims (4)
- 基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習する機械学習装置であって、
事前学習済みのニューラルネットワークであって、
基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、
前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、
を含む、前記ニューラルネットワークと、
前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算する損失計算部と、
前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新する更新部と、
を備え、
前記更新部は、現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、
前記損失計算部は、前記現在のクラス分類タスクよりも前に実施された前記クラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて正則化項を算出し、
前記更新部は、前記ニューラルネットワーク下層部の重みに、前記正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、
機械学習装置。 - 基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習する機械学習装置であって、
基本クラスのデータと新規クラスのデータとを入力とし、クラス分類を出力するニューラルネットワークであって、
前記ニューラルネットワークは、前記基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部と、を含み、
前記ニューラルネットワークは、前記ニューラルネットワークに入力された前記基本クラスのデータ及び前記新規クラスのデータと同じデータに基づいて更新された他のニューラルネットワークの重みを使用し、
前記他のニューラルネットワークは、前記基本クラスのデータと新規クラスのデータとを入力とし、値を出力する他のニューラルネットワーク下層部と、前記他のニューラルネットワーク下層部よりも出力側に配置された他のニューラルネットワーク上層部と、を含み、
前記他のニューラルネットワーク上層部は、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記他のニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記他のニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含み、
前記他のニューラルネットワーク下層部の重み、前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みは、現在の前記クラス分類タスクにおける前記基本クラス分類の損失と前記新規クラス分類の損失を足し合わせた損失に基づいて更新され、
前記ニューラルネットワーク上層部は、前記他のニューラルネットワーク上層部の前記基本クラス分類出力部と前記新規クラス分類出力部とを統合した構成に対応し、前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを統合した重みを用いる、
前記ニューラルネットワークと、
前記クラス分類に基づいて前記クラス分類の損失を計算する損失計算部と、
前記クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新する更新部と、
を備え、
前記損失計算部は、前記現在のクラス分類タスクにおいて更新された前記他のニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて正則化項を算出し、
前記更新部は、前記クラス分類の損失に基づいて前記ニューラルネットワーク上層部の重みを更新し、前記ニューラルネットワーク下層部の重みに、前記正則化項と前記クラス分類の損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、
機械学習装置。 - 基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習するための機械学習方法であって、
事前学習済みのニューラルネットワークであって、
基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、
前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、
を含む、前記ニューラルネットワークに前記基本クラスのデータ及び前記新規クラスのデータを入力するステップと、
前記基本クラスのデータ及び前記新規クラスのデータの入力に応じて前記ニューラルネットワークが前記基本クラス分類及び前記新規クラス分類を出力するステップと、
前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算するステップと、
前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新するステップと、
を含み、
前記更新するステップは、
現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、
前記ニューラルネットワーク下層部の重みに、前記現在のクラス分類タスクよりも前に実施されたクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて算出された正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、
機械学習方法。 - 基本クラスのデータに比べて少数の新規クラスのデータを用いるクラス分類タスクを継続学習するための機械学習プログラムであって、コンピュータに、
事前学習済みのニューラルネットワークであって、
基本クラスのデータと新規クラスのデータとを入力とし、値を出力するニューラルネットワーク下層部と、
前記ニューラルネットワーク下層部よりも出力側に配置されたニューラルネットワーク上層部であって、前記基本クラスのデータ及び前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記基本クラスのデータ及び前記新規クラスのデータに基づくクラス分類である基本クラス分類を出力する基本クラス分類出力部と、前記新規クラスのデータに基づく前記ニューラルネットワーク下層部の出力値を入力とし、前記新規クラスのデータに基づくクラス分類である新規クラス分類を出力する新規クラス分類出力部と、を含む、前記ニューラルネットワーク上層部と、
を含む、前記ニューラルネットワークに前記基本クラスのデータ及び前記新規クラスのデータを入力するステップと、
前記基本クラスのデータ及び前記新規クラスのデータの入力に応じて前記ニューラルネットワークが前記基本クラス分類及び前記新規クラス分類を出力するステップと、
前記基本クラス分類及び前記新規クラス分類に基づいて前記基本クラス分類の損失及び前記新規クラス分類の損失を計算するステップと、
前記基本クラス分類の損失及び前記新規クラス分類の損失に基づいて前記ニューラルネットワークの重みを更新するステップと、
を実行させ、
前記更新するステップは、
現在の前記クラス分類タスクにおける前記基本クラスの損失及び前記新規クラスの損失を足し合わせた損失に基づいて前記基本クラス分類出力部の重み及び前記新規クラス分類出力部の重みを更新し、
前記ニューラルネットワーク下層部の重みに、前記現在のクラス分類タスクよりも前に実施されたクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みと、前記現在のクラス分類タスクにおいて更新された前記ニューラルネットワーク下層部の重みとに基づいて算出された正則化項と前記足し合わせた損失とを与えることで前記ニューラルネットワーク下層部の重みを更新する、
機械学習プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022149149A JP2024043911A (ja) | 2022-09-20 | 2022-09-20 | 機械学習装置、機械学習方法、および機械学習プログラム |
PCT/JP2023/018056 WO2024062674A1 (ja) | 2022-09-20 | 2023-05-15 | 機械学習装置、機械学習方法、および機械学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022149149A JP2024043911A (ja) | 2022-09-20 | 2022-09-20 | 機械学習装置、機械学習方法、および機械学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024043911A true JP2024043911A (ja) | 2024-04-02 |
Family
ID=90454191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022149149A Pending JP2024043911A (ja) | 2022-09-20 | 2022-09-20 | 機械学習装置、機械学習方法、および機械学習プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024043911A (ja) |
WO (1) | WO2024062674A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017145852A1 (ja) * | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体 |
KR102406540B1 (ko) * | 2020-11-25 | 2022-06-08 | 인하대학교 산학협력단 | 새로운 태스크에 적응하며 지속 학습하기 위한 신경망 모델의 분할 및 재결합 학습 방법 |
-
2022
- 2022-09-20 JP JP2022149149A patent/JP2024043911A/ja active Pending
-
2023
- 2023-05-15 WO PCT/JP2023/018056 patent/WO2024062674A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024062674A1 (ja) | 2024-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110892477B (zh) | 用于神经网络的梯度方向数据分割的方法和计算机系统 | |
Saito et al. | Adversarial dropout regularization | |
US10762426B2 (en) | Multi-iteration compression for deep neural networks | |
WO2022121289A1 (en) | Methods and systems for mining minority-class data samples for training neural network | |
CN106845529B (zh) | 基于多视野卷积神经网络的影像特征识别方法 | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
Bolukbasi et al. | Adaptive neural networks for fast test-time prediction | |
US20210073643A1 (en) | Neural network pruning | |
JP6713903B2 (ja) | 学習装置、学習方法および学習プログラム | |
US11416743B2 (en) | Swarm fair deep reinforcement learning | |
WO2022252455A1 (en) | Methods and systems for training graph neural network using supervised contrastive learning | |
CN111989696A (zh) | 具有顺序学习任务的域中的可扩展持续学习的神经网络 | |
WO2022068934A1 (en) | Method of neural architecture search using continuous action reinforcement learning | |
US20220383126A1 (en) | Low-Rank Adaptation of Neural Network Models | |
US11914672B2 (en) | Method of neural architecture search using continuous action reinforcement learning | |
Tran et al. | Cauchy–Schwarz Regularized Autoencoder | |
CN115101145A (zh) | 一种基于自适应元学习的药物虚拟筛选方法 | |
US11915120B2 (en) | Flexible parameter sharing for multi-task learning | |
WO2024062674A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
WO2024062673A1 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
JP2020123337A (ja) | スマートフォン、ドローン、船舶または軍事的目的のための、トレーニングイメージの最適化サンプリングにより入力データを分析するニューラルネットワークのオンデバイス連続学習方法及び装置、そして、これを利用したテスト方法及び装置 | |
US20230086727A1 (en) | Method and information processing apparatus that perform transfer learning while suppressing occurrence of catastrophic forgetting | |
KR20230071705A (ko) | 하이브리드 신경망 기반 객체 추적 학습 방법 및 시스템 | |
CN114548297A (zh) | 基于领域自适应的数据分类方法、装置、设备及介质 | |
Alioscha-Perez et al. | Neural architecture search under black-box objectives with deep reinforcement learning and increasingly-sparse rewards |