JP7331937B2 - ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 - Google Patents
ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 Download PDFInfo
- Publication number
- JP7331937B2 JP7331937B2 JP2021550806A JP2021550806A JP7331937B2 JP 7331937 B2 JP7331937 B2 JP 7331937B2 JP 2021550806 A JP2021550806 A JP 2021550806A JP 2021550806 A JP2021550806 A JP 2021550806A JP 7331937 B2 JP7331937 B2 JP 7331937B2
- Authority
- JP
- Japan
- Prior art keywords
- objective function
- neural networks
- neural network
- parameters
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
(構成の説明)
図1は、本発明の第一実施形態に係るロバスト学習装置の一例を示すブロック図である。
図1に示すようにロバスト学習装置10は、モデル選択部11と、限定目的関数算出装置100と、更新部12と、を含む。
限定目的関数算出装置100は、予測部101と、予測損失算出部102と、
勾配ベクトル算出部103と、勾配損失算出部104と、目的関数生成部105とを有する。
限定目的関数算出装置100は、ニューラルネットワークf_1~f_nと、各ニューラルネットワークのパラメータθ_1~θ_nと、訓練データX、正解ラベルY、ハイパーパラメータC、モデル選択部11で選択したニューラルネットワークのインデックスt_jを入力として受け付ける。
勾配ベクトル算出部103は、訓練データXと予測損失算出部102の出力である誤差l_1~l_nから、以下のようなXに対する誤差の勾配ベクトル∇_iを算出する。
勾配損失算出部104は、勾配ベクトル∇_1~∇_nを入力として、各f_iの勾配ベクトルに対応する∇_iとそれ以外のn-1個の勾配ベクトルについて類似度の算出を行い、その和を勾配損失関数として出力する。類似度の算出は、例えば、2つの勾配ベクトルのcosine類似度を算出することにより評価することができる。
次にロバスト学習装置10の動作について説明する。
図3は、本発明の第一実施形態に係るロバスト学習装置の動作例を示すフローチャートである。
まず、ロバスト学習装置10には、n個のニューラルネットワークf_1~f_nと、パラメータθ_1~θ_nと、訓練データXと、正解ラベルYと、ハイパーパラメータCが入力される。
次に、モデル選択部11は、更新するニューラルネットワークを複数選択する(S1)。選択するニューラルネットワークの数は任意である。モデル選択部11は、選択したニューラルネットワークのインデックスt_jを限定目的関数算出装置100へ出力する。
例えば、モデル選択部11が、ニューラルネットワークf_1~f_nのうち、ニューラルネットワークf_1~f_3を選択した場合(t_jが、t_1~t_3の場合)、限定目的関数算出装置100は、例えば、以下の処理を行って、loss_1~loss_nを算出する。
予測損失算出部102は、ニューラルネットワークf_1~f_nに関して、例えば、予測損失関数l_1()~l_n()を算出する。
勾配ベクトル算出部103は、勾配ベクトル∇_1~∇_nを算出する。
勾配損失算出部104は、勾配ベクトル∇_1~∇_nのうち,選択されたニューラルネットワークに対応する勾配ベクトルの2つの全ての組合せについて、類似度を算出し、その和を算出する。例えば、本例の場合、ニューラルネットワークf_iについては、∇_iと∇_1の類似度、∇_iと∇_2の類似度、∇_iと∇_3の類似度の和を算出する。
目的関数生成部105は、ニューラルネットワークf_1~f_nについての目的関数loss_1~loss_nを出力する。
(構成の説明)
以下、本発明の第二実施形態によるロバスト学習装置を、図4を参照して説明する。
図4は、本発明の第二実施形態に係る限定目的関数算出装置の一例を示すブロック図である。
第二実施形態に係るロバスト学習装置10は、限定目的関数算出装置100に代えて、限定目的関数算出装置200を有している。
限定目的関数算出装置200は、限定予測部201を含み、予測部101を含まない。その他の構成については、第一実施形態と同様である。第一実施形態と同様の構成要素については図1、図2と同一の符号を付し、詳細な説明を省略する。
限定予測部201は、モデル選択部11が選択したニューラルネットワークf_jに対してのみ予測を行い、モデル選択部11で選択されたニューラルネットワークのみから訓練データXに関する予測を出力する。
第一実施形態の説明に用いた図3を参考にして、第二実施形態の処理を説明する。
まず、ロバスト学習装置10には、第一実施形態と同様の各値が入力される。
次に、モデル選択部11は、更新するニューラルネットワークを複数選択する(S1)。モデル選択部11は、選択したニューラルネットワークのインデックスを限定目的関数算出装置200へ出力する。
次に、限定目的関数算出装置100は、選択されたニューラルネットワークに関連する処理を含む目的関数を算出する(S2)。
予測損失算出部102は、例えば、予測損失関数l_1()~l_3()を算出する。
勾配ベクトル算出部103は、勾配ベクトル∇_1~∇_3を算出する。
勾配損失算出部104は、勾配ベクトル∇_1と∇_2、∇_1と∇_3、∇_2と∇_3の類似度を算出し、その和を算出する。
目的関数生成部105は、目的関数loss_1~loss_3を出力する。
以下、本発明の第三実施形態によるロバスト学習装置を、図5を参照して説明する。
図5は、本発明の第三実施形態に係るロバスト学習装置の一例を示すブロック図である。
第三実施形態に係るロバスト学習装置10は、第一実施形態の構成と比較すると、モデル選択部11に代えてモデル選択部11´を有し、限定目的関数算出装置100に代えて限定目的関数算出装置200を有している。
モデル選択部11´は、限定予測部201と、勾配損失算出部104に対して異なる数のニューラルネットワークを選択する。その他の構成については、第二実施形態と同様である。第一実施形態、第二実施形態と同様の構成要素については図1、図2と同一の符号を付し、詳細な説明を省略する。
予測損失算出部102は、予測損失関数l_1()~l_5()を算出する。
勾配ベクトル算出部103は、勾配ベクトル∇_1~∇_5を算出する。
勾配損失算出部104は、勾配ベクトル∇_j(j=1~5)と∇_1~∇_3の類似度を算出し、その和を算出する。例えば、j=1の場合、勾配損失算出部104は、∇_1と∇_2の類似度と、∇_1と∇_3の類似度の和を算出する。例えば、j=5の場合、勾配損失算出部104は、∇_5と∇_1の類似度と、∇_5と∇_2の類似度と、∇_5と∇_3の類似度の和を算出する。
目的関数生成部105は、目的関数loss_1~loss_5を出力する。
学習装置30は、少なくともモデル選択部31と、限定目的関数算出部32と、更新部33とを備える。
学習装置30は、複数のニューラルネットワークのパラメータ、訓練データ、正解ラベルを入力する。モデル選択部31は、複数のニューラルネットワークの中から2以上のニューラルネットワークを選択する。限定目的関数算出部32は、パラメータの学習に用いる目的関数の算出過程において、モデル選択部31が選択したニューラルネットワークに関連する処理のみを含む限定目的関数を算出する。訓練データに対するニューラルネットワークの出力が正解ラベルと近くなり、且つ、ニューラルネットワーク間の勾配ベクトルの類似度が小さくなると、限定目的関数の値は小さくなる。更新部33は、限定目的関数の値が小さくなるようにパラメータの更新を行う。
非特許文献1において、実行時間において支配的であるのは、モデルn個分のパラメータをn回更新する点である。これに対し、本実施形態によれば、一部のモデルに限定してパラメータを更新することで、学習するモデル同士が異なる特徴を持つという性質を保ち、且つ学習における計算量を節約することができる。
上述した実施形態において、ロバスト学習装置10が有する各構成要素は、機能単位のブロックを示している。ロバスト学習装置10が有する各構成要素の一部又は全部は、例えば図7で示すような情報処理装置400とプログラムの任意の組み合わせにより実現することができる。情報処理装置400は、一例として、以下のような構成を含むことができる。つまり、情報処理装置400は、CPU(Central Processing Unit)401、ROM(Read Only Memory)402、RAM(Random Access Memory)403、RAM403にロードされるプログラム群404、プログラム群404を格納する記憶装置405、情報処理装置400外部の記録媒体410の読み書きを行うドライブ装置406、情報処理装置400外部のネットワーク411と接続する通信インタフェース407、データの入出力を行う入出力インタフェース408、各構成要素を接続するパス409、を含む。
なお、図7は情報処理装置400の構成の一例を示しており、情報処理装置400の構成は上述した場合に例示されない。例えば、情報処理装置400は、ドライブ装置406を有さないなど、上述した構成の一部から構成されても構わない。
11・・・モデル選択部
12・・・更新部
100、200、300・・・限定目的関数算出装置
101・・・予測部
102・・・予測損失算出部
103・・・勾配ベクトル算出部
104・・・勾配損失算出部
105・・・目的関数生成部
201・・・限定予測部
301・・・限定勾配損失算出部
400・・・情報処理装置
401・・・CPU(Central Processing Unit)
402・・・ROM(Read Only Memory)
403・・・RAM(Random Access Memory)
404・・・プログラム群
405・・・記憶装置
406・・・ドライブ装置
407・・・通信インタフェース
408・・・入出力インタフェース
409・・・パス
410・・・外部の記録媒体
411・・・ネットワーク
Claims (6)
- n個のニューラルネットワークのパラメータと、訓練データと、正解ラベルを入力として、更新された前記パラメータを出力するロバスト学習装置であって、
n個の前記ニューラルネットワークの中からn未満、且つ、2以上の前記ニューラルネットワークを選択するモデル選択部と、
前記訓練データに対する前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、前記ニューラルネットワーク間の類似度が小さくなるほどその値が小さくなる処理を含む目的関数の算出過程において、前記モデル選択部が選択した前記ニューラルネットワークに関連する前記処理のみを含む限定目的関数を算出する限定目的関数算出部と、
前記限定目的関数の値が小さくなるように、前記パラメータの更新を行う更新部と、
を備えるロバスト学習装置。 - 前記限定目的関数算出部が、n個の前記ニューラルネットワークのそれぞれと、前記モデル選択部よって選択された前記ニューラルネットワークとの間の類似度のみを算出して、n個の前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、算出した前記類似度が小さくなるほどその値が小さくなる処理を含む前記限定目的関数を算出する、
請求項1に記載の学習装置。 - 前記限定目的関数算出部が、n個の前記ニューラルネットワークのうち、前記モデル選択部よって選択された前記ニューラルネットワークのみを対象として、選択された前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、選択された前記ニューラルネットワークの少なくとも一部の間での類似度が小さくなるほどその値が小さくなる処理を含む前記限定目的関数を算出する、
請求項1に記載のロバスト学習装置。 - n個のニューラルネットワークのパラメータと、訓練データと、正解ラベルを入力として、更新された前記パラメータを出力するロバスト学習方法であって、
n個の前記ニューラルネットワークの中からn未満、且つ、2以上の前記ニューラルネットワークを選択し、
前記訓練データに対する前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、前記ニューラルネットワーク間の類似度が小さくなるほどその値が小さくなる処理を含む目的関数の算出過程において、前記選択された前記ニューラルネットワークに関連する前記処理のみを含む限定目的関数を算出し
前記限定目的関数の値が小さくなるように、前記パラメータの更新を行う、
ロバスト学習方法。 - n個のニューラルネットワークのパラメータと、訓練データと、正解ラベルを入力として、更新された前記パラメータを出力するコンピュータに、
n個の前記ニューラルネットワークの中からn未満、且つ、2以上の前記ニューラルネットワークを選択する処理、
前記訓練データに対する前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、前記ニューラルネットワーク間の類似度が小さくなるほどその値が小さくなる処理を含む目的関数の算出過程において、前記選択された前記ニューラルネットワークに関連する前記処理のみを含む限定目的関数を算出する処理、
前記限定目的関数の値が小さくなるように、前記パラメータの更新を行う処理、
を行わせるプログラム。 - n個のニューラルネットワークのパラメータ、訓練データ、正解ラベルを入力として、更新された前記パラメータを出力するコンピュータに、
n個の前記ニューラルネットワークの中からn未満、且つ、2以上の前記ニューラルネットワークを選択する処理、
前記訓練データに対する前記ニューラルネットワークの出力が前記正解ラベルと近くなり、且つ、前記ニューラルネットワーク間の類似度が小さくなるほどその値が小さくなる処理を含む目的関数の算出過程において、前記選択された前記ニューラルネットワークに関連する前記処理のみを含む限定目的関数を算出する処理、
前記限定目的関数の値が小さくなるように、前記パラメータの更新を行う処理、
を行わせるプログラムを記憶する記憶装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/038732 WO2021064856A1 (ja) | 2019-10-01 | 2019-10-01 | ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021064856A1 JPWO2021064856A1 (ja) | 2021-04-08 |
JP7331937B2 true JP7331937B2 (ja) | 2023-08-23 |
Family
ID=75337822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021550806A Active JP7331937B2 (ja) | 2019-10-01 | 2019-10-01 | ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335298A1 (ja) |
JP (1) | JP7331937B2 (ja) |
WO (1) | WO2021064856A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7484318B2 (ja) * | 2020-03-27 | 2024-05-16 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及び学習プログラム |
CN113283578A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于标记风险控制的数据去噪方法 |
WO2023175664A1 (ja) * | 2022-03-14 | 2023-09-21 | 日本電気株式会社 | 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018026020A (ja) | 2016-08-10 | 2018-02-15 | 日本電信電話株式会社 | 予測器学習方法、装置、及びプログラム |
JP2018026122A (ja) | 2016-08-03 | 2018-02-15 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
WO2018087814A1 (ja) | 2016-11-08 | 2018-05-17 | 日本電気株式会社 | マルチタスク関係学習システム、方法およびプログラム |
-
2019
- 2019-10-01 JP JP2021550806A patent/JP7331937B2/ja active Active
- 2019-10-01 WO PCT/JP2019/038732 patent/WO2021064856A1/ja active Application Filing
- 2019-10-01 US US17/764,316 patent/US20220335298A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018026122A (ja) | 2016-08-03 | 2018-02-15 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2018026020A (ja) | 2016-08-10 | 2018-02-15 | 日本電信電話株式会社 | 予測器学習方法、装置、及びプログラム |
WO2018087814A1 (ja) | 2016-11-08 | 2018-05-17 | 日本電気株式会社 | マルチタスク関係学習システム、方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
Sanjay Kariyappa et al.,Improving Adversarial Robustness of Ensembles with Diversity Training,arXiv [online],2019年01月28日,https://arxiv.org/abs/1901.09981, [2023年7月5日検索] |
Also Published As
Publication number | Publication date |
---|---|
US20220335298A1 (en) | 2022-10-20 |
JPWO2021064856A1 (ja) | 2021-04-08 |
WO2021064856A1 (ja) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruehle | Data science applications to string theory | |
Lu et al. | Multiobjective evolutionary design of deep convolutional neural networks for image classification | |
Wistuba et al. | Learning hyperparameter optimization initializations | |
Jadon et al. | An overview of deep learning architectures in few-shot learning domain | |
JP7331937B2 (ja) | ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置 | |
US11741356B2 (en) | Data processing apparatus by learning of neural network, data processing method by learning of neural network, and recording medium recording the data processing method | |
CN112633311A (zh) | 利用输入数据结构的高效黑盒对抗性攻击 | |
Schilling | The effect of batch normalization on deep convolutional neural networks | |
CN113837205B (zh) | 用于图像特征表示生成的方法、设备、装置和介质 | |
JP7095599B2 (ja) | 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム | |
Behzadan et al. | Mitigation of policy manipulation attacks on deep q-networks with parameter-space noise | |
CN113837370A (zh) | 用于训练基于对比学习的模型的方法和装置 | |
Utkin et al. | An explanation method for siamese neural networks | |
Qu et al. | Dat: Training deep networks robust to label-noise by matching the feature distributions | |
US20230106141A1 (en) | Dimensionality reduction model and method for training same | |
Milutinovic et al. | End-to-end training of differentiable pipelines across machine learning frameworks | |
Guidotti et al. | Verification and repair of neural networks: a progress report on convolutional models | |
CN114819050A (zh) | 训练用于图像识别的神经网络的方法和设备 | |
Li et al. | Improving task adaptation for cross-domain few-shot learning | |
Burkhardt et al. | Rule extraction from binary neural networks with convolutional rules for model validation | |
Lee et al. | Residual neural processes | |
WO2020012975A1 (ja) | 変換装置、学習装置、変換方法、学習方法及びプログラム | |
Guo et al. | An interpretable neural network model through piecewise linear approximation | |
Sendera et al. | The general framework for few-shot learning by kernel HyperNetworks | |
JP7438544B2 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230724 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7331937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |