JP7009020B2 - 学習方法、学習システム、学習装置、方法、適用装置、及びコンピュータプログラム - Google Patents
学習方法、学習システム、学習装置、方法、適用装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7009020B2 JP7009020B2 JP2020144863A JP2020144863A JP7009020B2 JP 7009020 B2 JP7009020 B2 JP 7009020B2 JP 2020144863 A JP2020144863 A JP 2020144863A JP 2020144863 A JP2020144863 A JP 2020144863A JP 7009020 B2 JP7009020 B2 JP 7009020B2
- Authority
- JP
- Japan
- Prior art keywords
- gradient
- network model
- learning
- neural network
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Description
上記の学習方法に基づいて学習されたニューラルネットワークモデルを格納ことと、
格納されたニューラルネットワークモデルによって実行され得るタスクに対応するために必要とされるデータセットを受信することと、
格納されたニューラルネットワークモデルにおいて上から下まで各層においてデータセットに対する演算を実行して結果を出力することと
を有することを特徴とする適用方法が提供される。
上記の学習方法に基づいて学習されたニューラルネットワークモデルを格納する格納モジュールと、
格納されたニューラルネットワークモデルによって実行され得るタスクに対応するために必要とされるデータセットを受信する受信モジュールと、
格納されたニューラルネットワークモデルにおいて上から下まで各層においてデータセットに対する演算を実行して結果を出力する処理モジュールと
を有することを特徴とする適用装置が提供される。
図7は、本開示の第1の例示的な実施形態によるニューラルネットワークモデルの学習方法を示し、学習方法の具体的な説明は以下の通りである。
本開示の第2の例示的な実施形態は、前述の第1の例示的な実施形態に基づいて、端末と、通信ネットワークと、サーバとを含むネットワークモデル学習システムを説明する。端末とサーバは、通信ネットワークを介して通信する。サーバはローカルに格納されたネットワークモデルを使用して、端末にオンラインで格納されたネットワークモデルを学習し、その結果、端末は、学習されたネットワークモデルを使用して、リアルタイムビジネスを実行することができる。以下、本開示の第2の例示的な実施形態の学習システムの各部について説明する。
本開示の第3の例示的な実施形態は、ニューラルネットワークモデルのための学習装置を説明し、この装置は、第1の例示的な実施形態で説明した学習方法を実行することができる。また、本装置は、オンライン学習システムに適用する場合には、第2の例示的な実施形態で説明したサーバ内の装置であってもよい。以下、図11を参照して、装置のソフトウェア構成について詳細に説明する。
また、本開示の実施形態は、上述の実施形態のうちの1つ以上の機能を実行するために記憶媒体(より完全には「非一時的コンピュータ可読記憶媒体」とも呼ばれる)に記録されたコンピュータ実行可能命令(例えば、1つ以上のプログラム)を読み出して実行する、および/または上述の実施形態のうちの1つ以上の機能を実行する1つ以上の回路(例えば、特定用途向け集積回路(ASIC))を含むシステムまたは装置のコンピュータによって、および、例えば、上述の実施形態のうちの1つ以上の機能を実行するために記憶媒体からコンピュータ実行可能命令を読み出して実行し、および/または、上述の実施形態のうちの1つ以上の機能を実行するために1つ以上の回路を制御することによって、システムまたは装置のコンピュータによって実行される方法によって実現されてもよい。コンピュータは、1つ以上のプロセッサ(例えば、中央処理ユニット(CPU)、マイクロ処理ユニット(MPU))を含み、コンピュータ実行可能命令を読み出して実行するための別個のコンピュータまたは別個のプロセッサのネットワークを含み得る。コンピュータ実行可能命令は例えば、ネットワークまたは記憶媒体からコンピュータに提供されてもよい。記憶媒体は例えば、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、分散コンピューティングシステムの記憶装置、光ディスク(コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、またはBlu-ray Disc(BD)TMなど)、フラッシュメモリデバイス、メモリカードなどの1つ以上を含み得る。
証明に必要な補助定理:
補題1 任意の
以下の設定が考慮される。ftは陰解量子化重みを含む線形関数であり、重みの定義領域F=[-1,1]。具体的には、以下の式(28)に示す関数のシーケンスを考える:
よって、
原理2は、原理1の最適な設定を一般化したものである。具体的には、バイナリ最適化アルゴリズムを構築することができる。さらに一般的なケースを定義し、式(41)を参照して、ADAMアルゴリズムの更新処理中に一定の偏差
ここで、i∈{1,...,C}である。δt+i≧0の場合、j∈{1,...,C-1}について、δt+s≧0(ここで
ζを任意の小さな正の実数として設定する。領域[-1,1]における一次元ランダム凸最適化設定を考慮すると、各反復回数tについて、ft(w)の勾配が式(52)に示される。
原理4の結果は、アルゴリズム1の有効性を証明するために使用され、ここで、アルゴリズム1は:
本開示を使用して、バイナリニューラルネットワークを学習する
入力:ネットワーク重みw1∈F、初期学習速度η、減衰係数
t=1からt=Tまで、以下の演算を実行する(ここで、tは反復数であり、Tは終了数である):
Claims (18)
- ニューラルネットワークモデルの学習方法であって、
逆伝播中のニューラルネットワークモデルにおける重みの勾配を決定する決定工程と、
前記決定された勾配のうち少なくとも1つの勾配について、勾配の二次モーメントが前記ニューラルネットワークモデルの計算精度および学習の反復回数に従って決定される制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える勾配の二次モーメントを前記制約閾値範囲内に制約し、該制約された勾配の二次モーメントを用いて重みを更新する更新工程と
を有することを特徴とする学習方法。 - 請求項1に記載の学習方法であって、
前記勾配の二次モーメントが前記制約閾値範囲の上限値よりも大きい場合には前記勾配の二次モーメントを上限値に制約し、
前記勾配の二次モーメントが前記制約閾値範囲の下限値よりも小さい場合には前記勾配の二次モーメントを下限値に制約することを特徴とする学習方法。 - 請求項1に記載の学習方法であって、
前記制約閾値範囲の上限値は、連続する学習において単調に減少し、前記制約閾値範囲の下限値は、連続する学習において単調に増加することを特徴とする学習方法。 - 請求項1に記載の学習方法であって、さらに、
前記ニューラルネットワークモデルにおける各重みの量子化誤差を決定し、最大の量子化誤差を前記ニューラルネットワークモデルの量子化誤差として用いる工程と、
前記ニューラルネットワークモデルの学習の反復回数と量子化誤差とを用いて前記制約閾値範囲を決定する工程と、を有し、ここで、該決定した制約閾値範囲を用いて、少なくとも1つの勾配の二次モーメントを制約することを特徴とする学習方法。 - 請求項1に記載の学習方法であって、さらに、
前記ニューラルネットワークモデルにおける少なくとも1つの重みについて、重みの量子化誤差を決定する工程と、
前記重みの量子化誤差と前記学習の反復回数とを用いて前記制約閾値範囲を決定する工程と、を有し、ここで、該決定された制約閾値範囲は、重みの勾配の二次モーメントを制約するために用いられることを特徴とする学習方法。 - 請求項1に記載の学習方法であって、さらに、
前記ニューラルネットワークモデルにおける少なくとも1つの重みについて、現在の学習において決定された重みの勾配の二次モーメントと、以前の複数の学習における重みの制約された勾配の二次モーメントと、から、重み付けされた最大値を決定する工程と、
前記重み付けされた最大値が前記制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える重み付けされた最大値を前記制約閾値範囲内に制約する工程と、を有することを特徴とする学習方法。 - 請求項6に記載の学習方法であって、前記ニューラルネットワークモデルの計算精度が低いほど、重み付けされた最大値を決定するために必要とされる以前の複数の学習の数が少ないことを特徴とする学習方法。
- ニューラルネットワークモデルの学習システムであって、
第2ニューラルネットワークモデルを同期させるための情報を提供する少なくとも1つの第1ニューラルネットワークモデルを格納するサーバであって、
逆伝播中に前記第1ニューラルネットワークモデルにおける重みの勾配を決定する決定工程と、
前記決定された勾配のうち少なくとも1つの勾配について、勾配の二次モーメントが前記第1ニューラルネットワークモデルの計算精度および学習の反復回数に従って決定される制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える勾配の二次モーメントを前記制約閾値範囲内に制約し、該制約された勾配の二次モーメントを用いて重みを更新する更新工程と、
前記更新された重みを出力する出力工程と、
を実行するために用いられる前記サーバと、
前記第2ニューラルネットワークモデルを格納する端末であって、前記サーバによって出力された重みを用いて前記第2ニューラルネットワークモデルを同期させるために用いられる前記端末と
を有することを特徴とする学習システム。 - 請求項8に記載の学習システムであって、前記サーバは更に、
前記第1ニューラルネットワークモデルにおける各重みの量子化誤差を決定し、最大の量子化誤差を前記第1ニューラルネットワークモデルの量子化誤差として用い、
前記第1ニューラルネットワークモデルの学習の反復回数および量子化誤差を用いて前記制約閾値範囲を決定する、ここで、該決定された制約閾値範囲は少なくとも1つの勾配の二次モーメントを制約するために用いられる
ことを特徴とする学習システム。 - 請求項8に記載の学習システムであって、前記サーバは更に、
前記第1ニューラルネットワークモデルにおける少なくとも1つの重みに対して、重みの量子化誤差を決定し、
前記重みの量子化誤差と前記学習の反復回数とを用いて前記制約閾値範囲を決定する、ここで、該決定された制約閾値範囲は、重みの勾配の二次モーメントを制約するために用いられる
ことを特徴とする学習システム。 - 請求項8に記載の学習システムであって、前記サーバは更に、
前記第1ニューラルネットワークモデルにおける少なくとも1つの重みについて、現在の学習において決定された重みの勾配の二次モーメントと、以前の複数の学習における重みの制約された勾配の二次モーメントと、から、重み付けされた最大値を決定し、
前記重み付けされた最大値が前記制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える重み付けされた最大値を前記制約閾値範囲内に制約する
ことを特徴とする学習システム。 - ニューラルネットワークモデルの学習装置であって、
逆伝播中のニューラルネットワークモデルにおける重みの勾配を決定する決定手段と、
前記決定された勾配のうち少なくとも1つの勾配について、勾配の二次モーメントが前記ニューラルネットワークモデルの計算精度および学習の反復回数に従って決定される制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える勾配の二次モーメントを前記制約閾値範囲内に制約し、該制約された勾配の二次モーメントを用いて重みを更新する更新手段と
を有することを特徴とする学習装置。 - 請求項12に記載の学習装置であって、さらに、
前記ニューラルネットワークモデルにおける各重みの量子化誤差を決定し、最大の量子化誤差を前記ニューラルネットワークモデルの量子化誤差として用いる手段と、
前記ニューラルネットワークモデルの学習の反復回数および量子化誤差を用いて前記制約閾値範囲を決定する手段とを有し、ここで、該決定された制約閾値範囲は少なくとも1つの勾配の二次モーメントを制約するために用いられる
ことを特徴とする学習装置。 - 請求項12に記載の学習装置であって、更に、
前記ニューラルネットワークモデルにおける少なくとも1つの重みに対して、重みの量子化誤差を決定する手段と、
前記重みの量子化誤差と前記学習の反復回数とを用いて前記制約閾値範囲を決定する手段とを備え、ここで、該決定された制約閾値範囲は、重みの勾配の二次モーメントを制約するために用いられる
ために用いられることを特徴とする学習装置。 - 請求項12に記載の学習装置であって、更に、
前記ニューラルネットワークモデルにおける少なくとも1つの重みについて、現在の学習において決定された重みの勾配の二次モーメントと、以前の複数の学習における重みの制約された勾配の二次モーメントと、から、重み付けされた最大値を決定する手段と、
前記重み付けされた最大値が前記制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える重み付けされた最大値を前記制約閾値範囲内に制約する手段と
を有することを特徴とする学習装置。 - 学習されたニューラルネットワークモデルを用いて分類を出力する方法であって、
逆伝播中のニューラルネットワークモデルにおける重みの勾配を決定する決定工程と、
前記決定された勾配のうち少なくとも1つの勾配について、勾配の二次モーメントが前記ニューラルネットワークモデルの計算精度および学習の反復回数に従って決定される制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える勾配の二次モーメントを前記制約閾値範囲内に制約し、該制約された勾配の二次モーメントを用いて重みを更新する更新工程と、
前記ニューラルネットワークモデルによって実行され得るタスクに対応するために必要とされるデータセットを受信する受信工程と、
前記ニューラルネットワークモデルにおいて各層においてデータセットに対する演算を実行して結果を出力する出力工程と
を有することを特徴とする方法。 - 学習されたニューラルネットワークモデルの適用装置であって、
逆伝播中のニューラルネットワークモデルにおける重みの勾配を決定する決定手段と、
前記決定された勾配のうち少なくとも1つの勾配について、勾配の二次モーメントが前記ニューラルネットワークモデルの計算精度および学習の反復回数に従って決定される制約閾値範囲内にあるかどうかを判定し、前記制約閾値範囲を超える勾配の二次モーメントを前記制約閾値範囲内に制約し、該制約された勾配の二次モーメントを用いて重みを更新する更新手段と、
前記ニューラルネットワークモデルによって実行され得るタスクに対応するために必要とされるデータセットを受信する受信手段と、
前記ニューラルネットワークモデルにおいて各層においてデータセットに対する演算を実行して結果を出力する出力手段と
を有することを特徴とする適用装置。 - コンピュータを、請求項1ないし7のいずれか1項に記載の学習方法の各工程を実行させるためのコンピュータプログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910807591.6 | 2019-08-29 | ||
CN201910807591 | 2019-08-29 | ||
CN201911115314.5A CN112446487A (zh) | 2019-08-29 | 2019-11-14 | 神经网络模型的训练和应用方法、装置、系统及存储介质 |
CN201911115314.5 | 2019-11-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021034060A JP2021034060A (ja) | 2021-03-01 |
JP7009020B2 true JP7009020B2 (ja) | 2022-01-25 |
Family
ID=74677497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020144863A Active JP7009020B2 (ja) | 2019-08-29 | 2020-08-28 | 学習方法、学習システム、学習装置、方法、適用装置、及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210065011A1 (ja) |
JP (1) | JP7009020B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125959A1 (en) * | 2019-12-19 | 2020-04-23 | Intel Corporation | Autoencoder Neural Network for Signal Integrity Analysis of Interconnect Systems |
US20210374499A1 (en) * | 2020-05-26 | 2021-12-02 | International Business Machines Corporation | Iterative deep graph learning for graph neural networks |
US11720927B2 (en) * | 2021-01-13 | 2023-08-08 | Samsung Electronics Co., Ltd. | Method and apparatus for generating user-ad matching list for online advertisement |
US11515042B1 (en) * | 2021-10-27 | 2022-11-29 | Kkl Consortium Limited | Method for generating a diagnosis model capable of diagnosing multi-cancer according to stratification information by using biomarker group-related value information, method for diagnosing multi-cancer by using the diagnosis model, and device using the same |
CN114255234B (zh) * | 2022-02-28 | 2022-05-20 | 北京鹰瞳科技发展股份有限公司 | 对基于眼底图像识别心脑血管风险的模型进行训练的方法及其相关产品 |
WO2024172378A1 (ko) * | 2023-02-13 | 2024-08-22 | (주) 애니펜 | 가상 공간 내에서 언어 모델을 관리하기 위한 방법 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019080232A (ja) | 2017-10-26 | 2019-05-23 | 株式会社Preferred Networks | 勾配圧縮装置、勾配圧縮方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367798B2 (en) * | 2012-09-20 | 2016-06-14 | Brain Corporation | Spiking neuron network adaptive control apparatus and methods |
US11216719B2 (en) * | 2017-12-12 | 2022-01-04 | Intel Corporation | Methods and arrangements to quantize a neural network with machine learning |
-
2020
- 2020-08-26 US US17/003,384 patent/US20210065011A1/en active Pending
- 2020-08-28 JP JP2020144863A patent/JP7009020B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019080232A (ja) | 2017-10-26 | 2019-05-23 | 株式会社Preferred Networks | 勾配圧縮装置、勾配圧縮方法及びプログラム |
Non-Patent Citations (3)
Title |
---|
HOU, L., et al.,Analysis of Quantized Models,OpenReview.net (ICLR 2019) [online],2019年02月21日,Retrieved from the Internet <URL: https://openreview.net/forum?id=ryM_IoAqYX> [Retrieved on 2021-08-27] |
LUO, L., et al.,Adaptive Gradient Methods with Dynamic Bound of Learning Rate,arXiv.org [online],arXiv:201902.09843,2019年02月26日,Retrieved from the Internet <URL: https://arxiv.org/abs/1902.09843> [Retrieved on 2021-08-27] |
WU, S., et al.,Training and Inference with Integers in Deep Neural Networks,arXiv.org [online],arXiv:1802.04680,2018年02月13日,Retrieved from the Internet: <URL: https://arxiv.org/abs/1802.04680> [Retrieved on 2021-08-27] |
Also Published As
Publication number | Publication date |
---|---|
US20210065011A1 (en) | 2021-03-04 |
JP2021034060A (ja) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7009020B2 (ja) | 学習方法、学習システム、学習装置、方法、適用装置、及びコンピュータプログラム | |
CN114116198B (zh) | 一种移动车辆的异步联邦学习方法、系统、设备及终端 | |
US20240104378A1 (en) | Dynamic quantization of neural networks | |
US11657254B2 (en) | Computation method and device used in a convolutional neural network | |
US20180350109A1 (en) | Method and device for data quantization | |
KR102336295B1 (ko) | 적응적 프루닝 및 가중치 공유를 사용하는 컨볼루션 신경망 시스템 및 그것의 동작 방법 | |
WO2022194013A1 (en) | System and method for knowledge-preserving neural network pruning | |
CN114787824A (zh) | 联合混合模型 | |
JP2020109647A (ja) | 多層ニューラルネットワークモデルの学習及び適用方法、装置、並びに記憶媒体 | |
WO2020147142A1 (zh) | 一种深度学习模型的训练方法、系统 | |
EP3767549A1 (en) | Delivery of compressed neural networks | |
CN112988275B (zh) | 一种基于任务感知的移动边缘计算多用户计算卸载方法 | |
JP6935868B2 (ja) | 画像認識装置、画像認識方法、およびプログラム | |
CN111406263A (zh) | 神经网络架构搜索的方法与装置 | |
CN112446487A (zh) | 神经网络模型的训练和应用方法、装置、系统及存储介质 | |
CN112561050A (zh) | 一种神经网络模型训练方法及装置 | |
CN116668351A (zh) | 服务质量预测方法、装置、计算机设备及存储介质 | |
CN116258196A (zh) | 对神经网络进行训练的方法及更新神经网络参数的优化器 | |
US20220335655A1 (en) | Substitutional input optimization for adaptive neural image compression with smooth quality control | |
CN115529350A (zh) | 参数优化方法、装置、电子设备和可读存储介质 | |
CN117035045A (zh) | 模型参数更新方法、装置、设备、存储介质和程序产品 | |
KR20200024433A (ko) | 시간 가변적 예측(anytime prediction)을 위한 얇은 하위 네트워크를 활용하는 방법 및 시스템 | |
EP3767548A1 (en) | Delivery of compressed neural networks | |
KR20220010419A (ko) | 동적 예측 신뢰도 임계값 선택에 기반한 저복잡도 인공지능 모델 학습을 위한 전자 장치 및 학습 방법 | |
CN111767204B (zh) | 溢出风险检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200828 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220107 |