JP2022042467A - 人工ニューラルネットワークモデル学習方法およびシステム - Google Patents
人工ニューラルネットワークモデル学習方法およびシステム Download PDFInfo
- Publication number
- JP2022042467A JP2022042467A JP2021003948A JP2021003948A JP2022042467A JP 2022042467 A JP2022042467 A JP 2022042467A JP 2021003948 A JP2021003948 A JP 2021003948A JP 2021003948 A JP2021003948 A JP 2021003948A JP 2022042467 A JP2022042467 A JP 2022042467A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- artificial neural
- network model
- value
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 273
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000011478 gradient descent method Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000012546 transfer Methods 0.000 description 11
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 9
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】 人工ニューラルネットワークモデル学習方法は、モーメンタム(momentum)基盤の勾配降下法によってあらかじめ設定されたエポック(epoch)まで第1人工ニューラルネットワークモデルを学習して、エポックでの第1人工ニューラルネットワークモデルのモーメンタム値を決定する段階、決定されたモーメンタム値を第2人工ニューラルネットワークモデルの初期モーメンタム値として設定する段階および初期モーメンタム値に基づいて、学習データを利用して第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階を含み、パラメータは複数の加重値(weight)およびモーメンタムを含む。
【選択図】 図1
Description
120:第1モデル学習部
130:QATモデル
140:第2モデル学習部
150:INT8モデル
200:人工ニューラルネットワークモデル学習システム
210:通信モジュール
220:メモリ
230:プロセッサ
Claims (15)
- 少なくとも一つのプロセッサによって遂行される人工ニューラルネットワークモデル学習方法において、
モーメンタム(momentum)基盤の勾配降下法によってあらかじめ設定されたエポック(epoch)まで第1人工ニューラルネットワークモデルを学習して、前記エポックでの前記第1人工ニューラルネットワークモデルのモーメンタム値を決定する段階;
前記決定されたモーメンタム値を第2人工ニューラルネットワークモデルの初期モーメンタム値として設定する段階;および
前記初期モーメンタム値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階を含み、
前記パラメータ値は複数の加重値(weight)およびモーメンタムを含む、人工ニューラルネットワークモデル学習方法。 - モーメンタム基盤の勾配降下法によって前記あらかじめ設定されたエポックまで第1人工ニューラルネットワークモデルを学習して、前記エポックでの前記第1人工ニューラルネットワークモデルのモーメンタム値を決定する段階は、
最初のエポックまで前記第1人工ニューラルネットワークモデルを学習して、前記最初のエポックでの前記第1人工ニューラルネットワークモデルのモーメンタム値を決定する段階を含む、請求項1に記載の人工ニューラルネットワークモデル学習方法。 - 前記アップデートされた第2人工ニューラルネットワークモデルのパラメータ値を量子化して、第3人工ニューラルネットワークモデルを生成する段階をさらに含む、請求項1または請求項2に記載の人工ニューラルネットワークモデル学習方法。
- 前記第1人工ニューラルネットワークモデルのパラメータ値は第1データ型で表現され、
前記第2人工ニューラルネットワークモデルのパラメータ値は前記第1データ型または第2データ型で表現され、
前記第3人工ニューラルネットワークモデルのパラメータ値は前記第2データ型で表現され、
前記第2データ型のビット数が前記第1データ型のビット数より小さい、請求項3に記載の人工ニューラルネットワークモデル学習方法。 - 前記初期モーメンタム値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階は、
前記第2データ型で表現されたパラメータ値を利用して前記第2人工ニューラルネットワークモデルの順伝播(forward-propagation)学習過程を遂行する段階;および
前記第1データ型で表現されたパラメータ値を利用して前記第2人工ニューラルネットワークモデルの逆伝播(backward-propagation)学習過程を遂行する段階を含む、請求項4に記載の人工ニューラルネットワークモデル学習方法。 - 前記初期モーメンタム値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階は、
前記第2人工ニューラルネットワークモデルの複数の加重値に対するグラジエント(gradient)値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階を含む、請求項1~請求項4のいずれか一項に記載の人工ニューラルネットワークモデル学習方法。 - 前記第2人工ニューラルネットワークモデルの複数の加重値に対するグラジエント値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階は、
前記複数の加重値のうち少なくとも一つの加重値に対するグラジエント値の符号に基づいて現在の学習方向に対応する方向に前記グラジエント値を増幅する段階;および
前記増幅されたグラジエント値に基づいて、前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートする段階を含む、請求項6に記載の人工ニューラルネットワークモデル学習方法。 - 請求項1~請求項7のいずれか一項に記載された人工ニューラルネットワークモデル学習方法をコンピュータで実行するための、コンピュータプログラム。
- 人工ニューラルネットワークモデル学習システムであって、
通信モジュール;
メモリ;および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、
前記少なくとも一つのプログラムは、
モーメンタム基盤の勾配降下法によってあらかじめ設定されたエポックまで第1人工ニューラルネットワークモデルを学習して、前記エポックでの前記第1人工ニューラルネットワークモデルのモーメンタム値を決定し、前記決定されたモーメンタム値を第2人工ニューラルネットワークモデルの初期モーメンタム値として設定し、前記初期モーメンタム値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートするための命令語を含み、
前記パラメータ値は複数の加重値およびモーメンタムを含む、人工ニューラルネットワークモデル学習システム。 - 前記少なくとも一つのプログラムは、
最初のエポックまで前記第1人工ニューラルネットワークモデルを学習して、前記最初のエポックでの前記第1人工ニューラルネットワークモデルのモーメンタム値を決定するための命令語を含む、請求項9に記載の人工ニューラルネットワークモデル学習システム。 - 前記少なくとも一つのプログラムは、
前記アップデートされた第2人工ニューラルネットワークモデルのパラメータ値を量子化して、第3人工ニューラルネットワークモデルを生成するための命令語をさらに含む、請求項9または請求項10に記載の人工ニューラルネットワークモデル学習システム。 - 前記第1人工ニューラルネットワークモデルのパラメータ値は第1データ型で表現され、前記第2人工ニューラルネットワークモデルのパラメータ値は前記第1データ型または第2データ型で表現され、前記第3人工ニューラルネットワークモデルのパラメータ値は前記第2データ型で表現され、前記第2データ型のビット数が前記第1データ型のビット数より小さい、請求項11に記載の人工ニューラルネットワークモデル学習システム。
- 前記少なくとも一つのプログラムは、
前記第2データ型で表現されたパラメータ値を利用して前記第2人工ニューラルネットワークモデルの順伝播学習過程を遂行し、前記第1データ型で表現されたパラメータ値を利用して前記第2人工ニューラルネットワークモデルの逆伝播学習過程を遂行するための命令語を含む、請求項12に記載の人工ニューラルネットワークモデル学習システム。 - 前記少なくとも一つのプログラムは、
前記第2人工ニューラルネットワークモデルの複数の加重値に対するグラジエント値に基づいて、学習データを利用して前記第2人工ニューラルネットワークモデルのパラメータ値をアップデートするための命令語を含む、請求項9~請求項13のいずれか一項に記載の人工ニューラルネットワークモデル学習システム。 - 前記少なくとも一つのプログラムは、
前記複数の加重値のうち少なくとも一つの加重値に対するグラジエント値の符号に基づいて現在の学習方向に対応する方向に前記グラジエント値を増幅するための命令語を含む、請求項14に記載の人工ニューラルネットワークモデル学習システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200111900A KR102505946B1 (ko) | 2020-09-02 | 2020-09-02 | 인공신경망 모델 학습 방법 및 시스템 |
KR10-2020-0111900 | 2020-09-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022042467A true JP2022042467A (ja) | 2022-03-14 |
Family
ID=80629549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021003948A Pending JP2022042467A (ja) | 2020-09-02 | 2021-01-14 | 人工ニューラルネットワークモデル学習方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022042467A (ja) |
KR (1) | KR102505946B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023176817A1 (ja) | 2022-03-17 | 2023-09-21 | 藤森工業株式会社 | 積層フィルムおよび包装体 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240013438A (ko) | 2022-07-22 | 2024-01-30 | 고려대학교 산학협력단 | 예측적 역전파 및 활성화 기록을 기반으로 하는 평생학습 장치 및 방법 |
KR102643259B1 (ko) * | 2022-09-27 | 2024-03-07 | 윤여국 | 원본 데이터 보호를 위한 딥러닝 서비스 제공 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102601604B1 (ko) * | 2017-08-04 | 2023-11-13 | 삼성전자주식회사 | 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치 |
KR102589303B1 (ko) * | 2017-11-02 | 2023-10-24 | 삼성전자주식회사 | 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치 |
KR20200086581A (ko) * | 2019-01-09 | 2020-07-17 | 삼성전자주식회사 | 뉴럴 네트워크 양자화를 위한 방법 및 장치 |
-
2020
- 2020-09-02 KR KR1020200111900A patent/KR102505946B1/ko active IP Right Grant
-
2021
- 2021-01-14 JP JP2021003948A patent/JP2022042467A/ja active Pending
Non-Patent Citations (2)
Title |
---|
JACOB, BENOIT ET AL.: ""Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference" [オン", ARXIV, JPN6022012882, December 2017 (2017-12-01), ISSN: 0004744757 * |
KIM, TAEHOON ET AL.: ""StatAssist & GradBoost A Study on Optimal INT8 Quantization-aware Training from Scratch" [オンライ", ARXIV, JPN6022012881, 17 June 2020 (2020-06-17), ISSN: 0004915730 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023176817A1 (ja) | 2022-03-17 | 2023-09-21 | 藤森工業株式会社 | 積層フィルムおよび包装体 |
Also Published As
Publication number | Publication date |
---|---|
KR20220030108A (ko) | 2022-03-10 |
KR102505946B1 (ko) | 2023-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11928600B2 (en) | Sequence-to-sequence prediction using a neural network model | |
CN107679618B (zh) | 一种静态策略定点化训练方法及装置 | |
CN107688849B (zh) | 一种动态策略定点化训练方法及装置 | |
US11790212B2 (en) | Quantization-aware neural architecture search | |
JP2022042467A (ja) | 人工ニューラルネットワークモデル学習方法およびシステム | |
Sung et al. | Resiliency of deep neural networks under quantization | |
US11604960B2 (en) | Differential bit width neural architecture search | |
KR102410820B1 (ko) | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 | |
CN109785826B (zh) | 用于嵌入式模型的迹范数正则化和更快推理的系统和方法 | |
CN112955907B (zh) | 用于量化训练的长短期记忆神经网络的方法和系统 | |
JP2020009444A (ja) | ニューラルネットワークにおいてパラメータを処理する方法及び装置 | |
US20170061279A1 (en) | Updating an artificial neural network using flexible fixed point representation | |
KR20210009353A (ko) | 뉴럴 네트워크 회로장치, 뉴럴 네트워크 처리 방법 및 뉴럴 네트워크 실행 프로그램 | |
US20210287074A1 (en) | Neural network weight encoding | |
KR20190130443A (ko) | 뉴럴 네트워크의 양자화 방법 및 장치 | |
KR20190134965A (ko) | 뉴럴 네트워크 학습 방법 및 그 시스템 | |
US20230351180A1 (en) | Quantization recognition training method of neural network that supplements limitations of gradient-based learning by adding gradient-indipendent update | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
US20220207358A1 (en) | Model optimization in infrastructure processing unit (ipu) | |
Demidovskij et al. | Effective post-training quantization of neural networks for inference on low power neural accelerator | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
KR20210083624A (ko) | 신경망의 데이터 입력 및 출력을 제어하는 제어 방법 및 장치 | |
KR20220052844A (ko) | 뉴럴 네트워크의 제공 | |
CN114022192A (zh) | 一种基于智能营销场景的数据建模方法及系统 | |
TW202230226A (zh) | 類神經網路的稀疏組平衡式啟動特徵圖 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210202 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210121 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221108 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230116 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230228 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230411 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230817 |