JP6788019B2 - 非一貫性確率的勾配降下を使用した深層ニューラルネットワークのトレーニングの高速化 - Google Patents
非一貫性確率的勾配降下を使用した深層ニューラルネットワークのトレーニングの高速化 Download PDFInfo
- Publication number
- JP6788019B2 JP6788019B2 JP2018540057A JP2018540057A JP6788019B2 JP 6788019 B2 JP6788019 B2 JP 6788019B2 JP 2018540057 A JP2018540057 A JP 2018540057A JP 2018540057 A JP2018540057 A JP 2018540057A JP 6788019 B2 JP6788019 B2 JP 6788019B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- batch
- loss
- isgd
- batches
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Description
本出願は、本明細書において詳細に記載されているかのように、参照によって包含される、2016年2月5日に出願された米国特許仮出願第62/291,554号の恩恵を請求する。
関連研究
問題の説明
バッチの勾配の更新の寄与は、不均一である。
非一貫性確率的勾配降下
トレーニングは、ネットワークが収束するまで損失の平均をゆっくりと減少させる確率的プロセスである。
実験
要約
Claims (2)
- 少なくとも1つのコンピューティングデバイスによって、非一貫性確率的勾配降下(ISGD)アルゴリズムでトレーニングデータセットを使用して畳み込みニューラルネットワーク(CNN)をトレーニングすることを含み、
前記ISGDアルゴリズムはトレーニングデータの非一貫性を扱い、
前記トレーニングが、前記ISGDアルゴリズムをある反復回数実行することを含む、方法であって、
前記コンピューティングデバイスが複数のプロセッサを含み、前記方法が、前記少なくとも1つのコンピューティングデバイスによって、前記非一貫性確率的勾配降下アルゴリズムの任意の計算の少なくとも一部を前記複数のプロセッサ上で並列化することをさらに含み、
前記トレーニングデータの非一貫性を扱うことが、
トレーニングデータのバッチを使用して前記CNNがトレーニングされ、損失の決定に基づいて、前記バッチが十分にトレーニングされていない状態または十分にトレーニングされている状態として分類され、
十分にトレーニングされていないとして分類されたバッチが、前記バッチの決定された損失が既定のしきい値を下回るか、または既定の反復回数に達するまで、継続的にトレーニングされ、
前記継続されるトレーニングが、次の問題
- 少なくとも1つのコンピューティングデバイスによって、非一貫性確率的勾配降下(ISGD)アルゴリズムでトレーニングデータセットを使用して畳み込みニューラルネットワーク(CNN)をトレーニングすることを含み、
前記ISGDアルゴリズムはトレーニングデータの非一貫性を扱い、
前記トレーニングが、前記ISGDアルゴリズムをある反復回数実行することを含む、方法であって、
前記コンピューティングデバイスが複数のプロセッサを含み、前記方法が、前記少なくとも1つのコンピューティングデバイスによって、前記非一貫性確率的勾配降下アルゴリズムの任意の計算の少なくとも一部を前記複数のプロセッサ上で並列化することをさらに含み、
前記トレーニングデータの非一貫性を扱うことが:
トレーニングデータのバッチを使用して前記CNNがトレーニングされ、損失の決定に基づいて、前記バッチが十分にトレーニングされていない状態または十分にトレーニングされている状態として分類され、
前記損失が
前記十分にトレーニングされていないバッチにおいて、次の問題
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662291554P | 2016-02-05 | 2016-02-05 | |
US62/291,554 | 2016-02-05 | ||
US15/423,360 | 2017-02-02 | ||
US15/423,360 US10572800B2 (en) | 2016-02-05 | 2017-02-02 | Accelerating deep neural network training with inconsistent stochastic gradient descent |
PCT/US2017/016637 WO2017136802A1 (en) | 2016-02-05 | 2017-02-06 | Accelerating deep neural network training with inconsistent stochastic gradient descent |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019509550A JP2019509550A (ja) | 2019-04-04 |
JP6788019B2 true JP6788019B2 (ja) | 2020-11-18 |
Family
ID=59496441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018540057A Active JP6788019B2 (ja) | 2016-02-05 | 2017-02-06 | 非一貫性確率的勾配降下を使用した深層ニューラルネットワークのトレーニングの高速化 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10572800B2 (ja) |
JP (1) | JP6788019B2 (ja) |
DE (1) | DE112017000670T5 (ja) |
WO (1) | WO2017136802A1 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018451A (ja) * | 2016-07-29 | 2018-02-01 | 富士通株式会社 | 機械学習方法、機械学習プログラム及び情報処理装置 |
US10963783B2 (en) * | 2017-02-19 | 2021-03-30 | Intel Corporation | Technologies for optimized machine learning training |
CN110520871B (zh) * | 2017-02-24 | 2023-11-07 | 渊慧科技有限公司 | 使用学习进度测量训练机器学习模型 |
US11580361B2 (en) * | 2017-04-24 | 2023-02-14 | Intel Corporation | Neural network training mechanism |
CN107316083B (zh) * | 2017-07-04 | 2021-05-25 | 北京百度网讯科技有限公司 | 用于更新深度学习模型的方法和装置 |
WO2019029785A1 (en) * | 2017-08-07 | 2019-02-14 | Renesas Electronics Corporation | MATERIAL CIRCUIT |
JP2019080232A (ja) * | 2017-10-26 | 2019-05-23 | 株式会社Preferred Networks | 勾配圧縮装置、勾配圧縮方法及びプログラム |
EP3616134A1 (en) * | 2017-10-27 | 2020-03-04 | Google LLC | Systems and methods for improved optimization of machine-learned models |
CN107945134B (zh) * | 2017-11-30 | 2020-10-09 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN108171318B (zh) * | 2017-11-30 | 2022-05-27 | 河南大学 | 一种基于模拟退火—高斯函数的卷积神经网络集成方法 |
US20200311604A1 (en) * | 2017-12-22 | 2020-10-01 | Koninklijke Philips N.V. | Accelerated data access for training |
US10878482B2 (en) | 2018-01-19 | 2020-12-29 | Hypernet Labs, Inc. | Decentralized recommendations using distributed average consensus |
US11244243B2 (en) * | 2018-01-19 | 2022-02-08 | Hypernet Labs, Inc. | Coordinated learning using distributed average consensus |
US10884795B2 (en) | 2018-04-26 | 2021-01-05 | International Business Machines Corporation | Dynamic accelerator scheduling and grouping for deep learning jobs in a computing cluster |
US11120333B2 (en) | 2018-04-30 | 2021-09-14 | International Business Machines Corporation | Optimization of model generation in deep learning neural networks using smarter gradient descent calibration |
CN109034373B (zh) * | 2018-07-02 | 2021-12-21 | 鼎视智慧(北京)科技有限公司 | 卷积神经网络的并行处理器及处理方法 |
CN110766152B (zh) * | 2018-07-27 | 2023-08-04 | 富士通株式会社 | 用于训练深度神经网络的方法和装置 |
US11816575B2 (en) | 2018-09-07 | 2023-11-14 | International Business Machines Corporation | Verifiable deep learning training service |
US11853391B1 (en) * | 2018-09-24 | 2023-12-26 | Amazon Technologies, Inc. | Distributed model training |
CN111104767B (zh) * | 2018-10-10 | 2021-10-01 | 北京大学 | 一种针对fpga的变精度随机梯度下降的结构及设计方法 |
JP6946255B2 (ja) * | 2018-11-13 | 2021-10-06 | 株式会社東芝 | 学習装置、推定装置、学習方法およびプログラム |
US11200438B2 (en) * | 2018-12-07 | 2021-12-14 | Dus Operating Inc. | Sequential training method for heterogeneous convolutional neural network |
JP7283065B2 (ja) * | 2018-12-07 | 2023-05-30 | 日本電信電話株式会社 | 推定装置、最適化装置、推定方法、最適化方法、及びプログラム |
EP3894907B1 (en) * | 2018-12-11 | 2024-01-24 | ExxonMobil Technology and Engineering Company | Machine learning-augmented geophysical inversion |
CN109737955A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 一种海浪补偿系统的姿态预测方法 |
CN111598113A (zh) * | 2019-02-20 | 2020-08-28 | 富士通株式会社 | 模型优化方法、数据识别方法和数据识别装置 |
CN109978177B (zh) * | 2019-03-19 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、业务处理方法、装置及相关设备 |
US11093862B2 (en) | 2019-03-21 | 2021-08-17 | International Business Machines Corporation | Locality aware data loading for machine learning |
US10956357B2 (en) | 2019-04-01 | 2021-03-23 | International Business Machines Corporation | Method for flexible, fast all-reduce on arbitrary tree topology |
CN110378480B (zh) * | 2019-06-14 | 2022-09-27 | 平安科技(深圳)有限公司 | 模型训练方法、装置及计算机可读存储介质 |
CN110378307B (zh) * | 2019-07-25 | 2022-05-03 | 广西科技大学 | 基于深度学习的纹理图像方向场估计方法 |
US11227067B2 (en) | 2019-09-19 | 2022-01-18 | Lucinity ehf | Autoencoder-based information content preserving data anonymization method and system |
US12045716B2 (en) * | 2019-09-19 | 2024-07-23 | Lucinity ehf | Federated learning system and method for detecting financial crime behavior across participating entities |
US11640552B2 (en) * | 2019-10-01 | 2023-05-02 | International Business Machines Corporation | Two stage training to obtain a best deep learning model with efficient use of computing resources |
US11640528B2 (en) * | 2019-10-22 | 2023-05-02 | Baidu Usa Llc | Method, electronic device and computer readable medium for information processing for accelerating neural network training |
CN111027668B (zh) * | 2019-12-05 | 2023-04-07 | 深圳牛图科技有限公司 | 一种基于贪婪算法的神经网络自荐方法 |
CN111209815B (zh) * | 2019-12-28 | 2023-08-22 | 杭州电子科技大学 | 一种基于动量优化的bp神经网络的非接触式疲劳驾驶检测方法 |
CN111160531B (zh) * | 2019-12-30 | 2023-09-22 | 北京迈格威科技有限公司 | 神经网络模型的分布式训练方法、装置及电子设备 |
US11410083B2 (en) | 2020-01-07 | 2022-08-09 | International Business Machines Corporation | Determining operating range of hyperparameters |
CN113420874A (zh) * | 2020-04-07 | 2021-09-21 | 阿里巴巴集团控股有限公司 | 分布式训练中梯度同步方法、分布式训练系统 |
CN111507530B (zh) * | 2020-04-17 | 2022-05-31 | 集美大学 | 基于分数阶动量梯度下降的rbf神经网络船舶交通流预测方法 |
US11475304B2 (en) | 2020-05-12 | 2022-10-18 | International Business Machines Corporation | Variational gradient flow |
CN111860585A (zh) * | 2020-06-11 | 2020-10-30 | 南京简凡科技有限公司 | 一种基于超声影像人工智能算法的脂肪肝自动检测方法 |
KR20220033713A (ko) * | 2020-09-10 | 2022-03-17 | 에스케이하이닉스 주식회사 | 데이터 처리 시스템 및 그 동작 방법 |
CN111967035B (zh) * | 2020-10-23 | 2021-04-27 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、装置和电子设备 |
CN113469341A (zh) * | 2021-07-07 | 2021-10-01 | 河海大学 | 一种基于版本差异的流水线并行训练节点权重分配方法 |
CN114117906B (zh) * | 2021-11-19 | 2024-05-10 | 山东大学 | 基于观测数据自编码的多尺度无监督地震波速反演方法 |
CN114724009B (zh) * | 2022-04-26 | 2022-09-27 | 北京拙河科技有限公司 | 一种基于改进的深度学习网络的图像识别方法及装置 |
US11983162B2 (en) | 2022-04-26 | 2024-05-14 | Truist Bank | Change management process for identifying potential regulatory violations for improved processing efficiency |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05159086A (ja) * | 1991-12-03 | 1993-06-25 | Nippon Telegr & Teleph Corp <Ntt> | ニューラルネットワークの学習方式 |
WO2009149126A2 (en) * | 2008-06-02 | 2009-12-10 | New York University | Method, system, and computer-accessible medium for classification of at least one ictal state |
US20140156231A1 (en) * | 2012-11-30 | 2014-06-05 | Xerox Corporation | Probabilistic relational data analysis |
US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US10373047B2 (en) * | 2014-02-28 | 2019-08-06 | Educational Testing Service | Deep convolutional neural networks for automated scoring of constructed responses |
CN113255885A (zh) * | 2014-04-11 | 2021-08-13 | 谷歌有限责任公司 | 使卷积神经网络的训练并行化 |
US10540606B2 (en) | 2014-06-30 | 2020-01-21 | Amazon Technologies, Inc. | Consistent filtering of machine learning data |
US20170213150A1 (en) * | 2016-01-25 | 2017-07-27 | Osaro, Inc. | Reinforcement learning using a partitioned input state space |
-
2017
- 2017-02-02 US US15/423,360 patent/US10572800B2/en active Active
- 2017-02-06 JP JP2018540057A patent/JP6788019B2/ja active Active
- 2017-02-06 DE DE112017000670.8T patent/DE112017000670T5/de active Pending
- 2017-02-06 WO PCT/US2017/016637 patent/WO2017136802A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017136802A1 (en) | 2017-08-10 |
JP2019509550A (ja) | 2019-04-04 |
US20170228645A1 (en) | 2017-08-10 |
US10572800B2 (en) | 2020-02-25 |
DE112017000670T5 (de) | 2018-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6788019B2 (ja) | 非一貫性確率的勾配降下を使用した深層ニューラルネットワークのトレーニングの高速化 | |
Wang et al. | Accelerating deep neural network training with inconsistent stochastic gradient descent | |
Coleman et al. | Analysis of dawnbench, a time-to-accuracy machine learning performance benchmark | |
Addanki et al. | Placeto: Learning generalizable device placement algorithms for distributed machine learning | |
US11651259B2 (en) | Neural architecture search for convolutional neural networks | |
US11531861B2 (en) | Neural architecture search with factorized hierarchical search space | |
Kunin et al. | Neural mechanics: Symmetry and broken conservation laws in deep learning dynamics | |
Herbst et al. | Sequential Monte Carlo sampling for DSGE models | |
US11461637B2 (en) | Real-time resource usage reduction in artificial neural networks | |
CN108170529A (zh) | 一种基于长短期记忆网络的云数据中心负载预测方法 | |
JP6187977B2 (ja) | 解析装置、解析方法及びプログラム | |
Lattuada et al. | Performance prediction of deep learning applications training in GPU as a service systems | |
Li et al. | An experimental study on deep learning based on different hardware configurations | |
Sun et al. | cstuner: Scalable auto-tuning framework for complex stencil computation on gpus | |
Alnowibet et al. | An efficient algorithm for data parallelism based on stochastic optimization | |
US20210312278A1 (en) | Method and apparatus with incremental learning moddel | |
CN117435451A (zh) | 移动边缘计算中虚拟计算单元的功耗和性能模型建立方法 | |
CN107038244A (zh) | 一种数据挖掘方法和装置、一种可读介质和存储控制器 | |
Gu et al. | Parallelizing machine learning optimization algorithms on distributed data-parallel platforms with parameter server | |
WO2022105348A1 (zh) | 神经网络的训练方法和装置 | |
JP2020003860A (ja) | 学習システム、処理装置、処理方法、およびプログラム | |
CN112488319B (zh) | 一种具有自适应配置生成器的调参方法和系统 | |
US11710301B2 (en) | Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof | |
US20210004665A1 (en) | Systems and methods for accelerating sparse neural network execution | |
Wang et al. | Anthropomorphic diagnosis of runtime hidden behaviors in OpenMP multi-threaded applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6788019 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |