JP7454529B2 - 分散型モデルトレーニング装置および方法、電子機器、記憶媒体、ならびに、コンピュータプログラム - Google Patents
分散型モデルトレーニング装置および方法、電子機器、記憶媒体、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP7454529B2 JP7454529B2 JP2021107863A JP2021107863A JP7454529B2 JP 7454529 B2 JP7454529 B2 JP 7454529B2 JP 2021107863 A JP2021107863 A JP 2021107863A JP 2021107863 A JP2021107863 A JP 2021107863A JP 7454529 B2 JP7454529 B2 JP 7454529B2
- Authority
- JP
- Japan
- Prior art keywords
- distributed
- trainer
- parameter
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 166
- 238000000034 method Methods 0.000 title claims description 73
- 238000004590 computer program Methods 0.000 title claims description 12
- 230000008569 process Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/566—Grouping or aggregating service requests, e.g. for unified processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (18)
- それぞれ分散型機能モジュールとして互いに独立した、分散型リーダと、分散型トレーナと、分散型パラメータサーバと、分散型コミュニケータとを含み、
前記分散型リーダのうちのリーダは、トレーニングサンプルを取得し、取得したトレーニングサンプルを前記分散型トレーナのうちの対応するトレーナにロードするように構成されており、
前記分散型トレーナのうちのトレーナは、ロードされたトレーニングサンプルに基づいてモデルをトレーニングし、勾配情報を取得するように構成されており、
前記分散型パラメータサーバのうちのパラメータサーバは、前記分散型トレーナの勾配情報に基づいて初期モデルのパラメータを更新し、トレーニング済みターゲットモデルを取得するように構成され、
前記分散型コミュニケータのうちのコミュニケータは、前記分散型トレーナと前記分散型パラメータサーバとの間に通信可能に接続され、前記分散型トレーナと前記分散型パラメータサーバとの間のパラメータと勾配のデータやりとり、並びに前記トレーナの間のトレーニングサンプルに対するglobal shuffleの方式でのランダム化処理を行うように構成される、
分散型モデルトレーニング装置。 - 前記分散型コミュニケータは、分散型トレーニングに必要な機能のリクエストインターフェースとするようにさらに構成される請求項1に記載の分散型モデルトレーニング装置。
- 前記分散型トレーナのパラメータと勾配の送受信および集約を実行するように構成される分散型パラメータプロセッサをさらに含む、請求項1に記載の分散型モデルトレーニング装置。
- 前記分散型リーダのうちのリーダと前記分散型トレーナのうちの対応するトレーナは、マルチスレッド完全非同期方式でデータやりとりを実行する、
請求項1に記載の分散型モデルトレーニング装置。 - 前記分散型リーダのうちのリーダの各読み出しスレッドは、トレーニングサンプルをそれぞれ取得し、取得したトレーニングサンプルを各読み出しスレッドに1対1対応する情報キューにロードして、このリーダに対応するトレーナの各トレーニングスレッドが対応する情報キューからトレーニングサンプルを取得できるようにする、
請求項4に記載の分散型モデルトレーニング装置。 - 前記初期モデルのパラメータは、所定の方式で目標数量部に分けられ、前記目標数量部は、前記分散型パラメータサーバのうちのパラメータサーバの数を表し、
前記分散型パラメータサーバのうちの各パラメータサーバは、前記目標数量部のパラメータを1数量部ずつ順次格納する、
請求項1に記載の分散型モデルトレーニング装置。 - 前記分散型トレーナのうちのトレーナは、パラメータ識別子に基づいて、このトレーナとのデータやりとりを実行する前記分散型パラメータサーバのうちのターゲットパラメータサーバを確定するようにさらに構成されており、
前記分散型コミュニケータのうちのコミュニケータは、前記分散型トレーナのうちのトレーナとこのトレーナに対応するターゲットパラメータサーバとのデータやりとりを実行するようにさらに構成される、
請求項6に記載の分散型モデルトレーニング装置。 - ユーザとデータやりとりするためのインターフェースを提供するように構成されるリークインターフェースモジュールをさらに含む、
請求項3に記載の分散型モデルトレーニング装置。 - 分散型モデルトレーニング装置によって実行される分散型モデルトレーニング方法であって、前記分散型モデルトレーニング装置は、それぞれ分散型機能モジュールとして互いに独立した、分散型リーダと、分散型トレーナと、分散型パラメータサーバと、分散型コミュニケータとを含み、前記分散型コミュニケータのうちのコミュニケータは、前記分散型トレーナと前記分散型パラメータサーバとの間に通信可能に接続され、
前記分散型モデルトレーニング方法は、
前記分散型リーダのうちのリーダは、トレーニングサンプルを取得し、取得したトレーニングサンプルを前記分散型トレーナのうちの対応するトレーナにロードすることと、
前記分散型トレーナのうちのトレーナは、ロードされたトレーニングサンプルに基づいてモデルをトレーニングし、勾配情報を取得することと、
前記分散型パラメータサーバのうちのパラメータサーバは、前記分散型トレーナの勾配情報に基づいて初期モデルのパラメータを更新し、トレーニング済みターゲットモデルを取得することと、を含み、
前記分散型コミュニケータのうちのコミュニケータによって、前記分散型トレーナと前記分散型パラメータサーバとの間のパラメータと勾配のデータやりとり、並びに前記トレーナの間のトレーニングサンプルに対するglobal shuffleの方式でのランダム化処理を行う、
分散型モデルトレーニング方法。 - 前記分散型トレーナのうちのトレーナのモデルトレーニングプロセス中に分散型トレーニングに必要な機能のリクエストインターフェースを提供すること、をさらに含む、
請求項9に記載の分散型モデルトレーニング方法。 - 前記複数の分散型機能モジュールは分散型パラメータプロセッサをさらに含み、
前記分散型モデルトレーニング方法は、
前記分散型トレーナのうちのトレーナのモデルトレーニングプロセス中に、分散型パラメータプロセッサのうちのパラメータプロセッサを介して、前記分散型トレーナのパラメータと勾配の送受信および集約を実行すること、をさらに含む、
請求項9に記載の分散型モデルトレーニング方法。 - 前記分散型リーダのうちのリーダと前記分散型トレーナのうちの対応するトレーナは、マルチスレッド完全非同期方式でデータやりとりを実行する、
請求項9に記載の分散型モデルトレーニング方法。 - 前記分散型リーダのうちのリーダは、トレーニングサンプルを取得し、取得したトレーニングサンプルを前記分散型トレーナのうちの対応するトレーナにロードすることは、
前記分散型リーダのうちの各リーダについて、このリーダのうちの各読み出しスレッドが、トレーニングサンプルをそれぞれ取得し、取得したトレーニングサンプルを各読み出しスレッドに1対1対応する情報キューにロードして、このリーダに対応するトレーナの各トレーニングスレッドが対応する情報キューからトレーニングサンプルを取得できるようにすることを含む、
請求項12に記載の分散型モデルトレーニング方法。 - 前記初期モデルのパラメータを所定の方式で、前記分散型パラメータサーバのうちのパラメータサーバの数を表す目標数量部に分けることと、
前記分散型パラメータサーバのうちの各パラメータサーバを介して、前記目標数量部のパラメータを1数量部ずつ順次格納することと、をさらに含む、
請求項9に記載の分散型モデルトレーニング方法。 - 前記分散型パラメータサーバのうちのパラメータサーバは、前記分散型トレーナの勾配情報に基づいて初期モデルのパラメータを更新し、トレーニング済みターゲットモデルを取得することは、
前記分散型トレーナのうちの各トレーナについて、パラメータ識別子に基づいて、このトレーナとのデータやりとりを実行する前記分散型パラメータサーバのうちのターゲットパラメータサーバを確定することと、
このトレーナとこのトレーナに対応するターゲットパラメータサーバとの間のデータやりとりによって、トレーニング済みターゲットモデルを取得することと、を含む、
請求項14に記載の分散型モデルトレーニング方法。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項9~15のいずれか一項に記載の分散型モデルトレーニング方法を実行させるようにすることを特徴とする電子機器。 - コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は請求項9~15のいずれか一項に記載の分散型モデルトレーニング方法をコンピュータに実行させるように構成されることを特徴とする、非一時的コンピュータ可読記憶媒体。 - プロセッサによって実行されると、請求項9~15のいずれか一項に記載の分散型モデルトレーニング方法を実行するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502120.3A CN112561079A (zh) | 2020-12-18 | 2020-12-18 | 分布式的模型训练装置、方法及计算机程序产品 |
CN202011502120.3 | 2020-12-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022058328A JP2022058328A (ja) | 2022-04-12 |
JP7454529B2 true JP7454529B2 (ja) | 2024-03-22 |
Family
ID=75063508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021107863A Active JP7454529B2 (ja) | 2020-12-18 | 2021-06-29 | 分散型モデルトレーニング装置および方法、電子機器、記憶媒体、ならびに、コンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210326762A1 (ja) |
EP (1) | EP4016398A1 (ja) |
JP (1) | JP7454529B2 (ja) |
KR (1) | KR20210090122A (ja) |
CN (1) | CN112561079A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884086B (zh) * | 2021-04-06 | 2022-08-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质以及程序产品 |
CN114083770B (zh) * | 2021-10-29 | 2024-03-22 | 北京百度网讯科技有限公司 | 工艺参数调整及模型训练方法、装置、设备与存储介质 |
CN114091589B (zh) * | 2021-11-11 | 2022-08-09 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及介质 |
CN114726861B (zh) * | 2022-04-02 | 2023-07-18 | 中国科学技术大学苏州高等研究院 | 基于空闲服务器的模型聚合加速方法和装置 |
KR20240041716A (ko) * | 2022-09-23 | 2024-04-01 | 삼성전자주식회사 | 모바일 장치 및 그 동작 방법 |
CN115827261B (zh) * | 2023-01-10 | 2023-05-19 | 北京燧原智能科技有限公司 | 基于分布式网络的数据同步方法、装置、服务器及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324690A1 (en) | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
US20180331897A1 (en) | 2016-01-30 | 2018-11-15 | Huawei Technologies Co.,Ltd. | Method and device for training model in distributed system |
US20190325302A1 (en) | 2018-04-23 | 2019-10-24 | EMC IP Holding Company LLC | Implementing parameter server in networking infrastructure for high-performance computing |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034381B (zh) * | 2017-06-09 | 2022-01-28 | 宏达国际电子股份有限公司 | 训练任务优化系统、方法及其非暂态电脑可读媒体 |
CN109754060B (zh) * | 2017-11-06 | 2023-08-25 | 阿里巴巴集团控股有限公司 | 一种神经网络机器学习模型的训练方法及装置 |
CN110414687A (zh) * | 2019-07-12 | 2019-11-05 | 苏州浪潮智能科技有限公司 | 一种用于深度学习框架分布式训练的方法和装置 |
CN110502544A (zh) * | 2019-08-12 | 2019-11-26 | 北京迈格威科技有限公司 | 数据整合方法、分布式计算节点及分布式深度学习训练系统 |
-
2020
- 2020-12-18 CN CN202011502120.3A patent/CN112561079A/zh active Pending
-
2021
- 2021-06-11 EP EP21179147.0A patent/EP4016398A1/en active Pending
- 2021-06-17 US US17/351,194 patent/US20210326762A1/en active Pending
- 2021-06-29 JP JP2021107863A patent/JP7454529B2/ja active Active
- 2021-06-29 KR KR1020210084640A patent/KR20210090122A/ko unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324690A1 (en) | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
US20180331897A1 (en) | 2016-01-30 | 2018-11-15 | Huawei Technologies Co.,Ltd. | Method and device for training model in distributed system |
US20190325302A1 (en) | 2018-04-23 | 2019-10-24 | EMC IP Holding Company LLC | Implementing parameter server in networking infrastructure for high-performance computing |
Also Published As
Publication number | Publication date |
---|---|
CN112561079A (zh) | 2021-03-26 |
EP4016398A1 (en) | 2022-06-22 |
KR20210090122A (ko) | 2021-07-19 |
US20210326762A1 (en) | 2021-10-21 |
JP2022058328A (ja) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7454529B2 (ja) | 分散型モデルトレーニング装置および方法、電子機器、記憶媒体、ならびに、コンピュータプログラム | |
CN112561078B (zh) | 分布式的模型训练方法及相关装置 | |
WO2022206717A1 (zh) | 一种模型训练方法及装置 | |
CN109766319B (zh) | 压缩任务处理方法、装置、存储介质及电子设备 | |
CN113627536B (zh) | 模型训练、视频分类方法,装置,设备以及存储介质 | |
WO2023201981A1 (zh) | 混合专家模型实现方法、系统、电子设备及存储介质 | |
CN113850394B (zh) | 联邦学习方法、装置、电子设备及存储介质 | |
CN113344074B (zh) | 模型训练方法、装置、设备及存储介质 | |
CN112560936A (zh) | 模型并行训练方法、装置、设备、存储介质和程序产品 | |
WO2023165058A1 (zh) | 存储器模型的镜像存储实现方法、装置及存储介质 | |
CN114374703B (zh) | 云手机信息的获取方法、装置、设备以及存储介质 | |
CN113570067B (zh) | 分布式系统的同步方法、装置 | |
CN115688917A (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN113673476A (zh) | 人脸识别模型训练方法、装置、存储介质与电子设备 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
CN115759260B (zh) | 深度学习模型的推理方法、装置、电子设备和存储介质 | |
CN115860114B (zh) | 深度学习模型的训练方法、装置、电子设备及存储介质 | |
CN115660034B (zh) | 分布式模型训练的方法、装置和系统 | |
CN115034198B (zh) | 语言模型中嵌入模块计算优化的方法 | |
CN114816758B (zh) | 资源分配方法和装置 | |
CN116560817B (zh) | 任务执行方法、装置、电子设备和存储介质 | |
CN113032040B (zh) | 用于处理任务的方法、装置、设备、介质和产品 | |
CN113656268B (zh) | 业务服务的性能测试方法、装置、电子设备和存储介质 | |
US20230244974A1 (en) | Quantum state processing method, computing device and storage medium | |
CN108804303B (zh) | 一种提供数据的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230518 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231214 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20231225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7454529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |