JP2023516220A - 深層学習大規模モデル訓練の方法、システム、装置及び媒体 - Google Patents
深層学習大規模モデル訓練の方法、システム、装置及び媒体 Download PDFInfo
- Publication number
- JP2023516220A JP2023516220A JP2022562519A JP2022562519A JP2023516220A JP 2023516220 A JP2023516220 A JP 2023516220A JP 2022562519 A JP2022562519 A JP 2022562519A JP 2022562519 A JP2022562519 A JP 2022562519A JP 2023516220 A JP2023516220 A JP 2023516220A
- Authority
- JP
- Japan
- Prior art keywords
- gpu
- tensors
- topology layer
- tensor
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 37
- 238000012546 transfer Methods 0.000 claims abstract description 20
- 230000001174 ascending effect Effects 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 91
- 230000002547 anomalous effect Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013467 fragmentation Methods 0.000 description 5
- 238000006062 fragmentation reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/509—Offload
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
- Advance Control (AREA)
Abstract
Description
ステップS2:テンソルを配列に従って順次GPUに移送し、現在GPUに移送されたテンソルの総和が閾値を超えるか否かを判定する、
ステップS3:現在GPUに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をCPUに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定する、および、
ステップS4:現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正する。
Claims (10)
- 深層学習大規模モデル訓練の方法であって、各トポロジ層においては、
テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するステップと、
前記テンソルを前記配列に従って順次GPUに移送し、現在GPUに移送されたテンソルの総和が閾値を超えるか否かを判定するステップと、
現在GPUに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をCPUに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するステップと、
現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するステップと、
を実行することを含むことを特徴とする、方法。 - 位置に異常が現れたテンソルを補正するステップは、
GPUに位置的に異常なテンソルが存在するか否かを判定するステップと、
GPUに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、CPUに位置的に異常なテンソルが存在するか否かを判定するステップと、
CPUに位置的に異常なテンソルが存在することに応答して、前記テンソルをGPUに移送するステップと、
を含むことを特徴とする、請求項1に記載の方法。 - GPUに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがGPUのメモリ容量を超えるか否かを判定するステップと、
前記トポロジ層に必要なメモリがGPUのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするステップと、
をさらに含むことを特徴とする、請求項2に記載の方法。 - 前記トポロジ層における演算を再割り当てするステップは、
新たなトポロジ層を作成し、元のトポロジ層におけるGPUのメモリ容量を超える演算と、次のトポロジ層におけるGPUのメモリ容量を超える前記の演算に関連しない演算とを、前記新たなトポロジ層に移送するステップを含むことを特徴とする、請求項3に記載の方法。 - 深層学習大規模モデル訓練のシステムであって、
テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するように構成される順序付けモジュールと、
前記テンソルを前記配列に従って順次GPUに移送し、現在GPUに移送されたテンソルの総和が閾値を超えるか否かを判定するように構成される第1の判定モジュールと、
現在GPUに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をCPUに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するように構成される第2の判定モジュールと、
現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するように構成される補正モジュールと、
を含むことを特徴とする、システム。 - 前記補正モジュールは、
GPUに位置的に異常なテンソルが存在するか否かを判定し、
GPUに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、CPUに位置的に異常なテンソルが存在するか否かを判定し、
CPUに位置的に異常なテンソルが存在することに応答して、前記テンソルをGPUに移送するようにさらに構成されることを特徴とする、請求項5に記載のシステム。 - GPUに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがGPUのメモリ容量を超えるか否かを判定し、
前記トポロジ層に必要なメモリがGPUのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするように構成される第3の判定モジュールをさらに含むことを特徴とする、請求項6に記載のシステム。 - 前記第3の判定モジュールは、
新たなトポロジ層を作成し、元のトポロジ層におけるGPUのメモリ容量を超える演算と、次のトポロジ層におけるGPUのメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移送するようにさらに構成されることを特徴とする、請求項7に記載のシステム。 - 少なくとも1つのプロセッサと、記憶装置とを含むコンピュータ装置であって、
前記記憶装置には、前記プロセッサ上で実行可能なコンピュータ読み取り可能な命令が記憶され、前記命令は、前記プロセッサによって実行されると、請求項1から4のいずれか一項に記載の方法のステップを実施することを特徴とする、装置。 - コンピュータプログラムが記憶されている記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から4のいずれか一項に記載の方法のステップを実施することを特徴とする、記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297962.3A CN111488987B (zh) | 2020-04-16 | 2020-04-16 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN202010297962.3 | 2020-04-16 | ||
PCT/CN2021/073654 WO2021208558A1 (zh) | 2020-04-16 | 2021-01-25 | 一种深度学习大模型训练的方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023516220A true JP2023516220A (ja) | 2023-04-18 |
JP7265099B2 JP7265099B2 (ja) | 2023-04-25 |
Family
ID=71810911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022562519A Active JP7265099B2 (ja) | 2020-04-16 | 2021-01-25 | 深層学習大規模モデル訓練の方法、システム、装置及び媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230146933A1 (ja) |
EP (1) | EP4131081A4 (ja) |
JP (1) | JP7265099B2 (ja) |
KR (1) | KR20230016044A (ja) |
CN (1) | CN111488987B (ja) |
WO (1) | WO2021208558A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488987B (zh) * | 2020-04-16 | 2022-12-06 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN114884908B (zh) * | 2022-04-29 | 2024-02-13 | 浪潮电子信息产业股份有限公司 | 一种数据同步方法、装置、设备及存储介质 |
CN116862019B (zh) * | 2023-07-06 | 2024-03-19 | 清华大学 | 基于数据并行范式的模型训练方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160267380A1 (en) * | 2015-03-13 | 2016-09-15 | Nuance Communications, Inc. | Method and System for Training a Neural Network |
CN105224502A (zh) * | 2015-09-28 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种基于gpu的深度学习方法及系统 |
US10929749B2 (en) * | 2017-04-24 | 2021-02-23 | Intel Corporation | Neural network optimization mechanism |
US11138494B2 (en) * | 2017-05-02 | 2021-10-05 | International Business Machines Corporation | Storage controller acceleration for neural network training and inference |
CN109902818B (zh) * | 2019-01-15 | 2021-05-25 | 中国科学院信息工程研究所 | 一种面向深度学习训练任务的分布式加速方法及系统 |
CN110032449A (zh) * | 2019-04-16 | 2019-07-19 | 苏州浪潮智能科技有限公司 | 一种优化gpu服务器的性能的方法及装置 |
CN110503194B (zh) * | 2019-08-09 | 2022-05-24 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110647999A (zh) * | 2019-08-23 | 2020-01-03 | 苏州浪潮智能科技有限公司 | 一种基于拓扑结构提高深度学习训练速度的方法及装置 |
CN111078395B (zh) * | 2019-11-12 | 2023-06-20 | 华中科技大学 | 一种基于张量的深度学习gpu内存管理优化方法及系统 |
CN110942138B (zh) * | 2019-11-13 | 2022-02-15 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN111488987B (zh) * | 2020-04-16 | 2022-12-06 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
-
2020
- 2020-04-16 CN CN202010297962.3A patent/CN111488987B/zh active Active
-
2021
- 2021-01-25 EP EP21788550.8A patent/EP4131081A4/en active Pending
- 2021-01-25 KR KR1020227037803A patent/KR20230016044A/ko unknown
- 2021-01-25 US US17/919,312 patent/US20230146933A1/en active Pending
- 2021-01-25 WO PCT/CN2021/073654 patent/WO2021208558A1/zh unknown
- 2021-01-25 JP JP2022562519A patent/JP7265099B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和系统 |
Non-Patent Citations (2)
Title |
---|
LE, TUNG D. ET AL.: ""TFLMS: Large Model Support in TensorFlow by Graph Rewriting"", ARXIV [ONLINE], JPN6023009668, October 2019 (2019-10-01), ISSN: 0005013057 * |
MENG, CHEN ET AL.: ""Training Deeper Models by GPU Memory Optimization on TensorFlow"", 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017) [ONLINE], JPN6023009667, 2017, ISSN: 0005013056 * |
Also Published As
Publication number | Publication date |
---|---|
JP7265099B2 (ja) | 2023-04-25 |
CN111488987B (zh) | 2022-12-06 |
EP4131081A1 (en) | 2023-02-08 |
EP4131081A4 (en) | 2023-08-16 |
US20230146933A1 (en) | 2023-05-11 |
WO2021208558A1 (zh) | 2021-10-21 |
CN111488987A (zh) | 2020-08-04 |
KR20230016044A (ko) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7265099B2 (ja) | 深層学習大規模モデル訓練の方法、システム、装置及び媒体 | |
JP7242998B2 (ja) | ニューロモルフィック・アクセラレータ・マルチタスキング | |
WO2018032995A1 (zh) | 一种数据存储、数据校验、数据溯源方法和设备 | |
TWI638311B (zh) | Data processing method and processor | |
US10884939B2 (en) | Cache pre-fetching using cyclic buffer | |
US20180101482A1 (en) | Latency by persisting data relationships in relation to corresponding data in persistent memory | |
CN109643574B (zh) | 用于在完成数据加载操作之前启动预读取操作的方法和设备 | |
WO2019019926A1 (zh) | 系统参数的优化方法、装置及设备、可读介质 | |
US20210034950A1 (en) | Method for implementing neural network model in heterogeneous computing platform and apparatus for performing the same | |
US9507534B2 (en) | Home agent multi-level NVM memory architecture | |
US20240152292A1 (en) | Redundant computing across planes | |
US20170068620A1 (en) | Method and apparatus for preventing bank conflict in memory | |
KR20210103393A (ko) | 낮은-지역성 데이터에서 높은-지역성 데이터로의 변환을 관리하기 위한 시스템 및 방법 | |
WO2016106738A1 (zh) | 事务冲突检测方法、装置及计算机系统 | |
US11403102B2 (en) | Technology to learn and offload common patterns of memory access and computation | |
CN111768195A (zh) | 加速区块链数据的计算的系统 | |
US8381195B2 (en) | Implementing parallel loops with serial semantics | |
CN107832121B (zh) | 一种应用于分布式串行长事务的并发控制方法 | |
WO2024000464A1 (zh) | 一种张量计算的分块策略生成方法及装置 | |
JP5687603B2 (ja) | プログラム変換装置、プログラム変換方法、および変換プログラム | |
US10452546B2 (en) | Cache utility modeling for automated cache configuration | |
US20200311200A1 (en) | Neural networks using data processing units | |
US20240094944A1 (en) | Implementing data flows of an application across a memory hierarchy of a data processing array | |
CN113325999B (zh) | 用于处理非结构化源数据的方法和系统 | |
US20230259298A1 (en) | Method for providing logging for persistent memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221013 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7265099 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |