JP6927375B2 - ディープラーニングタスクの処理方法、装置及びコンピュータ読み取り可能な記憶媒体 - Google Patents
ディープラーニングタスクの処理方法、装置及びコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP6927375B2 JP6927375B2 JP2020113714A JP2020113714A JP6927375B2 JP 6927375 B2 JP6927375 B2 JP 6927375B2 JP 2020113714 A JP2020113714 A JP 2020113714A JP 2020113714 A JP2020113714 A JP 2020113714A JP 6927375 B2 JP6927375 B2 JP 6927375B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- deep learning
- training data
- batch
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45562—Creating, deleting, cloning virtual machine instances
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(外1)
はディープラーニングプラットフォームにおけるノードの残りCPU使用率の平均値を示し、D1は現在ノードが第一中間モデルファイル転送プロセスにおけるCPU使用率を示し、具体的には、当該転送プロセスにおけるCPU使用率の平均値で表すことができ、Niは現在ノードの残りネットワーク帯域幅を示し、Bnextは前記第三転送速度を示す。
Claims (12)
- ディープラーニングタスクに基づき、アプリケーションコンテナエンジン(Docker)の目標コンテナを作成するステップと、
前記目標コンテナにローカルストレージとネットワークストレージ装置をマウントさせるステップと、
前記ディープラーニングタスクのモデルトレーニングを行う時に、モデルトレーニングのデータ量のニーズに応じて、バッチごとに前記ネットワークストレージ装置からトレーニングデータ及び/又は中間モデルファイルを前記ローカルストレージに導入するステップと、
前記トレーニングデータ及び/又は前記中間モデルファイルに基づいてモデルトレーニングを行い、モデルトレーニングプロセスにおいて取得された中間モデルファイルを前記ネットワークストレージ装置に記憶するステップと、を含むことを特徴とするディープラーニングタスクの処理方法。 - 前記ディープラーニングタスクに基づき、アプリケーションコンテナエンジン(Docker)の目標コンテナを作成するステップは、
ディープラーニングプラットフォームを介して、ユーザにより前記ディープラーニングタスクのために設定するリソースのニーズ及びネットワークストレージパスを受信し、該リソースのニーズ及び該ネットワークストレージパスに基づき、前記Dockerの目標コンテナを作成することと、を含み、
前記リソースは、中央処理装置(CPU)リソース、グラフィックスプロセッサリソース、及びストレージリソースを含み、
前記ネットワークストレージパスは、前記トレーニングデータ及び前記中間モデルファイルのネットワークストレージパスを含むことを特徴とする請求項1に記載のディープラーニングタスクの処理方法。 - 前記目標コンテナにローカルストレージとネットワークストレージ装置をマウントさせるステップは、
前記ディープラーニングタスクのリソースのニーズに基づき、ローカルストレージのリソースサイズとバインディングパスを構成することと、
前記ローカルストレージを前記ネットワークストレージパスに関連付けることと、を含むことを特徴とする請求項2に記載のディープラーニングタスクの処理方法。 - 前記バッチごとに前記ネットワークストレージ装置からトレーニングデータ及び/又は中間モデルファイルを前記ローカルストレージに導入するステップは、
モデルトレーニングのデータ量のニーズに応じて、1番目のバッチのトレーニングデータをローカルストレージに導入し、ネットワークストレージ装置に中間モデルファイルが存在する場合、前記中間モデルファイルをローカルストレージに導入することと、
全てのトレーニングデータの導入が完了するまで、各モデルトレーニングプロセスにおいて、ネットワークストレージ装置の残りトレーニングデータから少なくとも一つのバッチのトレーニングデータを導入することと、を含むことを特徴とする請求項1に記載のディープラーニングタスクの処理方法。 - 前記各モデルトレーニングプロセスにおいて、ネットワークストレージ装置の残りトレーニングデータから少なくとも一つのバッチのトレーニングデータを導入するステップは、
1番目のバッチのトレーニングデータの転送時間、1番目のバッチのトレーニングデータの転送プロセスにおけるディスク使用率、及び前回のモデルトレーニングプロセスにおけるディスク使用率に基づき、n番目のバッチのトレーニングデータの計画転送時間を決定することであって、nは1より大きい整数である、ことと、
n番目のバッチのトレーニングデータのデータ量及び前記計画転送時間に基づき、n番目のバッチのトレーニングデータの転送速度を決定することと、
前記転送速度に基づいてn番目のバッチのトレーニングデータを導入することと、を含むことを特徴とする請求項4に記載のディープラーニングタスクの処理方法。 - 前記モデルトレーニングプロセスにおいて取得された中間モデルファイルを前記ネットワークストレージ装置に記憶するステップは、
現在ノードが所在するディープラーニングプラットフォームにおけるノードの残りCPU使用率の平均値と、現在ノードの1番目の中間モデルファイル転送プロセスにおけるCPU使用率との比を計算することであって、前記現在ノードは目標コンテナが所在するノードである、ことと、
前記比と前記1番目の中間モデルファイルの第一転送速度との積を計算して第二転送速度を取得し、前記第二転送速度と現在ノードの残りネットワーク帯域幅とのうちの小さいものに基づいて、現在のM番目の中間モデルファイルの第三転送速度を決定することであって、Mは1より大きい整数である、ことと、
前記第三転送速度に基づき、M番目の中間モデルファイルを前記ネットワークストレージ装置に記憶することと、を含むことを特徴とする請求項1乃至5の何れかに記載のディープラーニングタスクの処理方法。 - 前記ディープラーニングタスクのモデルトレーニングが完了した後、前記目標コンテナをリリースし、前記ローカルストレージ内のデータをクリアすることを特徴とする請求項6に記載のディープラーニングタスクの処理方法。
- ディープラーニングタスクに基づき、アプリケーションコンテナエンジンDockerの目標コンテナを作成するコンテナ作成ユニットと、
前記目標コンテナにローカルストレージとネットワークストレージ装置をマウントさせるストレージマウントユニットと、
前記ディープラーニングタスクのモデルトレーニングを行う時に、モデルトレーニングのデータ量のニーズに応じて、バッチごとに前記ネットワークストレージ装置からトレーニングデータ及び/又は中間モデルファイルを前記ローカルストレージに導入するデータ転送ユニットと、
前記トレーニングデータ及び/又は前記中間モデルファイルに基づいてモデルトレーニングを行い、モデルトレーニングプロセスにおいて取得された中間モデルファイルを前記ネットワークストレージ装置に記憶するモデルトレーニングユニットと、を含むことを特徴とするディープラーニングタスクの処理装置。 - 前記データ転送ユニットは、
モデルトレーニングのデータ量のニーズに応じて、1番目のバッチのトレーニングデータをローカルストレージに導入し、ネットワークストレージ装置に中間モデルファイルが存在する場合、前記中間モデルファイルをローカルストレージに導入し、
全てのトレーニングデータの導入が完了するまで、各モデルトレーニングプロセスにおいて、ネットワークストレージ装置の残りトレーニングデータから少なくとも一つのバッチのトレーニングデータを導入することを特徴とする請求項8に記載のディープラーニングタスクの処理装置。 - 前記データ転送ユニットは、
1番目のバッチのトレーニングデータの転送時間、1番目のバッチのトレーニングデータの転送プロセスにおけるディスク使用率、及び前回のモデルトレーニングプロセスにおけるディスク使用率に基づき、n番目のバッチのトレーニングデータの計画転送時間を決定し、nは1より大きい整数であり、
n番目のバッチのトレーニングデータのデータ量及び前記計画転送時間に基づき、n番目のバッチのトレーニングデータの転送速度を決定し、
前記転送速度に基づいてn番目のバッチのトレーニングデータを導入することを特徴とする請求項9に記載のディープラーニングタスクの処理装置。 - 前記モデルトレーニングユニットは、
現在ノードが所在するディープラーニングプラットフォームにおけるノードの残りCPU使用率の平均値と、現在ノードが1番目の中間モデルファイル転送プロセスにおけるCPU使用率との比を計算し、前記現在ノードは目標コンテナが所在するノードであり、
前記比と前記1番目の中間モデルファイルの第一転送速度との積を計算して第二転送速度を取得し、前記第二転送速度と現在ノードの残りネットワーク帯域幅とのうちの小さいものに基づいて、現在のM番目の中間モデルファイルの第三転送速度を決定し、Mは1より大きい整数であり、
前記第三転送速度に基づき、M番目の中間モデルファイルを前記ネットワークストレージ装置に記憶することを特徴とする請求項8乃至10の何れかに記載のディープラーニングタスクの処理装置。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムがプロセッサに実行された場合、請求項1乃至7の何れかに記載のディープラーニングタスクの処理方法のステップを実現する記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910701940.6A CN112306623B (zh) | 2019-07-31 | 2019-07-31 | 深度学习任务的处理方法、装置及计算机可读存储介质 |
CN201910701940.6 | 2019-07-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021026766A JP2021026766A (ja) | 2021-02-22 |
JP6927375B2 true JP6927375B2 (ja) | 2021-08-25 |
Family
ID=74485870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020113714A Active JP6927375B2 (ja) | 2019-07-31 | 2020-07-01 | ディープラーニングタスクの処理方法、装置及びコンピュータ読み取り可能な記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6927375B2 (ja) |
CN (1) | CN112306623B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742065A (zh) * | 2021-08-07 | 2021-12-03 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于kubernetes容器集群的分布式强化学习方法及装置 |
CN113792885A (zh) * | 2021-08-20 | 2021-12-14 | 山东英信计算机技术有限公司 | 一种深度学习训练的执行方法及相关装置 |
US11853392B2 (en) | 2021-11-30 | 2023-12-26 | International Business Machines Corporation | Providing reduced training data for training a machine learning model |
CN116226652A (zh) * | 2021-12-02 | 2023-06-06 | 华为技术有限公司 | 一种训练加速方法及相关装置 |
CN114706568B (zh) * | 2022-04-22 | 2024-07-05 | 深圳伯德睿捷健康科技有限公司 | 深度学习在线编码方法和系统 |
CN114676795B (zh) * | 2022-05-26 | 2022-08-23 | 鹏城实验室 | 一种深度学习模型的训练方法、装置、设备及存储介质 |
CN116136838B (zh) * | 2023-04-19 | 2023-07-25 | 之江实验室 | 一种深度学习训练数据集快速载入临时缓存方法和装置 |
CN118014098B (zh) * | 2024-02-04 | 2024-09-13 | 贝格迈思(深圳)技术有限公司 | 机器学习训练数据调度方法及设备 |
CN118502681B (zh) * | 2024-07-19 | 2024-10-18 | 之江实验室 | 用于存储数据集的方法、系统及用于训练模型的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6981070B1 (en) * | 2000-07-12 | 2005-12-27 | Shun Hang Luk | Network storage device having solid-state non-volatile memory |
US9037797B2 (en) * | 2011-05-24 | 2015-05-19 | International Business Machines Corporation | Intelligent caching |
US10389809B2 (en) * | 2016-02-29 | 2019-08-20 | Netapp, Inc. | Systems and methods for resource management in a networked environment |
US9967204B2 (en) * | 2016-02-29 | 2018-05-08 | Netapp, Inc. | Resource allocation in networked storage systems |
JP2018018451A (ja) * | 2016-07-29 | 2018-02-01 | 富士通株式会社 | 機械学習方法、機械学習プログラム及び情報処理装置 |
US10860950B2 (en) * | 2016-08-31 | 2020-12-08 | Sas Institute Inc. | Automated computer-based model development, deployment, and management |
US10572773B2 (en) * | 2017-05-05 | 2020-02-25 | Intel Corporation | On the fly deep learning in machine learning for autonomous machines |
US11443226B2 (en) * | 2017-05-17 | 2022-09-13 | International Business Machines Corporation | Training a machine learning model in a distributed privacy-preserving environment |
US10831519B2 (en) * | 2017-11-22 | 2020-11-10 | Amazon Technologies, Inc. | Packaging and deploying algorithms for flexible machine learning |
FR3074939B1 (fr) * | 2017-12-12 | 2020-02-07 | Moore | Procede de gestion du systeme de fichiers d'un terminal informatique |
CN110032449A (zh) * | 2019-04-16 | 2019-07-19 | 苏州浪潮智能科技有限公司 | 一种优化gpu服务器的性能的方法及装置 |
-
2019
- 2019-07-31 CN CN201910701940.6A patent/CN112306623B/zh active Active
-
2020
- 2020-07-01 JP JP2020113714A patent/JP6927375B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN112306623A (zh) | 2021-02-02 |
CN112306623B (zh) | 2024-08-02 |
JP2021026766A (ja) | 2021-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6927375B2 (ja) | ディープラーニングタスクの処理方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
EP2176747B1 (en) | Unified provisioning of physical and virtual disk images | |
US9875204B2 (en) | System and method for providing a processing node with input/output functionality provided by an I/O complex switch | |
US8260841B1 (en) | Executing an out-of-band agent in an in-band process of a host system | |
US7721080B2 (en) | Management of option ROM | |
US9524179B2 (en) | Virtual-machine-deployment-action analysis | |
US20080196043A1 (en) | System and method for host and virtual machine administration | |
US10956170B2 (en) | BIOS setting modification system | |
US20130024494A1 (en) | Methods and systems for platform optimized design | |
US11831410B2 (en) | Intelligent serverless function scaling | |
US8539214B1 (en) | Execution of a program module within both a PEI phase and a DXE phase of an EFI firmware | |
US10346065B2 (en) | Method for performing hot-swap of a storage device in a virtualization environment | |
US10997058B2 (en) | Method for performance analysis in a continuous integration pipeline | |
US20150242152A1 (en) | Raid array transformation in a pooled storage system | |
Clerc et al. | Os streaming deployment | |
CN111310192B (zh) | 数据处理方法、装置、存储介质和处理器 | |
Maenhaut et al. | Efficient resource management in the cloud: From simulation to experimental validation using a low‐cost Raspberry Pi testbed | |
US12118345B2 (en) | Application status reporting via platform binary tables | |
US9836315B1 (en) | De-referenced package execution | |
Russinovich | Inside windows server 2008 kernel changes | |
US11921582B2 (en) | Out of band method to change boot firmware configuration | |
US11789821B1 (en) | Out-of-band method to change boot firmware configuration | |
US20230205671A1 (en) | Multipath diagnostics for kernel crash analysis via smart network interface controller | |
CN117873580A (zh) | 操作系统切换方法、芯片及设备 | |
CN118034746A (zh) | 一种微码更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6927375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |