CN113094183A - Ai训练平台的训练任务创建方法、装置、系统及介质 - Google Patents

Ai训练平台的训练任务创建方法、装置、系统及介质 Download PDF

Info

Publication number
CN113094183A
CN113094183A CN202110642460.4A CN202110642460A CN113094183A CN 113094183 A CN113094183 A CN 113094183A CN 202110642460 A CN202110642460 A CN 202110642460A CN 113094183 A CN113094183 A CN 113094183A
Authority
CN
China
Prior art keywords
training
node
data set
storage space
virtual group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110642460.4A
Other languages
English (en)
Other versions
CN113094183B (zh
Inventor
刘慧兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110642460.4A priority Critical patent/CN113094183B/zh
Publication of CN113094183A publication Critical patent/CN113094183A/zh
Application granted granted Critical
Publication of CN113094183B publication Critical patent/CN113094183B/zh
Priority to US18/270,443 priority patent/US20240061712A1/en
Priority to PCT/CN2021/121907 priority patent/WO2022257302A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质,该方法包括:预先将AI平台的各节点划分为多个虚拟组,从各节点中划分出预设配额的磁盘空间构成虚拟组的共享存储空间,接受用户输入的训练任务配置信息,依据训练任务配置信息确定出任务配置条件;判断AI训练平台的各节点中是否存在满足任务配置条件的第一节点,若是,则依据预设筛选方法从各第一节点中选择出目标节点,将对应的训练任务创建至目标节点上,并将从远端数据中心获取的训练数据集缓存至目标节点的独立存储空间中并记录对应的存储路径;本发明能够避免指定节点存储空间不足导致创建任务失败的问题,有利于提高训练任务的创建效率及用户使用体验。

Description

AI训练平台的训练任务创建方法、装置、系统及介质
技术领域
本发明实施例涉及人工智能技术领域,特别是涉及一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质。
背景技术
随着AI(Artificial Intelligence,AI,人工智能)技术的发展,AI技术的应用领域越来越广泛,例如,应用于语音识别领域、机器翻译等模型训练中。
AI训练中会使用大量的数据集文件,AI训练任务通常会对训练数据集进行多个epoch(迭代)训练,且每个epoch都需要完整的数据集,并且在训练任务启动时会将对应的训练数据集从远端中心存储拉取到本地磁盘,而后再进行训练,避免直接访问远端中心存储,造成计算资源的等待。
目前,在创建AI训练任务时,通常创建在用户指定的节点上,但是当用户指定的节点存储空间不足时,就会导致AI训练任务创建失败,还需要用户重新选择指定节点,影响训练任务的创建效率,给用户带来不便。
鉴于此,提供一种解决上述技术问题的AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质,在使用过程中有利于提高训练任务的创建效率及用户使用体验。
为解决上述技术问题,本发明实施例提供了一种AI训练平台的训练任务创建方法,包括:
预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将所述AI训练平台的各个所述节点划分为多个虚拟组;
从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间;其中,每个所述共享存储空间对应一个分布式缓存系统;
接受用户输入的训练任务配置信息,依据所述训练任务配置信息确定出任务配置条件;所述任务配置条件包括训练数据集大小和计算资源数量;
判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点,若是,则依据预设筛选方法从各个所述第一节点中选择出目标节点;
依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上,并
依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
将所述训练数据集缓存至所述目标节点的独立存储空间中,并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径;所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。
可选的,当确定出所述AI训练平台中各个所述节点均不满足所述任务配置条件之后,还包括:
判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组,若存在第一虚拟组,则判断各个所述第一虚拟组中是否存在节点的计算资源满足所述计算资源数量的第二节点;
若存在第二节点,则将与各个所述第二节点分别对应的虚拟组作为第二虚拟组,并从各个第二虚拟组中选择出目标虚拟组;
当所述目标虚拟组中的第二节点为一个时,直接将所述目标虚拟组中的第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中;
当所述目标虚拟组中的第二节点为多个时,将所述目标虚拟组中的各个所述第二节点中剩余的计算资源数量与所述任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。
可选的,所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的过程为:
判断AI训练平台的各个节点中是否存在独立存储空间满足所述训练数据集大小的节点,若存在,则判断各个满足所述训练数据集大小的节点中是否存在计算资源满足所述计算资源数量的第一节点。
可选的,所述依据预设筛选方法从各个所述第一节点中选择出目标节点的过程为:
将各个所述第一节点剩余的独立存储空间与所述训练数据集大小进行比较,选择出剩余的独立存储空间与所述训练数据集大小最接近的第一节点,并将所述第一节点作为目标节点。
可选的,在判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点之前,还包括:
判断所述AI训练平台的各个所述节点的独立存储空间中是否缓存有所述训练数据集,若是,则从缓存有所述训练数据集的各个节点中选择出满足所述计算资源数量的目标节点,并将所述训练任务创建至所述目标节点上;若否,则判断各个所述虚拟组的共享存储空间中是否缓存有所述训练数据集,若有,则判断缓存有所述训练数据集的虚拟组的各个节点是否存在满足所述计算资源数量的节点,若存在,则从各个满足所述计算资源数量的节点中选择出目标节点,并将所述训练任务创建至所述目标节点上;若不存在缓存有所述训练数据集的虚拟组或不存在满足所述计算资源数量的节点,则进入所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的步骤。
可选的,在所述判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组之后,还包括:
若不存在第一虚拟组,则根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间。
可选的,所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间的过程为:
根据所述训练数据集大小重新设置所述预设配额,并根据新的预设配额对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间。
可选的,所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间的过程为:
根据所述训练数据集的大小在所述虚拟组中增设新的节点,并从所述新的节点中划分出所述预设配额的磁盘空间增加至所述虚拟组的共享存储空间中,以更新所述虚拟组的共享存储空间。
本发明实施例还相应的提供了一种AI训练平台的训练任务创建装置,包括:
第一划分模块,用于预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将所述AI训练平台的各个所述节点划分为多个虚拟组;
第二划分模块,用于从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间;其中,每个所述共享存储空间对应一个分布式缓存系统;
接收模块,用于接受用户输入的训练任务配置信息,依据所述训练任务配置信息确定出任务配置条件;所述任务配置条件包括训练数据集大小和计算资源数量;
判断模块,用于判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点,若是,则触发选择模块;
所述选择模块,用于依据预设筛选方法从各个所述第一节点中选择出目标节点;
创建模块,用于依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上,并依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
缓存模块,用于将所述训练数据集缓存至所述目标节点的独立存储空间中,并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径;所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。
本发明实施例还提供了一种AI训练平台的训练任务创建系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述AI训练平台的训练任务创建方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述AI训练平台的训练任务创建方法的步骤。
本发明实施例中提供了一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质,该方法预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将AI训练平台的各个节点划分为多个虚拟组,并从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间,每个共享存储空间对应一个分布式缓存系统,在接收到用户输入的训练任务配置信息后,依据训练任务配置信息确定出任务配置条件,其中,任务配置条件包括训练数据集大小和计算资源数量,然后通过对AI训练平台的各个节点进行判断选择出满足任务配置条件的各个第一节点,然后再根据预设筛选方法从各个第一节点中选择出目标节点,然后将对应的训练任务创建至目标节点上,并依据训练任务配置信息中与训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集,并将训练数据集缓存至目标节点的独立存储空间中,记录训练数据集在目标节点的独立存储空间中的存储路径;本发明在使用过程中能够避免指定节点存储空间不足导致创建任务失败的问题,有利于提高训练任务的创建效率及用户使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种AI训练平台的训练任务创建方法的流程示意图;
图2本发明实施例提供的一种AI训练平台的虚拟组示意图;
图3为本发明实施例提供的一种AI训练平台的训练任务创建装置的结构示意图。
具体实施方式
本发明实施例提供了一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质,在使用过程中有利于提高训练任务的创建效率及用户使用体验。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种AI训练平台的训练任务创建方法的流程示意图。该方法包括:
S110:预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将AI训练平台的各个节点划分为多个虚拟组;
S120:从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间;其中,每个共享存储空间对应一个分布式缓存系统;
需要说明的是,在实际应用中当训练数据集过大时,为了避免单节点存储空间有限,不能够对较大的训练数据集进缓存,只能够在AI训练过程中从远端数据中心拉取数据集文件,导致训练速度过慢的问题,本发明实施例中可以预先对AI平台中的各个节点进行分组,划分为多个虚拟组,并且每个虚拟组有一个共享存储空间,共享存储空间由虚拟组中的各个节点的一部分存储空间构成,每个共享存储空间可以由对应的分布式缓存系统进行管理,其中,当训练数据集过大单节点的存储空间不能够满足其缓存需求时,就可以将选择一个满足要求的虚拟组将该训练数据集缓存至该虚拟组的共享存储空间中。其中,对于每个虚拟组中的各个节点,将节点的一部分磁盘空间组成该虚拟组的共享存储空间,将剩余的磁盘空间作为该节点的独立存储空间。
具体的,可以预先根据节点的交换机信息(或机架信息)、局域网信息、节点总数量以及应用数据集中的一种或多种,将AI训练平台的各个节点划分为多个虚拟组,例如可以将位于同一个局域网、且设置在同一个交换机(或机架)上的各个节点划分为一个虚拟组,还可以根据应用数据集的大小选择出一些节点划分虚拟组。对每个虚拟组中的各个节点均划分出预设配额的磁盘空间作为虚拟组的共享存储空间,其中,具体可以将磁盘空间中的预设比例的空间作为共享存储空间,例如将磁盘空间的50%作为共享存储空间,一个虚拟组的共享存储空间的总配额为该虚拟组中各个节点的配额之和;在确定好每个虚拟组的各个共享存储空间后,还可以为每个共享存储空间分配一个分布式缓存系统,通过各个分布式缓存系统对每个共享存储空间进行管理,如图2所示,其中,AI训练平台上位于机架1上的三个节点分为一组,并且每个节点分别划分出100G、50G和50G的磁盘空间作为共享存储空间1,并通过分布式缓存系统dfs1对共享存储空间1进行管理,位于机架2上的四个节点分为一组,并且每个节点分别划分出100G、50G、50G和100G的磁盘空间作为共享存储空间2,并通过分布式缓存系统dfs2对共享存储空间2进行管理,位于机架3上的两个节点分为一组,并且每个节点分别划分出100G和50G的磁盘空间作为共享存储空间3,并通过分布式缓存系统dfs3对共享存储空间3进行管理。
具体的,可以在采用fuse方式将分布式缓存系统挂载到虚拟组中的每个节点中,并且分布式缓存系统可以通过POSIX的resd接口来访问共享存储空间缓存的数据,无需对底层应用进行修改,即可实现后续的任务训练。
S130:接受用户输入的训练任务配置信息,依据训练任务配置信息确定出任务配置条件;任务配置条件包括训练数据集大小和计算资源数量;
需要说明的是,在实际应用中用户在需要创建AI训练任务时,可以在AI训练平台输入训练任务配置信息,其中,训练任务配置信息可以包括训练数据集信息、计算资源信息、训练脚本、计算框架、训练数据在远端中心的远端存储路径等信息·,训练数据集信息包括训练数据集大小、训练数据名称、训练数据在远端中心的存储位置等,计算资源信息包括cpu计算资源数量和gpu计算资源数量等。本发明可以根据用户输入的训练任务配置信息确定出训练任务配置条件,也即确定出训练数据集大小和计算资源数量。
S140:判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点,若是,则进入S150;
具体的,在确定出任务配置条件后,可以对AI平台中的各个节点进行筛选,具体可以对节点剩余的独立存储空间大小和计算资源大小进行筛选,确定出满足任务配置条件的各个第一节点,也即节点剩余的独立存储空间大小满足训练数据集大小,节点的空闲计算资源大小满足任务所需计算资源数量。
其中,具体可以先判断各个节点剩余的独立存储空间大小是否满足训练数据集大小,若满足,则从剩余的独立存储空间满足训练数据集大小的各个节点中再选择出满足计算资源大小的各个第一节点。
S150:依据预设筛选方法从各个第一节点中选择出目标节点;
具体的,当存在满足任务配置条件的第一节点时,若第一节点为一个则直接将该第一节点作为目标节点;若第一节点为多个,则可以根据最佳适应算法从各个第一节点中选择出目标节点,具体可以根据训练数据集大小,从各个第一节点中选择出节点剩余的独立存储空间与训练数据集大小最接近的第一节点作为目标节点,例如,有三个第一节点,剩余的独立存储空间分别为550M、600M、800M,并且训练数据集大小为500M,则可以将剩余的独立存储空间为550M的第一节点作为目标节点,从而可以使后续当存在更大一点(如580M)的训练数据集时可以选择600M的第一节点,以便对每个节点的存储空间进行利用,有效避免节点存储空间的浪费。
S160:依据训练任务配置信息将对应的训练任务创建至目标节点上,并依据训练任务配置信息中与训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
具体的,在选择出目标节点后,可以根据用户输入的训练任务配置信息将训练任务创建在该目标节点上,然后根据训练数据在远端数据中心存储的远端存储路径,从远端数据中心获取对应的训练数据集。
S170:将训练数据集缓存至目标节点的独立存储空间中,并记录训练数据集在目标节点的独立存储空间中的存储路径;独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。
具体的,在从远端数据中心获取到训练数据集后,可以将该训练数据集缓存至目标节点的独立存储空间中,还可以记录该训练数据集在目标节点上的存储路径,以便进行后续AI任务的训练,其中,位于目标节点独立存储空间中的训练数据集只能够让建立至该节点上的AI训练任务在进行任务训练时使用。本发明可以根据训练任务配置信息从各个节点中自动选择出满足任务配置条件的目标节点进行训练任务的创建和训练数据集的缓存,能够避免指定节点存储空间不足导致创建任务失败的问题,有利于提高训练任务的创建效率。进一步的,上述S140中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的过程,具体可以为:
判断AI训练平台的各个节点中是否存在独立存储空间满足训练数据集大小的节点,若存在,则判断各个满足训练数据集大小的节点中是否存在计算资源满足计算资源数量的第一节点。
具体的,可以先判断各个节点的独立存储空间的剩余存储空间是否满足训练数据集大小的要求,若存在满足的节点,则从这些节点中再进一步判断这些节点中空闲的计算资源是否满足训练任务的计算资源数量的要求,并将空闲的计算资源满足训练任务的计算资源数量要求的节点作为第一节点。
则相应的,上述S150中依据预设筛选方法从各个第一节点中选择出目标节点的过程,具体可以为将各个第一节点剩余的独立存储空间与训练数据集大小进行比较,选择出剩余的独立存储空间与训练数据集大小最接近的第一节点,并将第一节点作为目标节点。
进一步的,当确定出AI训练平台中各个节点均不满足任务配置条件之后,该方法还可以包括:
判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组,若存在第一虚拟组,则判断各个第一虚拟组中是否存在节点的计算资源满足计算资源数量的第二节点;
若存在第二节点,则将与各个第二节点分别对应的虚拟组作为第二虚拟组,并从各个第二虚拟组中选择出目标虚拟组;
当目标虚拟组中的第二节点为一个时,直接将目标虚拟组中的第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中;
当目标虚拟组中的第二节点为多个时,将目标虚拟组中的各个第二节点中剩余的计算资源数量与任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。
也即,在执行S140判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点,并确定出AI训练平台中的各个节点均不满足任务配置条件之后,具体可以在确定出各个节点的独立存储空间的剩余空间不满足训练数据集大小的要求时,即可确定出各个节点均不满足任务配置条件,此时说明训练数据集较大,不能够缓存至节点的独立存储空间上,因此可以进一步判断各个虚拟组中的共享存储空间的剩余空间是否满足该训练数据集大小的要求,若满足则确定出各个第一虚拟组,然后在从各个第一虚拟组中的各个节点中选择出节点的空闲计算资源满足训练任务的计算资源数量的第二节点,并确定出各个第二节点所在的虚拟组,将这些虚拟组确定为第二虚拟组,为了提高共享存储空间的利用率,可以从各个第二虚拟组中选择出目标虚拟组,具体可以将各个第二虚拟组的共享存储空间的剩余空间与训练数据集大小进行比较,并选择出剩余空间与训练数据及大小最接近共享存储空间所对应的第二虚拟组,将该第二虚拟组作为目标虚拟组,并且在目标虚拟组中的第二节点为一个时,将该目标虚拟组中的第二节点作为目标节点,然后将AI训练任务创建在该目标节点上,并通过该目标虚拟组中的分布式缓存系统从远端数据中心获取对应的训练数据集,然后将该训练数据集存储至目标虚拟组中的共享存储空间中;若该目标虚拟组中的第二节点为多个,则可以对目标虚拟组中的各个第二节点中剩余的计算资源数量均与任务配置条件中的计算资源数量(也即训练任务所需的计算资源数量)进行比较,并且将第二节点中剩余的计算资源数量与任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点,然后通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。
还需要说明的是,当各个虚拟组中的共享存储空间的剩余空间均不能够满足训练数据集大小或者各个第二虚拟组中的各个节点均不满足计算资源数量时,返回训练任务创建失败的提醒信息。
具体的,提醒信息可以包括存储空间不足等提示内容。当然,用户还可以输入节点操作指令,然后依据节点操作指令对相应的节点进行管理,其中,包括对节点存储空间中当前缓存的对应数据集进行删除等操作。
另外,在每个AI训练任务创建并训练完成后,还可以将AI训练任务训练时所使用的cpu计算资源和gpu计算资源收回,计入对应节点的闲置计算资源总数中,以便下一次在创建AI训练任务时再选择出对应的节点进行创建。
更进一步的,在上述S140中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点之前,该方法还可以包括:
判断AI训练平台的各个节点的独立存储空间中是否缓存有训练数据集,若是,则从缓存有训练数据集的各个节点中选择出满足计算资源数量的目标节点,并将训练任务创建至目标节点上;若否,则判断各个虚拟组的共享存储空间中是否缓存有训练数据集,若有,则判断缓存有训练数据集的虚拟组的各个节点是否存在满足计算资源数量的节点,若存在,则从各个满足计算资源数量的节点中选择出目标节点,并将训练任务创建至目标节点上;若不存在缓存有训练数据集的虚拟组或不存在满足计算资源数量的节点,则进入判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的步骤。
需要说明的是,接收到用户输入的训练任务配置信息后,并依据训练任务配置信息确定出任务配置条件之后,可以先判断AI训练平台的各个节点的独立存储空间中是否缓存有训练数据集,若存在缓存有训练数据集的节点,然后再判断这些缓存有训练数据集的各个节点中是否存在节点的计算资源满足计算资源数量的目标节点,若有,则直接将训练任务创建在该目标节点上;若AI训练平台的各个节点的独立存储空间均没有缓存有训练数据集,则进一步判断各个虚拟组的共享存储空间中是否缓存有训练数据集,若有,则确定出该虚拟组,然后再判断该虚拟组中的各个节点中是否存在节点的计算资源满足计算资源数量的节点,若有,则可以从这些节点中选择出一个节点作为目标节点,具体可以选择节点剩余的计算资源数量与训练任务所需的计算节点数量最接近的一个节点作为目标节点,然后将训练任务创建在该节点上,以便将使用同一个训练数据集的训练任务创建在同一个虚拟组中,同时可以避免同一个训练数据集多次缓存导致存储资源的浪费。
还需要说明的是,若用户输入的训练任务配置信息中包括配置更新指令,则说明远端数据中心中所存储的训练数据集为更新后的,当前节点中或共享存储空间中缓存的训练数据集为更新之前的,因此还可以在创建好训练任务后,还可以从远端数据中心存储的数据集为基础对缓存的训练数据集进行增量更新,然后还可以预先建立数据集的关系表,其中包括数据集名称、存储位置、大小、路径等信息,然后在基于更新后的训练数据集对关系表进行更新,之后在基于更新后的训练数据集进行后续的任务训练。
另外,若各个虚拟组中不存在缓存有训练数据集的虚拟组或缓存有训练数据集的虚拟组中不存在满足计算资源数量的节点,则进入S130中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的步骤,以便选择出目标节点后创建训练任务,并从远端数据中心获取及缓存训练数据集。
进一步的,在上述判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组之后,该方法还可以包括:
若不存在第一虚拟组,则根据训练数据集大小对虚拟组的共享存储空间进行重新配置,以更新虚拟组的共享存储空间。
需要说明的是,在确定出AI训练平台中的各个节点均不满足任务配置条件、且各个虚拟组中的共享存储空间均不满足训练数据集大小时,则本发明实施例中还可以根据训练数据集的大小对虚拟组的共享存储空间进行动态调节,也即对虚拟组的共享存储空间进行重新配置,以使重新配置后的共享存储空间满足训练数据大小,其中,具体可以对存在节点的计算资源满足资源数量的虚拟组的共享存储空间进行配置,若存在节点的计算资源满足资源数量的虚拟组为多个,则可以对一个也可以对多个虚拟组的共享存储空间进行重新配置,具体可以根据实际需要进行确定。
当然,在对虚拟组的共享存储空间进行重新配置后,还可以返回执行判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组的步骤,以便重新找出满足共享存储空间要求的第一虚拟组,并进行后续的AI训练任务的创建。
更进一步的,根据训练数据集大小对虚拟组的共享存储空间进行重新配置,以更新虚拟组的共享存储空间的过程,具体可以为:
根据训练数据集大小重新设置预设配额,并根据新的预设配额对虚拟组的共享存储空间进行重新配置,以更新虚拟组的共享存储空间。
可以理解的是,在对虚拟组的共享存储空间进行重新配置时,可以通过对节点的预设配额进行重新设置,也即设置新的预设配额,并根据该新的预设配额对虚拟组中的每个节点的磁盘空间进行划分,从而使各个节点中构成共享存储空间的磁盘空间按照新的预设配额增加,进一步增加虚拟组共享存储空间的大小,以便能够成功创建AI训练任务。
另外,上述根据训练数据集大小对虚拟组的共享存储空间进行重新配置,以更新虚拟组的共享存储空间的过程,具体还可以为:
根据训练数据集的大小在虚拟组中增设新的节点,并从新的节点中划分出预设配额的磁盘空间增加至虚拟组的共享存储空间中,以更新虚拟组的共享存储空间。
需要说明的是,除了采用上述方法对虚拟组的共享存储空间进行重新配置之外,还可以在虚拟组中增设新的节点,以便在将该新的节点的预设配额的磁盘空间并入至虚拟组中的共享存储空间后,虚拟组的共享存储空间能够满足训练数据大小的要求。
当然,在实际应用中还可以对整个AI平台的各个节点执行重新划分虚拟组的步骤,
还需要说明的是,在实际应用中可以通过修改dfs配置文件来对虚拟组的共享存储空间进行重新配置,并且在配置完成后还可以通过重启dfs的master节点,重新加载训练任务配置信息并进行具体的AI训练任务建立的过程。
另外,本发明实施例中将AI平台中的节点划分为多个虚拟组,还能够提高计算资源的利用率。例如,目前现有技术中AI平台节点通常配置为多个GPU卡,例如4个或8个,那么在创建AI训练任务时,若用户指定的节点的存储空间不足,该节点计算资源存的在剩余,但由于节点存储空间不足因此无法在该节点上创建AI训练任务,那么该节点上剩余的计算资源将无法被利用,导致该节点上GPU等昂贵资源的浪费,本发明实施例中将AI平台中的节点划分为多个虚拟组,并且每个虚拟组存在一个共享存储空间,则可以通过满足训练数据集大小的第一虚拟组的共享存储空间来缓存训练数据集,并且将该训练任务创建在该第一虚拟组中计算资源满足需求的第二节点上,从而提高计算资源的利用率。
可见,该方法在接收到用户输入的训练任务配置信息后,依据训练任务配置信息确定出任务配置条件,其中,任务配置条件包括训练数据集大小和计算资源数量,然后通过对AI训练平台的各个节点进行判断选择出满足任务配置条件的各个第一节点,然后再根据预设筛选方法从各个第一节点中选择出目标节点,然后将对应的训练任务创建至目标节点上,并从远端数据中心获取对应的训练数据集缓存至目标节点的存储空间中;本发明在使用过程中能够避免指定节点存储空间不足导致创建任务失败的问题,有利于提高训练任务的创建效率及用户使用体验。
在上述实施例的基础上,本发明实施例还相应的提供了一种AI训练平台的训练任务创建装置,具体请参照图3。该装置包括:
第一划分模块21,用于预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将AI训练平台的各个节点划分为多个虚拟组;
第二划分模块22,用于从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间;其中,每个共享存储空间对应一个分布式缓存系统;
接收模块23,用于接受用户输入的训练任务配置信息,依据训练任务配置信息确定出任务配置条件;任务配置条件包括训练数据集大小和计算资源数量;
判断模块24,用于判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点,若是,则触发选择模块25;
选择模块25,用于依据预设筛选方法从各个第一节点中选择出目标节点;
创建模块26,用于依据训练任务配置信息将对应的训练任务创建至目标节点上,并依据训练任务配置信息中与训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
缓存模块27,用于将训练数据集缓存至目标节点的独立存储空间中,并记录训练数据集在目标节点的独立存储空间中的存储路径;独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。
需要说明的是,本发明实施例提供的AI训练平台的训练任务创建装置具有与上述实施例中提供的AI训练平台的训练任务创建方法相同的有益效果,并且对于本发明实施例中所涉及到的AI训练平台的训练任务创建方法的具体介绍,请参照上述实施例,本申请在此不再赘述。
在上述实施例的基础上,本发明实施例还提供了一种AI训练平台的训练任务创建系统,该系统包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述AI训练平台的训练任务创建方法的步骤。
例如,本实施例中的处理器具体用于实现预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将AI训练平台的各个节点划分为多个虚拟组;从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间;其中,每个共享存储空间对应一个分布式缓存系统;接受用户输入的训练任务配置信息,依据训练任务配置信息确定出任务配置条件;任务配置条件包括训练数据集大小和计算资源数量;判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点,若是,则依据预设筛选方法从各个第一节点中选择出目标节点;依据训练任务配置信息将对应的训练任务创建至目标节点上,并依据训练任务配置信息中与训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;将训练数据集缓存至目标节点的独立存储空间中,并记录训练数据集在目标节点的独立存储空间中的存储路径;独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。
在上述实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述AI训练平台的训练任务创建方法的步骤。
其中,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种AI训练平台的训练任务创建方法,其特征在于,包括:
预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将所述AI训练平台的各个所述节点划分为多个虚拟组;
从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间;其中,每个所述共享存储空间对应一个分布式缓存系统;
接受用户输入的训练任务配置信息,依据所述训练任务配置信息确定出任务配置条件;所述任务配置条件包括训练数据集大小和计算资源数量;
判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点,若是,则依据预设筛选方法从各个所述第一节点中选择出目标节点;
依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上,并依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
将所述训练数据集缓存至所述目标节点的独立存储空间中,并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径;所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。
2.根据权利要求1所述的AI训练平台的训练任务创建方法,其特征在于,当确定出所述AI训练平台中各个所述节点均不满足所述任务配置条件之后,还包括:
判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组,若存在第一虚拟组,则判断各个所述第一虚拟组中是否存在节点的计算资源满足所述计算资源数量的第二节点;
若存在第二节点,则将与各个所述第二节点分别对应的虚拟组作为第二虚拟组,并从各个第二虚拟组中选择出目标虚拟组;
当所述目标虚拟组中的第二节点为一个时,直接将所述目标虚拟组中的第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中;
当所述目标虚拟组中的第二节点为多个时,将所述目标虚拟组中的各个所述第二节点中剩余的计算资源数量与所述任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点,并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。
3.根据权利要求1所述的AI训练平台的训练任务创建方法,其特征在于,所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的过程为:
判断AI训练平台的各个节点中是否存在独立存储空间满足所述训练数据集大小的节点,若存在,则判断各个满足所述训练数据集大小的节点中是否存在计算资源满足所述计算资源数量的第一节点。
4.根据权利要求3所述的AI训练平台的训练任务创建方法,其特征在于,所述依据预设筛选方法从各个所述第一节点中选择出目标节点的过程为:
将各个所述第一节点剩余的独立存储空间与所述训练数据集大小进行比较,选择出剩余的独立存储空间与所述训练数据集大小最接近的第一节点,并将所述第一节点作为目标节点。
5.根据权利要求1所述的AI训练平台的训练任务创建方法,其特征在于,在判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点之前,还包括:
判断所述AI训练平台的各个所述节点的独立存储空间中是否缓存有所述训练数据集,若是,则从缓存有所述训练数据集的各个节点中选择出满足所述计算资源数量的目标节点,并将所述训练任务创建至所述目标节点上;若否,则判断各个所述虚拟组的共享存储空间中是否缓存有所述训练数据集,若有,则判断缓存有所述训练数据集的虚拟组的各个节点是否存在满足所述计算资源数量的节点,若存在,则从各个满足所述计算资源数量的节点中选择出目标节点,并将所述训练任务创建至所述目标节点上;若不存在缓存有所述训练数据集的虚拟组或不存在满足所述计算资源数量的节点,则进入所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的步骤。
6.根据权利要求2所述的AI训练平台的训练任务创建方法,其特征在于,在所述判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组之后,还包括:
若不存在第一虚拟组,则根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间。
7.根据权利要求6所述的AI训练平台的训练任务创建方法,其特征在于,所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间的过程为:
根据所述训练数据集大小重新设置所述预设配额,并根据新的预设配额对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间。
8.根据权利要求6所述的AI训练平台的训练任务创建方法,其特征在于,所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置,以更新所述虚拟组的共享存储空间的过程为:
根据所述训练数据集的大小在所述虚拟组中增设新的节点,并从所述新的节点中划分出所述预设配额的磁盘空间增加至所述虚拟组的共享存储空间中,以更新所述虚拟组的共享存储空间。
9.一种AI训练平台的训练任务创建装置,其特征在于,包括:
第一划分模块,用于预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种,将所述AI训练平台的各个所述节点划分为多个虚拟组;
第二划分模块,用于从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间;其中,每个所述共享存储空间对应一个分布式缓存系统;
接收模块,用于接受用户输入的训练任务配置信息,依据所述训练任务配置信息确定出任务配置条件;所述任务配置条件包括训练数据集大小和计算资源数量;
判断模块,用于判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点,若是,则触发选择模块;
所述选择模块,用于依据预设筛选方法从各个所述第一节点中选择出目标节点;
创建模块,用于依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上,并依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径,从远端数据中心获取对应的训练数据集;
缓存模块,用于将所述训练数据集缓存至所述目标节点的独立存储空间中,并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径;所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。
10.一种AI训练平台的训练任务创建系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述AI训练平台的训练任务创建方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述AI训练平台的训练任务创建方法的步骤。
CN202110642460.4A 2021-06-09 2021-06-09 Ai训练平台的训练任务创建方法、装置、系统及介质 Active CN113094183B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110642460.4A CN113094183B (zh) 2021-06-09 2021-06-09 Ai训练平台的训练任务创建方法、装置、系统及介质
US18/270,443 US20240061712A1 (en) 2021-06-09 2021-09-29 Method, apparatus, and system for creating training task on ai training platform, and medium
PCT/CN2021/121907 WO2022257302A1 (zh) 2021-06-09 2021-09-29 Ai训练平台的训练任务创建方法、装置、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642460.4A CN113094183B (zh) 2021-06-09 2021-06-09 Ai训练平台的训练任务创建方法、装置、系统及介质

Publications (2)

Publication Number Publication Date
CN113094183A true CN113094183A (zh) 2021-07-09
CN113094183B CN113094183B (zh) 2021-09-17

Family

ID=76665913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642460.4A Active CN113094183B (zh) 2021-06-09 2021-06-09 Ai训练平台的训练任务创建方法、装置、系统及介质

Country Status (3)

Country Link
US (1) US20240061712A1 (zh)
CN (1) CN113094183B (zh)
WO (1) WO2022257302A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257302A1 (zh) * 2021-06-09 2022-12-15 苏州浪潮智能科技有限公司 Ai训练平台的训练任务创建方法、装置、系统及介质
WO2023050704A1 (zh) * 2021-09-30 2023-04-06 苏州浪潮智能科技有限公司 一种ai集群中数据缓存方法、系统、设备及计算机介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195997B (zh) * 2023-11-06 2024-03-01 之江实验室 一种模型训练方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580503A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种高效动态负载均衡的处理大规模数据的系统及方法
CN107423301A (zh) * 2016-05-24 2017-12-01 华为技术有限公司 一种数据处理的方法、相关设备及存储系统
CN111630487A (zh) * 2017-12-22 2020-09-04 阿里巴巴集团控股有限公司 用于神经网络处理的共享存储器的集中式-分布式混合组织
US20200294525A1 (en) * 2019-03-15 2020-09-17 International Business Machines Corporation Generating visual closed caption for sign language
CN112202837A (zh) * 2020-09-04 2021-01-08 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI592805B (zh) * 2010-10-01 2017-07-21 傅冠彰 網路儲存與計算資源分享系統與方法
CN110618870B (zh) * 2019-09-20 2021-11-19 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN112862098A (zh) * 2021-02-10 2021-05-28 杭州幻方人工智能基础研究有限公司 一种集群训练任务处理的方法及系统
CN113094183B (zh) * 2021-06-09 2021-09-17 苏州浪潮智能科技有限公司 Ai训练平台的训练任务创建方法、装置、系统及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580503A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种高效动态负载均衡的处理大规模数据的系统及方法
CN107423301A (zh) * 2016-05-24 2017-12-01 华为技术有限公司 一种数据处理的方法、相关设备及存储系统
CN111630487A (zh) * 2017-12-22 2020-09-04 阿里巴巴集团控股有限公司 用于神经网络处理的共享存储器的集中式-分布式混合组织
US20200294525A1 (en) * 2019-03-15 2020-09-17 International Business Machines Corporation Generating visual closed caption for sign language
CN112202837A (zh) * 2020-09-04 2021-01-08 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN PINTO等: "HOARD: A DISTRIBUTED DATA CACHING SYSTEM TO ACCELERATE DEEP LEARNING TRAINING ON THE CLOUD", 《HTTPS://ARXIV.ORG/PDF/1812.00669.PDF》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257302A1 (zh) * 2021-06-09 2022-12-15 苏州浪潮智能科技有限公司 Ai训练平台的训练任务创建方法、装置、系统及介质
WO2023050704A1 (zh) * 2021-09-30 2023-04-06 苏州浪潮智能科技有限公司 一种ai集群中数据缓存方法、系统、设备及计算机介质

Also Published As

Publication number Publication date
US20240061712A1 (en) 2024-02-22
CN113094183B (zh) 2021-09-17
WO2022257302A1 (zh) 2022-12-15

Similar Documents

Publication Publication Date Title
CN113094183B (zh) Ai训练平台的训练任务创建方法、装置、系统及介质
US8583756B2 (en) Dynamic configuration and self-tuning of inter-nodal communication resources in a database management system
CN110096336B (zh) 数据监控方法、装置、设备和介质
CN111061432B (zh) 一种业务迁移方法、装置、设备及可读存储介质
CN109104336A (zh) 服务请求处理方法、装置、计算机设备及存储介质
US20200042392A1 (en) Implementing Affinity And Anti-Affinity Constraints In A Bundled Application
CN109460345B (zh) 实时数据的计算方法及系统
CN111143039A (zh) 一种虚拟机的调度方法、装置及计算机存储介质
CN111694517A (zh) 分布式数据迁移方法、系统和电子设备
US8443369B1 (en) Method and system for dynamically selecting a best resource from each resource collection based on resources dependencies, prior selections and statistics to implement an allocation policy
CN107181773A (zh) 分布式存储系统的数据存储及数据管理方法、设备
CN113805816A (zh) 一种磁盘空间管理方法、装置、设备及存储介质
CN109788013B (zh) 分布式系统中作业资源分配方法、装置及设备
CN112000971B (zh) 一种文件权限记录方法、系统及相关装置
CN113012336A (zh) 银行业务的排队预约方法及其装置、存储介质和设备
CN112486664A (zh) 一种节点扩容方法、系统、终端及存储介质
CN111143027A (zh) 一种云平台管理方法、系统、设备及计算机可读存储介质
CN107145303B (zh) 一种用于在分布式存储系统中执行文件写入的方法与设备
CN111600771B (zh) 网络资源探测系统、方法
CN113271323B (zh) 集群扩容方法、装置和存储介质
CN111506254B (zh) 分布式存储系统及其管理方法、装置
CN114020214A (zh) 存储集群的扩容方法、装置、电子设备及可读存储介质
CN109040214B (zh) 一种云环境下可靠性增强的服务部署方法
CN115827745A (zh) 内存数据库集群的实现方法、装置及内存数据库集群
CN112579303A (zh) 一种深度学习开发平台资源的分配方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant