CN112257736A - 基于多集群的模型训练系统、方法、设备及存储介质 - Google Patents

基于多集群的模型训练系统、方法、设备及存储介质 Download PDF

Info

Publication number
CN112257736A
CN112257736A CN202010553331.3A CN202010553331A CN112257736A CN 112257736 A CN112257736 A CN 112257736A CN 202010553331 A CN202010553331 A CN 202010553331A CN 112257736 A CN112257736 A CN 112257736A
Authority
CN
China
Prior art keywords
task
cluster
data
model training
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010553331.3A
Other languages
English (en)
Inventor
王序虎
何云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010553331.3A priority Critical patent/CN112257736A/zh
Publication of CN112257736A publication Critical patent/CN112257736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于多集群的模型训练系统、方法、设备及存储介质,通过任务处理单元接收客户端发送的与模型训练相关的数据处理任务,并根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,并将处理结果存储于存储单元中和/或通过任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。

Description

基于多集群的模型训练系统、方法、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于多集群的模型训练系统、方法、设备及存储介质。
背景技术
随着人工智能技术的发展,模型训练任务的需求逐渐提高,模型训练可以通过物理机或集群,其中集群可以通过资源调度为模型训练提供CPU、GPU、存储器等资源,更能提高机器的利用率,所以选择集群进行模型训练是发展的趋势。
目前用作模型训练的集群主要有Yarn(Yet Another Resource Negotiator,另一种资源协调者)集群和Kubernetes(简称K8S,是Google开源的容器编排引擎)集群等,他们各自都能够支持多个引擎的训练任务,单独部署作为训练集群时都能提供稳定的服务支持。在现有的基于集群的训练平台中,用户数据在一个集群或存储器中,只需要使用一个集群,即可满足用户的训练需求,并将结果保存到集群中,便于用户管理,同一个集群中用户数据的读取和保存速度较快,从效率角度考虑,在单一业务中使用一个集群,能解决用户的大多数需求。
但随着服务多元化和训练效率的要求不断提高,单一集群服务已经不能很好的满足用户更多个性化的需求,用户通常会根据业务线的不同,将数据存放到不同的集群或存储资源中,每个集群数据都有其专用业务和特性,有特定的用户群,当用户需要切换集群时,通常需要对不同集群数据进行下载和上传完成数据迁移,对用户设备的存储空间有较大的要求、且效率低下;或者也可由平台管理员操作进行集群之间的数据拷贝,但拷贝的数据存储了多份,造成了存储资源的浪费,且会存在隐私数据的泄露的风险。
发明内容
本发明实施例提供一种基于多集群的模型训练系统、方法、设备及存储介质,以在基于多集群进行模型训练时集群数据能够高效安全共享的问题,提高模型训练的效率。
第一方面,本发明实施例提供一种基于多集群的模型训练系统,包括:客户端、存储单元、至少两个集群、以及每一所述集群对应的任务处理单元;每一所述任务处理单元与其对应的所述集群、所述客户端、以及所述存储单元通信连接;每一所述集群与所述存储单元通信连接;所述集群包括数据处理任务所需资源;
所述客户端用于将数据处理任务发送给所述任务处理单元;其中,所述数据处理任务包括数据获取任务或模型训练任务;
所述任务处理单元用于根据接收到的所述数据处理任务,向其对应的所述集群发送所述数据处理任务的操作指令;
所述集群用于根据所述操作指令对本地存储数据和/或从所述存储单元获取的数据进行数据处理,以获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中和/或通过所述任务处理单元返回给所述客户端;
所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或所述处理结果。
第二方面,本发明实施例提供一种模型训练方法,应用于基于多集群的模型训练系统中每一集群对应的任务处理单元,所述方法包括:
接收与模型训练相关的数据处理任务;其中,所述数据处理任务包括目标数据的获取任务或模型训练任务;
根据所述数据处理任务,向对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中;
其中,所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或处理结果。
第三方面,本发明实施例提供一种任务处理单元,应用于基于多集群的模型训练系统中每一集群对应的任务处理单元,所述任务处理单元包括:
代理模块,用于接收与模型训练相关的数据处理任务;其中,所述数据处理任务包括目标数据的获取任务或模型训练任务;
引擎模块,用于根据所述数据处理任务,向对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中;
其中,所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或处理结果。
第四方面,本发明实施例提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于运行所述存储器中存储的计算机程序以实现如第二方面所述的方法。
第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第二方面所述的方法。
本发明实施例提供的基于多集群的模型训练系统、方法、设备及存储介质,通过任务处理单元接收客户端发送的与模型训练相关的数据处理任务,并根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,并将处理结果存储于存储单元中和/或通过任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明一实施例提供的基于多集群的模型训练系统的架构图;
图2为本发明一实施例提供的模型训练方法的流程图;
图3为本发明另一实施例提供的模型训练方法的流程图;
图4为本发明另一实施例提供的模型训练方法的流程图;
图5为本发明另一实施例提供的模型训练方法的信令图;
图6为本发明一实施例提供的任务处理单元的结构图;
图7为本发明一实施例提供的计算机设备的结构图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
现有技术中,随着服务多元化和训练效率的要求不断提高,单一集群服务表现出了单一集群各自的弊端,例如常用的机器学习框架如Spark等一般都运行在Yarn集群中,而深度学习框架如TensorFlow、Caffe、PyTorch等一般运行在K8S集群中,因此单一集群服务已经不能很好的满足用户更多个性化的需求,例如用户想使用商城中的评论数据做BERT(Bidirectional Encoder Representations from Transformers)模型训练时,BERT模型运行在K8S集群中效率最好,而商城数据存储在数据集市中,需要采用Spark任务进行抽取,虽然K8S集群中也能运行Spark任务,但效率没有在Yarn集群中好,主要是因为Yarn集群更专注于离线作业和资源调度,因此,需要在Yarn集群中进行数据抽取,在K8S集群中进行BERT模型训练,也即需要基于多集群实现模型训练的流程。
现有技术中,用户通常会根据业务线的不同,将数据存放到不同的集群中,例如中间数据或结果数据等,每个集群数据都有其专用业务和特性,有特定的用户群,当用户需要切换集群时,通常需要对不同集群数据进行下载和上传完成数据迁移,尤其是一些用户数据或用户任务使用的原始数据,数据量较大,对用户设备的存储空间有较大的要求、且效率低下;或者也可由平台管理员操作进行集群之间的数据拷贝,但拷贝的数据存储了多份,造成了存储资源的浪费,且会存在隐私数据的泄露的风险。
以上述举例来说,Yarn集群抽取得到的商城中的评论数据存储在Yarn集群的存储资源中,而K8S集群需要使用商城中的评论数据进行BERT模型,可以由用户先将从Yarn集群下载商城中的评论数据,在上传到K8S集群,对用户设备的存储空间有较大的要求、且费时费力、效率低下;而由平台管理员操作将Yarn集群中的商城中的评论数据拷贝到K8S集群中,则商城中的评论数据在Yarn集群和K8S集群中分别存储了一份,造成存储资源的浪费。
为了解决上述问题,本发明实施例中引入了用于存储需要跨集群共享的数据和/或处理结果的存储单元,也即当需要跨集群使用数据时将数据同步于存储单元中,供其他集群使用,例如上述举例中,可以在Yarn集群中进行数据抽取任务,并将抽数结果同步到存储单元中,K8S集群可基于存储单元中的数据进行模型训练,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高效率。
更具体的,本发明实施例提供一种基于多集群的模型训练系统,如图1所示,该基于多集群的模型训练系统包括:客户端110、存储单元120、至少两个集群(以第一集群130、第二集群140两个集群为例)、以及每一集群对应的任务处理单元(第一任务单元150、第二任务单元160);每一任务处理单元与其对应的集群、客户端110、以及存储单元120通信连接;每一集群与存储单元120通信连接;集群包括数据处理任务所需资源。
其中,客户端110用于将数据处理任务发送给任务处理单元;任务处理单元用于根据接收到的所述数据处理任务,向其对应的集群发送所述数据处理任务的操作指令;集群用于根据所述操作指令对本地存储数据或者从存储单元120获取的数据进行数据处理、并将处理结果存储于存储单元120中和/或通过任务处理单元返回给客户端110;存储单元120用于存储所述数据处理任务的需要跨集群共享的数据和/或处理结果。
本实施例中的数据处理任务可不限于数据获取任务、模型训练任务等。客户端110可根据用户指令向所需使用的集群的任务处理单元发送对应的数据处理任务,例如上述举例中,用户需要Yarn集群抽取数据,则通过客户端向Yarn集群的任务处理单元发送数据获取任务,而用户需要K8S集群训练模型,则通过客户端向K8S集群的任务处理单元发送模型训练任务。进而可发挥不同集群的各自的优势。
本实施例中,每一集群单独部署任务处理单元,可便于对系统进行扩展,当系统增加新的集群时,只要进行任务处理单元的部署和配置,即可将新的集群接入到系统中,具有更好的扩展性。
为了清楚的介绍应用该基于多集群的模型训练系统进行模型训练的具体过程,以所述至少两个集群包括第一集群130(可以对应上述举例中的Yarn集群)和第二集群140(可对应上述举例中的K8S集群)为例,第一集群130对应第一任务处理单元150,第二集群140对应第二任务处理单元160,则应用该基于多集群的模型训练系统进行模型训练的具体过程可以为:客户端110将目标数据的获取任务发送给第一任务处理单元150;第一任务处理单元150根据所述获取任务,向第一集群130发送所述获取任务的第一操作指令;第一集群130根据所述第一操作指令获取所述目标数据作为需要跨集群共享的数据,存储于存储单元120;客户端110将模型训练任务发送给第二任务处理单元160;第二任务处理单元160根据所述模型训练任务,向第二集群140发送所述模型训练任务的第二操作指令;第二集群140根据所述第二操作指令从存储单元120获取所述目标数据进行模型训练,并将训练结果存储于存储单元120中和/或通过第二任务处理单元返回给客户端110。
需要说明的是,客户端可以有多个,面向不同的用户,每个客户端均与各任务处理单元相连接,图1中仅以一个客户端为例。
此外,上述第一集群和第二集群在不冲突的情况下可以相互转换,例如对于集群A和集群B,若用户希望通过集群A获取数据,集群B进行模型训练,此时集群A为第一集群,集群B为第二集群;若用户希望通过集群B获取数据,集群A进行模型训练,此时集群B为第一集群,集群A为第二集群。
此外,第一集群也不限于一个,也即模型训练过程所需的数据可以来源不同的集群,例如从集群A1和集群A2获取数据,存储到存储单元中,集群B根据存储单元中集群A1和集群A2的数据进行模型训练;此外模型训练过程中的所需数据也可能存储在第二集群本地,则此部分数据则不需要第二集群从存储单元获取。
可选的,本实施例中的存储单元可以为对象存储(Object Storage Service,OSS)存储单元,是一种面向互联网的分布式存储服务,具有海量、安全、高性能、高可靠性、低成本的特点,可更安全可靠的存储需要跨集群共享的数据和/或处理结果,读写速度快,且利于数据共享,还可避免隐私数据的泄露的风险,保证数据的安全性。当然存储单元也可以为文件存储器,此处不再赘述。
在上述实施例的基础上,所述任务处理单元具体可包括代理子单元(Agent)和引擎子单元(Engine),第一任务处理单元150包括代理子单元151和引擎子单元152,第二任务处理单元160包括代理子单元161和引擎子单元162,代理子单元用于与客户端连接,引擎子单元与对应的集群连接,负责对集群进行操作。
具体的,代理子单元用于接收客户端发送的所述数据处理任务;引擎子单元用于根据所述数据处理任务,获取所述数据处理任务的操作指令,并将所述操作指令发送给其对应的集群。本实施例中,引擎子单元可将数据处理任务封装成集群能够执行的操作指令。
本实施例中,可对代理子单元和引擎子单元预先进行标准化配置。代理子单元在接收到客户端发送的数据处理任务后,可根据标准化配置获取客户端标识、数据集市信息、任务信息;其中客户端标识用于标识客户端(或客户端的应用),为后续接入多个客户端(或多个应用)做准备;数据集市信息是在需要抽取数据时所需的数据集市的相关信息,支持多集市操作;任务信息用于描述任务详情,包括任务类型和任务操作,是否需要数据同步及数据同步信息等。引擎子单元可根据代理子单元的上述信息获取集群的相关信息和操作详情以及操作语句,从而根据预设操作指令获取规则得到集群能够执行的操作指令。
此外,引擎子单元还用于监听集群的任务状态,并通过代理子单元将所述任务状态发送给客户端,以在客户端展示,使得用户了解任务进度,进而在任务完成时进行下一步的操作,例如在数据获取任务完成时继续进行模型训练任务。此外,代理子单元还用于记录所述数据处理任务运行的日志,并发送给客户端,以便于客户端查看日志,了解数据处理任务的具体执行过程。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本发明实施例提供的模型训练方法流程图。本实施例提供了一种模型训练方法,应用于上述的基于多集群的模型训练系统,基于多集群的模型训练系统,包括客户端、存储单元、至少两个集群、以及每一所述集群对应的任务处理单元,执行主体为第一任务处理单元或者第二任务处理单元,该方法具体步骤如下:
S201、所述任务处理单元接收客户端发送的与模型训练相关的数据处理任务。
在本实施例中,客户端可以向任务处理单元发送与模型训练相关的数据处理任务,包括但不限于数据获取任务、模型训练任务等,其中不同的任务可以发送给不同的集群对应的任务处理单元,任务处理单元接收到数据处理任务后可进行后续处理。例如数据获取任务由第一集群执行,则由其对应的第一任务处理单元接收客户端发送的数据获取任务;而模型训练任务由第二集群执行,则由其对应的第二任务处理单元接收客户端发送的模型训练任务。
S202、所述任务处理单元根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从所述存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中和/或通过所述任务处理单元返回给所述客户端。
在本实施例中,任务处理单元根据接收到的数据处理任务,将数据处理任务封装成其对应集群能够执行的操作指令,并发送给该集群,进一步的,该集群在接收到操作指令后则根据操作指令进行对应的数据处理过程,其中所处理的数据来源可以为该集群本地存储数据和/或从存储单元获取的数据,而处理结果可存储于存储单元中供其他集群使用或者供客户端使用,也可直接通过任务处理单元返回给客户端。其中具体的执行任务过程可根据数据处理任务的类型的不同而不同,例如对于数据获取任务,集群可进行目标数据的抽取,而对于模型训练任务,集群可根据本地存储数据和/或从存储单元获取的数据进行模型训练。
本实施例提供的模型训练方法,通过任务处理单元接收客户端发送的与模型训练相关的数据处理任务,并根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,并将处理结果存储于存储单元中和/或通过任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。
下面以第一集群进行数据获取、第二集群进行模型训练为例,对于基于多集群的模型训练系统的数据获取过程和模型训练过程行分别介绍。
图3为本发明实施例提供的模型训练方法流程图。本实施例提供了一种模型训练方法,应用于上述的基于多集群的模型训练系统,执行主体为第一集群对应的第一任务处理单元,该方法具体步骤如下:
S301、所述第一任务处理单元接收客户端发送的目标数据的获取任务。
本实施例中,用户需要预先知道目标数据存储在第一集群或者知道第一集群能够获取目标数据,进而通过客户端向第一集群对应的第一任务处理单元发送目标数据的获取任务。
S302、所述第一任务处理单元根据所述获取任务,向所述第一集群发送所述获取任务的第一操作指令,以使所述第一集群根据所述第一操作指令获取所述目标数据,作为所述需要跨集群共享的数据存储于存储单元,以供所述第二集群从存储单元中获取所述目标数据进行模型训练。
在本实施例中,第一任务处理单元根据接收到的目标数据的获取任务,将获取任务封装成第一集群能够执行的第一操作指令,并发送给第一集群,进一步的,第一集群接收到第一操作指令后获取目标数据,并存储到存储单元中,以供第二集群在进行模型训练时使用。
进一步的,S302所述的第一任务处理单元根据所述获取任务,向所述第一集群发送所述获取任务的第一操作指令,具体可包括:
所述第一任务处理单元根据所述获取任务以及所述第一集群的预设操作指令获取规则,获取所述获取任务的第一操作指令,并将所述第一操作指令发送给所述第一集群。
在本实施例中,可以在第一任务处理单元预先配置操作指令获取规则,也即如何将接收到的任务转换成第一集群能够执行的操作语句的规则,该规则具体可根据第一集群进行配置,此处不再赘述。本实施例中可由第一任务处理单元的代理子单元接收客户端发送的目标数据的获取任务,由引擎子单元根据所述获取任务以及第一集群的预设操作指令获取规则,获取第一集群能够执行的操作语句,并封装成第一操作指令,发送给第一集群。
在上述实施例的基础上,在第一任务处理单元向第一集群发送所述获取任务的第一操作指令后,还可包括:
所述第一任务处理单元获取所述获取任务的任务状态;并将所述任务状态发送给所述客户端,以使所述客户端在确定所述获取任务完成时向所述第二任务处理单元发送模型训练任务。
在本实施例中,第一任务处理单元可监控第一集群执行所述获取任务的任务状态,包括是否正常执行、任务进度等,进而第一任务处理单元可将任务状态发送给客户端,可选的,可以在任务状态异常或者任务执行完毕时将任务状态发送给客户端,也可在客户端向第一任务处理单元发送任务状态查询请求时将任务状态发送给客户端。在获取任务完成时,客户端可以进一步向第二任务处理单元发送模型训练任务,从而启动第二集群的训练过程,其中,客户端向第二任务处理单元发送模型训练任务可由用户触发,也可由客户端在确定获取任务完成时自动触发。在本实施例中,可由第一任务处理单元的引擎子单元从第一集群获取所述获取任务的任务状态,由代理子单元将任务状态发送给客户端。
在上述任一实施例的基础上,所述方法还可包括:
所述第一任务处理单元获取所述目标数据在所述存储单元中的存储位置信息,并将所述存储位置信息发送给所述客户端,以使所述客户端在向所述第二任务处理单元发送模型训练任务时携带所述存储位置信息。
在本实施例中,可以由第一任务处理单元提前指定目标数据在存储单元中的存储位置,使得第一集群将目标数据存储到该存储位置;或者也可在第一集群将目标数据存储到存储单元后在由第一任务处理单元获取目标数据在存储单元中的存储位置。在获取到目标数据在存储单元中的存储位置信息后,将存储位置信息发送给客户端,进而客户端在向第二任务处理单元发送模型训练任务时可在模型训练任务中携带存储位置信息,从而使得第二集群可以根据该存储位置信息从存储单元获取目标数据,进行模型训练。
上述实施例提供的模型训练方法,通过客户端将目标数据的获取任务发送给第一任务处理单元;第一任务处理单元根据所述获取任务,向第一集群发送所述获取任务的第一操作指令;第一集群根据所述第一操作指令获取所述目标数据并存储于存储单元;客户端将模型训练任务发送给第二任务处理单元;第二任务处理单元根据所述模型训练任务,向第二集群发送所述模型训练任务的第二操作指令;第二集群根据所述第二操作指令从存储单元获取所述目标数据进行模型训练,并将训练结果存储于存储单元中和/或通过第二任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。
图4为本发明实施例提供的模型训练方法流程图。本实施例提供了一种模型训练方法,应用于上述的基于多集群的模型训练系统,执行主体为第二集群对应的第二任务处理单元,该方法具体步骤如下:
S401、所述第二任务处理单元接收客户端发送的模型训练任务。
在本实施例中,当第一集群完成目标数据的获取任务,将目标数据存储于存储单元中,此时可开始启动第二集群的模型训练过程,客户端可以向第二任务处理单元发送模型训练任务,从而启动第二集群的训练过程,其中,客户端向第二任务处理单元发送模型训练任务可由用户触发,也可由客户端在确定获取任务完成时自动触发。需要说明的是,模型训练任务中可携带目标数据在存储单元中的存储位置信息,以便于第二集群根据存储位置信息从存储单元中获取目标数据。
S402、所述第二任务处理单元根据所述模型训练任务,向所述第二集群发送所述模型训练任务的第二操作指令,以使所述第二集群根据所述第二操作指令从所述存储单元获取所述目标数据进行模型训练,并将训练结果存储于所述存储单元中和/或通过所述第二任务处理单元返回给所述客户端。
在本实施例中,第二任务处理单元根据接收到模型训练任务,将模型训练任务封装成第二集群能够执行的第二操作指令,并发送给第二集群,进一步的,第二集群接收到第二操作指令后从存储单元获取目标数据进行模型训练,并在完成模型训练后将训练结果存储于存储单元中,用户可从存储单元查看训练结果,当然第二集群也可将训练结果直接通过第二任务处理单元发送给客户端。
本实施例中通过客户端在确定获取任务完成时触发模型训练任务,可避免集群之间的交互、以及任务处理单元之间的交互,可便于基于多集群的模型训练系统的扩展,增加新的集群时不要构建集群之间的通信连接以及任务处理单元之间的通信连接。
进一步的,S402所述的第二任务处理单元根据所述模型训练任务,向所述第二集群发送所述模型训练任务的第二操作指令,具体可包括:
所述第二任务处理单元根据所述模型训练任务以及所述第二集群的预设操作指令获取规则,获取所述模型训练任务的第二操作指令,并将所述第二操作指令发送给所述第二集群。
在本实施例中,可在第二任务处理单元预先配置操作指令获取规则,也即如何将接受到的任务转换成第二集群能够执行的操作语句的规则,该规则具体可根据第二集群进行配置,此处不再赘述。本实施例中可由第二任务处理单元的代理子单元接收客户端发送的模型训练任务,由引擎子单元根据模型训练任务以及第二集群的预设操作指令获取规则,获取第二集群能够执行的操作语句,并封装成第二操作指令,发送给第二集群。
在上述实施例的基础上,在第二任务处理单元向第二集群发送所述模型训练任务的第二操作指令后,还可包括:
所述第二任务处理单元获取所述模型训练任务的任务状态;并将所述任务状态发送给所述客户端,以在所述训练结果存储于所述存储单元中的情况下,使所述客户端在确定所述模型训练任务完成时从所述存储单元中获取所述训练结果。
在本实施例中,第二任务处理单元可监控第二集群执行模型训练任务的任务状态,包括是否正常执行、任务进度等,进而第二任务处理单元可将任务状态发送给客户端,可选的,可以在任务状态异常或者任务执行完毕时将任务状态发送给客户端,也可在客户端向第二任务处理单元发送任务状态查询请求时将任务状态发送给客户端。在本实施例中,可由第二任务处理单元的引擎子单元从第二集群获取所述获取任务的任务状态,由代理子单元将任务状态发送给客户端。
在上述任一实施例的基础上,所述方法还可包括:
所述第二任务处理单元获取所述训练结果在所述存储单元中的存储位置信息,并将所述存储位置信息发送给所述客户端,以使所述客户端根据所述存储位置信息从所述存储单元中获取所述训练结果。
在本实施例中,在第二集群将训练结果存储到存储单元的情况下,可由第二任务处理单元获取训练结果在存储单元中的存储位置信息,并发送给客户端,以便于客户端根据该存储位置信息从存储单元获取或查看训练结果;此外,可以由第二任务处理单元提前指定训练结果在存储单元中的存储位置,使得第二集群将训练结果存储到该位置。
上述实施例提供的模型训练方法,通过客户端将目标数据的获取任务发送给第一任务处理单元;第一任务处理单元根据所述获取任务,向第一集群发送所述获取任务的第一操作指令;第一集群根据所述第一操作指令获取所述目标数据并存储于存储单元;客户端将模型训练任务发送给第二任务处理单元;第二任务处理单元根据所述模型训练任务,向第二集群发送所述模型训练任务的第二操作指令;第二集群根据所述第二操作指令从存储单元获取所述目标数据进行模型训练,并将训练结果存储于存储单元中和/或通过第二任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。
图5为本发明实施例提供的模型训练方法的信令图。本实施例提供了一种模型训练方法,应用于上述的基于多集群的模型训练系统,其中至少两个集群包括第一集群和第二集群,第一集群对应第一任务处理单元,第二集群对应第二任务处理单元,该方法具体步骤如下:
S501、客户端将目标数据的获取任务发送给第一任务处理单元;
S502、第一任务处理单元根据所述获取任务,向第一集群发送所述获取任务的第一操作指令;
S503、第一集群根据所述第一操作指令获取所述目标数据并存储于存储单元;
S504、第一任务处理单元获取所述获取任务的任务状态,并发送给客户端;
S505、客户端在确定所述获取任务完成时向将模型训练任务发送给第二任务处理单元;
S506、第二任务处理单元根据所述模型训练任务,向第二集群发送所述模型训练任务的第二操作指令;
S507、第二集群从存储单元获取所述目标数据;
S508、第二集群根据所述第二操作指令进行模型训练;
S509、第二集群将训练结果存储于存储单元中;
当然S509也可通过第二任务处理单元返回给客户端,此处不再赘述。
S510、第二任务处理单元获取所述模型训练任务的任务状态,并发送给客户端;
S511、客户端在确定所述模型训练任务完成时从存储单元中获取所述训练结果。
本发明实施例提供的模型训练方法的原理和效果可参见上述实施例,此处不再赘述。
图6为本发明实施例提供的任务处理单元的结构图。本实施例提供的任务处理单元为上述实施例中的第一任务处理单元,可以执行第一任务处理单元侧的模型训练方法实施例提供的处理流程,如图6所示,所述任务处理单元600包括:代理模块601和引擎模块602。
代理模块601,用于接收客户端发送的与模型训练相关的数据处理任务;其中,所述数据处理任务包括目标数据的获取任务或模型训练任务;
引擎模块602,用于根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从所述存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中;
其中,所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或处理结果。
在一种可能的设计中,所述模型训练相关的数据处理任务包括目标数据的获取任务;
所述引擎模块602用于:
根据所述获取任务,向其对应的集群发送所述获取任务的第一操作指令,以使所述集群根据所述第一操作指令获取所述目标数据,作为所述需要跨集群共享的数据存储于存储单元,以供其他集群从存储单元中获取所述目标数据进行模型训练。
在一种可能的设计中,所述模型训练相关的数据处理任务包括模型训练任务;
所述引擎模块602用于:
根据所述模型训练任务,向其对应的集群发送所述模型训练任务的第二操作指令,以使所述集群根据所述第二操作指令从所述存储单元获取所述目标数据进行模型训练,并将训练结果存储于所述存储单元中和/或通过所述任务处理单元返回给所述客户端。
在一种可能的设计中,所述引擎模块602在根据所述获取任务,向其对应的集群发送所述获取任务的第一操作指令时,用于:
根据所述获取任务以及其对应的集群的预设操作指令获取规则,获取所述获取任务的第一操作指令,并将所述第一操作指令发送给其对应的集群。
在一种可能的设计中,所述引擎模块602还用于,获取所述获取任务的任务状态;
所述代理模块601还用于,将所述任务状态发送给所述客户端,以使所述客户端在确定所述获取任务完成时向用于训练模型的集群对应的任务处理单元发送模型训练任务。
在一种可能的设计中,所述引擎模块602还用于,获取所述目标数据在所述存储单元中的存储位置信息;
所述代理模块601还用于,将所述存储位置信息发送给所述客户端,以使所述客户端在发送模型训练任务时携带所述存储位置信息。
在一种可能的设计中,所述引擎模块602在根据所述模型训练任务,向其对应的集群发送所述模型训练任务的第二操作指令时,用于:
根据所述模型训练任务以及其对应的集群的预设操作指令获取规则,获取所述模型训练任务的第二操作指令,并将所述第二操作指令发送给其对应的集群。
在一种可能的设计中,所述引擎模块602还用于,获取所述模型训练任务的任务状态;
所述代理模块601还用于,将所述任务状态发送给所述客户端,以在所述训练结果存储于所述存储单元中的情况下,使所述客户端在确定所述模型训练任务完成时从所述存储单元中获取所述训练结果。
在一种可能的设计中,所述引擎模块602还用于,获取所述训练结果在所述存储单元中的存储位置信息;
所述代理模块601还用于,将所述存储位置信息发送给所述客户端,以使所述客户端根据所述存储位置信息从所述存储单元中获取所述训练结果。
本发明实施例提供的任务处理单元可以具体用于执行上述图2-4所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过任务处理单元接收客户端发送的与模型训练相关的数据处理任务,并根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,以使所述集群根据操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,并将处理结果存储于存储单元中和/或通过任务处理单元返回给客户端。通过在基于多集群的模型训练系统中应用存储需要跨集群共享的数据和/或处理结果的存储单元,通过存储单元实现在模型训练过程中多个集群数据共享和同步的问题,避免数据迁移和数据存储备份造成的资源浪费,避免源数据泄露,解决数据量大时同步慢的问题,提高模型训练效率。
图7为本发明实施例提供的计算机设备的结构示意图。本发明实施例提供的计算机设备为上述实施例中的任务处理单元,可以执行第一任务处理单元侧的模型训练方法实施例提供的处理流程,如图7所示,计算机设备70包括存储器71、处理器72、计算机程序和通讯接口73;其中,计算机程序存储在存储器71中,并被配置为由处理器72执行以上实施例所述的第一任务处理单元侧的模型训练方法。
图7所示实施例的计算机设备可用于执行上述模型训练方法实施例的技术方案,包括第一任务处理单元侧的模型训练方法或第一任务处理单元侧的模型训练方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的第一任务处理单元侧的模型训练方法。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的第二任务处理单元侧的模型训练方法。
本申请还提供了一种计算机程序,包括程序代码,当计算机运行所述计算机程序时,所述程序代码执行如上述实施例所述的第一任务处理单元侧的模型训练方法。
本申请还提供了一种计算机程序,包括程序代码,当计算机运行所述计算机程序时,所述程序代码执行如上述实施例所述的第二任务处理单元侧的模型训练方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本发明各个实施例中的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。

Claims (16)

1.一种基于多集群的模型训练系统,其特征在于,包括:客户端、存储单元、至少两个集群、以及每一所述集群对应的任务处理单元;每一所述任务处理单元与其对应的所述集群、所述客户端、以及所述存储单元通信连接;每一所述集群与所述存储单元通信连接;所述集群包括数据处理任务所需资源;
所述客户端用于将数据处理任务发送给所述任务处理单元;其中,所述数据处理任务包括数据获取任务或模型训练任务;
所述任务处理单元用于根据接收到的所述数据处理任务,向其对应的所述集群发送所述数据处理任务的操作指令;
所述集群用于根据所述操作指令对本地存储数据和/或从所述存储单元获取的数据进行数据处理,以获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中和/或通过所述任务处理单元返回给所述客户端;
所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或所述处理结果。
2.根据权利要求1所述的基于多集群的模型训练系统,其特征在于,所述任务处理单元包括代理子单元和引擎子单元;
所述代理子单元用于接收所述客户端发送的所述数据处理任务;
所述引擎子单元用于根据所述数据处理任务,获取所述数据处理任务的操作指令,并将所述操作指令发送给其对应的所述集群。
3.根据权利要求2所述的基于多集群的模型训练系统,其特征在于,
所述引擎子单元还用于监听所述集群的任务状态,并通过所述代理子单元将所述任务状态发送给所述客户端;
所述客户端还用于展示所述任务状态。
4.根据权利要求2或3所述的基于多集群的模型训练系统,其特征在于,
所述代理子单元还用于记录所述数据处理任务运行的日志,并发送给所述客户端;
所述客户端还用于展示所述日志。
5.一种模型训练方法,其特征在于,应用于基于多集群的模型训练系统中每一集群对应的任务处理单元,所述方法包括:
接收与模型训练相关的数据处理任务;其中,所述数据处理任务包括目标数据的获取任务或模型训练任务;
根据所述数据处理任务,向对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中;
其中,所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或所述处理结果。
6.根据权利要求5所述的方法,其特征在于,所述模型训练相关的数据处理任务包括目标数据的获取任务;
所述根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,包括:
根据所述获取任务,向其对应的集群发送所述获取任务的第一操作指令,以使所述集群根据所述第一操作指令获取所述目标数据,作为所述需要跨集群共享的数据存储于所述存储单元,以供其他集群从所述存储单元中获取所述目标数据进行模型训练。
7.根据权利要求5或6所述的方法,其特征在于,所述模型训练相关的数据处理任务包括模型训练任务;
所述根据所述数据处理任务,向其对应的集群发送数据处理任务的操作指令,包括:
根据所述模型训练任务,向其对应的集群发送所述模型训练任务的第二操作指令,以使所述集群根据所述第二操作指令从所述存储单元获取所述目标数据进行模型训练,并将训练结果存储于所述存储单元中和/或通过所述任务处理单元返回给客户端。
8.根据权利要求6所述的方法,其特征在于,所述根据所述获取任务,向其对应的集群发送所述获取任务的第一操作指令,包括:
根据所述获取任务以及其对应的集群的预设操作指令获取规则,获取所述获取任务的第一操作指令,并将所述第一操作指令发送给其对应的集群。
9.根据权利要求6或8所述的方法,其特征在于,所述向其对应的集群发送所述获取任务的第一操作指令后,还包括:
获取所述获取任务的任务状态;
将所述任务状态发送给客户端,以使所述客户端在确定所述获取任务完成时向用于训练模型的集群对应的任务处理单元发送模型训练任务。
10.根据权利要求9所述的方法,其特征在于,还包括:
获取所述目标数据在所述存储单元中的存储位置信息,并将所述存储位置信息发送给所述客户端,以使所述客户端在发送模型训练任务时携带所述存储位置信息。
11.根据权利要求7所述的方法,其特征在于,所述根据所述模型训练任务,向其对应的集群发送所述模型训练任务的第二操作指令,包括:
根据所述模型训练任务以及其对应的集群的预设操作指令获取规则,获取所述模型训练任务的第二操作指令,并将所述第二操作指令发送给其对应的集群。
12.根据权利要求7所述的方法,其特征在于,所述向其对应的集群发送所述模型训练任务的第二操作指令后,还包括:
获取所述模型训练任务的任务状态;
将所述任务状态发送给所述客户端,以在所述训练结果存储于所述存储单元中的情况下,使所述客户端在确定所述模型训练任务完成时从所述存储单元中获取所述训练结果。
13.根据权利要求12所述的方法,其特征在于,还包括:
获取所述训练结果在所述存储单元中的存储位置信息,并将所述存储位置信息发送给所述客户端,以使所述客户端根据所述存储位置信息从所述存储单元中获取所述训练结果。
14.一种任务处理单元,其特征在于,应用于基于多集群的模型训练系统中每一集群对应的任务处理单元,所述任务处理单元包括:
代理模块,用于接收与模型训练相关的数据处理任务;其中,所述数据处理任务包括目标数据的获取任务或模型训练任务;
引擎模块,用于根据所述数据处理任务,向对应的集群发送数据处理任务的操作指令,以使所述集群根据所述操作指令对本地存储数据和/或从存储单元获取的数据进行数据处理,获取所述数据处理任务的需要跨集群共享的数据和/或处理结果,并存储于所述存储单元中;
其中,所述存储单元用于存储所述数据处理任务的需要跨集群共享的数据和/或处理结果。
15.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于运行所述存储器中存储的计算机程序以实现如权利要求5-13中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求5-13中任一项所述的方法。
CN202010553331.3A 2020-06-17 2020-06-17 基于多集群的模型训练系统、方法、设备及存储介质 Pending CN112257736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010553331.3A CN112257736A (zh) 2020-06-17 2020-06-17 基于多集群的模型训练系统、方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010553331.3A CN112257736A (zh) 2020-06-17 2020-06-17 基于多集群的模型训练系统、方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112257736A true CN112257736A (zh) 2021-01-22

Family

ID=74224030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010553331.3A Pending CN112257736A (zh) 2020-06-17 2020-06-17 基于多集群的模型训练系统、方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112257736A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723045A (zh) * 2022-04-06 2022-07-08 北京百度网讯科技有限公司 模型训练方法、装置、系统、设备、介质及程序产品
CN114791856A (zh) * 2022-06-27 2022-07-26 北京瑞莱智慧科技有限公司 基于K8s的分布式训练任务处理方法、相关设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723045A (zh) * 2022-04-06 2022-07-08 北京百度网讯科技有限公司 模型训练方法、装置、系统、设备、介质及程序产品
CN114791856A (zh) * 2022-06-27 2022-07-26 北京瑞莱智慧科技有限公司 基于K8s的分布式训练任务处理方法、相关设备及介质

Similar Documents

Publication Publication Date Title
CN106843828B (zh) 界面显示、加载方法及装置
CN111124277B (zh) 一种深度学习数据集缓存方法、系统、终端及存储介质
CN110752947A (zh) 一种k8s集群部署方法及装置,一种部署平台
CN110083455B (zh) 图计算处理方法、装置、介质及电子设备
CN110247984B (zh) 业务处理方法、装置及存储介质
CN106598692A (zh) 在逻辑卷中创建镜像文件、虚拟机启动方法及服务器
CN110968331B (zh) 应用程序运行的方法和装置
CN110502310B (zh) 一种虚拟机的时间同步方法及装置
JP2022531339A (ja) リソース構成方法、リソース構成装置、コンピューター機器、及びコンピュータープログラム
CN111124286A (zh) 一种基于Libcloud的多云管理实现方法
CN112257736A (zh) 基于多集群的模型训练系统、方法、设备及存储介质
CN114253557B (zh) 一种云平台应用部署方法、装置、电子设备及存储介质
US10795747B2 (en) File synchronizing service status monitoring and error handling
CN112286723A (zh) 机房容灾控制方法、终端及存储介质
CN111124430A (zh) 一种混合架构的微服务部署方法和装置
CN115454636A (zh) 一种容器云平台gpu资源调度方法、装置及应用
CN112527455A (zh) 业务容器的部署方法、计算机设备和存储介质
CN115586935A (zh) 一种数据处理方法、装置、电子设备及介质
CN113467823B (zh) 一种配置信息的获取方法、装置、系统及存储介质
CN111338624A (zh) 一种数据处理方法及相关设备
CN114565502A (zh) Gpu资源管理方法、调度方法、装置、电子设备及存储介质
CN114610446B (zh) 一种自动注入探针的方法、装置及系统
CN109634721B (zh) 一种虚拟机与主机的启动通信方法及相关装置
CN114217927A (zh) 一种线程调用方法、装置、计算机设备及存储介质
CN107332679B (zh) 一种无中心信息同步方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination