CN111625420B - 一种分布式训练任务处理方法、装置、设备及存储介质 - Google Patents

一种分布式训练任务处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111625420B
CN111625420B CN202010437089.3A CN202010437089A CN111625420B CN 111625420 B CN111625420 B CN 111625420B CN 202010437089 A CN202010437089 A CN 202010437089A CN 111625420 B CN111625420 B CN 111625420B
Authority
CN
China
Prior art keywords
distributed training
state
training task
server
operating environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010437089.3A
Other languages
English (en)
Other versions
CN111625420A (zh
Inventor
王文潇
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202010437089.3A priority Critical patent/CN111625420B/zh
Publication of CN111625420A publication Critical patent/CN111625420A/zh
Application granted granted Critical
Publication of CN111625420B publication Critical patent/CN111625420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种分布式训练任务处理方法、装置、设备及计算机可读存储介质,方法包括:创建分布式训练任务的运行环境,将分布式训练分布放入运行环境,并将运行环境调度到服务器上;监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错;创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。本申请公开的上述技术方案,通过状态为正常的服务器使得状态为需要容错的目标分布式训练任务能够保持训练,从而降低服务器异常对分布式训练任务的影响。

Description

一种分布式训练任务处理方法、装置、设备及存储介质
技术领域
本申请涉及训练任务处理技术领域,更具体地说,涉及一种分布式训练任务处理方法、装置、设备及计算机可读存储介质。
背景技术
目前,一些比较复杂的分布式训练任务需要借助高性能的服务器进行训练,其耗时比较长(一般训练时间长达十几天甚至数月)。如果由于某些原因导致用于进行分布式训练任务训练的服务器出现宕机、重启或者网络不通等异常情况,则会导致分布式训练任务发生中断而无法进行训练。
综上所述,如何降低服务器异常对分布式训练任务的训练所带来的影响,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种分布式训练任务处理方法、装置、设备及计算机可读存储介质,用于降低服务器异常对分布式训练任务的训练所带来的影响。
为了实现上述目的,本申请提供如下技术方案:
一种分布式训练任务处理方法,包括:
创建分布式训练任务的运行环境,将所述分布式训练任务放入所述运行环境,并将所述运行环境调度到服务器上;
监测所述运行环境的状态及所述服务器的状态,若所述运行环境的状态及所述服务器的状态均为不正常,则将所述分布式训练任务的状态设置为需要容错;
创建新运行环境,将状态为需要容错的目标分布式训练任务放入所述新运行环境,并将所述新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对所述目标分布式训练任务进行训练。
优选的,在将所述新运行环境调度到状态为正常的服务器上之后,还包括:
将所述目标分布式训练任务的容错次数加1;其中,每个所述目标分布式训练任务的初始容错次数均为0;
相应地,在创建新运行环境之前,还包括:
判断所述目标分布式训练任务的容错次数是否小于容错阈值,若是,则执行所述创建新运行环境的步骤,若否,则终止所述目标分布式训练任务并发出处理异常的通知。
优选的,在终止所述目标分布式训练任务之后,还包括:
若接收到所述目标分布式训练任务,则记录所述目标分布式训练任务在接收后的新容错次数;
判断所述新容错次数是否小于新容错阈值;其中,所述新容错阈值小于所述目标分布式训练任务对应的容错阈值;
若是,则执行所述创建新运行环境的步骤;若否,则终止所述目标分布式训练任务并发出处理异常的通知,且将所述目标分布式训练任务的状态设置为不可容错。
优选的,若所述运行环境的状态及所述服务器的状态均为不正常,还包括:
记录所述服务器的不正常次数;
相应地,将所述新运行环境调度到状态为正常的服务器上,包括:
获取状态为正常的服务器的不正常次数,并将所述新运行环境调度到不正常次数最小的服务器上
优选的,创建分布式训练任务的运行环境,包括:
通过kubernetes创建所述分布式训练任务的pod。
优选的,在监测所述运行环境的状态及所述服务器的状态时,还包括:
若所述运行环境的状态为运行中,则结束所述监测所述运行环境的状态及所述服务器的状态的步骤,并上报所述运行环境的状态;
若所述运行环境的状态为不正常且所述服务器的状态为正常,则结束所述监测所述运行环境的状态及所述服务器的状态的步骤,并上报所述运行环境的状态及所述服务器的状态。
优选的,在将所述分布式训练任务的状态设置为需要容错之后,还包括:
上报所述分布式训练任务的状态。
一种分布式训练任务处理装置,包括:
第一创建模块,用于创建分布式训练任务的运行环境,将所述分布式训练任务放入所述运行环境,并将所述运行环境调度到服务器上;
监测模块,用于监测所述运行环境的状态及所述服务器的状态,若所述运行环境的状态及所述服务器的状态均为不正常,则将所述分布式训练任务的状态设置为需要容错;
第二创建模块,用于创建新运行环境,将状态为需要容错的目标分布式训练任务放入所述新运行环境,并将所述新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对所述目标分布式训练任务进行训练。
一种分布式训练任务处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的分布式训练任务处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的分布式训练任务处理方法的步骤。
本申请提供了一种分布式训练任务处理方法、装置、设备及计算机可读存储介质,其中,该方法包括:创建分布式训练任务的运行环境,将分布式训练分布放入运行环境,并将运行环境调度到服务器上;监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错;创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。
本申请公开的上述技术方案,在将分布式训练任务放入运行环境并将运行环境调度到服务器上之后,若监测到运行环境的状态及服务器的状态均为不正常,则将该分布式训练任务的状态设置为需要容错,并将需要容错的目标分布式训练放入创建的新运行环境中,且将新运行环境调度到状态为正常的服务器上,以通过状态为正常的服务器使得状态为需要容错的目标分布式训练任务能够保持训练,从而避免因服务器异常而导致分布式训练任务出现训练中断,即可以降低服务器异常对分布式训练任务的影响。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种分布式训练任务处理方法的流程图;
图2为本申请实施例提供的pod、worker及服务器之间的关系图;
图3为本申请实施例提供的一种分布式训练任务处理装置的结构示意图;
图4为本申请实施例提供的一种分布式训练处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种分布式训练任务处理方法的流程图,本申请实施例提供的一种分布式训练任务处理方法,可以包括:
S11:创建分布式训练任务的运行环境,将分布式训练任务放入运行环境,并将运行环境调度到服务器上。
在对分布式训练任务进行处理时,先创建分布式训练任务的运行环境,并将分布式训练任务放入所创建的运行环境中,相当于将原来在每个服务器启动的那个训练进程放入到所创建的运行环境中,具体地,是将分布式训练任务的worker(指的是分布式训练任务单元)放入到运行环境中,然后,将分布有分布式训练任务的运行环境调度到不同的服务器上,以使得分布式训练任务可以在服务器中进行训练和运行。
S12:监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错。
在深度学习训练平台上启动一个监控进程模块,利用该监控进程模块监测与分布式训练任务相关的运行环境的状态以及所在服务器的状态。
若在监测过程中监测到运行环境的状态及服务器的状态均为不正常,则表明该服务器所训练的分布式训练任务会出现中断,此时,为了保证该分布式训练任务能够进行训练而不中断,则可以将分布式训练任务的状态设置为需要容错,以便于后续可以根据分布式训练任务的状态而对其执行相对应的操作。
S13:创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。
在深度学习平台上启动一个容错进程模块,利用该容错进程模块获取分布式训练任务的状态,并轮询各个分布式训练任务的状态,若发现有状态为需要容错的目标分布式训练任务,则创建新运行环境,并将状态为需要容错的目标分布式训练任务放入新运行环境中,且将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练,即实现对目标分布式训练任务的重启,以保证目标分布式训练任务可以进行训练而不发生中断,从而避免因服务器异常而对其内部所训练的分布式训练任务带来影响,进而增加深度学习训练平台的容错性。之后,可以监测该目标分布式训练任务对应的新运行环境的状态及服务器的状态,即相当于返回执行步骤S12及相关步骤,以便于及时发现异常并便于及时实现容错,从而避免目标分布式训练任务发生中断。
另外,由于上述过程是自动进行监测的,因此,可以及时且快速地发现运行环境及服务器的异常,同时由于上述过程可以在运行环境及服务器异常时自动进行目标分布式训练任务的重启,因此,可以避免因分布式训练任务中断而导致训练时间的浪费,从而可以提高分布式训练任务的训练效率。
本申请公开的上述技术方案,在将分布式训练任务放入运行环境并将运行环境调度到服务器上之后,若监测到运行环境的状态及服务器的状态均为不正常,则将该分布式训练任务的状态设置为需要容错,并将需要容错的目标分布式训练放入创建的新运行环境中,且将新运行环境调度到状态为正常的服务器上,以通过状态为正常的服务器使得状态为需要容错的目标分布式训练任务能够保持训练,从而避免因服务器异常而导致分布式训练任务出现训练中断,即可以降低服务器异常对分布式训练任务的影响。
本申请实施例提供的一种分布式训练任务处理方法,在将新运行环境调度到状态为正常的服务器上之后,还可以包括:
将目标分布式训练任务的容错次数加1;其中,每个目标分布式训练任务的初始容错次数均为0;
相应地,在创建新运行环境之前,还可以包括:
判断目标分布式训练任务的容错次数是否小于容错阈值,若是,则执行创建新运行环境的步骤,若否,则终止目标分布式训练任务。
在将新运行环境调度到状态为正常的服务器上之后,即在实现对目标分布式训练任务的重启之后,可以将目标分布式训练任务的容错次数在原有的基础上加1,其中,每个分布式训练任务的初始容错次数均为0,以便于通过容错次数获取目标分布式训练任务的重启次数。
当记录目标分布式训练任务的容错次数之后,若该目标分布式训练任务对应的新运行环境的状态及服务器的状态均为不正常,即若该目标分布式训练任务的状态又被设置为需要容错,则在创建新运行环境之前,可以判断目标分布式训练任务的容错次数是否小于该目标分布式训练任务对应的容错阈值(可以表示为n,且其具体可以根据深度学习训练平台的性能等进行设置),若目标分布式训练任务的容错次数小于容错阈值,则表明可以继续对该目标分布式训练任务进行容错,这时则可以执行创建新运行环境的步骤,即可以继续执行步骤S13,以实现对该目标分布式训练任务的重启,从而避免该目标分布式训练任务发生中断;若目标分布式训练任务的容错次数不小于容错阈值,则表明容错任务达到容错上限,说明整个任务训练系统不稳定,这时可以终止该目标分布式训练任务,以便于对整个任务训练系统造成影响。
其中,在终止该目标分布式训练任务的同时可以发出处理异常的通知,以使得算法人员可以通过通知及时地获知目标分布式训练任务因被终止而没有完成训练,从而便于算法人员可以及时地采取应对措施。需要说明的是,具体可以通过邮件、短信、警报提醒、语音提醒中的任意一种或任意多种的组合发出处理异常的通知,本申请对发出处理异常的通知的具体方式不做任何限定。
本申请实施例提供的一种分布式训练任务处理方法,在终止目标分布式训练任务之后,还可以包括:
若接收到目标分布式训练任务,则记录目标分布式训练任务在接收后的新容错次数;
判断新容错次数是否小于新容错阈值;其中,新容错阈值小于目标分布式训练任务对应的容错阈值;
若是,则执行创建新运行环境的步骤;若否,则终止目标分布式训练任务并发出处理异常的通知,且将目标分布式训练任务的状态设置为不可容错。
在本申请中,对于容错次数达到其对应的容错阈值的目标分布式训练任务而言,深度学习训练平台提供再次提交该目标分布式训练任务的功能,即用户可以再次手动提交上述目标分布式训练任务,但是,如果重新提交的目标分布式训练任务再次发生容错,则有可能是目标分布式训练任务造成服务器负荷过大而导致服务器异常从而导致容错,因此,为了避免因服务器负荷过大而导致服务器产生异常出现容错,则可以减小深度学习训练平台对重新提交的目标分布式训练任务的容错上限。
具体地,在接收到重新提交的目标分布式训练任务之后,可以在目标分布式训练任务的训练过程中从0开始重新记录其对应的容错次数,以得到该目标分布式训练任务对应的新容错次数;
在记录其对应的新容错次数的同时,可以判断该目标分布式训练任务对应的新容错次数是否小于新容错阈值(可以表示为m),其中,该新容错阈值小于该目标分布式训练任务对应的容错阈值,具体地,m=[n/2],即新容错阈值可以等于容错阈值除以2并向上取整数,例如:若n=3,则m=1;
若目标分布式训练任务的新容错次数小于新容错阈值,则表明可以继续对该目标分布式训练任务进行容错,这时则可以执行创建新运行环境的步骤,即可以继续执行步骤S13,以实现对该目标分布式训练任务的重启,从而避免该目标分布式训练任务发生中断;若目标分布式训练任务的新容错次数不小于新容错阈值,则表明容错任务达到容错上限,说明整个任务训练系统不稳定,此时,可以终止该目标分布式训练任务,并将目标分布式训练任务的状态设置为不可容错,即无法再在目标分布式训练任务出现中断时通过创建新运行环境并将目标分布式训练任务放入新运行环境中且将新运行环境调度到状态为正常的服务器中而实现目标分布式训练任务的重启,以避免服务器因目标分布式训练任务过大而再次发生异常,从而保证整个任务训练系统的稳定性。
另外,在终止该目标分布式训练任务的同时,可以发出处理异常的通知,以使得算法人员可以通过通知及时地获知目标分布式训练任务因被终止而没有完成训练,从而便于算法人员可以及时地采取应对措施。
本申请实施例提供的一种分布式训练任务处理方法,若运行环境的状态及服务器的状态均为不正常,还可以包括:
记录所述服务器的不正常次数;
相应地,将所述新运行环境调度到状态为正常的服务器上,包括:
获取状态为正常的服务器的不正常次数,并将所述新运行环境调度到不正常次数最小的服务器上。
在监测到运行环境的状态及服务器的状态均为不正常时,可以记录该服务器的不正常次数,之后,在将新运行环境调度到状态为正常的服务器上时,可以获取状态为正常的服务器的不正常次数,并可以将新运行环境调度到不正常次数最小的服务器上,以尽量降低因服务器不正常而导致目标分布式训练任务中断的几率,从而提高目标分布式训练任务训练的可靠性。
本申请实施例提供的一种分布式训练任务处理方法,创建分布式训练任务的运行环境,可以包括:
通过kubernetes创建分布式训练任务的pod。
在创建分布式训练任务的运行环境时,具体可以通过kubernetes创建分布式训练任务的pod,其中,kubernetes是一个开源的、用于管理云平台中多个主机的容器化的应用,pod是kubernetes一种资源类型,是kubernetes中能够创建和部署的最小单元。
在创建完pod之后,可以将分布式训练任务的worker放到kubernetes的pod中,并可以将运行有分布式任务的pod调度到不同的服务器上,具体可以参见图2,其示出了本申请实施例提供的pod、worker及服务器之间的关系图,在将运行有分布式任务的pod调度到不同的服务器上之后,可以执行监测等相关步骤。
本申请实施例提供的一种分布式训练任务处理方法,在监测运行环境的状态及服务器的状态时,还可以包括:
若运行环境的状态为运行中,则结束监测运行环境的状态及服务器的状态的步骤,并上报运行环境的状态;
若运行环境的状态为不正常且服务器的状态为正常,则结束监测运行环境的状态及服务器的状态的步骤,并上报运行环境的状态及服务器的状态。
在监测运行环境的状态及服务器的状态时,若运行环境的状态为运行中,则表明分布式训练任务处于正常训练中,此时,可以结束监测运行的状态及服务器的状态的步骤,并向深度学习训练平台上报运行环境的状态,即相当于上报该分布式训练任务的状态;若运行环境的状态为不正常且服务器的状态为正常,则表明分布式训练任务可能已经结束训练,此时,可以向深度学习训练平台上报运行环境的状态及服务器的状态,以便于深度学习训练平台可以根据两者的状态获知分布式训练任务的状态。
本申请实施例提供的一种分布式训练任务处理方法,在将分布式训练任务的状态设置为需要容错之后,还可以包括:
上报分布式训练任务的状态。
在将分布式训练任务的状态设置为需要容错之后,可以向深度学习训练平台上报分布式训练任务的状态,以便于深度学习训练平台可以及时地获知分布式训练任务的状态,并便于算法人员可以通过深度学习训练平台知分布式训练任务的状态。
本申请实施例还提供了一种分布式训练任务处理装置,参见图3,其示出了本申请实施例提供的一种分布式训练任务处理装置的结构示意图,可以包括:
第一创建模块31,用于创建分布式训练任务的运行环境,将分布式训练任务放入运行环境,并将运行环境调度到服务器上;
监测模块32,用于监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错;
第二创建模块33,用于创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。
本申请实施例提供的一种分布式训练任务处理装置,还可以包括:
加一模块,用于在将新运行环境调度到状态为正常的服务器上之后,将目标分布式训练任务的容错次数加1;其中,每个目标分布式训练任务的初始容错次数均为0;
相应地,还可以包括:
第一判断模块,用于在创建新运行环境之前,判断目标分布式训练任务的容错次数是否小于容错阈值,若是,则执行创建新运行环境的步骤,若否,则终止目标分布式训练任务并发出处理异常的通知。
本申请实施例提供的一种分布式训练任务处理装置,还可以包括:
第一记录模块,用于若接收到目标分布式训练任务,则记录目标分布式训练任务在接收后的新容错次数;
第二判断模块,用于判断新容错次数是否小于新容错阈值;其中,新容错阈值小于目标分布式训练任务对应的容错阈值;
执行模块,用于若新容错次数小于新容错阈值,则执行创建新运行环境的步骤;
终止模块,用于若新容错次数不小于新容错阈值,则终止目标分布式训练任务并发出处理异常的通知,且将目标分布式训练任务的状态设置为不可容错。
本申请实施例提供的一种分布式训练任务处理装置,还可以包括:
第二记录模块,用于若运行环境的状态及服务器的状态均为不正常,则记录服务器的不正常次数;
相应地,第二创建模块33可以包括:
获取单元,用于获取状态为正常的服务器的不正常次数,并将新运行环境调度到不正常次数最小的服务器上。
本申请实施例提供的一种分布式训练任务处理装置,第一创建模块31可以包括:
创建单元,用于通过kubernetes创建分布式训练任务的pod
本申请实施例提供的一种分布式训练任务处理装置,还可以包括:
第一上报模块,用于在监测运行环境的状态及服务器的状态时,若运行环境的状态为运行中,则结束监测运行环境的状态及服务器的状态的步骤,并上报运行环境的状态;
第二上报模块,用于若运行环境的状态为不正常且服务器的状态为正常,则结束监测运行环境的状态及服务器的状态的步骤,并上报运行环境的状态及服务器的状态。
本申请实施例提供的一种分布式训练任务处理装置,还可以包括:
第三上报模块,用于在将分布式训练任务的状态设置为需要容错之后,上报分布式训练任务的状态。
本申请实施例还提供了一种分布式训练任务处理设备,参见图4,其示出了本申请实施例提供的一种分布式训练任务处理设备的结构示意图,可以包括:
存储器41,用于存储计算机程序;
处理器42,用于执行存储器41存储的计算机程序时可实现如下步骤:
创建分布式训练任务的运行环境,将分布式训练分布放入运行环境,并将运行环境调度到服务器上;监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错;创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时时可实现如下步骤:
创建分布式训练任务的运行环境,将分布式训练分布放入运行环境,并将运行环境调度到服务器上;监测运行环境的状态及服务器的状态,若运行环境的状态及服务器的状态均为不正常,则将分布式训练任务的状态设置为需要容错;创建新运行环境,将状态为需要容错的目标分布式训练任务放入新运行环境,并将新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对目标分布式训练任务进行训练。
本申请实施例提供的一种分布式训练任务处理装置、设备及计算机可读存储介质中相关部分的描述可以参见本申请实施例提供的一种分布式训练任务处理方法中对应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种分布式训练任务处理方法,其特征在于,包括:
创建分布式训练任务的运行环境,将所述分布式训练任务放入所述运行环境,并将所述运行环境调度到服务器上;
监测所述运行环境的状态及所述服务器的状态,若所述运行环境的状态及所述服务器的状态均为不正常,则将所述分布式训练任务的状态设置为需要容错;
创建新运行环境,将状态为需要容错的目标分布式训练任务放入所述新运行环境,并将所述新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对所述目标分布式训练任务进行训练;
在将所述新运行环境调度到状态为正常的服务器上之后,还包括:
将所述目标分布式训练任务的容错次数加1;其中,每个所述目标分布式训练任务的初始容错次数均为0;
相应地,在创建新运行环境之前,还包括:
判断所述目标分布式训练任务的容错次数是否小于容错阈值,若是,则执行所述创建新运行环境的步骤,若否,则终止所述目标分布式训练任务并发出处理异常的通知。
2.根据权利要求1所述的分布式训练任务处理方法,其特征在于,在终止所述目标分布式训练任务之后,还包括:
若接收到所述目标分布式训练任务,则记录所述目标分布式训练任务在接收后的新容错次数;
判断所述新容错次数是否小于新容错阈值;其中,所述新容错阈值小于所述目标分布式训练任务对应的容错阈值;
若是,则执行所述创建新运行环境的步骤;若否,则终止所述目标分布式训练任务并发出处理异常的通知,且将所述目标分布式训练任务的状态设置为不可容错。
3.根据权利要求1所述的分布式训练任务处理方法,其特征在于,若所述运行环境的状态及所述服务器的状态均为不正常,还包括:
记录所述服务器的不正常次数;
相应地,将所述新运行环境调度到状态为正常的服务器上,包括:
获取状态为正常的服务器的不正常次数,并将所述新运行环境调度到不正常次数最小的服务器上。
4.根据权利要求1所述的分布式训练任务处理方法,其特征在于,创建分布式训练任务的运行环境,包括:
通过kubernetes创建所述分布式训练任务的pod。
5.根据权利要求1所述的分布式训练任务处理方法,其特征在于,在监测所述运行环境的状态及所述服务器的状态时,还包括:
若所述运行环境的状态为运行中,则结束所述监测所述运行环境的状态及所述服务器的状态的步骤,并上报所述运行环境的状态;
若所述运行环境的状态为不正常且所述服务器的状态为正常,则结束所述监测所述运行环境的状态及所述服务器的状态的步骤,并上报所述运行环境的状态及所述服务器的状态。
6.根据权利要求5所述的分布式训练任务处理方法,其特征在于,在将所述分布式训练任务的状态设置为需要容错之后,还包括:
上报所述分布式训练任务的状态。
7.一种分布式训练任务处理装置,其特征在于,包括:
第一创建模块,用于创建分布式训练任务的运行环境,将所述分布式训练任务放入所述运行环境,并将所述运行环境调度到服务器上;
监测模块,用于监测所述运行环境的状态及所述服务器的状态,若所述运行环境的状态及所述服务器的状态均为不正常,则将所述分布式训练任务的状态设置为需要容错;
第二创建模块,用于创建新运行环境,将状态为需要容错的目标分布式训练任务放入所述新运行环境,并将所述新运行环境调度到状态为正常的服务器上,以利用状态为正常的服务器对所述目标分布式训练任务进行训练;
还包括:
加一模块,用于在将所述新运行环境调度到状态为正常的服务器上之后,将所述目标分布式训练任务的容错次数加1;其中,每个所述目标分布式训练任务的初始容错次数均为0;
相应地,还包括:
第一判断模块,用于在创建新运行环境之前,判断所述目标分布式训练任务的容错次数是否小于容错阈值,若是,则执行所述创建新运行环境的步骤,若否,则终止所述目标分布式训练任务并发出处理异常的通知。
8.一种分布式训练任务处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的分布式训练任务处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的分布式训练任务处理方法的步骤。
CN202010437089.3A 2020-05-21 2020-05-21 一种分布式训练任务处理方法、装置、设备及存储介质 Active CN111625420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437089.3A CN111625420B (zh) 2020-05-21 2020-05-21 一种分布式训练任务处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437089.3A CN111625420B (zh) 2020-05-21 2020-05-21 一种分布式训练任务处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111625420A CN111625420A (zh) 2020-09-04
CN111625420B true CN111625420B (zh) 2023-03-24

Family

ID=72271981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437089.3A Active CN111625420B (zh) 2020-05-21 2020-05-21 一种分布式训练任务处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111625420B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062655A (zh) * 2018-06-05 2018-12-21 腾讯科技(深圳)有限公司 一种容器化云平台及服务器
CN110377395A (zh) * 2019-07-03 2019-10-25 无锡华云数据技术服务有限公司 一种Kubernetes集群中的Pod迁移方法
CN110569104A (zh) * 2019-08-12 2019-12-13 苏州浪潮智能科技有限公司 深度学习系统中任务训练的管理方法和计算机存储介质
CN110782040A (zh) * 2019-10-12 2020-02-11 苏州浪潮智能科技有限公司 一种pytorch任务训练方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745225A (zh) * 2013-12-27 2014-04-23 北京集奥聚合网络技术有限公司 分布式ctr预测模型训练的方法和系统
US10001983B2 (en) * 2016-07-27 2018-06-19 Salesforce.Com, Inc. Rolling version update deployment utilizing dynamic node allocation
US10412158B2 (en) * 2016-07-27 2019-09-10 Salesforce.Com, Inc. Dynamic allocation of stateful nodes for healing and load balancing
CN106529673B (zh) * 2016-11-17 2019-05-03 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN108388472A (zh) * 2018-03-01 2018-08-10 吉林大学 一种基于Docker集群的弹性任务调度系统及方法
CN108304250A (zh) * 2018-03-05 2018-07-20 北京百度网讯科技有限公司 用于确定运行机器学习任务的节点的方法和装置
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN109101342B (zh) * 2018-07-20 2020-07-10 北京百度网讯科技有限公司 分布式作业协调控制方法、装置、计算机设备及存储介质
CN109684420B (zh) * 2018-12-21 2021-11-02 郑州云海信息技术有限公司 一种基于kubernetes的高可用部署harbor镜像仓库的方法及装置
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
CN109885389B (zh) * 2019-02-19 2021-07-16 浪潮云信息技术股份公司 一种基于容器的并行深度学习调度训练方法及系统
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN110737504B (zh) * 2019-08-31 2022-10-18 苏州浪潮智能科技有限公司 一种深度学习模型训练容错方法、系统、终端及存储介质
CN110888743B (zh) * 2019-11-27 2022-12-20 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN111078480B (zh) * 2019-12-17 2023-09-01 北京奇艺世纪科技有限公司 一种异常恢复方法和服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062655A (zh) * 2018-06-05 2018-12-21 腾讯科技(深圳)有限公司 一种容器化云平台及服务器
CN110377395A (zh) * 2019-07-03 2019-10-25 无锡华云数据技术服务有限公司 一种Kubernetes集群中的Pod迁移方法
CN110569104A (zh) * 2019-08-12 2019-12-13 苏州浪潮智能科技有限公司 深度学习系统中任务训练的管理方法和计算机存储介质
CN110782040A (zh) * 2019-10-12 2020-02-11 苏州浪潮智能科技有限公司 一种pytorch任务训练方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
容错CORBA模型的研究与实现;杜庆伟等;《小型微型计算机系统》;20050321(第03期);全文 *

Also Published As

Publication number Publication date
CN111625420A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN107515796B (zh) 一种设备异常监控处理方法及装置
US7979747B2 (en) Interactive problem resolution presented within the context of major observable application behaviors
CN106789141B (zh) 一种网关设备故障处理方法及装置
CN109558260B (zh) Kubernetes故障排除系统、方法、设备及介质
CN111901422A (zh) 一种集群中节点的管理方法、系统及装置
WO2018001046A1 (zh) 智能网业务的恢复方法、装置及系统
CN110502399B (zh) 故障检测方法及装置
CN110798339A (zh) 一种基于分布式任务调度框架的任务容灾方法
US20050114867A1 (en) Program reactivation using triggering
EP2940540A1 (en) Power system monitoring and control system
CN111625420B (zh) 一种分布式训练任务处理方法、装置、设备及存储介质
CN111309456B (zh) 一种任务执行方法及系统
CN113687867B (zh) 一种云平台集群的关机方法、系统、设备及存储介质
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
CN112148420B (zh) 基于容器技术的异常任务处理方法、服务器及云平台
CN113112023B (zh) AIStation推理平台的推理服务管理方法和装置
CN110188008B (zh) 作业调度主备切换方法、装置、计算机设备及存储介质
CN110569120B (zh) 一种定时任务的处理方法和装置
CN112115003A (zh) 一种服务进程的掉线恢复方法、装置、设备及存储介质
CN111400094A (zh) 一种服务器系统恢复出厂设置的方法、装置、设备及介质
EP4006807A1 (en) Event monitoring with support system integration
CN113225576B (zh) 基于直播平台边缘计算场景的服务迁移系统和方法
CN115470009B (zh) 一种内存资源管理方法、系统、装置及介质
CN114510433A (zh) 光传输设备的内存管理方法、设备和存储介质
CN116016128A (zh) 网关设备的进程管理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant