CN111767188B - 一种训练任务监控方法及装置 - Google Patents

一种训练任务监控方法及装置 Download PDF

Info

Publication number
CN111767188B
CN111767188B CN202010451156.7A CN202010451156A CN111767188B CN 111767188 B CN111767188 B CN 111767188B CN 202010451156 A CN202010451156 A CN 202010451156A CN 111767188 B CN111767188 B CN 111767188B
Authority
CN
China
Prior art keywords
representing
resource
index
processing
processing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010451156.7A
Other languages
English (en)
Other versions
CN111767188A (zh
Inventor
谢远东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010451156.7A priority Critical patent/CN111767188B/zh
Publication of CN111767188A publication Critical patent/CN111767188A/zh
Application granted granted Critical
Publication of CN111767188B publication Critical patent/CN111767188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种训练任务监控方法及装置,方法包括:获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU内存占用量、网络带宽占用量和插件资源占用的平均量;根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作。通过该技术方案,可以解决AI训练平台资源使用效率更加细粒度的监控,大大提高整体AI训练平台的资源使用效率。

Description

一种训练任务监控方法及装置
技术领域
本发明涉及任务处理技术领域,更具体地,涉及一种训练任务监控方法及装置。
背景技术
现有技术针对AI训练平台的任务,在集群级别监控总GPU使用量/总量;在机器级别监控每台机器GPU使用量/总量,以及CPU使用量;在任务级别监控每个任务GPU使用量/总量,以及每个任务显存使用量。
现有技术存在以下问题:
1.目前对于AI训练平台在监控级别上粒度太大,只对于GPU方面显存粒度的监控。
2.由于监控粒度太大导致无法细粒度评价AI训练平台任务资源使用量和使用效率,导致在资源分配优化中无法综合各种因素,例如CPU核数、CPU内存、网络带宽、GPU数量、GPU显存等。
发明内容
鉴于上述问题,本发明提出了一种训练任务监控方法及装置,其可以通过统计平台任务级别资源使用量指标和资源使用效率指标,解决AI训练平台资源使用效率更加细粒度的监控,可以辅助调度器层面,对平台用户的任务更加公平性的调度,大大提高整体AI训练平台的资源使用效率。
根据本发明实施例的第一方面,提供一种训练任务监控方法,包括:
获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;
统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU内存占用量、网络带宽占用量和插件资源占用的平均量;
根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;
根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作。
在一个实施例中,优选地,所述资源使用量指标采用以下公式进行计算:
其中,U表示所述资源使用量指标,αG表示GPU系数,JobGN表示所述GPU使用量,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,JobCN表示所述CPU个数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,JobBW表示所述网络带宽占用量,αPN表示插件系数,JobPN表示所述插件资源占用的平均量,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,所述资源使用效率指标采用以下公式计算:
其中,Q表示所述资源使用效率指标,αG表示GPU系数,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,αPN表示插件系数,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作,包括:
当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
在一个实施例中,优选地,根据各个处理节点的所述资源使用量指标和所述资源使用效率指标,对该处理节点进行对应的处理操作,包括:
当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
根据本发明实施例的第二方面,提供一种训练任务监控装置,包括:
获取模块,用于获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;
统计模块,用于统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU内存占用量、网络带宽占用量和插件资源占用的平均量;
计算模块,用于根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;
处理模块,用于根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作。
在一个实施例中,优选地,所述资源使用量指标采用以下公式进行计算:
其中,U表示所述资源使用量指标,αG表示GPU系数,jobGN表示所述GPU使用量,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,JobCN表示所述CPU个数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,JobBW表示所述网络带宽占用量,αPN表示插件系数,JobPN表示所述插件资源占用的平均量,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,所述资源使用效率指标采用以下公式计算:
其中,Q表示所述资源使用效率指标,αG表示GPU系数,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,αPN表示插件系数,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,所述处理模块包括:
删除单元,用于当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
在一个实施例中,优选地,所述处理模块包括:
报警单元,用于当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
根据本发明实施例的第三方面,提供一种训练任务监控装置,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,所述设备执行如第一方面实施例中任一项所述的方法。
本发明实施例中,可以通过统计平台任务级别资源使用量指标和资源使用效率指标,解决AI训练平台资源使用效率更加细粒度的监控,可以辅助调度器层面,对平台用户的任务更加公平性的调度,大大提高整体AI训练平台的资源使用效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种训练任务监控方法流程图。
图2是本发明一个实施例的一种训练任务监控方法中步骤S104的流程图。
图3是本发明一个实施例的另一种训练任务监控方法中步骤S104的流程图。
图4是本发明一个实施例的一种训练任务监控装置的框图。
图5是本发明一个实施例的一种训练任务监控装置中处理模块的框图。
图6是本发明一个实施例的另一种训练任务监控装置中处理模块的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一个实施例的一种训练任务监控方法流程图,如图1所示,训练任务监控方法包括:
步骤S101,获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理。
步骤S102,统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU内存占用量、网络带宽占用量和插件资源占用的平均量。
步骤S103,根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标。
步骤S104,根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作。
在该实施例中,可以通过统计平台任务级别资源使用量指标和资源使用效率指标,解决AI训练平台资源使用效率更加细粒度的监控,可以辅助调度器层面,对平台用户的任务更加公平性的调度,大大提高整体AI训练平台的资源使用效率。
在一个实施例中,优选地,所述资源使用量指标采用以下公式进行计算:
其中,U表示所述资源使用量指标,αG表示GPU系数,JobGN表示所述GPU使用量,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,JobCN表示所述CPU个数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,JobBW表示所述网络带宽占用量,αPN表示插件系数,JobPN表示所述插件资源占用的平均量,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,所述资源使用效率指标采用以下公式计算:
其中,Q表示所述资源使用效率指标,αG表示GPU系数,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,αPN表示插件系数,PN表示所述处理节点的插件指标总量。
图2是本发明一个实施例的一种训练任务监控方法中步骤S104的流程图。
如图2所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S201,当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
在该实施例中,当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,此时说明资源利用率很低,为了提高资源利用率,可以中止并删除训练任务。而在资源使用量指标和资源使用效率指标均较高或者资源使用量师表较低,资源使用效率指标较高时,可以不进行处理。
图3是本发明一个实施例的另一种训练任务监控方法中步骤S104的流程图。
如图3所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S301,当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
在该实施例中,如果资源使用量指标和资源使用效率指标均较低,可以输出报警提示,提示用户资源利用率较低。
图4是本发明一个实施例的一种训练任务监控装置的框图。
如图4所示,根据本发明实施例的第二方面,提供一种训练任务监控装置,包括:
获取模块41,用于获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;
统计模块42,用于统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU内存占用量、网络带宽占用量和插件资源占用的平均量;
计算模块43,用于根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;
处理模块44,用于根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作。
在一个实施例中,优选地,所述资源使用量指标采用以下公式进行计算:
其中,U表示所述资源使用量指标,αG表示GPU系数,JobGN表示所述GPU使用量,MG表示所述处理节点的单个GPU的显存,JobGM表示所述GPU显存占用量,αC表示CPU系数,JobCN表示所述CPU个数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,JobBW表示所述网络带宽占用量,αPN表示插件系数,JobPN表示所述插件资源占用的平均量,PN表示所述处理节点的插件指标总量。
在一个实施例中,优选地,所述资源使用效率指标采用以下公式计算:
其中,Q表示所述资源使用效率指标,αG表示GPU系数,MG表示所述处理节点的单个GPU的显存,JobGm表示所述GPU显存占用量,αC表示CPU系数,MC表示所述处理节点的CPU的内存,JobCM表示所述CPU内存占用量,αBW表示所述处理节点的总带宽系数,BW表示所述处理节点总带宽,αPN表示插件系数,PN表示所述处理节点的插件指标总量。
图5是本发明一个实施例的一种训练任务监控装置中处理模块的框图。
如图5所示,在一个实施例中,优选地,所述处理模块44包括:
删除单元51,用于当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
图6是本发明一个实施例的另一种训练任务监控装置中处理模块的框图。
如图6所示,在一个实施例中,优选地,所述处理模块44包括:
报警单元61,用于当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种便捷式多功能设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种训练任务监控方法,其特征在于,包括:
获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;
统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU 内存占用量、网络带宽占用量和插件资源占用的平均量;
根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;
根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作;
其中,所述资源使用量指标采用以下公式进行计算:
= />
其中,表示所述资源使用量指标,/>表示GPU系数,/>表示所述GPU使用量,/>表示所述处理节点的单个GPU的显存,/>表示所述GPU显存占用量,/>表示CPU系数,/>表示所述CPU个数,/>表示所述处理节点的CPU的内存,/>表示所述CPU内存占用量,/>表示所述处理节点的总带宽系数,/>表示所述处理节点总带宽,/>表示所述网络带宽占用量,/>表示插件系数,/>表示所述插件资源占用的平均量,/>表示所述处理节点的插件指标总量;
其中,所述资源使用效率指标采用以下公式计算:
= />
其中,表示所述资源使用效率指标,/>表示GPU系数,/>表示所述处理节点的单个GPU的显存,/>表示所述GPU显存占用量,/>表示CPU系数,/>表示所述处理节点的CPU的内存,/>表示所述CPU内存占用量,/>表示所述处理节点的总带宽系数,/>表示所述处理节点总带宽,/>表示插件系数,/>表示所述处理节点的插件指标总量。
2.根据权利要求1所述的训练任务监控方法,其特征在于,根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作,包括:
当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
3.根据权利要求1所述的训练任务监控方法,其特征在于,根据各个处理节点的所述资源使用量指标和所述资源使用效率指标,对该处理节点进行对应的处理操作,包括:
当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
4.一种训练任务监控装置,其特征在于,包括:
获取模块,用于获取用户在训练平台提交的训练任务,并通过任务处理集群对所述训练任务进行处理;
统计模块,用于统计预设时长内,任务处理集群中的各个处理节点在处理所述训练任务时的资源占用信息,其中,所述资源占用信息包括:GPU使用量、GPU显存占用量、CPU个数、CPU 内存占用量、网络带宽占用量和插件资源占用的平均量;
计算模块,用于根据所述各个处理节点的资源占用信息计算所述训练任务的资源使用量指标和资源使用效率指标;
处理模块,用于根据所述资源使用量指标和所述资源使用效率指标,对所述训练任务进行对应的处理操作;
其中,所述资源使用量指标采用以下公式进行计算:
= />
其中,表示所述资源使用量指标,/>表示GPU系数,/>表示所述GPU使用量,/>表示所述处理节点的单个GPU的显存,/>表示所述GPU显存占用量,/>表示CPU系数,/>表示所述CPU个数,/>表示所述处理节点的CPU的内存,/>表示所述CPU内存占用量,/>表示所述处理节点的总带宽系数,/>表示所述处理节点总带宽,/>表示所述网络带宽占用量,/>表示插件系数,/>表示所述插件资源占用的平均量,/>表示所述处理节点的插件指标总量;
其中,所述资源使用效率指标采用以下公式计算:
= />
其中,表示所述资源使用效率指标,/>表示GPU系数,/>表示所述处理节点的单个GPU的显存,/>表示所述GPU显存占用量,/>表示CPU系数,/>表示所述处理节点的CPU的内存,/>表示所述CPU内存占用量,/>表示所述处理节点的总带宽系数,/>表示所述处理节点总带宽,/>表示插件系数,/>表示所述处理节点的插件指标总量。
5.根据权利要求4所述的训练任务监控装置,其特征在于,所述处理模块包括:
删除单元,用于当所述资源使用量指标大于或等于第一预设阈值,且所述资源使用效率指标小于或等于第二预设阈值时,删除所述训练任务。
6.根据权利要求4所述的训练任务监控装置,其特征在于,所述处理模块包括:
报警单元,用于当处理节点的资源使用量指标小于或等于第三预设阈值,且所述资源使用效率指标小于或等于第四预设阈值时,输出报警提示至用户,以提示用户所述训练任务的资源利用率低。
CN202010451156.7A 2020-05-25 2020-05-25 一种训练任务监控方法及装置 Active CN111767188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010451156.7A CN111767188B (zh) 2020-05-25 2020-05-25 一种训练任务监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010451156.7A CN111767188B (zh) 2020-05-25 2020-05-25 一种训练任务监控方法及装置

Publications (2)

Publication Number Publication Date
CN111767188A CN111767188A (zh) 2020-10-13
CN111767188B true CN111767188B (zh) 2023-12-19

Family

ID=72719650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010451156.7A Active CN111767188B (zh) 2020-05-25 2020-05-25 一种训练任务监控方法及装置

Country Status (1)

Country Link
CN (1) CN111767188B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461053B (zh) * 2021-08-24 2022-11-18 荣耀终端有限公司 资源调度方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947558A (zh) * 2018-12-28 2019-06-28 江苏方天电力技术有限公司 主机资源利用率计算方法和资源调度方法
CN110301128A (zh) * 2017-03-02 2019-10-01 华为技术有限公司 基于学习的资源管理数据中心云架构
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN110928739A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种进程监控方法、装置以及计算设备
CN111158852A (zh) * 2019-12-14 2020-05-15 苏州浪潮智能科技有限公司 一种训练资源动态分配方法、系统、终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10698766B2 (en) * 2018-04-18 2020-06-30 EMC IP Holding Company LLC Optimization of checkpoint operations for deep learning computing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110301128A (zh) * 2017-03-02 2019-10-01 华为技术有限公司 基于学习的资源管理数据中心云架构
CN110928739A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种进程监控方法、装置以及计算设备
CN109947558A (zh) * 2018-12-28 2019-06-28 江苏方天电力技术有限公司 主机资源利用率计算方法和资源调度方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN111158852A (zh) * 2019-12-14 2020-05-15 苏州浪潮智能科技有限公司 一种训练资源动态分配方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN111767188A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN108446176B (zh) 一种任务分配方法、计算机可读存储介质及终端设备
US20110314477A1 (en) Fair share scheduling based on an individual user's resource usage and the tracking of that usage
TWI426393B (zh) 雲端計算資源排程方法與應用之系統
CN103384206B (zh) 一种面向海量数据的并行处理方法及系统
CN103763130B (zh) 大规模集群的管理方法、装置和系统
CN109788315A (zh) 视频转码方法、装置及系统
CN107239336A (zh) 一种实现任务调度的方法及装置
CN105979532B (zh) 一种业务处理系统的性能容量分析预警方法及装置
CN110888714A (zh) 容器的调度方法、装置和计算机可读存储介质
CN103841129B (zh) 云计算的资源信息采集服务器和客户端、信息处理方法
CN110414778A (zh) 案件派工方法和装置
CN104793996A (zh) 一种并行计算设备的任务调度方法及任务调度装置
CN111767188B (zh) 一种训练任务监控方法及装置
CN106055271B (zh) 一种基于云计算的重复数据去重选择方法及装置
CN114780253B (zh) 一种大数据智能分析系统
CN114244718A (zh) 一种输电线路通信网络设备管理系统
CN114780244A (zh) 容器云资源弹性分配方法、装置、计算机设备及介质
CN114327894A (zh) 资源分配方法、装置、电子设备及存储介质
CN111901405A (zh) 一种多节点监控方法、装置、电子设备及存储介质
CN113821421B (zh) 一种服务器性能数据采集方法、系统、装置及存储介质
CN113422808A (zh) 物联网平台http信息推送方法、系统、装置及介质
CN117032954A (zh) 针对终端训练模型的内存优化方法、系统、设备及介质
JP4479431B2 (ja) 情報ライフサイクル管理システム及びそのデータ配置決定方法
CN109788061B (zh) 计算任务部署方法及装置
CN108664322A (zh) 数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant