CN111104222B - 任务处理方法、装置、计算机设备和存储介质 - Google Patents

任务处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111104222B
CN111104222B CN201911294243.XA CN201911294243A CN111104222B CN 111104222 B CN111104222 B CN 111104222B CN 201911294243 A CN201911294243 A CN 201911294243A CN 111104222 B CN111104222 B CN 111104222B
Authority
CN
China
Prior art keywords
task
resource
resource information
executed
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911294243.XA
Other languages
English (en)
Other versions
CN111104222A (zh
Inventor
杨天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongyuan Network Co ltd
Original Assignee
Shanghai Zhongyuan Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongyuan Network Co ltd filed Critical Shanghai Zhongyuan Network Co ltd
Priority to CN201911294243.XA priority Critical patent/CN111104222B/zh
Publication of CN111104222A publication Critical patent/CN111104222A/zh
Application granted granted Critical
Publication of CN111104222B publication Critical patent/CN111104222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种任务处理方法、装置、计算机设备和存储介质。所述方法包括:获取至少一个待执行任务和对应的属性信息;输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;获取多个数据中心的当前资源信息;根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。通过资源预测模型对待执行任务的资源进行预测,得到对应的预测信息,匹配预测信息和当前资源信息,得到目标资源信息,在目标资源信息对应的数据中心执行待执行任务,保证了资源分配的合理性,从而提高了数据处理效率和资源利用率。

Description

任务处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种任务处理方法、装置、计算机设备和存储介质。
背景技术
较复杂的深度学习模型需要使用不同型号、规模以及网络配置的GPU或CPU集群进行训练,通常在单一数据中心中可供调度的不同类别的GPU或CPU资源总量有限,而在训练时跨数据中心实时读取大批量数据会较大影响模型训练效率。
目前方法主要通过全局任务调度中心提供统一入口,并筛选出符合任务要求的数据中心运行的方法;即所有的任务采用同一个调度模块进行调度,调度时是根据各个任务对应的资源都是通过人为指定的,而人为指定资源与技术人员的经验有关,难以保证指定的资源分配的合理性。
发明内容
为了解决上述技术问题,本申请提供了一种任务处理方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种任务处理方法,包括:
获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;
输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;
获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;
根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
第二方面,本申请提供了一种任务处理装置,包括:
数据获取模块,用于获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;
资源预测模块,用于输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;
数据中心资源获取模块,用于获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;
目标资源确定模块,用于根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;
输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;
获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;
根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;
输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;
获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;
根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
上述任务处理方法、装置、计算机设备和存储介质,所述方法包括:获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。通过资源预测模型对待执行任务的资源进行预测,得到对应的预测信息,匹配预测信息和当前资源信息,得到目标资源信息,在目标资源信息对应的数据中心执行待执行任务,保证了资源分配的合理性,从而提高了数据处理效率和资源利用率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为一个实施例中任务处理方法的应用环境图;
图2为一个实施例中任务处理方法的流程示意图;
图3为一个实施例中任务处理系统的模块示意图;
图4为一个实施例中任务处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1为一个实施例中任务处理方法的应用环境图。参照图1,该任务处理方法应用于任务处理系统。该任务处理系统包括终端110和计算机设备120。终端110和计算机设备120通过网络连接。计算设备120获取各个终端110提交的至少一个待执行任务和对应的属性信息;输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;获取多个数据中心的当前资源信息;根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。计算机设备120可以为终端或服务器,其中服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种任务处理方法。本实施例主要以该方法应用于上述图1中的终端110(或计算机设备120)来举例说明。参照图2,该任务处理方法具体包括如下步骤:
步骤S201,获取至少一个待执行任务和对应的属性信息。
在本具体实施例中,待执行任务为深度学习任务。
具体地,待执行任务是指需要执行的任务,待执行任务深度学习任务,深度学习任务是指用于训练各种深度学习模型的任务。待执行任务可以为一个或多个。属性信息是用于描述待执行任务的信息,如深度学习任务的任务标识、任务类型、参数总量、训练数据量等等。
步骤S202,输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息。
在本具体实施例中,候选资源信息包括候选资源类型和对应的候选占用时长。
步骤S203,获取多个数据中心的当前资源信息。
在本具体实施例中,当前资源信息包括当前资源类型和对应的当前占用时长。
具体地,已训练的资源预测模型是指通过大量的已完成的任务的属性数据和对应的资源信息进行训练得到的网络模型。已训练的资源预测模型可以为常规的机器学习模型,如逻辑回归模型或决策树模型等等。资源信息是指各个数据中心的计算资源的信息,如数据中心标识、GPU型号、CPU型号、内存型号、磁盘型号、计算单元间的网络配置,各个型号的GPU、CPU、内存、磁盘等的数量,GPU(含显存)、CPU、内存、磁盘、网络等的使用状态和占用时长等等。候选资源信息是通过已训练的资源预测模型从多个数据中心的资源信息中筛选出来,与待执行任务匹配的资源信息。其中资源类型是指GPU、CPU类型、内存、磁盘和网络等等。候选资源类型和对应的候选占用时长是指与待执行任务匹配的资源类型和对应的占用时长。占用时长是指执行待执行任务所需的时间。候选资源信息中可以包含一套或多套可以执行待执行任务的方案,如方案1包括A个S型GPU和B个X型CPU,方案2包括C个T型GPU和D个Y型CPU,方案1和方案2都为候选资源信息对应的方案。不同的方案对应的占用时长可以相同也可以不同。
数据中心包含多个,计算资源包含多个类型。其中数据中心的资源信息可以采取定时获取的方式,也可以在接收到待执行任务后开始获取等等,具体获取方式可以根据需求自定义。得到当前时刻各个数据中心的资源信息中的各个计算资源的状态信息和占用时长。
步骤S204,根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
具体地,根据各个数据中心中的计算资源的状态信息和占用时长,判断各个数据中心是否存在与待执行任务匹配的,且正空闲的计算资源,若存在匹配且空闲的计算资源,则将匹配且空闲的计算资源分配给对应的待执行任务,将分配给待执行任务的计算资源作为目标计算资源,得到目标资源信息,即得到目标资源类型和对应的占用时长,即目标资源类型和目标占用时长,其中空闲是指占用时长为0。若不存匹配且空闲的计算资源,则将匹配的计算资源中占用时长最短的计算资源作为目标计算资源,得到目标资源类型和对应的占用时长。
上述任务处理方法,包括:获取至少一个待执行任务和对应的属性信息,所述待执行任务为深度学习任务,输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长,获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长,根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。通过资源预测模型对待执行任务的资源进行预测,得到对应的预测信息,匹配预测信息和当前资源信息,得到目标资源信息,在目标资源信息对应的数据中心执行待执行任务,保证了资源的准确性,从而提高了数据处理效率和资源利用率。
在一个实施例中,属性信息包括存储训练数据资源的数据中心标识,资源信息携带数据中心标识,步骤S204之后,还包括:判断目标资源对应的数据中心标识是否与对应的存储训练数据资源的数据中心标识一致;当不一致时,生成转移训练数据资源的转移指令;发送转移指令。
具体地,训练数据资源是指用于执行待执行任务的训练数据等等,训练数据包括但不限于结构化数据与语音、图像、视频、文档等非结构化数据等等。在确定目标资源信息后,待执行任务的目标资源信息中携带的数据中心标识,判断待执行任务的训练数据所在的数据中心与是否目标资源信息中携带的数据中心标识对应的数据中心是否为同一个数据中心,若为同一个数据中心,则无需拉取训练数据至目标资源对应的数据中心,反之,则需要拉取训练数据至目标资源信息对应的数据中心,根据目标资源信息和训练数据的属性信息生成用于转移训练数据的转移指令,发送转移指令,执行该转移指令,将训练数据拉取至目标资源信息对应的数据中心。
在一个实施例中,上述任务处理方法,还包括:计算待执行任务的执行时刻与预设时刻之间的时间差。
在本具体实施例中,发送转移指令,包括:当时间差大于预设时间差时,在预设时刻发送转移指令。
具体地,预设时刻是指预先设定的发送转移指令的时间。待执行任务的执行时刻根据目标资源的占用时长和当前时间确定,只有在目标资源为空闲时,待执行任务才可以被执行,故可以根据目标资源的占用时长确定待执行任务的执行时刻。当待执行任务的执行时刻与预设时长之间的时间差大于预设时间差时,表示待执行任务的执行时刻和预设时刻之间存在较长的时间差,可以在预设时刻之后的时间拉取训练数据,即在预设时刻发送转移指令,通过转移指令拉取训练数据至目标资源所在的数据中心。其中预设时刻为自定义的时间临界值,在预设时刻之前表示网络处于较为繁忙的状态,预设时刻之后网络处理较为空闲的状态,在网络空闲状态时拉取训练数据,可以提高数据的传输效率。
在一个实施例中,步骤S204包括:根据各个待执行任务的候选资源信息和各个当前资源信息对应的占用时长,从候选资源信息中筛选出占用时长最短的候选资源信息作为目标资源信息。
具体地,根据各个当前资源信息对应的占用时长和各个待执行任务的候选资源信息的资源类型和占用时长,判断当前资源信息中符合候选资源类型的资源类型,当存在多符合的方案时,从符合的方案中筛选出当前资源信息中占用时长对应的候选资源信息作为目标资源信息。如候选资源类型对应的方案A和候选资源类型对应的方案B对应的占有时长分别为X和Y,当X小于Y时,选择方案A,反之,则选择方案B。选择当前资源信息中占用时长最短的方案可以更好的利用数据中心的计算资源,避免计算资源浪费。
在一个实施例中,上述任务处理方法,还包括:
步骤S301,获取已完成的深度学习任务和对应的属性信息。
在本具体实施例中,属性信息标准资源信息。
步骤S302,输入各个已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取已训练的深度学习任务的属性信息的特征,根据特征确定各个已训练的深度学习任务的预测资源信息。
步骤S303,统计各个已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度;
步骤S304,当差异度小于或等于预设差异度时,得到已训练的资源预测模型。
具体地,已完成的深度学习任务是指已经执行完毕的深度学习任务,属性信息包括执行各个已完成的深度学习任务的任务信息和对应的标准资源信息。将任务信息作为初始资源预测模型的输入,资源信息作为初始资源预测模型的目标输出。通过初始资源预测模型对任务信息提取任务信息的特征,根据提取到的特征输出预测资源信息,统计真实输出与目标输出之间的差异,即统计预测资源信息和目标资源信息之间的差异度,根据差异度确定初始资源预测模型是否收敛,当差异度小于或等于预设差异度时,初始资源预测模型收敛,得到已训练的资源预测模型。
在一个实施例中,当差异度大于预设差异度时,根据差异度更新初始资源预测模型的模型参数,得到中间资源预测模型,执行输入各个已完成的深度学习任务和对应的属性信息至所述中间资源预测模型,直至差异度小于或等于预设差异度,得到已训练的资源预测模型。
具体地,当差异度大于预设差异度时,初始资源预测模型未收敛,更新初始资源预测模型的模型参数,得到中间资源预测模型,其中更新模型的方法为常见的深度学习模型的更新方法,如梯度下降法,其中提取下降方法对应的梯度信息可以根据差异度确定。差异度可以为差值、平方差、差值的对数或指数等等。将已完成的深度学习任务的属性信息输入中间资源预测模型,执行与初始资源预测模型相同的步骤,直至中间资源预测模型,得到已训练的资源预测模型,即确定中间资源预测模型的模型参数。
在一个实施例中,在得到已训练的资源预测模型后,获取各个数据中心中已完成的深度学习任务的属性数据,采用获取的已完成的深度学习任务的属性数据更新已训练的资源预测模型的模型参数,即继续更新已训练的资源预测模型,提高模型的准确性。
在一个具体的实施例中,参照图3,任务处理系统包括已完成任务数据处理模块、待执行任务数据处理模块、已训练的资源预测模型、调度模块和数据中心,其中数据中心包括多个,如n个数据中心,分别为数据中心1、数据中心2,...和数据中心n。
已完成任务数据处理模块,用于接收并保存各数据中心已完成的深度学习任务的多维度信息,包括任务编号、数据中心ID、GPU和/或CPU计算资源型号与数量、计算单元间的网络配置、训练任务类型、模型参数总量、训练数据量与统计特征、训练时长、资源使用率等。采用多维度参数构建逻辑回归或者决策树模型,收集的数据定期进行全量或者增量训练,得到已训练的资源预测模型。
待执行任务数据处理模块,用于接收各个计算机设备提交的待执行任务,分配唯一任务编号。核查各个待执行任务的各个参数是否效性并记录,如有效则增加至任务队列并返回给用户任务编号与成功提交信息,否则返回用户任务编号与失败提示信息。
已训练的资源预测模型,用于从待执行任务数据处理模块中拉取待执行任务和对应的属性信息,根据待执行任务和对应的属性信息预测拉取的待执行任务的候选资源信息。
调度模块,用于定期获取当前各数据中心的计算资源的使用参数和计划参数,将各个待执行任务根据候选资源信息和当前各数据中心的计算资源使用参数和计划参数确定目标资源,根据目标资源分配待执行任务,即将待执行任务分配至任务结束等待时间最短的数据中心。若目标资源对应的数据中心未包含待执行任务对应的训练数据,则在预设时间段进行跨数据中心的数据预拉取。其中预设时间段可以自定义,如在带宽闲时进行数据拉取,可以调高数据的传输效率,避免网络拥堵。
通过统计资源型号、配置和任务类型的历史数据对资源效率占用进行建模,然后根据实时数据计算效率最优的数据中心任务部署方案;数据中心存储的成本相对较低且部分数据可复用,利用带宽闲时提前将训练数据预拉取至所部署的数据中心。计算效率最优的任务分配方案并进行任务部署,并利用带宽闲时提前将训练数据预拉取至所部署的数据中心,从而提高核心训练资源使用效率,降低总成本。
图2为一个实施例中任务处理方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种任务处理装置200,包括:
数据获取模块201,用于获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务。
资源预测模块202,用于输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长。
数据中心资源获取模块203,用于获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长。
目标资源确定模块204,用于根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
在一个实施例中,上述任务处理装置200,还包括:
判断模块,用于判断目标资源对应的数据中心标识是否与对应的存储训练数据资源的数据中心标识一致,其中属性信息包括存储训练数据资源的数据中心标识,资源信息携带数据中心标识。
指令生成模块,用于当不一致时,生成转移训练数据资源的转移指令。
指令发送模块,用于发送转移指令。
在一个实施例中,上述任务处理装置200,还包括:
时间差计算模块,用于计算待执行任务的执行时刻与预设时刻之间的时间差。
指令发送模块还用于当时间差大于预设时间差时,在预设时刻发送转移指令。
在一个实施例中,目标资源确定模块204具体根据各个候选资源信息和各个当前资源信息的占用时长,从多个候选资源信息中筛选出占用时长最短的候选资源信息作为目标资源信息。
在一个实施例中,上述任务处理装置200,还包括:
模型生成模块,用于生成已训练的资源预测模型,其中模型生成模块包括。
数据获取单元,用于获取已完成的深度学习任务和对应的属性信息,属性信息标准资源信息。
预测单元,用于输入各个已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取已训练的深度学习任务的属性信息的特征,根据特征确定各个已训练的深度学习任务的预测资源信息。
差异度统计单元,用于统计各个已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度。
模型生成单元,用于当差异度小于或等于预设差异度时,得到已训练的资源预测模型。
在一个实施例中,模型生成单元还用于当差异度大于预设差异度时,根据差异度更新初始资源预测模型的模型参数,得到中间资源预测模型,执行输入各个已完成的深度学习任务和对应的属性信息至中间资源预测模型,直至差异度小于或等于预设差异度,得到已训练的资源预测模型。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或计算机设备120)。如图5所示,该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现任务处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行任务处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的任务处理装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该任务处理装置的各个程序模块,比如,图4所示的数据获取模块201、资源预测模块202、数据中心资源获取模块203和目标资源确定模块204。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的任务处理方法中的步骤。
例如,图5所示的计算机设备可以通过如图4所示的任务处理装置中的数据获取模块201执行获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务。计算机设备可以通过资源预测模块202输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长。计算机设备可以通过数据中心资源获取模块203执行获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长。计算机设备可以通过目标资源确定模块204根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
在一个实施例中,属性信息包括存储训练数据资源的数据中心标识,资源信息携带数据中心标识,根据各个待执行任务的目标资源和各个数据中心的资源信息确定各个待执行任务的目标资源信息之后,计算机程序被处理器执行时还实现以下步骤:判断目标资源对应的数据中心标识是否与对应的存储训练数据资源的数据中心标识一致;当不一致时,生成转移训练数据资源的转移指令;发送转移指令。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算待执行任务的执行时刻与预设时刻之间的时间差;发送转移指令,包括:当时间差大于预设时间差时,在预设时刻发送转移指令。
在一个实施例中,候选资源信息包含多个,根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息,包括:根据各个候选资源信息和各个当前资源信息的占用时长,从多个候选资源信息中筛选出占用时长最短的候选资源信息作为目标资源信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:生成已训练的资源预测模型的步骤,包括:获取已完成的深度学习任务和对应的属性信息,属性信息标准资源信息;输入各个已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取已训练的深度学习任务的属性信息的特征,根据特征确定各个已训练的深度学习任务的预测资源信息;统计各个已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度;当差异度小于或等于预设差异度时,得到已训练的资源预测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当差异度大于预设差异度时,根据差异度更新初始资源预测模型的模型参数,得到中间资源预测模型,执行输入各个已完成的深度学习任务和对应的属性信息至中间资源预测模型,直至差异度小于或等于预设差异度,得到已训练的资源预测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取至少一个待执行任务和对应的属性信息,待执行任务为深度学习任务;输入各个待执行任务和对应的属性信息至已训练的资源预测模型,输出各个待执行任务的至少一个候选资源信息,候选资源信息包括候选资源类型和对应的候选占用时长;获取多个数据中心的当前资源信息,当前资源信息包括当前资源类型和对应的当前占用时长;根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息。
在一个实施例中,属性信息包括存储训练数据资源的数据中心标识,,资源信息携带数据中心标识,根据各个待执行任务的目标资源和各个数据中心的资源信息确定各个待执行任务的目标资源信息之后,计算机程序被处理器执行时还实现以下步骤:判断目标资源对应的数据中心标识是否与对应的存储训练数据资源的数据中心标识一致;当不一致时,生成转移训练数据资源的转移指令;发送转移指令。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算待执行任务的执行时刻与预设时刻之间的时间差;发送转移指令,包括:当时间差大于预设时间差时,在预设时刻发送转移指令。
在一个实施例中,候选资源信息包含多个,根据各个待执行任务的候选资源信息和各个当前资源信息,确定各个待执行任务的目标资源信息,包括:根据各个候选资源信息和各个当前资源信息的占用时长,从多个候选资源信息中筛选出占用时长最短的候选资源信息作为目标资源信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:生成已训练的资源预测模型的步骤,包括:获取已完成的深度学习任务和对应的属性信息,属性信息标准资源信息;输入各个已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取已训练的深度学习任务的属性信息的特征,根据特征确定各个已训练的深度学习任务的预测资源信息;统计各个已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度;当差异度小于或等于预设差异度时,得到已训练的资源预测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当差异度大于预设差异度时,根据差异度更新初始资源预测模型的模型参数,得到中间资源预测模型,执行输入各个已完成的深度学习任务和对应的属性信息至中间资源预测模型,直至差异度小于或等于预设差异度,得到已训练的资源预测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种任务处理方法,其特征在于,所述方法包括:
获取至少一个待执行任务和对应的属性信息,所述待执行任务为深度学习任务;
输入各个所述待执行任务和对应的属性信息至已训练的资源预测模型,输出各个所述待执行任务的至少一个候选资源信息,所述候选资源信息包括候选资源类型和对应的候选占用时长;
获取多个数据中心的当前资源信息,所述当前资源信息包括当前资源类型和对应的当前占用时长;
根据各个所述待执行任务的候选资源信息和各个所述当前资源信息,确定各个所述待执行任务的目标资源信息;
其中,所述属性信息包括存储训练数据资源的数据中心标识,所述资源信息携带数据中心标识,所述根据各个所述待执行任务的候选资源信息和各个所述当前资源信息,确定各个所述待执行任务的目标资源信息之后,还包括:
判断所述目标资源对应的数据中心标识是否与对应的所述存储训练数据资源的数据中心标识一致;
当不一致时,生成转移所述训练数据资源的转移指令;
发送所述转移指令;
所述方法还包括:
计算所述待执行任务的执行时刻与预设时刻之间的时间差;
所述发送所述转移指令,包括:当所述时间差大于预设时间差时,在所述预设时刻发送所述转移指令;
其中,生成所述已训练的资源预测模型的步骤,包括:
获取已完成的深度学习任务和对应的属性信息,所述属性信息标准资源信息;
输入各个所述已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取所述已训练的深度学习任务的属性信息的特征,根据所述特征确定各个所述已训练的深度学习任务的预测资源信息;
统计各个所述已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度;
当所述差异度小于或等于预设差异度时,得到所述已训练的资源预测模型。
2.根据权利要求1所述的方法,其特征在于,所述候选资源信息包含多个,所述根据各个所述待执行任务的候选资源信息和各个所述当前资源信息,确定各个所述待执行任务的目标资源信息,包括:
根据各个所述候选资源信息和各个所述当前资源信息的占用时长,从多个所述候选资源信息中筛选出占用时长最短的候选资源信息作为目标资源信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述差异度大于所述预设差异度时,根据所述差异度更新所述初始资源预测模型的模型参数,得到中间资源预测模型,执行输入各个所述已完成的深度学习任务和对应的属性信息至所述中间资源预测模型,直至所述差异度小于或等于预设差异度,得到所述已训练的资源预测模型。
4.一种任务处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取至少一个待执行任务和对应的属性信息,所述待执行任务为深度学习任务;
资源预测模块,用于输入各个所述待执行任务和对应的属性信息至已训练的资源预测模型,输出各个所述待执行任务的至少一个候选资源信息,所述候选资源信息包括候选资源类型和对应的候选占用时长;
数据中心资源获取模块,用于获取多个数据中心的当前资源信息,所述当前资源信息包括当前资源类型和对应的当前占用时长;
目标资源确定模块,用于根据各个所述待执行任务的候选资源信息和各个所述当前资源信息,确定各个所述待执行任务的目标资源信息;
其中,所述属性信息包括存储训练数据资源的数据中心标识,所述资源信息携带数据中心标识,所述装置还包括指令发送模块,用于:
判断所述目标资源对应的数据中心标识是否与对应的所述存储训练数据资源的数据中心标识一致;
当不一致时,生成转移所述训练数据资源的转移指令;
发送所述转移指令;
所述指令发送模块,还用于:
计算所述待执行任务的执行时刻与预设时刻之间的时间差;
所述发送所述转移指令,包括:当所述时间差大于预设时间差时,在所述预设时刻发送所述转移指令;
其中,所述装置还包括:
模型生成模块,用于生成所述已训练的资源预测模型,其中模型生成模块包括:
数据获取单元,用于获取已完成的深度学习任务和对应的属性信息,所述属性信息标准资源信息;
预测单元,用于输入各个所述已完成的深度学习任务和对应的属性信息至初始资源预测模型,通过提取所述已训练的深度学习任务的属性信息的特征,根据所述特征确定各个所述已训练的深度学习任务的预测资源信息;
差异度统计单元,用于统计各个所述已训练的深度学习任务的预测资源信息,与对应的标准资源信息的差异度;
模型生成单元,用于当所述差异度小于或等于预设差异度时,得到所述已训练的资源预测模型。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN201911294243.XA 2019-12-16 2019-12-16 任务处理方法、装置、计算机设备和存储介质 Active CN111104222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911294243.XA CN111104222B (zh) 2019-12-16 2019-12-16 任务处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911294243.XA CN111104222B (zh) 2019-12-16 2019-12-16 任务处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111104222A CN111104222A (zh) 2020-05-05
CN111104222B true CN111104222B (zh) 2023-06-30

Family

ID=70422968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911294243.XA Active CN111104222B (zh) 2019-12-16 2019-12-16 任务处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111104222B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738404B (zh) * 2020-05-08 2024-01-12 深圳市万普拉斯科技有限公司 模型训练任务处理方法、装置、电子设备和存储介质
CN113742052B (zh) * 2020-05-29 2023-09-01 北京京东振世信息技术有限公司 批量任务处理方法和装置
CN112288123B (zh) * 2020-06-16 2023-01-31 北京沃东天骏信息技术有限公司 资源属性的预测方法和系统、训练方法及相关设备
CN111752710B (zh) * 2020-06-23 2023-01-31 中国电力科学研究院有限公司 数据中心pue动态优化方法、系统、设备及可读存储介质
CN111858049B (zh) * 2020-07-17 2024-05-17 浙江大搜车软件技术有限公司 资源信息的分配方法、装置和计算机设备
CN112114873B (zh) * 2020-08-19 2023-03-21 成都安易迅科技有限公司 任务处理的方法、装置及计算机设备
CN112052082B (zh) * 2020-09-01 2024-04-19 深圳市卡数科技有限公司 任务属性优化方法、装置、服务器及存储介质
CN112231100A (zh) * 2020-10-15 2021-01-15 北京明略昭辉科技有限公司 队列资源调整方法、装置、电子设备和计算机可读介质
CN112667392B (zh) * 2020-12-09 2024-01-23 南方电网数字电网研究院有限公司 云计算资源分配方法、装置、计算机设备和存储介质
CN113065887B (zh) * 2021-03-08 2022-12-23 南京苏宁软件技术有限公司 资源处理方法、装置、计算机设备和存储介质
CN113110927B (zh) * 2021-04-19 2024-08-09 上海商汤科技开发有限公司 一种任务调度方法、装置、计算机设备和存储介质
CN113176906B (zh) * 2021-04-25 2024-05-17 京东科技控股股份有限公司 模型管理方法、装置、计算机设备和存储介质
CN113821330B (zh) * 2021-11-24 2022-03-15 腾讯科技(深圳)有限公司 任务调度方法、装置、计算机设备和存储介质
CN114358649B (zh) * 2022-01-17 2022-09-13 安徽君鲲科技有限公司 一种海事现场监管方法及系统
CN114531448B (zh) * 2022-02-21 2024-02-27 联想(北京)有限公司 算力确定方法、装置及算力共享系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN108037993A (zh) * 2017-11-07 2018-05-15 大国创新智能科技(东莞)有限公司 基于大数据和深度学习神经网络的云计算调度方法及系统
CN109614231A (zh) * 2018-12-04 2019-04-12 广东亿迅科技有限公司 空闲服务器资源发现方法、装置、计算机设备和存储介质
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN110321222A (zh) * 2019-07-01 2019-10-11 中国人民解放军国防科技大学 基于决策树预测的数据并行作业资源分配方法
CN110389816A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于资源调度的方法、装置以及计算机程序产品

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885762B (zh) * 2017-09-19 2021-06-11 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
US10805382B2 (en) * 2018-01-29 2020-10-13 International Business Machines Corporation Resource position planning for distributed demand satisfaction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN108037993A (zh) * 2017-11-07 2018-05-15 大国创新智能科技(东莞)有限公司 基于大数据和深度学习神经网络的云计算调度方法及系统
CN110389816A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于资源调度的方法、装置以及计算机程序产品
CN109614231A (zh) * 2018-12-04 2019-04-12 广东亿迅科技有限公司 空闲服务器资源发现方法、装置、计算机设备和存储介质
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN110321222A (zh) * 2019-07-01 2019-10-11 中国人民解放军国防科技大学 基于决策树预测的数据并行作业资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁长松 ; 胡周君 ; .服务网格中资源可用性评估方法研究.计算机应用研究.2008,(12),全文. *
胡志刚 ; 胡周君 ; .一种基于预测的资源匹配算法.计算机应用.2007,(10),全文. *

Also Published As

Publication number Publication date
CN111104222A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104222B (zh) 任务处理方法、装置、计算机设备和存储介质
WO2022037337A1 (zh) 机器学习模型的分布式训练方法、装置以及计算机设备
RU2405197C2 (ru) Веб-кролинг на основе теории статистических решений и прогнозирование изменения веб-страницы
US11146497B2 (en) Resource prediction for cloud computing
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN105808634A (zh) 分布式映射化简网络
WO2017176333A1 (en) Batching inputs to a machine learning model
CN108431832A (zh) 利用外部存储器扩增神经网络
US20220198340A1 (en) Automated machine learning test system
US9614925B2 (en) Intelligent file pre-fetch based on access patterns
US10146665B2 (en) Systems and methods for providing dynamic and real time simulations of matching resources to requests
CN111158613A (zh) 基于访问热度的数据块存储方法、装置及存储设备
CN115098257A (zh) 一种资源调度方法、装置、设备以及存储介质
CN111311014B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN114237852A (zh) 一种任务调度方法、装置、服务器及存储介质
CN1783121B (zh) 用于执行设计自动化的方法和系统
CN111124644B (zh) 任务调度资源的确定方法、装置及系统
US10313457B2 (en) Collaborative filtering in directed graph
CN116483546B (zh) 分布式训练任务调度方法、装置、设备及存储介质
CN105940418B (zh) 用于在零售中管理额外日历时段的系统和方法
CN113064660A (zh) 设备控制方法、装置、电子设备及存储介质
CN115545248A (zh) 目标对象预测方法、装置、设备及介质
KR20220071895A (ko) 오토 스케일링 방법, 장치 및 시스템
CN109921957B (zh) 机房端到端容量管理方法、电子装置及存储介质
US11922310B1 (en) Forecasting activity in software applications using machine learning models and multidimensional time-series data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant