CN113485833A - 资源预测方法和装置 - Google Patents

资源预测方法和装置 Download PDF

Info

Publication number
CN113485833A
CN113485833A CN202110780138.8A CN202110780138A CN113485833A CN 113485833 A CN113485833 A CN 113485833A CN 202110780138 A CN202110780138 A CN 202110780138A CN 113485833 A CN113485833 A CN 113485833A
Authority
CN
China
Prior art keywords
resource
task
prediction mode
processed
resource prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110780138.8A
Other languages
English (en)
Other versions
CN113485833B (zh
Inventor
李龙飞
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110780138.8A priority Critical patent/CN113485833B/zh
Publication of CN113485833A publication Critical patent/CN113485833A/zh
Application granted granted Critical
Publication of CN113485833B publication Critical patent/CN113485833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5019Workload prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开披露了一种资源预测方法和装置。所述方法包括:接收集群的待处理任务;从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式;根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;其中,所述多种资源预测方式包括第一资源预测方式和第二资源预测方式,所述第一资源预测方式基于预先训练的机器学习模型对所述目标资源进行预测,所述第二资源预测方式基于所述集群在滑动窗口期内的任务的资源使用数据对所述目标资源进行预测。

Description

资源预测方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及一种资源预测方法和装置。
背景技术
随着计算需求的增大,越来越多的计算中心向用户提供集群服务。当用户有待处理的任务,并希望利用集群资源执行该任务时,用户可以向该集群提交该任务,并从集群获取任务的执行结果。
由于不同种类的任务对集群的资源需求存在较大差异,因此,集群通常要求用户在提交任务时,为该任务指定资源限制(或称资源上限)。在接收到任务之后,集群会根据用户指定的资源限制,为该待处理任务配置相应的资源。但是,用户对执行任务所需的资源往往没有清晰认识,导致集群为任务分配的资源不准确。
发明内容
有鉴于此,本公开致力于提供一种资源预测方法和装置,以提高资源预测的准确性。
第一方面,本公开提供一种资源预测方法,包括:接收集群的待处理任务;从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式;根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;其中,所述多种资源预测方式包括第一资源预测方式和第二资源预测方式,所述第一资源预测方式基于预先训练的机器学习模型对所述目标资源进行预测,所述第二资源预测方式基于所述集群在滑动窗口期内的任务的资源使用数据对所述目标资源进行预测。
第二方面,本公开提供一种资源预测装置,包括:接收单元,被配置为接收集群的待处理任务;选择单元,被配置为从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式;预测单元,被配置为根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;其中,所述多种资源预测方式包括第一资源预测方式和第二资源预测方式,所述第一资源预测方式基于预先训练的机器学习模型对所述目标资源进行预测,所述第二资源预测方式基于所述集群在滑动窗口期内的任务的资源使用数据对所述目标资源进行预测。
第三方面,本公开提供一种资源预测装置,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器被配置为执行所述可执行代码,以实现如第一方面所述的方法。
第四方面,本公开提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被执行时,能够实现如第一方面所述的方法。
第五方面,本公开提供一种计算机程序产品,包括可执行代码,当所述可执行代码被执行时,能够实现如第一方面所述的方法。
本公开实施例提出的资源预测方法,能够同时支持基于机器学习模型的预测方式和基于滑动窗口的资源预测方式,两种资源预测方式相互补充,能够提高资源预测的灵活性和准确性。
附图说明
图1所示为可应用于本公开实施例的系统框架示例图。
图2所示为本公开实施例提供的资源预测方法的流程示意图。
图3所示为本公开实施例提供的选择资源预测方法的流程示意图。
图4所示为本公开一实施例提供的资源预测装置的结构示意图。
图5所示为本公开另一实施例提供的资源预测装置的结构示意图。
具体实施方式
图1是本公开实施例提供的系统架构的示例图。如图1所示,该系统可以包括用户12和集群14。集群14可以向不同的用户12提供集群资源并收取一定的费用。例如,集群14可以向用户提供计算机、软件和/或硬件资源。利用集群资源的用户无需自行购买计算机、软件和/或硬件资源,也无需自己建设数据中心,从而实现按需付费和弹性调度,节省运营成本。
用户12可以与集群14进行通信和数据交互,以享受集群资源。例如,用户12可以向集群14提交待处理任务(job),并从集群14接收集群返回的任务处理结果。在一些实施例中,任务可以理解为用户12可以向集群14提交的用于享受集群资源的基本单位。当然,一个任务还可以包括多个子任务,子任务有时也可称为作业(task)。
用户12与集群14之间的通信和数据交互具体可以通过用户终端实现。该用户终端例如可以是笔记本电脑、服务器、智能手机、数字助理等不同类型的设备。
集群14通常由很多集群节点(每个节点可以是一个服务器)组成,集群14中的各节点可以独立或协同工作,共同执行用户12提交的任务。集群14可以部署在云端,因此,在有些实施例中,集群可以称为云,该云可以是公有云,私有云或混合云中的任意一种。
集群14可以向用户12提供多种不同类型的资源,例如,可以提供处理器、内存、磁盘以及网络等资源。集群14向用户12提供的处理器资源可以包括中央处理器(CentralProcessing Unit,CPU)资源,也可以包括图形处理器(Graphics Processing Unit,GPU)资源等。
如图1所示,从功能角度来看,集群14可以包括调度器141(或接口服务器)以及多个工作节点(worker)142。调度器141可以接收用户12提交的待处理任务,并按照一定的策略(如负载均衡策略)将待处理任务调度至合适的工作节点142。
在接收到任务之后,工作节点142可以执行该任务,并将任务的执行结果返回给用户12。
在一些实施例中,集群14还可以包括数据库。数据库可以用于存储工作节点142上执行的任务的资源使用日志,如存储工作节点142处理的各个任务所消耗的资源量、资源的峰值、资源的均值、任务的执行时间等。
前文提到,当用户12希望使用集群14的资源执行某任务时,可以直接向集群14提交该任务。但是,由于不同种类的任务对集群的资源需求存在较大差异,因此,如果用户12希望在集群14上运行某个任务,集群14通常要求用户12在提交任务时为该任务指定对应的资源限制(limit)。例如,用户12可以指定运行该任务需要的处理器、内存、磁盘以及网络等资源的数量。
在用户12指定任务对应的资源限制之后,集群14会根据该资源限制对任务进行资源分配。如果用户12指定的资源限制过小,超过资源限制的任务可能会被节流或杀死,导致任务运行的时间延迟,或者导致用户12的请求直接被终止。因此,为了任务的安全运行,用户12自然会谨慎行事,一般会指定比任务的实际需要更大的资源限制。当集群14运行的任务较多时,会导致大量的集群资源被浪费。
为了解决上述问题,本公开实施例提出了一种资源预测方法,该资源预测方法能够同时支持基于机器学习模型的预测方式和基于滑动窗口的资源预测方式,两种资源预测方式相互补充,能够提高资源预测的灵活性和准确性。
下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。
图2为本公开实施例提供的资源预测方式的流程示意图。图2的方法可以由资源预测装置(也可称为资源推荐装置)执行。该资源预测装置可以是集成在集群中的某个节点上的软件,也可以是独立的节点。以图1为例,该资源预测装置的功能可以由图1中的调度器141实现,或者,也可以在调度器141与用户12之间设置独立的资源预测装置。
如图2所示,在步骤S210,接收集群的待处理任务。
如前文所述,该待处理任务可以由用户提交至集群。本公开实施例对该待处理任务的类型不做限制,例如,待处理任务可以是普通的计算或统计任务,也可以是机器学习任务。例如,待处理任务可以是深度神经网络的训练任务和/或预测任务等。
在步骤S220至步骤S230,从预设的多种资源预测方式中选择与待处理任务对应的资源预测方式,并根据待处理任务对应的资源预测方式,对待处理任务所需的目标资源进行预测。
步骤S220的实现方式可以有多种。作为一个示例,可以由集群(具体可以是前文提到的资源预测装置)按照一定的策略,自动帮助用户从多种资源预测方式中选择合适的资源预测方式。作为另一个示例,集群可以向用户展示该集群支持的多种资源预测方式,供用户挑选;待用户做出选择之后,可以将用户选择的资源预测方式作为待处理任务对应的资源预测方式。进一步地,在向用户展示该集群支持的多种资源预测方式时,集群可以按照一定的算法或策略向用户推荐其中的一种或多种资源预测方式。
在一些实施例中,可以从多种资源预测方式中选择一种资源预测方式作为待处理任务对应的资源预测方式,然后根据该资源预测方式对待处理任务所需的目标资源进行预测。
或者,在另一些实施例中,也可以从多种资源预测方式中选择至少两种资源预测方式,后续可以根据该至少两种资源预测方式对待处理任务所需的目标资源进行预测。例如,可以将该至少两种资源预测方式的资源预测结果的平均值作为待处理任务所需的目标资源。
本公开实施例提供的资源预测方式可以对目标资源的均值进行预测,也可以对目标资源的峰值进行预测。在一些实施例中,集群可以将预测出的目标资源作为该待处理任务的资源限制(或称资源上限)。
本公开实施例提供的多种资源预测方式可以包括第一资源预测方式和第二资源预测方式。第一资源预测方式可以基于预先训练的机器学习模型对待处理任务所需的目标资源进行预测。第二资源预测方式可以基于集群在滑动窗口期内的任务的资源使用数据对待处理任务所需的目标资源进行预测。下面对这两种资源预测方式进行更为详细的举例说明。
第一资源预测方式所采用的机器学习模型可以由集群中存储的历史任务的资源使用数据训练而成。进一步地,在一些实施例中,该机器学习模型还可以随着新的资源使用数据的产生而被不断训练或更新。
该机器学习模型的输入可以是待处理任务,输出可以是该待处理任务所需的目标资源。例如,机器学习模型可以对待处理任务进行特征提取,并根据预先建立的任务的特征与任务所需资源的映射关系,得到该待处理任务所需的目标资源。
本公开对机器学习模型的类型不做限制,例如可以是普通的神经网络模型,也可以是基于时间序列的机器学习模型。由于集群的任务量通常随着时间是变化波动的,因此基于时间序列的机器学习模型能够学习到集群的时间变化特性,从而对待处理任务所需的目标资源做出更加准确的预测。该基于时间序列的机器学习模型例如可以是自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)、Prophet模型、霍尔特指数平滑法模型等。
第二资源预测方式可以称为基于滑动窗口的资源预测方式。采用基于滑动窗口的资源预测方式的优势在于其对集群的历史任务的数据量没有很大的依赖性,只需要利用滑动窗口期内的任务的资源使用数据就可以对待处理任务所需的目标资源做出预测。由于很多集群存在使用高峰和低谷,通过合理设置滑动窗口期,可以使得资源预测结果与集群的当前负载状态保持匹配,预测结果也较为合理。此外,基于滑动窗口的资源预测方式不需要复杂的模型训练过程,实现起来也相对简单。
在使用第二资源预测方式之前,需要先设定滑动窗口期。滑动窗口期可以指集群的一段历史运行时间。作为一个示例,滑动窗口期可以是当前时刻之前的一段时间。例如,滑动窗口期可以设定为集群当前运行时间的前1个小时、前5个小时或前1天。滑动窗口期的时间长度可以根据集群的任务量的波动情况设定,也可以根据经验或第二资源预测方式的预测效果选择,本公开实施例对此不做具体限定。
第二资源预测方式以滑动窗口期内的任务的资源使用数据作为预测的基础。该任务的资源使用数据的获取方式可以有多种。作为一个示例,可以采用由工作节点上报的方式获取滑动窗口期内的任务的资源使用数据。例如,工作节点每处理完一个任务或每处理完一段时间内的任务,可以将相应任务的资源使用情况上报至资源预测装置,以支持该第二资源预测方式。或者,工作节点可以将所有任务的资源使用数据存储至集群的数据库中。资源预测装置可以通过该数据库获取滑动窗口期内的任务的资源使用数据,并根据滑动窗口期的变化动态不断更新作为预测基础的任务资源使用数据。
滑动窗口期内的任务可以包括多个任务。该多个任务可以包括已经处理完成的历史任务和/或由工作节点正在处理的任务。
滑动窗口期内的任务的资源使用数据可以是按照一定的采样间隔进行采样得到样本数据(后文简称样本)。采样的间隔可以根据实际需要设定,例如可以每隔1秒进行1次采样,或者可以每隔5分钟进行一次采样。当然,在一些实施例中,针对任务级别的资源使用数据,可以以较短的时间间隔进行采样,并将采样后的数据点按照较大的时间间隔进行聚合,并将聚合后的数据作为样本进行后续的资源预测。例如,针对滑动窗口期内的任务级别的数据,可以每隔1秒进行1次采样,得到ri[τ],其中i表示滑动窗口期内的第i个任务,τ可以表示数据年龄(数据年龄的含义参见后文的解释)。然后,可以将ri[τ]按照5分钟聚合,得到si[τ]。后续,可以利用si[τ]进行资源预测。
第二资源预测方式可以对滑动窗口期内的多个任务的资源使用数据进行加权,利用加权后的多个任务的资源使用数据对目标资源进行预测。在一些实施例中,可以将该多个任务的资源使用数据的权重设置为随着多个任务的资源使用数据的数据年龄的增加而衰减(或称下降)。
数据年龄可以指数据存在的时间,例如可以采用数据的采样时间表示。数据年龄越小,说明该数据生成的时间越晚,在预测过程中其权重可能就会被设置的较高。这样设置是因为:数据年龄越小,越能反映集群当前的运行状况,因此,为数据年龄较小的数据设置较高的权重,可以提升资源预测的准确度。
权重的衰减方式可以有多种,可以均匀衰减,也可以呈指数衰减。下面以指数衰减为例进行举例说明。
对于滑动窗口期内的任务的资源使用数据,可以使用如下公式计算各任务的资源使用数据的权重w:
Figure BDA0003156357270000081
其中,τ是任务的资源使用数据的年龄。
从上述公式可以看出,滑动窗口期内的任务的资源使用数据呈指数衰减。t1/2表征的是半衰期,半衰期可以根据待预测的目标资源的类型而定。例如,对于CPU资源而言,t1/2可以是12小时;又如,对于内存资源而言,t1/2可以是48小时。
第二资源预测方式可以向用户提供资源的峰值预测功能和/或均值预测功能。换句话说,第二资源预测方式可以对待处理任务所需的目标资源进行峰值预测和/或均值预测。第二资源预测方式采用峰值预测还是均值预测,可以根据集群的实际情况动态调整,或者根据专家的经验人工调整,当然也可以根据用户的选择而定。
以滑动窗口内的任务的资源使用数据包括N个样本为例,当采用第二预测方式进行峰值预测时,可以从N个样本中选取最大值,作为待处理任务所需的目标资源的取值;当采用第二预测方式进行均值预测时,可以对N个样本进行加权平均,得到目标资源的取值。
第一资源预测方式(即基于机器学习模型的资源预测方式)在高质量的训练数据的支持下,可以具有较高的资源预测准确性;第二资源预测方式(即基于滑动窗口的资源预测方式)对历史任务的数据依赖性较低,并可以根据集群负载的动态变化对资源进行准确的实时预测。两种资源预测方式相互补充,能够提高资源预测的灵活性和准确性。
下面结合具体的示例,给出两种资源预测方式的可能的选取策略。
例如,在集群创建初期,历史任务的资源使用数据较少,由于第二资源预测方式对历史任务的资源使用数据的依赖性较低,此时可以先利用第二资源预测方式进行资源预测。当集群进入稳定的运行阶段并积累了大量的历史任务的资源数据之后,可以利用第一资源预测方式进行资源预测,这样有助于提高预测的准确性。
又如,在集群升级(如集群的工作节点的数量发生变更或工作节点的性能被升级)的过程中或集群升级完成后的初期,该集群的历史任务的资源使用数据可能无法反映升级后的集群的情况,因此,可以先采用第二资源预测方式进行资源预测。待集群稳定运行一段时间之后,再利用第一资源预测方式进行资源预测。
当然,在一些实施例中,还可以同时采用第一资源预测方式和第二资源预测方式进行资源预测,然后综合考虑二者的资源预测结果,得到最终的资源预测结果(如取两种资源预测方式的预测值的平均值)。
在一些实施例中,针对一些特定用户或特定任务,可以为用户提供定制化服务。例如,可以选择不对此类任务的资源进行预测,而是优先保障此类任务的资源需求。该特定任务例如可以是优先级较高的任务,也可以是实时性要求较高的任务。本公开实施例将此类任务称为用户定制化任务。为了标识此类任务,集群可以为此类任务设置一个flag,如果flag=1,则表示该任务为用户定制化任务。如图3所示,如果用户提交至集群的待处理任务属于用户定制化任务,则可以将用户输入的资源需求直接确定为该待处理任务所需的目标资源。否则,可以采用前文描述的第一资源预测方式或第二资源预测方式对该待处理任务所需的目标资源进行预测。
在一些实施例中,如果某个待处理任务属于用户定制化任务,那么用户除了可以直接输入该用户定制化任务的资源需求之外,还可以输入其他需求。例如,用户可以输入对运行时间的需求,作为一个示例,可以要求1个小时内完成该用户定制化任务的运行;或者,可以要求2个小时之后再开始运行该用户定制化任务。
上文结合图1和图3,详细描述了本公开的方法实施例,下面结合图4和图5,详细描述本公开的装置实施例。应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图4是本公开一实施例提供的资源预测装置的结构示意图。该资源预测装置400可以包括接收单元410、选择单元420以及预测单元430。
接收单元410可以被配置为接收集群的待处理任务。
选择单元420可以被配置为从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式。
预测单元430可以被配置为根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;所述多种资源预测方式可以包括第一资源预测方式和第二资源预测方式,第一资源预测方式基于预先训练的机器学习模型对待处理任务所需的目标资源进行预测,第二资源预测方式基于集群在滑动窗口期内的任务的资源使用数据对待处理任务所需的目标资源进行预测。
可选地,第二资源预测方式包括:所述目标资源的峰值预测和/或所述目标资源的均值预测。
可选地,所述集群在滑动窗口期内的任务包括多个任务,所述目标资源的均值预测的预测值是所述多个任务的资源使用数据的加权平均值,且所述多个任务的资源使用数据的权重随着所述多个任务的资源使用数据的数据年龄的增加而衰减。
可选地,装置400还包括用户定制化任务确定单元。用户定制化任务确定单元被配置为确定所述待处理任务是否属于用户定制化任务;如果所述待处理任务属于所述用户定制化任务,将用户输入的资源确定为所述待处理任务所需的目标资源。
可选地,选择单元420进一步被配置为:如果所述集群的运行时间大于预设阈值,将所述第一资源预测方式确定为所述待处理任务对应的资源预测方式;如果所述集群的运行时间小于所述预设阈值,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
可选地,选择单元420进一步被配置为:如果所述集群处于升级阶段,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
可选地,所述待处理任务对应的资源预测方式由提交所述待处理任务的用户从所述预设的多种资源预测方式中选择。
可选地,所述机器学习模型为基于时间序列的预测模型。
可选地,所述待处理任务所需的目标资源包括以下资源中的一种或多种:处理器、内存、磁盘以及网络。
图5是本公开另一实施例提供的资源预测装置的结构示意图。图5所示的装置500可以是服务器(如接口服务器)。装置500可以包括存储器510和处理器520。存储器510可用于存储可执行代码。处理器520可用于执行存储器510中的可执行代码,以实现前文描述的各个方法中的步骤。在一些实施例中,装置500还可以包括网络接口530,处理器520与外部设备的数据交换可以通过该网络接口530实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc,DVD))、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以意识到,结合本公开实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换等,均应包含在本公开的保护范围之内。

Claims (19)

1.一种资源预测方法,包括:
接收集群的待处理任务;
从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式;
根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;
其中,所述多种资源预测方式包括第一资源预测方式和第二资源预测方式,所述第一资源预测方式基于预先训练的机器学习模型对所述目标资源进行预测,所述第二资源预测方式基于所述集群在滑动窗口期内的任务的资源使用数据对所述目标资源进行预测。
2.根据权利要求1所述的方法,所述第二资源预测方式包括:所述目标资源的峰值预测和/或所述目标资源的均值预测。
3.根据权利要求2所述的方法,所述集群在滑动窗口期内的任务包括多个任务,所述目标资源的均值预测的预测值是所述多个任务的资源使用数据的加权平均值,且所述多个任务的资源使用数据的权重随着所述多个任务的资源使用数据的数据年龄的增加而衰减。
4.根据权利要求1所述的方法,在所述根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测之前,所述方法还包括:
确定所述待处理任务是否属于用户定制化任务;
如果所述待处理任务属于所述用户定制化任务,将用户输入的资源确定为所述待处理任务所需的目标资源。
5.根据权利要求1所述的方法,所述从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式,包括:
如果所述集群的运行时间大于预设阈值,将所述第一资源预测方式确定为所述待处理任务对应的资源预测方式;
如果所述集群的运行时间小于所述预设阈值,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
6.根据权利要求1所述的方法,所述从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式,包括:
如果所述集群处于升级阶段,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
7.根据权利要求1所述的方法,所述待处理任务对应的资源预测方式由提交所述待处理任务的用户从所述预设的多种资源预测方式中选择。
8.根据权利要求1所述的方法,所述机器学习模型为基于时间序列的预测模型。
9.根据权利要求1所述的方法,所述待处理任务所需的目标资源包括以下资源中的一种或多种:处理器、内存、磁盘以及网络。
10.一种资源预测装置,包括:
接收单元,被配置为接收集群的待处理任务;
选择单元,被配置为从预设的多种资源预测方式中选择与所述待处理任务对应的资源预测方式;
预测单元,被配置为根据所述待处理任务对应的资源预测方式,对所述待处理任务所需的目标资源进行预测;
其中,所述多种资源预测方式包括第一资源预测方式和第二资源预测方式,所述第一资源预测方式基于预先训练的机器学习模型对所述目标资源进行预测,所述第二资源预测方式基于所述集群在滑动窗口期内的任务的资源使用数据对所述目标资源进行预测。
11.根据权利要求10所述的装置,所述第二资源预测方式包括:所述目标资源的峰值预测和/或所述目标资源的均值预测。
12.根据权利要求10所述的装置,所述集群在滑动窗口期内的任务包括多个任务,所述目标资源的均值预测的预测值是所述多个任务的资源使用数据的加权平均值,且所述多个任务的资源使用数据的权重随着所述多个任务的资源使用数据的数据年龄的增加而衰减。
13.根据权利要求10所述的装置,还包括:
用户定制化任务确定单元,被配置为确定所述待处理任务是否属于用户定制化任务;如果所述待处理任务属于所述用户定制化任务,将用户输入的资源确定为所述待处理任务所需的目标资源。
14.根据权利要求10所述的装置,所述选择单元进一步被配置为:
如果所述集群的运行时间大于预设阈值,将所述第一资源预测方式确定为所述待处理任务对应的资源预测方式;
如果所述集群的运行时间小于所述预设阈值,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
15.根据权利要求10所述的装置,所述选择单元进一步被配置为:
如果所述集群处于升级阶段,将所述第二资源预测方式确定为所述待处理任务对应的资源预测方式。
16.根据权利要求10所述的装置,所述待处理任务对应的资源预测方式由提交所述待处理任务的用户从所述预设的多种资源预测方式中选择。
17.根据权利要求10所述的装置,所述机器学习模型为基于时间序列的预测模型。
18.根据权利要求10所述的装置,所述待处理任务所需的目标资源包括以下资源中的一种或多种:处理器、内存、磁盘以及网络。
19.一种资源预测装置,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器被配置为执行所述可执行代码,以实现权利要求1-9中任一项所述的方法。
CN202110780138.8A 2021-07-09 2021-07-09 资源预测方法和装置 Active CN113485833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780138.8A CN113485833B (zh) 2021-07-09 2021-07-09 资源预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780138.8A CN113485833B (zh) 2021-07-09 2021-07-09 资源预测方法和装置

Publications (2)

Publication Number Publication Date
CN113485833A true CN113485833A (zh) 2021-10-08
CN113485833B CN113485833B (zh) 2024-02-06

Family

ID=77938334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780138.8A Active CN113485833B (zh) 2021-07-09 2021-07-09 资源预测方法和装置

Country Status (1)

Country Link
CN (1) CN113485833B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780225A (zh) * 2022-06-14 2022-07-22 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置
WO2023154100A1 (en) * 2022-02-14 2023-08-17 Microsoft Technology Licensing, Llc. Computing resource prediction for optimizing resource utilization and computing workload density

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289994A (zh) * 2019-06-06 2019-09-27 厦门网宿有限公司 一种集群容量调整方法及装置
CN110597626A (zh) * 2019-08-23 2019-12-20 第四范式(北京)技术有限公司 在分布式系统中资源及任务的分配方法、装置及系统
KR20200068562A (ko) * 2018-12-05 2020-06-15 한국전자통신연구원 클라우드 컴퓨팅 시스템의 워커 스케줄링 방법 및 이를 위한 장치
CN112148468A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种资源调度方法、装置、电子设备及存储介质
CN112799850A (zh) * 2021-02-26 2021-05-14 重庆度小满优扬科技有限公司 模型的训练方法、模型的预测方法以及模型的控制系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068562A (ko) * 2018-12-05 2020-06-15 한국전자통신연구원 클라우드 컴퓨팅 시스템의 워커 스케줄링 방법 및 이를 위한 장치
CN110289994A (zh) * 2019-06-06 2019-09-27 厦门网宿有限公司 一种集群容量调整方法及装置
CN112148468A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种资源调度方法、装置、电子设备及存储介质
CN110597626A (zh) * 2019-08-23 2019-12-20 第四范式(北京)技术有限公司 在分布式系统中资源及任务的分配方法、装置及系统
CN112799850A (zh) * 2021-02-26 2021-05-14 重庆度小满优扬科技有限公司 模型的训练方法、模型的预测方法以及模型的控制系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023154100A1 (en) * 2022-02-14 2023-08-17 Microsoft Technology Licensing, Llc. Computing resource prediction for optimizing resource utilization and computing workload density
CN114780225A (zh) * 2022-06-14 2022-07-22 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置
CN114780225B (zh) * 2022-06-14 2022-09-23 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置

Also Published As

Publication number Publication date
CN113485833B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110737529B (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
CN108089921B (zh) 用于云端大数据运算架构的服务器及其运算资源最佳化方法
CN110198244B (zh) 面向异构云服务的资源配置方法和装置
JP7304887B2 (ja) 仮想マシンスケジューリング方法および装置
US8909567B2 (en) Method and system for the dynamic allocation of resources based on fairness, throughput, and user behavior measurement
US20200219028A1 (en) Systems, methods, and media for distributing database queries across a metered virtual network
US20050102398A1 (en) System and method for allocating server resources
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
WO2017176333A1 (en) Batching inputs to a machine learning model
US20110138055A1 (en) resource allocation system
US20080222218A1 (en) Risk-modulated proactive data migration for maximizing utility in storage systems
US20240036937A1 (en) Workload placement for virtual gpu enabled systems
CN113485833B (zh) 资源预测方法和装置
CN112181664B (zh) 负载均衡方法及装置、计算机可读存储介质及电子设备
CN109558248B (zh) 一种用于确定面向海洋模式计算的资源分配参数的方法及系统
US20240086249A1 (en) System, method, and medium for elastic allocation of resources for deep learning jobs
CN112148471A (zh) 分布式计算系统中资源调度的方法和装置
CN115794323A (zh) 任务调度方法、装置、服务器和存储介质
CN117311973A (zh) 计算设备调度方法、装置、非易失性存储介质及电子设备
CN117193980A (zh) 任务剩余时长的计算方法和装置
CN112130979B (zh) 调度任务及训练神经网络模型的方法、装置、终端和介质
CN114064403A (zh) 一种任务延迟分析处理方法和装置
US20220188383A1 (en) Horizon-based smoothing of forecasting model
Hanczewski et al. A Multiparameter Analytical Model of the Physical Infrastructure of a Cloud-Based System
CN109739649B (zh) 资源管理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant