CN116263701A - 算力网络任务调度方法、装置、计算机设备及存储介质 - Google Patents

算力网络任务调度方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116263701A
CN116263701A CN202211506928.8A CN202211506928A CN116263701A CN 116263701 A CN116263701 A CN 116263701A CN 202211506928 A CN202211506928 A CN 202211506928A CN 116263701 A CN116263701 A CN 116263701A
Authority
CN
China
Prior art keywords
power
calculation
information
task scheduling
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211506928.8A
Other languages
English (en)
Inventor
张洁
仲阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202211506928.8A priority Critical patent/CN116263701A/zh
Publication of CN116263701A publication Critical patent/CN116263701A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明实施例涉及算力网络技术领域,公开了一种算力网络任务调度方法,该方法包括:对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。通过上述方式,本发明实施例实现了低代价及可预测的算力调度。

Description

算力网络任务调度方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及算力网络技术领域,具体涉及一种算力网络任务调度方法、装置、计算机设备及计算机可读存储介质。
背景技术
目前,随着数字化经济的不断发展,增强现实、图像渲染、自动驾驶等新型业务大量涌现,传统行业业务系统复杂度也在不断提升,各行各业对计算资源、存储资源、能耗的需求持续增长。然而现有云计算资源面临着资源利用率低、跨节点难以调度、通信带宽有限、难以提供低延时解决方案等一系列问题。为满足日渐增长的算力需求,提升全网算力资源利用率,满足新型业务对于计算、存储、带宽、时延的需求,需要通过网络的方式将大量闲置计算节点进行统一调度,共用户使用,由此产生对算网统一管理和调度的需求。现有算力网络管理和调度机制包括:(1)基于算力需求拆解的资源编排方法;(2)面向业务整体时延特性的算力调度方法。
然而,本申请的发明人发现,现有的算力网络调度,对算力任务的调度是随机的,仅包含算力拆解及匹配的调度算法,无法满足具体业务场景下的算力分配;调度算法是在接收到算力需求或子需求后,对任务进行计算与匹配,无法对算力调度任务进行提前预测与分配,且难以保障每次的调度任务的最优特性。
发明内容
鉴于上述问题,本发明实施例提供了一种算力网络任务调度方法、装置、计算机设备及计算机可读存储介质,用于解决现有技术中存在的算力任务调度代价高、不可预测的问题。
根据本发明实施例的一个方面,提供了一种算力网络任务调度方法,所述方法包括:
对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
在一种可选的方式中,所述根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的多个算力方案,包括:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
在一种可选的方式中,所述计算各个算力方案集合的最短时延路径,包括:
计算所述业务需求中的业务到每个算力方案的所有路径的时延;
根据每个算力方案的所有路径的时延,确定每个算力方案对应的最短时延路径。
在一种可选的方式中,所述计算所述最短时延路径对应的成本,包括:
确定每个算力方案的最短时延路径上的节点信息;
将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。
在一种可选的方式中,所述基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径之前,所述方法还包括:
将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;
所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。
在一种可选的方式中,所述方法还包括:
确定实际任务调度与业务需求的匹配度;
根据匹配度,确定任务处理是否成功;
对任务处理不成功的任务进行分析矫正,得到矫正后的任务;
将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。
根据本发明实施例的另一方面,提供了一种算力网络任务调度装置,包括:
拆解模块,用于对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
匹配模块,用于根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算模块,用于计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
确定模块,用于基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
在一种可选的方式中,所述匹配模块,进一步用于:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
根据本发明实施例的另一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的算力网络任务调度方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行所述的算力网络任务调度方法的操作。
本发明实施例通过对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到,引入策略场景需求信息的时延、带宽敏感、成本等多样化的特性因子,能够在完成算力拆解及资源匹配后,对满足条件的算力节点路径进行多维度的匹配,以达成更契合业务需求的算力调度算法,能够有效提高调度任务与实际需求的匹配度,调度代价低,调度任务可预测。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的算力网络任务调度方法的流程示意图;
图2示出了本发明实施例提供的算力网络任务调度装置的结构示意图;
图3示出了本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
首先,对一些技术术语进行相应解释。
TOPS:Tera Operations Per Second,算力单位,1TOPS代表处理器每秒钟可进行一万亿次。
FLOPS:floating-point operations per second,算力单位:每秒所执行的浮点运算次数。
LSTM:long-term and short-term memory network,长短时记忆网络。
在此,进一步对本发明实施例所对应的现有技术进行进一步分析:
随着数字化经济的不断发展,增强现实、图像渲染、自动驾驶等新型业务大量涌现,传统行业业务系统复杂度也在不断提升,各行各业对计算资源、存储资源、能耗的需求持续增长。然而现有云计算资源面临着资源利用率低、跨节点难以调度、通信带宽有限、难以提供低延时解决方案等一系列问题。为满足日渐增长的算力需求,提升全网算力资源利用率,满足新型业务对于计算、存储、带宽、时延的需求,需要通过网络的方式将大量闲置计算节点进行统一调度,共用户使用,由此产生对算网统一管理和调度的需求。
现有算力网络管理和调度机制包括:(1)基于算力需求拆解的资源编排方法;(2)面向业务整体时延特性的算力调度方法。下面分别阐述以上调度算法的任务编排机制:
(1)基于算力需求拆解的资源编排方法:
其中,接收终端发送的业务需求,解析业务需求中的子需求,根据子需求将网络算力资源划分为多个算力资源池,将子需求分配至对应的算力资源池进行计算。任务调度系统根据子需求将所述网络算力资源划分为多个算力资源池:
a.若子需求为存储需求和/或控制需求,则将所属网络资源划分到逻辑运算资源池。
b.若子需求为图像处理需求、计算需求、密码破解需求、数值分析需求、数据处理需求和金融分析需求中的至少一种,则将所述网络算力资源划分到并行计算资源池。
c.若子需求为神经网络计算需求或机器学习计算需求,则将所述网络所里资源划分到神经网络计算资源池。
在该方法中,整体业务流程包括接收、解析、划分、计算四个模块,通过将子需求分配至对应算力资源池进行计算,优化了网络算力资源的分配方式,提升了网络算力资源的利用率和可靠性。
(2)面向业务整体时延特性的算力调度方法:
建立算力感知网络系统,在对计算、存储资源模型匹配的基础上,通过计算任务接入时延、任务传输时延、任务达到计算节点的时延、任务处理时延和任务等待时延的集合,计算用户业务调度到计算节点的总传输时延。通过动态路径选择算法,计算最短时延的算力调度路径,对算力进行更精确的匹配与调度。
现有的方案中,存在以下缺陷:
1、满足算力需求的前提下,对算力任务的调度是随机的,但是在实际业务业务场景中,涉及时延敏感、带宽敏感、成本敏感等多样化的业务特性,仅包含算力拆解及匹配的调度算法,无法满足具体业务场景下的算力分配。
2、调度算法是在接收到算力需求或子需求后,对任务进行计算与匹配;在实际业务场景中,不同产品对于算力需求是具有可预测性的,如应用于办公场景的云终端类产品,在工作时间段会有较高的资源占用率,大概率产生算力扩容需求;通过相应的预测算法和机制,对算力调度任务进行提前预测与分配,可以减轻实时计算的压力与算力调度的耗时,提升用户体验。
3、在多重业务特性需求融合的算力调度场景下,随着任务场景复杂度的不断增加,算法难以保障每次的调度任务的最优特性;因此调度算法在实际应用中,应具备自适应与自优化能力,通过机器学习/人工矫正等多种手段,对任务的实际调度与预期匹配度进行打分与矫正,帮助调度算法在实际应用中不断借助大规模的调度任务数据对算法进行优化与提升。
基于此,本发明实施例提出了一种具备最低代价、可预测、自优化的算力任务调度方法。图1示出了本发明实施例提供的算力网络任务调度方法的流程图,该方法由计算机设备执行。该计算机设备可以是计算机设备、服务器、分布式设备、智能终端等,本发明实施例不做具体限制。如图1所示,该方法包括以下步骤:
步骤110:对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息。
其中,在对用户发送的业务需求进行拆解之前,首先接收用户发送的业务需求,该业务需求可以是用户直接输入的业务需求信息,也可以是根据用户在业务需求界面上按照预设格式填写得到。其中,预设格式的内容包括算力需求格式、存储/网络需求格式及策略场景需求格式。其中,该业务需求中包括算力需求信息、网络需求信息及策略场景需求信息。其中,策略场景需求包括时延敏感需求、带宽敏感需求及成本敏感需求等。也就是说,当用户对时延存在需求时,可通过该策略场景需求限定对时延的要求。当用户对成本存在需求时,可通过策略场景需求限定对成本的要求。
本发明实施例中,对用户发送的业务需求进行拆解,得到拆解信息具体包括:对业务需求进行算力需求拆解,得到算力需求信息,可以表示为算力解析表达式。对业务需求进行网络或存储需求拆解,得到网络需求信息,可以表示为网络能力表达式和存储解析表达式。对业务需求进行策略场景拆解,得到策略场景需求信息,可以表示为策略场景表达式。
具体地,对业务需求进行算力需求拆解,将算力需求拆解为以下四种:CPU(通用计算能力)、GPU(用于图形图像处理、科学计算、数值分析、海量数据处理等领域)、FPGA(用于处理矩阵运算、机器视觉、图像处理、搜索引擎排序、非对称加密等类型多元计算密集型任务,相对GPU、CPU在计算结果返回时延方面具备优势)及神经网络计算能力(主要用于AI神经网络、机器学习类密集计算型业务,用于对机器学习、神经网络等进行加速的计算能力)。通过将算力需求拆解,所属算力解析表达式为:
Figure BDA0003969401260000071
其中,Ca为总算力需求;x1,x2...xn为算力系数,若用户业务需求中不包含某一种,则将xi置为0;α,β,γ,δ为映射比例,f(x)为不同类型的芯片资源可提供的算力;q为冗余算力。
其中,对业务需求进行存储需求或网络能力拆解时,将存储能力划分为内存、本地存储(HDD/SSD)和云存储(HDD/SSD),通过对存储需求进行拆解,得到存储解析表达式为:
Cm=y1Cm+y2CLHDD+y3CLSSD+y4CCHDD+y5CCSSD
通过存储的需求拆解,可以得到1*5阶矩阵C=[y1,y2...,y5]。
对业务需求进行网络能力拆解时,由于通过提供中心计算、边缘计算等不同距离的算力,占用的网络带宽和时延情况是不同的,本发明实施例通过带宽成本、网络时延等多种指标纳入用户业务需求衡量体系中,提供更精准的业务调度需求。以网络延时为例,由于用户业务在不同算力节点间转发和调度将产生网络传输的时延,用户业务需求中若包含了对时延的限制条件,将在进行资源匹配与路径规划环节中,完成最小路径时延计算后,对不满足时延限制条件的路径进行剔除,仅对符合业务需求的方案进行后续的处理。
因此,拆解后得到的拆解信息可以表示为业务需求矩阵A=(A1,A2...,An),Ak分别为算力需求、存储需求、网络需求及策略场景标识。
步骤120:根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合。
其中,获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
其中,本发明实施例预先搭建算力网络运营平台,来对算力资源池内所有的CPU、GPU、FPGA等类型的服务器、显卡等异构算力资源及节点各类型存储资源进行统一的纳管与监控,搭建“算力资源池”,支持算力的全生命周期管理,包括算力资源的:资源纳管→统一度量→进入异构算力/存储资源池→根据算力的申请进行分配→对算力资源的状态、利用率进行监控→资源释放,再次进入空闲资源池。因此,在得到拆解信息后,可在算力资源内的空闲节点进行匹配。其中,对于算力资源池内的节点X,该节点的待分配的算力、存储、带宽资源情况标识为矩阵X=(X1,X2...,Xn),其中X1,X2...,Xn为一个1*n阶的矩阵,如X1=(X11,X12...,X1n)为节点X的空闲算力资源,X1k分别为CPU、GPU、FPGA及神经网络计算算力及待分配的算力资源大小;X2=(X21,X22...,X2n)为节点X的空闲存储资源类型与存储空间大小,X2k分别为内存、本地存储HDD、本地存储SSD)、云存储HDD、云存储SSD及当前对应规格剩余的存储空间大小;同理X3为该节点可分配的网络带宽资源。
其中,将拆解后的业务需求矩阵A=(A1,A2...,An),在状态标记为空闲的“算力资源池”内进行匹配,匹配的原则为:若节点X满足所有业务需求矩阵中因子,则节点X为匹配的节点。通过这种方式可以得到匹配的算力资源集合B(B1,B2...Bn),该匹配的算力资源集合包含N个匹配的节点Bi。当业务需求包含多种算力类型,则匹配的算力方案集合Bi=(Bi1,Bi2...,Bik)也存在多个。
步骤130:计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本。
其中,本发明实施例通过计算所述业务需求中的业务到每个算力方案的所有路径的时延;根据每个算力方案中各个节点组成的所有可能的路径的时延,来确定每个算力方案对应的最短时延路径。具体地,计算由业务需求的节点A点到每个算力方案集合B(B1,B2...Bn)中节点的所有路径的时延。假设D表示两个网络节点间的传输时延,计算每个算力方案集合B(B1,B2...Bn)中各个节点组成的多条可能的路径,将用户业务由A节点调度至算力资源节点B所需的总时延D(i,j),逐条路径计算,来更新D(i,j)。具体地,更新过程为:对各个节点进行遍历,若当前路径在节点i和节点j之间新增一个节点k,计算D(i,j)>D(i,k)+D(k,j)是否成立,若成立,则证明通过i→k→j产生的时延小于初始路径i→j,此时将D(i,j)设置为D(i,k)+D(k,j),对所有网络节点进行遍历,则得到节点i与节点j之间的最短时延路径。
其中,本发明实施例确定每个算力方案的最短时延路径上的节点信息,将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。由于处于不同地理位置的不同算力节点资源成本不一致,如长三角的机房建设与维护成本将远高于西南地区,为更精准的完成算力调度路径的规划。因此,本发明实施例在对全域算力节点进行统一纳管前,建立统一的成本测算模型,将整体成本划分为硬件资源占用成本、产品研发成本、运维成本、市场拓展成本,对各个节点进行成本的分摊。其中,硬件资源占用成本包括服务器、显卡、网络设备的采购,软件安装的费用等,根据算力规格,将采购进行分摊。产品研发成本包括研发时产生的人工成本、调用其他产品的成本、采购成本等,同样根据算力规格进行分摊。运维成本包括机房/机架成本(根据不同地域分别计算)、机房设备的维护成本(根据不同地域的平均人工成本分别计算)、业务软件的维护成本。市场拓展包括算力运营产生的成本。因此,通过预先设置的上述成本测算模型,可对不同节点算力资源成本测算及分摊,从而得到各个节点的成本信息。因此,在得到每个算力方案对应的最短时延路径后,可以根据上述的成本测算模型计算各个算力方案的最短时延路径上各个节点的成本信息,从而得到所述最短时延路径对应的成本。
步骤140:基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
其中,本发明实施例预先对算力任务调度模型进行训练。具体地,将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。具体训练过程为:将样本业务需求对应的样本输入LSTM深度学习回归模型,通过对训练数据进行建模,获得最优调度路径与时延、成本等影响因子间的回归关系,从而得到算力任务调度模型。其中,深度神经网络框架,如CNN,RNN模型中,每层的节点都是无连接的,即当前状态与前一状态无关连。然而在算力任务调度算法中,不同的层(对应业务调度的不同影响因子)间具有相关影响的关联关系,因此本发明实施例采用长短时记忆网络(long-term and short-term memory network,LSTM)作为训练算力任务调度模型时的神经网络。训练时,假设满足算力匹配条件的一共有n个节点,定义全部节点为:G={g1,g2,g3...gn};业务场景调度至每个算力节点的传输总延时为:D={d1,d2,d3...dn};业务场景调度至每个算力节点的总成本为:C={c1,c2,c3...cn}。将最优样本路径设置为L={l1,l2,l3...ln}。以样本延时和样本成本为输入,将每个路径的传输总延时D与总成本C列为一个n*n的矩阵S,将输出的节点路径列为一个1*k的矩阵L,对神经网络进行训练,得到矩阵S(传输总延时D及总成本C)与矩阵L之间的回归关系,即输入延时和成本矩阵,即可得到最优样本路径L。
其中,在得到训练好的算力任务调度模型后,将所述最短时延路径及所述成本输入该算力任务调度模型,从而得到最优节点路径。在得到该最优节点路径后,对最优节点路径进行算力任务分配,将业务需求对应的节点的业务分配给最优节点路径进行处理。
本发明实施例中,还对算力任务调度模型进行优化,具体地,确定实际任务调度与业务需求的匹配度;根据匹配度,确定任务处理是否成功;对任务处理不成功的任务进行分析矫正,得到矫正后的任务;将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。其中,确定实际任务调度与业务需求的匹配度的过程为:若业务需求对应的任务获得最优节点路径,得到了所需算力资源,则确定最优节点路径上各节点的总延时是否小于业务需求允许的最大延时,且整体算力资源、网络带宽、存储资源成本是否达到业务整体成本目标,若均满足,则业务需求对应的任务处理是成功的。通过以下方式计算匹配度:
Figure BDA0003969401260000111
Figure BDA0003969401260000112
Figure BDA0003969401260000113
X(K)=X(k1)X(k2)X(k3)。
对于匹配度较低算力任务,通过对整体调度任务环节进行分析与矫正,并将矫正后的数据作为算法调度模型训练数据输入,通过实际调度任务,不断对算法进行优化。
本发明实施例通过对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到,引入策略场景需求信息的时延、带宽敏感、成本等多样化的特性因子,能够在完成算力拆解及资源匹配后,对满足条件的算力节点路径进行多维度的匹配,以达成更契合业务需求的算力调度算法,能够有效提高调度任务与实际需求的匹配度,调度代价低,调度任务可预测。
图2示出了本发明实施例提供的算力网络任务调度装置的结构示意图。
如图2所示,该装置200包括:
拆解模块210,用于对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
匹配模块220,用于根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算模块230,用于计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
确定模块240,用于基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
在一种可选的方式中,所述匹配模块,进一步用于:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
在一种可选的方式中,所述计算各个算力方案集合的最短时延路径,包括:
计算所述业务需求中的业务到每个算力方案的所有路径的时延;
根据每个算力方案的所有路径的时延,确定每个算力方案对应的最短时延路径。
在一种可选的方式中,所述计算所述最短时延路径对应的成本,包括:
确定每个算力方案的最短时延路径上的节点信息;
将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。
在一种可选的方式中,所述基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径之前,所述方法还包括:
将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;
所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。
在一种可选的方式中,所述装置还包括优化模块,用于:
确定实际任务调度与业务需求的匹配度;
根据匹配度,确定任务处理是否成功;
对任务处理不成功的任务进行分析矫正,得到矫正后的任务;
将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。
本发明实施例的算力网络任务调度装置的工作过程与上述方法实施例的方法步骤大体一致,此处不再赘述。
本发明实施例通过对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到,引入策略场景需求信息的时延、带宽敏感、成本等多样化的特性因子,能够在完成算力拆解及资源匹配后,对满足条件的算力节点路径进行多维度的匹配,以达成更契合业务需求的算力调度算法,能够有效提高调度任务与实际需求的匹配度,调度代价低,调度任务可预测。
图3示出了本发明实施例提供的计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图3所示,该计算机设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于算力网络任务调度方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使计算机设备执行以下操作:
对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
在一种可选的方式中,所述根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的多个算力方案,包括:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
在一种可选的方式中,所述计算各个算力方案集合的最短时延路径,包括:
计算所述业务需求中的业务到每个算力方案的所有路径的时延;
根据每个算力方案的所有路径的时延,确定每个算力方案对应的最短时延路径。
在一种可选的方式中,所述计算所述最短时延路径对应的成本,包括:
确定每个算力方案的最短时延路径上的节点信息;
将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。
在一种可选的方式中,所述基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径之前,所述方法还包括:
将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;
所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。
在一种可选的方式中,所述方法还包括:
确定实际任务调度与业务需求的匹配度;
根据匹配度,确定任务处理是否成功;
对任务处理不成功的任务进行分析矫正,得到矫正后的任务;
将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。
本发明实施例通过对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到,引入策略场景需求信息的时延、带宽敏感、成本等多样化的特性因子,能够在完成算力拆解及资源匹配后,对满足条件的算力节点路径进行多维度的匹配,以达成更契合业务需求的算力调度算法,能够有效提高调度任务与实际需求的匹配度,调度代价低,调度任务可预测。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算机设备上运行时,使得所述计算机设备执行上述任意方法实施例中的算力网络任务调度方法。
可执行指令具体可以用于使得计算机设备执行以下操作:
对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
在一种可选的方式中,所述根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的多个算力方案,包括:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
在一种可选的方式中,所述计算各个算力方案集合的最短时延路径,包括:
计算所述业务需求中的业务到每个算力方案的所有路径的时延;
根据每个算力方案的所有路径的时延,确定每个算力方案对应的最短时延路径。
在一种可选的方式中,所述计算所述最短时延路径对应的成本,包括:
确定每个算力方案的最短时延路径上的节点信息;
将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。
在一种可选的方式中,所述基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径之前,所述方法还包括:
将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;
所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。
在一种可选的方式中,所述方法还包括:
确定实际任务调度与业务需求的匹配度;
根据匹配度,确定任务处理是否成功;
对任务处理不成功的任务进行分析矫正,得到矫正后的任务;
将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。
本发明实施例通过对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到,引入策略场景需求信息的时延、带宽敏感、成本等多样化的特性因子,能够在完成算力拆解及资源匹配后,对满足条件的算力节点路径进行多维度的匹配,以达成更契合业务需求的算力调度算法,能够有效提高调度任务与实际需求的匹配度,调度代价低,调度任务可预测。
本发明实施例提供一种算力网络任务调度装置,用于执行上述算力网络任务调度方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使算力网络任务调度设备执行上述任意方法实施例中的算力网络任务调度方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的算力网络任务调度方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种算力网络任务调度方法,其特征在于,所述方法包括:
对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
2.根据权利要求1所述的方法,其特征在于,所述根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的多个算力方案,包括:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
3.根据权利要求2所述的方法,其特征在于,所述计算各个算力方案集合的最短时延路径,包括:
计算所述业务需求中的业务到每个算力方案的所有路径的时延;
根据每个算力方案的所有路径的时延,确定每个算力方案对应的最短时延路径。
4.根据权利要求3所述的方法,其特征在于,所述计算所述最短时延路径对应的成本,包括:
确定每个算力方案的最短时延路径上的节点信息;
将所述节点信息输入成本测算模型,得到所述最短时延路径对应的成本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径之前,所述方法还包括:
将算力任务调度样本输入神经网络中训练,得到所述算力任务调度模型;
所述算力任务调度样本包括样本业务需求对应的样本成本及最优样本路径。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
确定实际任务调度与业务需求的匹配度;
根据匹配度,确定任务处理是否成功;
对任务处理不成功的任务进行分析矫正,得到矫正后的任务;
将矫正后的任务及对应的业务需求作为训练数据对所述算力任务调度模型进行优化。
7.一种算力网络任务调度装置,其特征在于,所述装置包括:
拆解模块,用于对用户发送的业务需求进行拆解,得到拆解信息;所述拆解信息包括算力需求信息、网络需求信息及策略场景需求信息;
匹配模块,用于根据所述拆解信息,在算力资源池中进行资源匹配,得到匹配的算力方案集合;
计算模块,用于计算各个算力方案集合的最短时延路径及所述最短时延路径对应的成本;
确定模块,用于基于所述最短时延路径及所述成本,通过算力任务调度模型确定最优节点路径;所述算力任务调度模型为预先根据算力任务调度样本输入神经网络中训练得到。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块,进一步用于:
获取算力资源池中各个节点的资源信息;所述资源信息包括待分配的算力、存储及带宽资源使用情况;
将所述拆解信息与各个所述资源信息进行匹配,得到匹配的多个算力方案。
9.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6任意一项所述的算力网络任务调度方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行如权利要求1-6任意一项所述的算力网络任务调度方法的操作。
CN202211506928.8A 2022-11-29 2022-11-29 算力网络任务调度方法、装置、计算机设备及存储介质 Pending CN116263701A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211506928.8A CN116263701A (zh) 2022-11-29 2022-11-29 算力网络任务调度方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211506928.8A CN116263701A (zh) 2022-11-29 2022-11-29 算力网络任务调度方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116263701A true CN116263701A (zh) 2023-06-16

Family

ID=86722963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211506928.8A Pending CN116263701A (zh) 2022-11-29 2022-11-29 算力网络任务调度方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116263701A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610457A (zh) * 2023-07-20 2023-08-18 北京万界数据科技有限责任公司 一种面向ai云计算服务器群组的资源调度方法
CN116760885A (zh) * 2023-08-23 2023-09-15 亚信科技(中国)有限公司 算力网络业务管理方法、装置、设备、介质及程序产品
CN116932230A (zh) * 2023-09-15 2023-10-24 湖南马栏山视频先进技术研究院有限公司 一种基于动态任务调度的视频渲染方法
CN117676716A (zh) * 2024-02-01 2024-03-08 荣耀终端有限公司 通信方法、系统及相关设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610457A (zh) * 2023-07-20 2023-08-18 北京万界数据科技有限责任公司 一种面向ai云计算服务器群组的资源调度方法
CN116610457B (zh) * 2023-07-20 2023-09-12 北京万界数据科技有限责任公司 一种面向ai云计算服务器群组的资源调度方法
CN116760885A (zh) * 2023-08-23 2023-09-15 亚信科技(中国)有限公司 算力网络业务管理方法、装置、设备、介质及程序产品
CN116760885B (zh) * 2023-08-23 2023-10-17 亚信科技(中国)有限公司 算力网络业务管理方法、装置、设备、介质及程序产品
CN116932230A (zh) * 2023-09-15 2023-10-24 湖南马栏山视频先进技术研究院有限公司 一种基于动态任务调度的视频渲染方法
CN116932230B (zh) * 2023-09-15 2023-12-08 湖南马栏山视频先进技术研究院有限公司 一种基于动态任务调度的视频渲染方法
CN117676716A (zh) * 2024-02-01 2024-03-08 荣耀终端有限公司 通信方法、系统及相关设备

Similar Documents

Publication Publication Date Title
CN116263701A (zh) 算力网络任务调度方法、装置、计算机设备及存储介质
CN106776005B (zh) 一种面向容器化应用的资源管理系统及方法
US9529590B2 (en) Processor for large graph algorithm computations and matrix operations
KR20180077218A (ko) 계산 그래프들 프로세싱
Liu et al. Resource preprocessing and optimal task scheduling in cloud computing environments
WO2022110446A1 (zh) 异构集群调度的模拟方法、装置、计算机设备及存储介质
Chen et al. Deep learning research and development platform: Characterizing and scheduling with qos guarantees on gpu clusters
Kim et al. Prediction based sub-task offloading in mobile edge computing
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
CN114356587B (zh) 算力任务跨区域调度方法、系统及设备
Tang et al. Nanily: A qos-aware scheduling for dnn inference workload in clouds
CN114895773A (zh) 异构多核处理器的能耗优化方法、系统、装置及存储介质
CN108256182A (zh) 一种动态可重构fpga的布局方法
CN114650321A (zh) 用于边缘计算的任务调度方法及边缘计算终端
CN111984392A (zh) 任务调度方法、装置、电子设备及存储介质
CN116820714A (zh) 一种算力设备的调度方法、装置、设备和存储介质
CN111930485A (zh) 一种基于性能表现的作业调度方法
CN115658263A (zh) 一种云计算平台任务调度方法及系统
CN110866605A (zh) 数据模型训练方法、装置、电子设备及可读介质
CN111522637B (zh) 一种基于成本效益的storm任务调度方法
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN114466014A (zh) 一种服务调度方法、装置、电子设备及存储介质
Trejo-Sánchez et al. A multi-agent architecture for scheduling of high performance services in a GPU cluster
CN113821313A (zh) 一种任务调度方法、装置及电子设备
Banerjee et al. Offloading work to mobile devices: An availability-aware data partitioning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination