CN115794542A - 多算力模式的算力资源拓扑监控方法、系统及设备 - Google Patents

多算力模式的算力资源拓扑监控方法、系统及设备 Download PDF

Info

Publication number
CN115794542A
CN115794542A CN202211376401.8A CN202211376401A CN115794542A CN 115794542 A CN115794542 A CN 115794542A CN 202211376401 A CN202211376401 A CN 202211376401A CN 115794542 A CN115794542 A CN 115794542A
Authority
CN
China
Prior art keywords
calculation
computing
monitoring
tasks
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211376401.8A
Other languages
English (en)
Inventor
冯汉枣
黎元宝
刘运奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202211376401.8A priority Critical patent/CN115794542A/zh
Publication of CN115794542A publication Critical patent/CN115794542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种多算力模式的算力资源拓扑监控方法,应用于算力网络管理技术领域,具体包括以下步骤:S1:接收用户算力申请;S2:根据计算量分析用户计算任务;S3:根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;S4:分配算力资源并连接算力资源池;S5:对算力资源池进行监控,设定监控时间;S6:进行计算。确保计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。

Description

多算力模式的算力资源拓扑监控方法、系统及设备
技术领域
本发明涉及算力网络管理技术领域,更具体地,涉及多算力模式的算力资源拓扑监控方法、系统及设备。
背景技术
算力是人工智能的基础平台,直接影响着人工智能业务的应用与部署。随着人工智能技术的发展,人们对算力的需求不断提高,但是单独的算力设备成本较高,部署较为复杂,资源复用率低。为解决上述问题,算力网络应运而生。算力网络将计算单元和计算能力嵌入网络,将网络资源和算力资源高度协同,为网络中用户提供在线的算力服务,提高算力资源的复用率。
如果每个任务独占算力资源,可能会导致算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供多算力模式的算力资源拓扑监控方法、系统及设备,对多算力模式的算力资源进行管理,有利于提高多算力模式的算力资源的利用率,提高算力利用效率,确保计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
其中,方法具体包括以下步骤:
S1:接收用户算力申请;
S2:根据计算量分析用户计算任务;
S3:根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
S4:分配算力资源并连接算力资源池;
S5:对算力资源池进行监控,设定监控时间;
S6:进行计算。
通过将计算任务分为两级,实现了计算任务的合理分配调度,避免发生进程的堵塞,提高算力资源的利用率,确保了计算时的稳定性和安全性。
算力资源池云计算,是分布式计算的新尝试。它的本质,是将大量的零散算力资源进行打包、汇聚,实现更高可靠性、更高性能、更低成本的算力。具体来说,在云计算中,中央处理器(CPU)、内存、硬盘、显卡(GPU)等计算资源被集合起来,通过软件的方式,组成一个虚拟的可无限扩展的“算力资源池”。用户如果有算力需求,“算力资源池”就会动态地进行算力资源的分配,用户按需付费。本发明的方案在计算之前,对算力资源池进行监控,设定监控时间,保证算力资源池的安全性和稳定性,提高算力资源的利用率。
本发明的方案通过设置分析用户计算任务和实时观察分析实现了合理分配任务进行计算,解决了算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源的问题,提高了算力资源的响应速度。通过设置对算力资源进行监控实现了能够确保计算时的稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
进一步,步骤S1中,当接收用户发出申请的信号就开始进行计算。通过预先计算,可以让算力资源需求时间紧迫性较强的用户,提前进行算力资源的利用,后续的监控管理步骤滞后实现,可以进一步提高资源的利用率,保证计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
进一步,步骤S2中将用户的算力任务进行分析并分配,分析并分配的时间为1-20秒。
进一步,步骤S3中一级计算等级的计算时间为1-10秒,二级计算等级的计算时间为5-20秒,并通过实时观察分析进行观察,无论一级计算等级先计算完还是二级计算等级先计算完,都将其剩余的计算任务分配给另外一个进行计算。
通过对一级计算等级和二级计算等级的分配策略进行规定,保证算力资源调度的灵活性,避免了算力资源的浪费。
进一步,步骤S4中分配算力资源的时间为1-5秒。
通过规定分配算力资源的时间最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
进一步,步骤S5中的算力监控时间为1-5分钟。
通过规定分配算力监控时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
进一步,步骤S5中的算力资源监控的警报线为85%-95%。
通过规定算力资源监控的警报线,保证算力资源调度使用过程中得到及时的反馈,进而可以根据实时情况进行调度,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的利用率。
进一步,步骤S6中计算时间为1-4分钟。
通过规定计算时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性,避免出现出现负荷计算。
本发明还提供一种多算力模式的算力资源拓扑监控系统,包括:
申请接收模块,用于接收用户算力申请;
计算任务分析模块,用于根据计算量分析用户计算任务;
计算等级划分模块,用于根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
算力资源分配模块,用于分配算力资源并连接算力资源池;
计算模块,用于进行计算。
通过将计算任务分为两级,实现了计算任务的合理分配调度,避免发生进程的堵塞,提高算力资源的利用率,确保了计算时的稳定性和安全性。
算力资源池云计算,是分布式计算的新尝试。它的本质,是将大量的零散算力资源进行打包、汇聚,实现更高可靠性、更高性能、更低成本的算力。具体来说,在云计算中,中央处理器(CPU)、内存、硬盘、显卡(GPU)等计算资源被集合起来,通过软件的方式,组成一个虚拟的可无限扩展的“算力资源池”。用户如果有算力需求,“算力资源池”就会动态地进行算力资源的分配,用户按需付费。本发明的方案在计算之前,对算力资源池进行监控,设定监控时间,保证算力资源池的安全性和稳定性,提高算力资源的利用率。
本发明的方案通过设置分析用户计算任务和实时观察分析实现了合理分配任务进行计算,解决了算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源的问题,提高了算力资源的响应速度。通过设置对算力资源进行监控实现了能够确保计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述多算力模式的算力资源拓扑监控方法。
本发明的多算力模式的算力资源拓扑监控设备与多算力模式的算力资源拓扑监控方法基于同样的发明构思,在此不再赘述。
与现有技术相比,本发明的有益效果为:
1.确保计算时稳定性和安全性。
2.增强了算力资源调度的灵活性。
3.提高了算力资源的响应速度。
4.解决了算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源的问题。
附图说明
图1为本发明的多算力模式的算力资源拓扑监控方法流程图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种超算算力网络统一调度方法,包括以下步骤:
S1:接收用户算力申请;
S2:根据计算量分析用户计算任务;
S3:根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
S4:分配算力资源并连接算力资源池;
S5:对算力资源池进行监控,设定监控时间;
S6:进行计算。
通过将计算任务分为两级,实现了计算任务的合理分配调度,避免发生进程的堵塞,提高算力资源的利用率,确保了计算时的稳定性和安全性。
算力资源池云计算,是分布式计算的新尝试。它的本质,是将大量的零散算力资源进行打包、汇聚,实现更高可靠性、更高性能、更低成本的算力。具体来说,在云计算中,中央处理器(CPU)、内存、硬盘、显卡(GPU)等计算资源被集合起来,通过软件的方式,组成一个虚拟的可无限扩展的“算力资源池”。用户如果有算力需求,“算力资源池”就会动态地进行算力资源的分配,用户按需付费。本发明的方案在计算之前,对算力资源池进行监控,设定监控时间,保证算力资源池的安全性和稳定性,提高算力资源的利用率。
本实施例的方案通过设置分析用户计算任务和实时观察分析实现了合理分配任务进行计算,解决了算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源的问题,提高了算力资源的响应速度。通过设置对算力资源进行监控实现了能够确保计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
优选地,步骤S1中,当接收用户发出申请的信号就开始进行计算。通过预先计算,可以让算力资源需求时间紧迫性较强的用户,提前进行算力资源的利用,后续的监控管理步骤滞后实现,可以进一步提高资源的利用率,保证计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
优选地,步骤S2中将用户的算力任务进行分析并分配,分析并分配的时间为1-20秒。
优选地,步骤S3中一级计算等级的计算时间为1-10秒,二级计算等级的计算时间为5-20秒,并通过实时观察分析进行观察,无论一级计算等级先计算完还是二级计算等级先计算完,都将其剩余的计算任务分配给另外一个进行计算。
通过对一级计算等级和二级计算等级的分配策略进行规定,保证算力资源调度的灵活性,避免了算力资源的浪费。
优选地,步骤S4中分配算力资源的时间为1-5秒。
通过规定分配算力资源的时间最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
优选地,步骤S5中的算力监控时间为1-5分钟。
通过规定分配算力监控时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
优选地,步骤S5中的算力资源监控的警报线为85%-95%。
通过规定算力资源监控的警报线,保证算力资源调度使用过程中得到及时的反馈,进而可以根据实时情况进行调度,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的利用率。
优选地,步骤S6中计算时间为1-4分钟。
通过规定计算时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性,避免出现出现负荷计算。
实施例2
本实施例提供一种多算力模式的算力资源拓扑监控系统,包括:
申请接收模块,用于接收用户算力申请;
计算任务分析模块,用于根据计算量分析用户计算任务;
计算等级划分模块,用于根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
算力资源分配模块,用于分配算力资源并连接算力资源池;
计算模块,用于进行计算。
通过将计算任务分为两级,实现了计算任务的合理分配调度,避免发生进程的堵塞,提高算力资源的利用率,确保了计算时的稳定性和安全性。
算力资源池云计算,是分布式计算的新尝试。它的本质,是将大量的零散算力资源进行打包、汇聚,实现更高可靠性、更高性能、更低成本的算力。具体来说,在云计算中,中央处理器(CPU)、内存、硬盘、显卡(GPU)等计算资源被集合起来,通过软件的方式,组成一个虚拟的可无限扩展的“算力资源池”。用户如果有算力需求,“算力资源池”就会动态地进行算力资源的分配,用户按需付费。本发明的方案在计算之前,对算力资源池进行监控,设定监控时间,保证算力资源池的安全性和稳定性,提高算力资源的利用率。
本实施例的方案通过设置分析用户计算任务和实时观察分析实现了合理分配任务进行计算,解决了算力资源时忙时闲,算力资源的利用率就不高,从而浪费宝贵的资源的问题,提高了算力资源的响应速度。通过设置对算力资源进行监控实现了能够确保计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
优选地,步骤S1中,当接收用户发出申请的信号就开始进行计算。通过预先计算,可以让算力资源需求时间紧迫性较强的用户,提前进行算力资源的利用,后续的监控管理步骤滞后实现,可以进一步提高资源的利用率,保证计算时稳定性和安全性,不会出现负荷计算,增强了算力资源调度的灵活性。
优选地,步骤S2中将用户的算力任务进行分析并分配,分析并分配的时间为1-20秒。
优选地,步骤S3中一级计算等级的计算时间为1-10秒,二级计算等级的计算时间为5-20秒,并通过实时观察分析进行观察,无论一级计算等级先计算完还是二级计算等级先计算完,都将其剩余的计算任务分配给另外一个进行计算。
通过对一级计算等级和二级计算等级的分配策略进行规定,保证算力资源调度的灵活性,避免了算力资源的浪费。
优选地,步骤S4中分配算力资源的时间为1-5秒。
通过规定分配算力资源的时间最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
优选地,步骤S5中的算力监控时间为1-5分钟。
通过规定分配算力监控时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性。
优选地,步骤S5中的算力资源监控的警报线为85%-95%。
通过规定算力资源监控的警报线,保证算力资源调度使用过程中得到及时的反馈,进而可以根据实时情况进行调度,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的利用率。
优选地,步骤S6中计算时间为1-4分钟。
通过规定计算时间的最大和最小等待时间,保证算力资源调度使用过程中不会发生不必要的进程阻塞,提高资源利用率,保证计算时的稳定性,进而增强了算力资源调度的灵活性,避免出现出现负荷计算。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种多算力模式的算力资源拓扑监控方法,其特征在于,包括以下步骤:
S1:接收用户算力申请;
S2:根据计算量分析用户计算任务;
S3:根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
S4:分配算力资源并连接算力资源池;
S5:对算力资源池进行监控,设定监控时间;
S6:进行计算。
2.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S1中,当接收用户发出申请的信号就开始进行计算。
3.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S2中将用户的算力任务进行分析并分配,分析并分配的时间为1-20秒。
4.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S3中一级计算等级的计算时间为1-10秒,二级计算等级的计算时间为5-20秒,并通过实时观察分析进行观察,无论一级计算等级先计算完还是二级计算等级先计算完,都将其剩余的计算任务分配给另外一个进行计算。
5.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S4中分配算力资源的时间为1-5秒。
6.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S5中的算力监控时间为1-5分钟。
7.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S5中的算力资源监控的警报线为85%-95%。
8.根据权利要求1所述的多算力模式的算力资源拓扑监控方法,其特征在于,步骤S6中计算时间为1-4分钟。
9.一种多算力模式的算力资源拓扑监控系统,其特征在于,包括:
申请接收模块,用于接收用户算力申请;
计算任务分析模块,用于根据计算量分析用户计算任务;
计算等级划分模块,用于根据计算任务,分为一级计算等级和二级计算等级,一级计算等级处理计算量少的任务,二级计算等级处理计算量多的任务;
算力资源分配模块,用于分配算力资源并连接算力资源池;
计算模块,用于进行计算。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8任一项所述的多算力模式的算力资源拓扑监控方法。
CN202211376401.8A 2022-11-04 2022-11-04 多算力模式的算力资源拓扑监控方法、系统及设备 Pending CN115794542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211376401.8A CN115794542A (zh) 2022-11-04 2022-11-04 多算力模式的算力资源拓扑监控方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211376401.8A CN115794542A (zh) 2022-11-04 2022-11-04 多算力模式的算力资源拓扑监控方法、系统及设备

Publications (1)

Publication Number Publication Date
CN115794542A true CN115794542A (zh) 2023-03-14

Family

ID=85435546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211376401.8A Pending CN115794542A (zh) 2022-11-04 2022-11-04 多算力模式的算力资源拓扑监控方法、系统及设备

Country Status (1)

Country Link
CN (1) CN115794542A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467087A (zh) * 2023-06-09 2023-07-21 江苏谷科软件有限公司 基于多业务模块的智慧数字运营管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467087A (zh) * 2023-06-09 2023-07-21 江苏谷科软件有限公司 基于多业务模块的智慧数字运营管理系统
CN116467087B (zh) * 2023-06-09 2023-09-01 江苏谷科软件有限公司 基于多业务模块的智慧数字运营管理系统

Similar Documents

Publication Publication Date Title
US8402140B2 (en) Methods and apparatus for coordinated energy management in virtualized data centers
CN102902587B (zh) 分布式任务调度方法、系统和装置
CN112559182B (zh) 资源分配方法、装置、设备及存储介质
CN109614227B (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN104317658A (zh) 一种基于MapReduce的负载自适应任务调度方法
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
CN108270805B (zh) 用于数据处理的资源分配方法及装置
CN105159769A (zh) 一种适用于计算能力异构集群的分布式作业调度方法
CN102917052A (zh) 一种云计算系统中资源分配的方法
WO2023231145A1 (zh) 基于云平台的数据处理方法、系统、电子设备及存储介质
CN115794542A (zh) 多算力模式的算力资源拓扑监控方法、系统及设备
CN111796933A (zh) 资源调度方法、装置、存储介质和电子设备
CN112905334A (zh) 资源管理方法、装置、电子设备和存储介质
CN115951974A (zh) Gpu虚拟机的管理方法、系统、设备和介质
Stavrinides et al. Orchestrating bag-of-tasks applications with dynamically spawned tasks in a distributed environment
CN113626145B (zh) 业务虚拟机数量动态扩容方法及系统
CN107203256B (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
KR20210041295A (ko) 클라우드 컴퓨팅 환경에서 가상화 자원 분배 시스템
Hu et al. Cloud model-based security-aware and fault-tolerant job scheduling for computing grid
WO2024139754A1 (zh) 一种测试节点的调控方法、装置、电子设备以及存储介质
CN106802822A (zh) 一种基于飞蛾算法的云数据中心认知资源调度方法
CN112486912A (zh) 一种文件转换系统、方法、电子设备及存储介质
Shrivastava et al. An energy efficient VM allocation using best fit decreasing minimum migration in cloud environment
CN112148496B (zh) 超融合虚拟机的计算存储资源的能效管理方法、装置及电子设备
Rajagopal et al. Fuzzy softset based VM selection in cloud datacenter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination