CN109587217A - 一种大规模分布式系统的智能监控与管理方法及系统 - Google Patents

一种大规模分布式系统的智能监控与管理方法及系统 Download PDF

Info

Publication number
CN109587217A
CN109587217A CN201811314109.7A CN201811314109A CN109587217A CN 109587217 A CN109587217 A CN 109587217A CN 201811314109 A CN201811314109 A CN 201811314109A CN 109587217 A CN109587217 A CN 109587217A
Authority
CN
China
Prior art keywords
qos
task
parameter
distributed system
regulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811314109.7A
Other languages
English (en)
Inventor
曾令仿
程稳
李春艳
徐洁
邓仕军
蔡苒
桑大邹
王芳
冯丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811314109.7A priority Critical patent/CN109587217A/zh
Publication of CN109587217A publication Critical patent/CN109587217A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements

Abstract

本发明公开了一种大规模分布式系统的智能监控与管理方法及系统,包括:S1.任务进入分布式系统时,初始化任务的QoS调控参数;S2.根据QoS调控参数进行任务调度;S3.判断所有任务是否全部运行完成,若是,结束,否则,进入步骤S4;S4.采集分布式系统信息和任务信息,并将其反馈给QoS调控参数预测模型;S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数;更新任务的QoS调控参数,返回步骤S2。本发明通过智能优选与实时反馈机制相结合,对大规模分布式系统的任务实现了高效实时调度和管理,实现了对任务进行细粒度的资源配置和调度。

Description

一种大规模分布式系统的智能监控与管理方法及系统
技术领域
本发明属于大规模分布式系统技术领域,更具体地,涉及一种大规模分布式系统的智能监控与管理方法及系统。
背景技术
随着互联网的高速发展,人类进入了大数据时代。海量数据需要大规模的并行I/O进行处理,因此大规模分布式系统应运而生,如存储领域的Lustre、Ceph,计算领域的Spark、Hadoop等。然而,在这些大规模分布式系统中大量并发任务可能会因为争用有限的共享的分布式系统的资源,如网络带宽、CPU、内存、磁盘带宽等,而相互影响;尤其是当系统过载时,即任务需求超出分布式系统服务能力,不仅可能会发生I/O拥塞,任务的服务质量(Quality of Service,QoS,如吞吐量、延迟、丢包率等)更是得不到保障。而不同的任务,性能需求不一样,比如有的任务实时性要求高,需要能够被及时处理,而有的任务并不需要快速响应。因此,提供一种合理的资源分配和任务调度方式,满足任务的服务质量是一个具有重要意义和挑战性的工作。
传统地,系统运维人员采用静态方式对其进行监控与管理,这虽然能够取得一定的管理效果,但是在大规模分布式系统中运行着大量的任务,手动控制不仅极其繁琐也很难实现,而且分布式系统中任务运行状况和资源使用情况不断变化,如任务在运行、睡眠、完成状态之间进行转换,从而释放原先占有的分布式系统的系统资源或者需要申请使用新的资源,采用传统静态设置的方式,无法满足任务需求或不能充分利用空闲的分布式系统的系统资源,其有效性、及时性、灵敏度会大打折扣。目前,也有不少针对分布式场景的自动化的管理方案,如EMC公司开发的基于云存储的管理系统CloudIQ、NetApp公司的ActiveIQ等,均可提供有关系统性能、配置的智能分析以及诊断分布式系统安全状况的功能,但这些管理系统主要是监控分布式系统运行状况,管理粒度过粗,并未细粒度的基于分布式系统中任务的运行状况实现任务的实时智能调度,其任务服务质量(QoS)也未能充分得到保障。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术传统调控方法未充分保证任务服务质量的技术问题。
为实现上述目的,第一方面,本发明提供了一种大规模分布式系统的智能监控与管理方法,所述方法包括以下步骤:
S1.任务进入分布式系统时,初始化任务的QoS调控参数;
S2.根据任务的QoS调控参数进行任务调度;
S3.判断所有任务是否全部运行完成,如果是,结束,否则,进入步骤S4;
S4.采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数预测模型;
S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤S2;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤S2。
具体地,所述QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源。
具体地,步骤S2包括:
S201.根据任务的QoS调控参数,设置任务调度算法的参数;
S202.将已设置好的任务调度算法投入运行,执行实际任务调度。
具体地,分布式系统信息包括:带宽、延迟、吞吐量RPC速率,分布式系统的系统资源的使用情况;任务信息包括:各个任务的吞吐量、优先级、工作状态、访问模式、对分布式系统的系统资源的利用情况。
具体地,根据反馈信息训练QoS调控参数预测模型,或者,根据反馈信息和用户输入的先验调控信息训练QoS调控参数预测模型,先验调控信息包括任务所需带宽、吞吐量、优先级、工作状态、访问模式、对分布式系统的系统资源的利用情况。
为实现上述目的,第二方面,本发明提供了一种大规模分布式系统的智能监控与管理系统,所述系统包括:
初始化模块,用于在任务进入分布式系统时,初始化任务的QoS调控参数;
任务调度模块,用于根据任务的QoS调控参数进行任务调度;
反馈模块,用于采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数优选模块;
QoS调控参数优选模块,用于实时判断QoS调控参数预测模型是否训练完成,若是,训练好的模型基于反馈信息预测出新的QoS调控参数,并将新的QoS调控参数反馈给任务调度模块;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并将临时QoS调控参数反馈给任务调度模块。
具体地,所述QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源。
具体地,所述任务调度模块包括:参数设置子模块,用于根据任务的QoS调控参数,设置任务调度算法的参数;任务调度执行子模块,用于将已设置好的任务调度算法投入运行,执行实际任务调度。
具体地,所述QoS调控参数优选模块包括:模型训练子模块,用于基于反馈的分布式系统信息和运行在分布式系统中的任务的信息,短时间内高效地训练QoS调控参数预测模型;QoS调控参数预测子模块,用于使用训练完成的QoS调控参数预测模型预测出新的QoS调控参数。
具体地,所述QoS调控参数优选模块还包括人机交互子模块,用于输入用户指定的先验调控信息,所述先验调控信息与基于反馈的分布式系统信息和运行在分布式系统中的任务的信息共同用于所述QoS调控参数预测模型的训练。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明通过智能优选算法与实时反馈机制相结合的方式,对大规模分布式系统的任务实现了高效实时调度和管理,实现了对任务进行细粒度的资源配置和调度,从而减少了分布式系统管理的复杂度,提升了管理的有效性,保障了任务服务质量,并且还能够充分利用空闲的分布式系统资源,最大化分布式系统性能。
2.本发明通过提供了可视化的人机交互界面,管理员可以根据图形界面显示的参数和已有知识,手动改变某些任务所需带宽或者优先级等。人机交互与反馈调优方式相结合,为保障任务服务质量提供了更合理、更灵活、更完善的服务。
附图说明
图1为本发明实施例提供的一种大规模分布式系统的智能监控与管理方法流程图;
图2为本发明实施例提供的一种大规模分布式系统的智能监控与管理系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明公开了一种大规模分布式系统的智能监控与管理方法。所述方法包括以下步骤:
S1.任务进入分布式系统时,初始化任务的QoS调控参数;
S2.根据任务的QoS调控参数进行任务调度;
S3.判断所有任务是否全部运行完成,如果是,结束,否则,进入步骤S4;
S4.采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数预测模型;
S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤S2;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤S2。
步骤S1.任务进入分布式系统时,初始化任务的QoS调控参数。
进入分布式系统的任务是各种各样的,例如,计算密集型任务,I/O密集型任务等。不同任务的分布式系统的系统资源的消耗、读写模式特性等是不同的,对带宽、响应时延等服务质量的需求也是不同的。
QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源,如网络带宽,CPU、内存、和磁盘带宽等。所述调控参数旨在保障任务的服务质量,使得高优先级任务优先调度并分配更多的分布式系统的系统资源。
可采用静态设置的方式初始化QoS调控参数,例如,采用平均分配资源原则设置资源分配情况,采用先来先服务原则设置调度顺序等等。同时可设置采集分布式系统信息和任务信息的采集频率。
步骤S2.根据任务的QoS调控参数进行任务调度。
步骤S201.根据任务的QoS调控参数,设置任务调度算法的参数。
设置任务调度算法的参数,例如,设置当前将要调度的任务ID(用来指定运行哪些任务),以及给每个将要调度的任务分配资源。任务调度算法可以是令牌桶过滤器算法。
S202.将已设置好的任务调度算法投入运行,执行实际任务调度。
步骤S3.判断所有任务是否全部运行完成,如果是,结束,否则,进入步骤S4。
当任务并未全部完成时,基于反馈信息不断筛选最优的QoS调控参数,以实现对整个分布式系统实时智能的管理,充分利用空闲的分布式系统的系统资源,满足任务服务质量,并最大化分布式系统性能。
步骤S4.采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数预测模型。
分布式系统信息包括:带宽、延迟、吞吐量RPC速率等性能指标,CPU、内存、后端存储介质的利用率等资源使用情况。任务信息包括:各个任务的吞吐量,优先级,工作状态,访问模式,对分布式系统的系统资源如CPU、内存、磁盘等利用情况等。
步骤S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤S2;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤S2。
QoS调控参数预测模型采用反馈-调节在线训练方式,能够选取下一次的QoS调控参数。QoS调控参数预测模型采用启发式算法或机器学习算法。根据反馈信息训练QoS调控参数预测模型,或者,根据反馈信息和用户输入的先验调控信息训练QoS调控参数预测模型,先验调控信息包括如任务所需带宽或者优先级等。人机交互与反馈调优方式相结合,为保障任务服务质量提供了更合理、更灵活、更完善的服务。
实施例一
I/O任务描述如下:
(1)任务A和任务B共享相同的分布式系统的系统资源。
(2)A休眠状态和工作状态的概率均为50%,而B一直做着连续I/O,A的优先级高于B的优先级,A和B的其他I/O访问模式相同。
(3)整个分布式系统带宽不足以支撑A和B同时以最大的速率运行。
(4)A的I/O吞吐量的权重值是B的2倍。
(5)分布式系统的性能目标函数是:总吞吐量=A的吞吐量*2+B的吞吐量。
对以上问题进行分析如下:
由于任务A的优先级高于任务B的优先级,为了满足任务A、B的服务质量,分布式系统应将资源优先分配给A,同时为了最大化系统性能目标,分配给A之后的空闲资源应最大化分配给应用B。因此,在理想的情况下,当任务A在运行时,确保A能够尽可能以最大速率运行I/O,同时尽量最大化B的速率而不影响A;而当A在休眠的时候,确保B能够尽可能以最大的速率运行I/O。
基于传统调控方法调控实施例一的有以下几种情形:
(1)在不设置任何调控策略的情况下,让A、B同时运行于分布式系统中。采用这种方法,A和B在同时运行时,会产生资源竞争,竞争的结果可能是会产生拥塞,A的运行速率会相对比较低,这样会影响A的服务质量。
(2)采用静态设置QoS调控参数并结合令牌桶过滤器策略(TBF)算法。当A分配的资源较多,B分配的资源较少时,A、B同时运行时,能够产生较好的服务质量和分布式系统性能;而当A休眠时,任务B由于分配的资源比较少,将会浪费系统资源,损失一部分性能;而当A分配的资源较少,B分配的资源较多时,尽管当A休眠时,B能够充分利用分布式系统的系统资源,但是当A工作时,A由于分配的资源比较少,不能满足A的服务质量。
基于本发明提供的大规模分布式系统的智能监控与管理方法调控实施例一的过程如下:
(1)任务A、B输入分布式系统中,设置初始的QoS调控参数,调控参数包括:将要运行的任务的标识,以及分配给每个任务的网络带宽、CPU、内存、磁盘带宽等分布式系统的系统资源;
(2)根据任务的QoS调控参数进行任务调度;
(3)判断任务是否全部运行完成,如果是,结束,否则,进入步骤(4);
(4)采集分布式系统信息和运行在分布式系统中的任务的信息,并将其反馈给QoS调控参数预测模型;如A、B任务的I/O模式,如A的状态由工作状态变为休眠状态,或者由休眠状态变为工作状态时,都会被实时反馈给QoS调控参数预测模型;
(5)判断QoS调控参数预测模型是否训练完成,若是,训练好的模型基于反馈信息预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤(2);否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤(2)。
经比较发现:传统方法在一定程度上能够取得效果,但也存在问题,不能实现理想状态的性能目标。而本发明通过实时监控分布式系统和任务状态,根据A的I/O模式,对B分配的分布式系统的系统资源进行实时动态智能调整,因此,将满足任务的服务质量,以及使分布式系统性能接近目标性能。
实施例二
I/O任务描述如下:
(1)在具有10万个节点的分布式系统中,100个任务A1,A2,…A100同时进入系统,共享分布式系统的系统资源。
(2)其中任务优先级和运行时间不尽相同,且Ai的优先级大于Ai+1的优先级。
(3)分布式系统的性能目标:T=a1*A1的吞吐量+a2*A2的吞吐量+…+a100*A100的吞吐量,ai表示任务i吞吐量的权重值,且优先级越高权重ai越大。
对以上问题进行分析如下:
理想情况下,为了保障任务的服务质量,高优先级请求被优先调度,并且能够将多余的分布式系统的系统资源分配给较低优先级请求。
基于传统调控方法调控实施例二的有以下几种情形:
(1)对这100个任务的调度不加以控制,可能会导致优先级反转的情况发生,无法满足任务服务质量。
(2)采用静态分配分布式系统的系统资源的方式,在实施例二的系统规模中几乎不可能实现,并且成本高,实时性差。
基于本发明提供的大规模分布式系统的智能监控与管理方法调控实施例二的过程如下:
(1)100个任务同时输入分布式系统中设置初始的QoS调控参数,调控参数包括:将要运行的任务的标识,以及分配给每个任务的网络带宽、CPU、内存、磁盘带宽等分布式系统的系统资源;
(2)根据任务的QoS调控参数进行任务调度;
(3)判断任务是否全部运行完成,如果是,结束,否则,进入步骤(4);
(4)采集分布式系统信息和运行在分布式系统中的任务的信息,并将其反馈给QoS调控参数预测模型;
(5)判断QoS调控参数预测模型是否训练完成,若是,训练好的模型基于反馈信息预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤(2);否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤(2)。本发明的智能管理方法,将会实时监控系统状态,在满足任务服务质量的同时实现系统性能最大化。
如图2所示,本发明还公开了一种大规模分布式系统的智能监控与管理系统。所述系统包括:
初始化模块,用于在任务进入分布式系统时,初始化任务的QoS调控参数;
任务调度模块,用于根据任务的QoS调控参数进行任务调度;
反馈模块,用于采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数优选模块;
QoS调控参数优选模块,用于实时判断QoS调控参数预测模型是否训练完成,若是,训练好的模型基于反馈信息预测出新的QoS调控参数,并将新的QoS调控参数反馈给任务调度模块;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并将临时QoS调控参数反馈给任务调度模块。
这些模块相互协作,共同实现对分布式系统智能监控与管理,保障任务服务质量及提高分布式系统性能。
任务调度模块包括两个子模块:参数设置子模块,用于根据任务的QoS调控参数,设置任务调度算法的参数;任务调度执行子模块,用于将已设置好的任务调度算法投入运行,执行实际任务调度。
反馈模块包括两个子模块:采集子模块,用于采集分布式系统信息和运行在分布式系统中的任务的信息;信息上传子模块,用于将采集到的信息反馈给QoS调控参数优选模块。
QoS调控参数优选模块包括:模型训练子模块,用于基于反馈的分布式系统信息和运行在分布式系统中的任务的信息,短时间内高效地训练QoS调控参数预测模型;和QoS调控参数预测子模块,用于使用训练完成的QoS调控参数预测模型预测出新的QoS调控参数。
QoS调控参数优选模块还可以包括人机交互子模块,用于输入用户指定的先验调控信息,所述先验调控信息与基于反馈的分布式系统信息和运行在分布式系统中的任务的信息共同用于所述QoS调控参数预测模型的训练。
人机交互子模块还包括图形化界面,用于向用户友好展示系统和任务部分性能指标,包括:系统历史性能数据走势图、系统实时性能,如带宽、延迟,以及各个任务的带宽比例等。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种大规模分布式系统的智能监控与管理方法,其特征在于,所述方法包括以下步骤:
S1.任务进入分布式系统时,初始化任务的QoS调控参数;
S2.根据任务的QoS调控参数进行任务调度;
S3.判断所有任务是否全部运行完成,如果是,结束,否则,进入步骤S4;
S4.采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数预测模型;
S5.判断QoS调控参数预测模型是否训练完成,若是,根据反馈信息,使用训练好的模型预测出新的QoS调控参数,并用新的QoS调控参数更新任务的QoS调控参数,返回步骤S2;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并用临时QoS调控参数更新任务的QoS调控参数,返回步骤S2。
2.如权利要求1所述的智能监控与管理方法,其特征在于,所述QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源。
3.如权利要求1所述的智能监控与管理方法,其特征在于,步骤S2包括:
S201.根据任务的QoS调控参数,设置任务调度算法的参数;
S202.将已设置好的任务调度算法投入运行,执行实际任务调度。
4.如权利要求1所述的智能监控与管理方法,其特征在于,分布式系统信息包括:带宽、延迟、吞吐量RPC速率,分布式系统的系统资源的使用情况;任务信息包括:各个任务的吞吐量、优先级、工作状态、访问模式、对分布式系统的系统资源的利用情况。
5.如权利要求1所述的智能监控与管理方法,其特征在于,根据反馈信息训练QoS调控参数预测模型,或者,根据反馈信息和用户输入的先验调控信息训练QoS调控参数预测模型,先验调控信息包括任务所需带宽、吞吐量、优先级、工作状态、访问模式、对分布式系统的系统资源的利用情况。
6.一种大规模分布式系统的智能监控与管理系统,其特征在于,所述系统包括:
初始化模块,用于在任务进入分布式系统时,初始化任务的QoS调控参数;
任务调度模块,用于根据任务的QoS调控参数进行任务调度;
反馈模块,用于采集分布式系统信息和运行在分布式系统中的任务的信息,并将上述信息反馈给QoS调控参数优选模块;
QoS调控参数优选模块,用于实时判断QoS调控参数预测模型是否训练完成,若是,训练好的模型基于反馈信息预测出新的QoS调控参数,并将新的QoS调控参数反馈给任务调度模块;否则,根据反馈信息训练QoS调控参数预测模型的同时,输出临时QoS调控参数,并将临时QoS调控参数反馈给任务调度模块。
7.如权利要求6所述的智能监控与管理系统,其特征在于,所述QoS调控参数包括将要调度任务标识,以及分配给每个将要调度的任务的资源。
8.如权利要求6所述的智能监控与管理系统,其特征在于,所述任务调度模块包括:
参数设置子模块,用于根据任务的QoS调控参数,设置任务调度算法的参数;
任务调度执行子模块,用于将已设置好的任务调度算法投入运行,执行实际任务调度。
9.如权利要求6所述的智能监控与管理系统,其特征在于,所述QoS调控参数优选模块包括:
模型训练子模块,用于基于反馈的分布式系统信息和运行在分布式系统中的任务的信息,短时间内高效地训练QoS调控参数预测模型;
QoS调控参数预测子模块,用于使用训练完成的QoS调控参数预测模型预测出新的QoS调控参数。
10.如权利要求6所述的智能监控与管理系统,其特征在于,所述QoS调控参数优选模块还包括人机交互子模块,用于输入用户指定的先验调控信息,所述先验调控信息与基于反馈的分布式系统信息和运行在分布式系统中的任务的信息共同用于所述QoS调控参数预测模型的训练。
CN201811314109.7A 2018-11-06 2018-11-06 一种大规模分布式系统的智能监控与管理方法及系统 Pending CN109587217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811314109.7A CN109587217A (zh) 2018-11-06 2018-11-06 一种大规模分布式系统的智能监控与管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811314109.7A CN109587217A (zh) 2018-11-06 2018-11-06 一种大规模分布式系统的智能监控与管理方法及系统

Publications (1)

Publication Number Publication Date
CN109587217A true CN109587217A (zh) 2019-04-05

Family

ID=65921639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811314109.7A Pending CN109587217A (zh) 2018-11-06 2018-11-06 一种大规模分布式系统的智能监控与管理方法及系统

Country Status (1)

Country Link
CN (1) CN109587217A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111083743A (zh) * 2019-12-31 2020-04-28 上海无线通信研究中心 一种基于5G接入网的分布式QoS预测方法、系统及装置
CN111625367A (zh) * 2020-07-29 2020-09-04 北京并行科技股份有限公司 一种动态调整文件系统读写资源的方法
WO2021024077A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Machine learning to predict quality-of-service needs in an operational data management system
US11310126B2 (en) 2019-08-05 2022-04-19 International Business Machines Corporation Automated operational data management dictated by quality of service criteria
CN115953738A (zh) * 2023-03-02 2023-04-11 上海燧原科技有限公司 一种图像识别分布式训练的监控方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780759A (zh) * 2012-06-13 2012-11-14 合肥工业大学 基于调度目标空间的云计算资源调度方法
CN105260230A (zh) * 2015-10-30 2016-01-20 广东石油化工学院 基于分段服务等级协议的数据中心虚拟机资源调度方法
CN106027318A (zh) * 2016-07-24 2016-10-12 成都育芽科技有限公司 一种基于云计算的虚拟机两级优化调度管理平台
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
CN108009023A (zh) * 2017-11-29 2018-05-08 武汉理工大学 混合云中基于bp神经网络时间预测的任务调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780759A (zh) * 2012-06-13 2012-11-14 合肥工业大学 基于调度目标空间的云计算资源调度方法
CN105260230A (zh) * 2015-10-30 2016-01-20 广东石油化工学院 基于分段服务等级协议的数据中心虚拟机资源调度方法
CN106027318A (zh) * 2016-07-24 2016-10-12 成都育芽科技有限公司 一种基于云计算的虚拟机两级优化调度管理平台
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
CN108009023A (zh) * 2017-11-29 2018-05-08 武汉理工大学 混合云中基于bp神经网络时间预测的任务调度方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021024077A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Machine learning to predict quality-of-service needs in an operational data management system
US11277317B2 (en) 2019-08-05 2022-03-15 International Business Machines Corporation Machine learning to predict quality-of-service needs in an operational data management system
CN114208127A (zh) * 2019-08-05 2022-03-18 国际商业机器公司 预测操作数据管理系统中的服务质量的机器学习
US11310126B2 (en) 2019-08-05 2022-04-19 International Business Machines Corporation Automated operational data management dictated by quality of service criteria
CN111083743A (zh) * 2019-12-31 2020-04-28 上海无线通信研究中心 一种基于5G接入网的分布式QoS预测方法、系统及装置
CN111625367A (zh) * 2020-07-29 2020-09-04 北京并行科技股份有限公司 一种动态调整文件系统读写资源的方法
CN115953738A (zh) * 2023-03-02 2023-04-11 上海燧原科技有限公司 一种图像识别分布式训练的监控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109587217A (zh) 一种大规模分布式系统的智能监控与管理方法及系统
Priya et al. Resource scheduling algorithm with load balancing for cloud service provisioning
Zuo et al. A multi-objective optimization scheduling method based on the ant colony algorithm in cloud computing
WO2020181896A1 (zh) 一种多智能体强化学习调度方法、系统及电子设备
Liu et al. Job scheduling model for cloud computing based on multi-objective genetic algorithm
CN107003887A (zh) Cpu超载设置和云计算工作负荷调度机构
CN107580023A (zh) 一种动态调整任务分配的流处理作业调度方法及系统
CN104123182B (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN109783225B (zh) 一种多租户大数据平台的租户优先级管理方法及系统
CN110347504B (zh) 众核计算资源调度方法及装置
CN105893158A (zh) 私有云条件下的大数据混合调度模型
CN108270805A (zh) 用于数据处理的资源分配方法及装置
Qiu et al. Cost-minimizing preemptive scheduling of mapreduce workloads on hybrid clouds
CN104965762B (zh) 一种面向混合任务的调度系统
CN106371903A (zh) 飞机机载可信计算平台的任务调度方法
CN104112049A (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
Razzaq et al. Hybrid auto-scaled service-cloud-based predictive workload modeling and analysis for smart campus system
Shojafar et al. Minimizing computing-plus-communication energy consumptions in virtualized networked data centers
Xu et al. Enhancing Kubernetes Automated Scheduling with Deep Learning and Reinforcement Techniques for Large-Scale Cloud Computing Optimization
CN109815009A (zh) 一种csp下的资源调度与优化方法
Goel et al. A Systematic Review of Task Offloading & Load Balancing Methods in a Fog Computing Environment: Major Highlights & Research Areas
Saravanan et al. Improving map reduce task scheduling and micro-partitioning mechanism for mobile cloud multimedia services
Kumar et al. Parameter Investigation Study On Task Scheduling in Cloud Computing
Ji et al. Adaptive provisioning in-band network telemetry at computing power network
CN117493020A (zh) 一种数据网格的计算资源调度实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405