CN102694868B - 一种集群系统实现及任务动态分配方法 - Google Patents

一种集群系统实现及任务动态分配方法 Download PDF

Info

Publication number
CN102694868B
CN102694868B CN201210184950.5A CN201210184950A CN102694868B CN 102694868 B CN102694868 B CN 102694868B CN 201210184950 A CN201210184950 A CN 201210184950A CN 102694868 B CN102694868 B CN 102694868B
Authority
CN
China
Prior art keywords
node
service
cluster
monitoring
module
Prior art date
Application number
CN201210184950.5A
Other languages
English (en)
Other versions
CN102694868A (zh
Inventor
王通
Original Assignee
浪潮电子信息产业股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浪潮电子信息产业股份有限公司 filed Critical 浪潮电子信息产业股份有限公司
Priority to CN201210184950.5A priority Critical patent/CN102694868B/zh
Publication of CN102694868A publication Critical patent/CN102694868A/zh
Application granted granted Critical
Publication of CN102694868B publication Critical patent/CN102694868B/zh

Links

Abstract

本发明提供一种集群系统实现及任务动态分配方法,利用模式方法来实现对硬件设备及服务的监控,用户需要监控某类硬件设备或服务时,仅需要在模式监控配置文件中填写该类硬件设备或服务的模式,模式分析模块分析该文件并即时检测系统中符合该模式的所有硬件设备或服务,生成系统中相应设备的设备文件名或服务名并写入具体设备及服务监控配置文件,当发生硬件热插拔或服务在线迁移操作包括数据卷在线迁移时,设备及服务检测模块被触发获取被热插拔的设备或自动迁移的服务,并自动修改配置文件,系统包括:模式分析模块、设备及服务检测模块。

Description

一种集群系统实现及任务动态分配方法
技术领域
[0001]本发明涉及计算机集群技术领域,具体涉及一种集群系统实现及任务动态分配方法。
背景技术
[0002]目前较为流行的集群服务器、集群存储监控软件如ganglia等大多需要在配置文件中指明需要监控的具体设备及具体服务,以硬盘为例,需要在配置文件中填写被监控硬盘在系统中的设备名。在大规模集群监控中,需要监控的硬件设备及服务数量极大,需要大规模填写监控配置文件,并且当今服务器、存储设备多实现了硬件设备热插拔方式,集群存储也多采用高可用方法实现在线迀移服务,因此硬件设备及服务常常动态变化,采用原有方式在热插拔硬件,人工修改监控配置文件,会对整个集群系统的实时监控不利,同时高可用软件自动迀移服务后,在人工修改监控配置文件之前,迀移的服务在目标节点上无法监控。
[0003]高性能计算技术的发展是伴随着计算机技术的发展而发展的,也就是说,从计算机技术诞生之日起,人们就在为追求更高计算能力的计算机系统而努力。在过去几十年间,可以说是高性能计算机体系结构和通信技术不断创新的年代,出现了包括MPP(MassiveParallel Processing,海量并行处理结构)、SMP(Sy_etric Mult1-Processor,对称多处理器结构)、集群等各种各样的体系结构及网络互联技术。尤其是最近几年,集群技术发展迅速,已经成为构建超级计算机系统的主流架构之一。在最新发布的T0P500(T0P500是世界最强超级计算机排名的简称,这个排行榜自1993年设立,每年6月、11月两次统计发布世界上最强大的500个计算机系统。)中,超过80%的入选系统都采用了集群架构,并在数量上仍有不断增加的趋势,可见集群技术在高性能计算领域有着旺盛的生命力和广阔的发展前景。
[0004]随着商业应用的不断发展,高性能集群技术在商业应用领域也得到了广泛的应用,由于商业用户希望自己的业务程序能够对外提供不间断的服务,把因软件、硬件,以及人为等原因造成的故障对业务的影响降低到最低程度,因此,要求如果某个节点失效,它的备用节点能够在几秒钟时间内接管它的职责。传统的集群服务高可用静态配置方法虽然能够实现服务的接管,但是却无法在剩余集群节点间实现接管服务的均衡分配,同时传统的方法不能根据负载监控状况进行服务的动态优化调整。
发明内容
[0005]本发明的目的是提供一种集群系统实现及任务动态分配方法。
[0006]本发明的目的是按以下方式实现的,将各类硬件设备及各类软件服务按预定义的模式分类,动态监控指定模式的具体硬件设备及服务信息,以此来实现服务器、存储设备的大规模动态实时监控,利用模式方法来实现对硬件设备及服务的监控,用户需要监控某类硬件设备或服务时,仅需要在模式监控配置文件中填写该类硬件设备或服务的模式,模式分析模块分析该文件并即时检测系统中符合该模式的所有硬件设备或服务,生成系统中相应设备的设备文件名或服务名并写入具体设备及服务监控配置文件,当发生硬件热插拔或服务在线迀移操作包括数据卷在线迀移时,设备及服务检测模块被触发获取被热插拔的设备或自动迀移的服务,并自动修改配置文件,系统包括:模式分析模块、设备及服务检测模块,其中:
[0007]模式分析模块是已有监控方式的改进,目前的监控方式需要用户写入具体的需要被监控的设备及服务在系统中的名字,改进后,用户只需要写入希望被监控的某类或某几类设备及服务在系统中的定义,模式分析模块分析该模式监控配置文件,并依据此在系统中搜索具体的满足模式监控配置文件内的模式的硬件设备及服务,并写入具体设备及服务监控配置文件,以备监控模块使用;
[0008]设备及服务检测模块是对硬件设备热插拔及服务迀移的检测及报告模块,在如今服务器及存储设备中,部分硬件设备如硬盘都实现了热插拔,当热插拔操作发生时,该模块检测到热插拔操作,得到热插拔设备的具体信息,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或对直接修改具体设备及服务监控配置文件,并通知监控模块,集群环境中发生故障时实现服务的在线迀移,当服务迀移时,设备及服务检测模块检测到被迀移走或迀入的服务,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或对直接修改具体设备及服务监控配置文件,并通知监控模块;
[0009]模式分析模块分析用户填写的模式监控配置文件,并依据分析的结果即时检测系统中存在的属于用户指定模式的具体硬件设备及服务,并将具体硬件设备及服务信息填入具体设备及服务监控配置文件,实现了监控的动态性、实时性、可靠性、更好的扩展能力和可管理性;
[0010]设备及服务检测模块动态方式监控,不依赖已写好的具体设备监控配置文件,而是动态监测硬件设备热插拔及服务迀移,并将已经改变的硬件及服务环境信息反映到具体设备监控配置文件中去,在用户改变系统硬件配置或服务迀移时,不需要自己修改配置文件,实现了监控的动态性、实时性、可靠性、更好的扩展能力和可管理性。
[0011 ] —种集群服务动态配置装置,包括负载监控模块、性能优化规则引擎、集群服务管理模块以及集群信息库,其中:
[0012]负载监控模块,用以监控集群中各节点的负载情况,并将其存储至集群信息库,节点的负载情况包括节点资源利用率和节点的性能负载情况,其中,节点资源利用率,包括(PU的利用率、内存的利用率;节点的性能负载情况包括数据流量;
[0013]性能优化规则引擎,根据集群信息库中各节点的历史监控数据及当前监控数据,预测各节点未来的负载情况,以及根据预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案;
[0014]性能优化规则引擎,是通过将集群中各节点当前监控数据以及若干历史监控数据与一预设的预测模型进行匹配,从而预测该各节点未来的负载情况,所述预测模型包括:自回归模型AR(p)、滑动平均模型MA(q)、自回归滑动平均模型ARMA(p,q),在进行预测模型匹配之前,性能优化规则引擎还对所述负载监控模块采集到的负载样本进行预处理及平稳化处理。
[0015]考虑到预测的步数越多,预测的结果与实际值相差的越大,越久远的历史信息对预测结果的影响越小,因此,选择离当前观测值近的几个历史观测值和当前观测值,利用预测模型预测下一步的结果,主节点会根据各个节点的预测值进行判断,并进行服务的重新分配;
[0016]预设的服务均衡策略包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力;
[0017]集群服务管理模块,负责集群服务分配的相关操作,负责维护所述集群信息库,包括节点、服务、利用率、性能负载监控的信息,根据性能优化规则引擎制定的集群中各节点上的服务分配方案,调整集群中各节点的服务分配,它是唯一一个决定在整个集群进行服务更改的实体;
[0018]集群信息库,用以存储所述负载监控模块监控得到的集群中各节点的负载数据,所述节点的负载数据包括节点资源的利用率、节点的性能负载,所述节点资源的利用率包括CPU的利用率、内存的利用率;所述节点的性能负载包括数据流量;
[0019]进一步地,负载监控模块在监控到集群中的某节点宕机时,实时通知性能优化规则引擎,性能优化规则引擎在获知某节点宕机时,从所述集群信息库中获取该节点上的服务数据,并根据预测出的集群中其他节点未来的负载情况,将该节点上的服务数据分配给集群中其他节点,且确保集群中所述其他各节点未来的负载不超出其承载能力。
[0020] —种集群系统实现方式,包括一主节点和至少一从属节点,主节点和从属节点上均包括负载监控模块、性能优化规则引擎、集群服务管理模块、集群信息库、集群通信及成员关系模块、本地服务管理模块、集群信息库、服务代理模块以及隔离设备,其中:
[0021]主节点上和从属节点上的负载监控模块,用以监控其所在节点的负载情况,并将其存储至其所在节点的所述集群信息库;
[0022]主节点上和从属节点上的性能优化规则引擎,用以根据其所在节点上的集群信息库中存储的历史监控数据及当前监控数据,预测其所在节点未来的负载情况,并将其存储至其所在节点的集群信息库;主节点上的性能优化规则引擎,还用以根据其所在节点的集群信息库中存储的集群系统中各节点未来的负载情况的预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案,并将其分别发送至所述从属节点的所述集群服务管理模块中;
[0023]主节点上和从属节点上的集群服务管理模块,用以将其所在节点上的集群信息库中的数据同步为集群系统中所有节点上的集群信息库中的数据的并集,以及根据主节点上的性能优化规则引擎制定的集群中各节点上的服务分配方案调整其所在节点上的服务分配情况;
[0024]集群通信及成员关系模块,用以构建高可用集群成员关系,以及负责集群中各节点之间的消息通讯,消息通讯是指集群节点间的信息交互,包括节点、服务配置、监控信息等的交互及同步,构建高可用集群成员关系是,在高可用集群中的节点之间建立高可用关系,使得失效节点的服务能够被集群中其他节点接管;
[0025]本地服务管理模块,用以与服务代理模块交互,通过服务代理模块管理本节点服务;
[0026]服务代理模块,负责直接管理服务;
[0027]隔离设备,用以将失效节点隔离,防止其对集群造成不利影响;
[0028]进一步地,所述预设的服务均衡策略包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力;
[0029]进一步地,当从属节点宕机时,所述主节点的所述性能优化规则引擎根据所述主节点的所述集群信息库中存储的所述宕机的从属节点上的服务数据,以及预测出的集群中节点未来的负载情况,将所述宕机的从属节点上的服务数据分配给集群中节点,且确保集群中节点未来的负载不超出其承载能力;
[0030]进一步地,当主节点宕机时,其中一个从属节点替代该主节点成为集群系统中新的主节点;
[0031]新的主节点的所述性能优化规则引擎,根据新的主节点的集群信息库中存储的宕机的节点上的服务数据,以及预测出的新的主节点和集群中其他从属节点未来的负载情况,将宕机的节点上的服务数据分配给集群中节点,且确保集群中的节点未来的负载不超出其承载能力。
[0032]本发明的有益效果是:通过对节点负载进行监控,并据以对服务预先优化分配,可以平衡负载,提高并发服务,提高了整个集群系统的效能,降低因节点负载过重导致宕机的概率,可以防止单一节点接管宕机节点的所有服务可能造成的多米诺骨牌效应。
附图说明
[0033]图1是集群服务动态分配装置组成示意图;
[0034]图2是集群服务动态分配方法流程示意图;
[0035]图3是模式分析及实时检测策略图;
[0036]图4是集群模式监控框图。
具体实施方式
[0037]参照说明书附图对本发明的方法及装置作以下详细地说明。
[0038]将各类硬件设备及各类软件服务按预定义的模式分类,动态监控指定模式的具体硬件设备及服务信息,以此来实现服务器、存储设备的大规模动态实时监控,利用模式方法来实现对硬件设备及服务的监控,用户需要监控某类硬件设备或服务时,仅需要在模式监控配置文件中填写该类硬件设备或服务的模式,模式分析模块分析该文件并即时检测系统中符合该模式的所有硬件设备或服务,生成系统中相应设备的设备文件名或服务名并写入具体设备及服务监控配置文件,当发生硬件热插拔或服务在线迀移操作包括数据卷在线迀移时,设备及服务检测模块被触发获取被热插拔的设备或自动迀移的服务,并自动修改配置文件,系统包括:模式分析模块、设备及服务检测模块,其中:
[0039]模式分析模块是已有监控方式的改进,目前的监控方式需要用户写入具体的需要被监控的设备及服务在系统中的名字,改进后,用户只需要写入希望被监控的某类或某几类设备及服务在系统中的定义,模式分析模块分析该模式监控配置文件,并依据此在系统中搜索具体的满足模式监控配置文件内的模式的硬件设备及服务,并写入具体设备及服务监控配置文件,以备监控模块使用;
[0040]设备及服务检测模块是对硬件设备热插拔及服务迀移的检测及报告模块,在如今服务器及存储设备中,部分硬件设备如硬盘都实现了热插拔,当热插拔操作发生时,该模块检测到热插拔操作,得到热插拔设备的具体信息,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或对直接修改具体设备及服务监控配置文件,并通知监控模块,集群环境中发生故障时实现服务的在线迀移,当服务迀移时,设备及服务检测模块检测到被迀移走或迀入的服务,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或对直接修改具体设备及服务监控配置文件,并通知监控模块;
[0041]模式分析模块分析用户填写的模式监控配置文件,并依据分析的结果即时检测系统中存在的属于用户指定模式的具体硬件设备及服务,并将具体硬件设备及服务信息填入具体设备及服务监控配置文件,实现了监控的动态性、实时性、可靠性、更好的扩展能力和可管理性;
[0042]设备及服务检测模块动态方式监控,不依赖已写好的具体设备监控配置文件,而是动态监测硬件设备热插拔及服务迀移,并将已经改变的硬件及服务环境信息反映到具体设备监控配置文件中去,在用户改变系统硬件配置或服务迀移时,不需要自己修改配置文件,实现了监控的动态性、实时性、可靠性、更好的扩展能力和可管理性。
[0043]通过深入研究注意到,节点的负载变化是一种时间序列,具有高度的自相似性,因此提出一种集群服务动态分配方法及装置,巧妙地利用时间序列对节点的负载进行预测,监控集群中各节点的负载情况,根据历史监测数据及当前的监控数据,预测各节点的未来负载情况,根据预测结果及时地协调服务分配,从而实现自适应的负载均衡。
[0044]参见图1,该图示出了集群服务动态配置装置,包括负载监控模块、性能优化规则引擎、集群服务管理模块以及集群信息库,其中:
[0045]负载监控模块,用以监控集群中各节点的负载情况,并将其存储至集群信息库。节点的负载情况可以包括节点资源的利用率、节点的性能负载情况等。节点资源的利用率可以是,例如CPU的利用率、内存的利用率等;节点的性能负载情况可以是,例如流量等。
[0046]性能优化规则引擎,用以根据所述集群信息库中各节点的历史监控数据及当前监控数据,预测各节点未来的负载情况,以及根据预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案。
[0047]性能优化规则引擎,是通过将集群中各节点当前监控数据以及若干历史监控数据与一预设的预测模型进行匹配,从而预测该各节点未来的负载情况。所述预测模型可以是,例如自回归模型AR(p)、滑动平均模型MA(q)、自回归滑动平均模型ARMA(p,q)等等。在进行预测模型匹配之前,性能优化规则引擎还对所述负载监控模块采集到的负载样本进行预处理及平稳化处理。
[0048]考虑到预测的步数越多,预测的结果与实际值相差的越大,越久远的历史信息对预测结果的影响越小,因此,应尽量选择离当前观测值近的几个历史观测值和当前观测值,利用预测模型预测下一步的结果。主节点会根据各个节点的预测值进行判断,并进行服务的重新分配。
[0049]预设的服务均衡策略可以包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力。
[0050]集群服务管理模块,负责集群服务分配的相关操作,负责维护所述集群信息库,包括节点、服务、利用率、性能负载监控等信息,根据性能优化规则引擎制定的集群中各节点上的服务分配方案,调整集群中各节点的服务分配,它是唯一一个可以决定在整个集群进行服务更改的实体。
[0051]集群信息库,用以存储所述负载监控模块监控得到的集群中各节点的负载数据。所述节点的负载数据可以包括节点资源的利用率、节点的性能负载等。所述节点资源的利用率可以是,例如CPU的利用率、内存的利用率等;所述节点的性能负载可以是,例如流量等。
[0052]进一步地,负载监控模块在监控到集群中的某节点宕机时,通知性能优化规则引擎。性能优化规则引擎在获知某节点宕机时,从所述集群信息库中获取该节点上的服务数据,并根据预测出的集群中其他节点未来的负载情况,将该节点上的服务数据分配给集群中其他节点,且确保集群中所述其他各节点未来的负载不超出其承载能力。
[0053]本发明还提供了一种集群系统实现方式,包括一主节点和至少一从属节点,主节点和从属节点上均包括负载监控模块、性能优化规则引擎、集群服务管理模块、集群信息库、集群通信及成员关系模块、本地服务管理模块、集群信息库、服务代理模块,以及隔离设备,如图2所不,其中:
[0054]主节点上和从属节点上的负载监控模块,用以监控其所在节点的负载情况,并将其存储至其所在节点的所述集群信息库。
[0055]主节点上和从属节点上的性能优化规则引擎,用以根据其所在节点上的集群信息库中存储的历史监控数据及当前监控数据,预测其所在节点未来的负载情况,并将其存储至其所在节点的集群信息库;主节点上的性能优化规则引擎,还用以根据其所在节点的集群信息库中存储的集群系统中各节点未来的负载情况的预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案,并将其分别发送至所述从属节点的所述集群服务管理模块中。
[0056]主节点上和从属节点上的集群服务管理模块,用以将其所在节点上的集群信息库中的数据同步为集群系统中所有节点上的集群信息库中的数据的并集,以及根据主节点上的性能优化规则引擎制定的集群中各节点上的服务分配方案调整其所在节点上的服务分配情况。
[0057]集群通信及成员关系模块,用以构建高可用集群成员关系,以及负责集群中各节点之间的消息通讯。消息通讯是指集群节点间的信息交互,包括节点、服务配置、监控信息等的交互及同步。构建高可用集群成员关系是,在高可用集群中的节点之间建立高可用关系,使得失效节点的服务能够被集群中其他节点接管。
[0058]本地服务管理模块,用以与服务代理模块交互,通过服务代理模块管理本节点服务。
[0059]服务代理模块,负责直接管理服务。
[0060]隔离设备,用以将失效节点隔离,防止其对集群造成不利影响。
[0061]进一步地,所述预设的服务均衡策略包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力;
[0062]进一步地,当从属节点宕机时,所述主节点的所述性能优化规则引擎根据所述主节点的所述集群信息库中存储的所述宕机的从属节点上的服务数据,以及预测出的集群中节点未来的负载情况,将所述宕机的从属节点上的服务数据分配给集群中节点,且确保集群中节点未来的负载不超出其承载能力;
[0063]进一步地,当主节点宕机时,其中一个从属节点替代该主节点成为集群系统中新的主节点;
[0064]新的主节点的所述性能优化规则引擎根据新的主节点的集群信息库中存储的宕机的节点上的服务数据,以及预测出的新的主节点和集群中其他从属节点未来的负载情况,将宕机的节点上的服务数据分配给集群中节点,且确保集群中的节点未来的负载不超出其承载能力。
[0065]除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (3)

1.一种集群服务动态配置系统,其特征在于系统包括:模式分析模块、硬件设备及服务检测模块,其中: a:模式分析模块,是已有监控方式的改进,目前的监控方式需要用户写入具体的需要被监控的设备及服务在系统中的名字,改进后,用户只需要写入希望被监控的某类或某几类设备及服务在系统中的定义,模式分析模块分析该模式监控配置文件,并依据此在系统中搜索具体的满足模式监控配置文件内的模式的硬件设备及服务,并写入具体设备及服务监控配置文件,以备监控模块使用; 模式分析模块,分析用户填写的模式监控配置文件,并依据分析的结果即时检测系统中存在的属于用户指定模式的具体硬件设备及服务,并将具体硬件设备及服务信息填入具体设备及服务监控配置文件; 设备及服务检测模块,是对硬件设备热插拔及服务迀移的检测及报告模块,在服务器及存储设备中,部分硬件设备都实现了热插拔,当热插拔操作发生时,该模块检测到热插拔操作,得到热插拔设备的具体信息,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或直接修改具体设备及服务监控配置文件,并通知监控模块,集群环境中发生故障时实现服务的在线迀移,当服务迀移时,设备及服务检测模块检测到被迀移走或迀入的服务,然后按照用户配置或者通知模式分析模块重新分析,生成具体设备及服务监控配置文件或直接修改具体设备及服务监控配置文件,并通知监控模块;b:设备及服务检测模块动态方式监控,不依赖已写好的具体设备监控配置文件,而是动态监测硬件设备热插拔及服务迀移,并将已经改变的硬件及服务环境信息反映到具体设备及服务监控配置文件中去,在用户改变系统硬件配置或服务迀移时,不需要自己修改配置文件; c:集群任务动态分配的方法:是将各类硬件设备及各类软件服务按预定义的模式分类,动态监控指定模式的具体硬件设备及服务信息,以此来实现服务器、存储设备的大规模动态实时监控,利用模式方法来实现对硬件设备及服务的监控,用户需要监控某类硬件设备或服务时,仅需要在模式监控配置文件中填写该类硬件设备或服务的模式,模式分析模块分析该文件并即时检测系统中符合该模式的所有硬件设备或服务,生成系统中相应设备的设备文件名或服务名并写入具体设备及服务监控配置文件,当发生硬件热插拔或服务在线迀移操作包括数据卷在线迀移时,设备及服务检测模块被触发获取被热插拔的设备或自动迀移的服务,并自动修改配置文件。
2.根据权利要求1所述的集群服务动态配置系统,其特征在于系统中还包括负载监控模块、性能优化规则引擎、集群服务管理模块以及集群信息库,其中: 负载监控模块,用以监控集群中各节点的负载情况,并将其存储至集群信息库,节点的负载情况包括节点资源利用率和节点的性能负载情况,其中,节点资源利用率,包括CPU的利用率、内存的利用率;节点的性能负载情况包括数据流量; 性能优化规则引擎,根据集群信息库中各节点的历史监控数据及当前监控数据,预测各节点未来的负载情况,以及根据预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案; 性能优化规则引擎,是通过将集群中各节点当前监控数据以及若干历史监控数据与一预设的预测模型进行匹配,从而预测该各节点未来的负载情况,所述预测模型包括:自回归模型AR(p)、滑动平均模型MA(q)、自回归滑动平均模型ARMA(p,q),在进行预测模型匹配之前,性能优化规则引擎还对所述负载监控模块采集到的负载样本进行预处理及平稳化处理; 考虑到预测的步数越多,预测的结果与实际值相差的越大,越久远的历史信息对预测结果的影响越小,因此,选择离当前观测值近的几个历史观测值和当前观测值,利用预测模型预测下一步的结果,主节点会根据各个节点的预测值进行判断,并进行服务的重新分配; 预设的服务均衡策略包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力; 集群服务管理模块,负责集群服务分配的相关操作,负责维护所述集群信息库,包括节点、服务、利用率、性能负载监控的信息,根据性能优化规则引擎制定的集群中各节点上的服务分配方案,调整集群中各节点的服务分配,它是唯一一个决定在整个集群进行服务更改的实体; 集群信息库,用以存储所述负载监控模块监控得到的集群中各节点的负载数据,所述节点的负载数据包括节点资源的利用率、节点的性能负载,所述节点资源的利用率包括CPU的利用率、内存的利用率;所述节点的性能负载包括数据流量; 进一步地,负载监控模块在监控到集群中的某节点宕机时,实时通知性能优化规则引擎,性能优化规则引擎在获知某节点宕机时,从所述集群信息库中获取该节点上的服务数据,并根据预测出的集群中其他节点未来的负载情况,将该节点上的服务数据分配给集群中其他节点,且确保集群中所述其他各节点未来的负载不超出其承载能力。
3.根据权利要求1所述的集群服务动态配置系统,其特征在于系统包括一主节点和至少一从属节点,主节点和从属节点上均包括负载监控模块、性能优化规则引擎、集群服务管理模块、集群信息库、集群通信及成员关系模块、本地服务管理模块、服务代理模块以及隔离设备,其中: 主节点上和从属节点上的负载监控模块,用以监控其所在节点的负载情况,并将其存储至其所在节点的所述集群信息库; 主节点上和从属节点上的性能优化规则引擎,用以根据其所在节点上的集群信息库中存储的历史监控数据及当前监控数据,预测其所在节点未来的负载情况,并将其存储至其所在节点的集群信息库;主节点上的性能优化规则引擎,还用以根据其所在节点的集群信息库中存储的集群系统中各节点未来的负载情况的预测结果和一预设的服务均衡策略制定集群中各节点上的服务分配方案,并将其分别发送至所述从属节点的所述集群服务管理模块中; 主节点上和从属节点上的集群服务管理模块,用以将其所在节点上的集群信息库中的数据同步为集群系统中所有节点上的集群信息库中的数据的并集,以及根据主节点上的性能优化规则引擎制定的集群中各节点上的服务分配方案调整其所在节点上的服务分配情况; 集群通信及成员关系模块,用以构建高可用集群成员关系,以及负责集群中各节点之间的消息通讯,消息通讯是指集群节点间的信息交互,包括节点、服务配置、监控信息的交互及同步,构建高可用集群成员关系是,在高可用集群中的节点之间建立高可用关系,使得失效节点的服务能够被集群中其他节点接管; 本地服务管理模块,用以与服务代理模块交互,通过服务代理模块管理本节点服务; 服务代理模块,负责直接管理服务; 隔离设备,用以将失效节点隔离,防止其对集群造成不利影响; 进一步地,所述预设的服务均衡策略包括:配置集群中各节点的资源承载能力,分别判断预测出的各节点未来的负载是否超出其承载能力,如果超出,则在各节点间进行服务均衡,以确保各节点未来的负载不超出其承载能力; 进一步地,当从属节点宕机时,所述主节点的所述性能优化规则引擎根据所述主节点的所述集群信息库中存储的所述宕机的从属节点上的服务数据,以及预测出的集群中节点未来的负载情况,将所述宕机的从属节点上的服务数据分配给集群中节点,且确保集群中节点未来的负载不超出其承载能力; 进一步地,当主节点宕机时,其中一个从属节点替代该主节点成为集群系统中新的主节点; 新的主节点的所述性能优化规则引擎,根据新的主节点的集群信息库中存储的宕机的节点上的服务数据,以及预测出的新的主节点和集群中其他从属节点未来的负载情况,将宕机的节点上的服务数据分配给集群中节点,且确保集群中的节点未来的负载不超出其承载能力。
CN201210184950.5A 2012-06-07 2012-06-07 一种集群系统实现及任务动态分配方法 CN102694868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210184950.5A CN102694868B (zh) 2012-06-07 2012-06-07 一种集群系统实现及任务动态分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210184950.5A CN102694868B (zh) 2012-06-07 2012-06-07 一种集群系统实现及任务动态分配方法

Publications (2)

Publication Number Publication Date
CN102694868A CN102694868A (zh) 2012-09-26
CN102694868B true CN102694868B (zh) 2016-09-07

Family

ID=46860150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210184950.5A CN102694868B (zh) 2012-06-07 2012-06-07 一种集群系统实现及任务动态分配方法

Country Status (1)

Country Link
CN (1) CN102694868B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038525B (zh) * 2013-03-07 2018-01-12 深圳市金证科技股份有限公司 服务器系统的负载均衡方法及装置
CN103220165B (zh) * 2013-03-20 2017-04-19 杭州华三通信技术有限公司 一种服务器主动宕机的处理方法和装置
CN103581322B (zh) * 2013-11-08 2017-02-08 大唐移动通信设备有限公司 一种监控服务器的方法、系统及一种服务器设备
CN103942034A (zh) * 2014-03-21 2014-07-23 深圳华大基因科技服务有限公司 任务调度方法及实现该方法的电子装置
CN103973811A (zh) * 2014-05-23 2014-08-06 浪潮电子信息产业股份有限公司 一种可动态迁移的高可用集群管理方法
CN105760240A (zh) * 2014-12-16 2016-07-13 航天信息股份有限公司 分布式任务处理方法及装置
CN104917639B (zh) * 2015-06-10 2018-07-03 北京奇虎科技有限公司 基于集群监控分配数据业务方法及装置
CN106453120B (zh) * 2015-08-05 2019-06-07 北京网御星云信息技术有限公司 一种动态集群方法和系统
CN105141541A (zh) * 2015-09-23 2015-12-09 浪潮(北京)电子信息产业有限公司 一种基于任务的动态负载均衡调度方法及装置
CN106210136B (zh) * 2016-08-25 2019-05-28 浪潮(北京)电子信息产业有限公司 一种存储服务器负载调整方法及系统
CN106407013B (zh) * 2016-09-30 2020-05-26 苏州浪潮智能科技有限公司 资源动态调度的方法、装置、资源调度服务器及系统
CN106657409A (zh) * 2017-02-27 2017-05-10 郑州云海信息技术有限公司 一种云环境下监控项的信息获取方法及装置
CN107682409B (zh) * 2017-09-13 2020-07-31 厦门集微科技有限公司 一种集群资源预伸缩方法及装置
CN110135586A (zh) * 2019-04-16 2019-08-16 平安科技(深圳)有限公司 Rete网络的构建方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434393A (zh) * 2003-02-24 2003-08-06 武汉大学 一种集群服务器的动态负载均衡方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255420B2 (en) * 2006-05-23 2012-08-28 Noryan Holding Corporation Distributed storage

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434393A (zh) * 2003-02-24 2003-08-06 武汉大学 一种集群服务器的动态负载均衡方法

Also Published As

Publication number Publication date
CN102694868A (zh) 2012-09-26

Similar Documents

Publication Publication Date Title
US9584597B2 (en) Hardware level generated interrupts indicating load balancing status for a node in a virtualized computing environment
Dabbagh et al. Energy-efficient resource allocation and provisioning framework for cloud data centers
Cheraghlou et al. A survey of fault tolerance architecture in cloud computing
Ahmad et al. A survey on virtual machine migration and server consolidation frameworks for cloud data centers
US20180060395A1 (en) Selecting interruptible resources for query execution
JP6778704B2 (ja) 分散ストレージシステム上でデータを分散させること
JP6559670B2 (ja) ネットワーク機能仮想化情報コンセントレータのための方法、システム、およびコンピュータ読取可能媒体
Shen et al. A Resource Usage Intensity Aware Load Balancing Method for Virtual Machine Migration in Cloud Datacenters
Fu et al. DRS: Dynamic resource scheduling for real-time analytics over fast streams
US9794135B2 (en) Managed service for acquisition, storage and consumption of large-scale data streams
US9092430B2 (en) Assigning shared catalogs to cache structures in a cluster computing system
Rao et al. Performance issues of heterogeneous hadoop clusters in cloud computing
US10048996B1 (en) Predicting infrastructure failures in a data center for hosted service mitigation actions
Sajjad et al. Spanedge: Towards unifying stream processing over central and near-the-edge data centers
US8949847B2 (en) Apparatus and method for managing resources in cluster computing environment
US9378067B1 (en) Automated load balancing across the distributed system of hybrid storage and compute nodes
CA2978889C (en) Opportunistic resource migration to optimize resource placement
US10033570B2 (en) Distributed map reduce network
AU2011312036B2 (en) Automatic replication and migration of live virtual machines
Zheng et al. Service-generated big data and big data-as-a-service: an overview
US10645022B2 (en) Methods and systems providing a scalable process for anomaly identification and information technology infrastructure resource optimization
US20150172205A1 (en) Dynamically Move Heterogeneous Cloud Resources Based on Workload Analysis
US8341441B2 (en) Reducing energy consumption in a cloud computing environment
Wang et al. Cloud computing for cloud manufacturing: benefits and limitations
US10209908B2 (en) Optimization of in-memory data grid placement

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
C14 Grant of patent or utility model